Tillbaka till BloggenJuridisk Teknik

En upptäcktsproduktion, sju filformat: Varför formatfragmentering är ett problem för efterlevnadsauditer

E-discovery-produktioner och GDPR DSAR:er spänner över PDF-filer, Word-dokument, Excel och JSON-exporter. Att använda olika verktyg för varje format skapar konsekvensluckor som tillsynsmyndigheter och domstolar lägger märke till.

March 7, 20267 min läsning
e-discoverymixed formatDSAR compliancelegal redactiondocument production

Den verkliga formatfragmenteringen

En begäran om produktion av juridiska dokument kommer in. Produktionen omfattar:

  • PDF-kontrakt från dokumenthanteringssystemet
  • Word-dokument från juridisk granskning
  • Excel-kalkylblad från ekonomi
  • CSV-exporter från CRM
  • JSON-loggar från API-revisionsspåret

Fem format. Firmans nuvarande verktyg: Adobe Acrobat för PDF-redigering, en Word-makro för DOCX, Excels inbyggda "sök och ersätt" för XLSX, manuell granskning för CSV, och inget för JSON.

Detta är inte ovanligt. En Everlaw e-discovery-rapport från 2025 identifierar formatfragmentering som en av de största operativa utmaningarna, med juridiska team som använder i genomsnitt 3,2 olika verktyg för dokumentproduktioner som involverar blandade format. Den operativa overheaden är betydande. Efterlevnadsrisken är ännu mer betydande.

Varför verktygsfragmentering skapar efterlevnadsgap

Att använda olika verktyg för olika format skapar tre efterlevnadsrisker:

Inkonsekvens i entitetsövervakning: Adobe Acrobats inbyggda redigeringsverktyg söker efter explicita textsträngar — det kör ingen entitetsdetektion. En PDF producerad med Acrobat redigerar endast textsträngar som operatören uttryckligen söker efter. Word-makrot upptäcker endast de entitetstyper det programmerades för att hitta (vanligtvis namn och e-post, inte alla 285+ entitetstyper). Excel-sök och ersätt fångar inget som inte uttryckligen angavs. Den samma personnummer i ett PDF-kontrakt och ett Excel-kalkylblad kan hanteras av två olika verktyg med två olika detektionsstandarder.

Fragmentering av revisionsspår: Varje verktyg producerar sin egen logg (eller ingen logg alls). För en GDPR-begäran om tillgång till personuppgifter där tillsynsmyndigheten ber om "att visa att all personlig data om denna individ har identifierats och hanterats på rätt sätt," är separata revisionsloggar från tre olika verktyg som täcker olika delar av ett dokumentset inte en övertygande efterlevnadsberättelse.

Konfigurationsavvikelse: Olika verktyg har olika konfigurationer. PDF-redigeringsstandarden som konfigurerades av det juridiska operationsteamet för sex månader sedan kanske inte matchar inställningarna för Word-makrot som uppdaterades av en annan teammedlem förra veckan. Inkonsekvensen är osynlig tills den orsakar ett produktionsfel.

Kravet på konsekvens är inte teoretiskt. Domstolsstraff för e-discovery-produktionsfel har specifikt adresserat inkonsekvensproblemet: att tillämpa olika standarder på olika dokumenttyper i samma produktion är ett misslyckande av den systematiska process som domstolar förväntar sig.

DSAR:s krav på konsekvens

GDPR DSAR:er har ett uttryckligt krav på konsekvens inbäddat i den juridiska standarden. Artikel 15 kräver att den registrerade får information om "all" personlig data som hålls, inte "all personlig data i PDF-filer och mest personlig data i Word-dokument."

ICO:s vägledning för DSAR är uttrycklig: organisationer måste tillämpa ett systematiskt tillvägagångssätt för att identifiera all personlig data som hålls för en registrerad, över alla system och format. Ett systematiskt tillvägagångssätt kräver per definition konsekvent metodik — inte format-specifika verktyg med olika standarder.

För tillsynsmyndigheternas undersökningar efter en DSAR-klagomål kommer revisorn att fråga:

  1. Vilken process användes för att identifiera all personlig data?
  2. Vilka verktyg bearbetade vilka dokumenttyper?
  3. Vilka entitetstyper söktes i varje format?
  4. Vilket revisionsspår dokumenterar fullständigheten av svaret?

"Vi använde Adobe för PDF-filer, ett makro för Word och Excels sökfunktion för kalkylblad, men vi har inga specifika entitetstyp-loggar för var och en" är inte ett tillfredsställande svar på fråga 3 och 4.

Fördelarna med en enhetlig motor

En enhetlig bearbetningsmotor hanterar alla format med samma detektionslogik, vilket möjliggör:

Konfigurationsförinställningar som tillämpas enhetligt: En "DSAR EU Individ" förinställning konfigurerad med 32 entitetstyper bearbetar en PDF, DOCX, XLSX och CSV från samma DSAR med identisk entitetsövervakning. Personnumret i Excel-kalkylbladet kontrolleras med samma säkerhetsgräns som personnumret i PDF-kontraktet.

En enda revisionsspår: En bearbetningslogg som täcker alla filer i en batch, oavsett format. Revisionsrapporten visar: filnamn, filtyp, upptäckta entiteter, säkerhetsvärden, vidtagna åtgärder — för varje fil i produktionssetet. Ett enda dokument ger efterlevnadsbevis för hela produktionen.

Referentiell integritet över format: Om "Sarah Johnson" förekommer i ett PDF-kontrakt, en Word-korrespondenspost och ett Excel-konto kalkylblad, kan konsekvent pseudonymisering över alla tre format ersätta hennes namn med samma token (PERSON_0001) i alla tre — vilket möjliggör för den registrerade att spåra sin egen post över produktionen.

Blandad formatbatchbearbetning: Släpp 15 filer av olika format i en enda batch. Bearbeta med en förinställning. Ta emot 15 anonymiserade utdata och en konsoliderad revisionsrapport. Den operativa arbetsflödet är betydligt enklare än att hantera tre separata verktygsarbetsflöden.

Tillämpning av FOIA för federala myndigheter

Den amerikanska federala regeringens push för FOIA-automatisering 2025 nämner specifikt hantering av flera format som ett nyckelkrav. Federala myndigheter får FOIA-begärningar som spänner över poster lagrade i varje tänkbart format — arv mainframe-exporter i fast bredd text, Word-dokument från moderna samarbetsystem, skannade PDF-filer från pappersarkiv och databasexporter i CSV och JSON.

DOJ och HHS har båda pilottestat automatiserade redigeringssystem specifikt eftersom manuell bearbetning av flera format inte skalar till deras begärningsvolymer. Kärnkravet för dessa system: konsekvent tillämpning av samma undantagsstandarder över alla format, med ett dokumenterat revisionsspår.

För organisationer utanför den federala regeringen som står inför liknande krav på efterlevnad av flera format gäller samma princip: konsekvens i behandlingen över format är grunden för försvarbar efterlevnadsdokumentation.

Implementering för en advokatbyrås DSAR-praxis

En medelstor advokatbyrå som hanterar GDPR DSAR:er för företagskunder implementerade en enhetlig formatbearbetning för sitt DSAR-svar arbetsflöde:

Före:

  • PDF-kontrakt: Adobe Acrobat (manuell textsökning)
  • DOCX-korrespondens: Word-makro (namn + e-post endast)
  • XLSX-konto poster: Excel sök och ersätt (manuell inmatning)
  • CSV-exporter: Manuell granskning
  • Bearbetningstid per DSAR: 8-12 timmar
  • Entitetstyper kontrollerade konsekvent över alla format: 2-3 (namn, e-post)

Efter (enhetlig motor, batchbearbetning):

  • Alla format: en enda batch med "DSAR EU Individ" förinställning
  • 32 entitetstyper kontrollerade konsekvent över alla format
  • Bearbetningstid per DSAR: 45 minuter (inklusive utdata granskning)
  • En enda revisionsrapport per DSAR för DPO-godkännande
  • Entitetstyper kontrollerade konsekvent över alla format: 32

Förbättringen av efterlevnaden: byrån kan nu visa konsekvent entitetsövervakning över alla dokumenttyper i en DSAR-produktion, med ett enda revisionsdokument per svar. Bearbetningstiden per DSAR minskade från 8-12 timmar till under 1 timme — vilket möjliggör för byrån att erbjuda DSAR-efterlevnad som en skalbar tjänst.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.