By · Last updated 2026-06-05

Tillbaka till BloggenTeknisk

Dokumentformatfragmentering i PII-verktyg

Ett enda DSAR-svar kan spänna över Word-kontrakt, PDF-fakturor, Excel-kundlistor och CSV-exporter. Att använda olika verktyg för varje format skapar luckor.

June 5, 20267 min läsning
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Problemet med flera format i PII-efterlevnad

Uppdaterad för 2026

Fråga en efterlevnadsansvarig vilka format de anonymiserar för DSAR-svar. Listan är alltid densamma: Word-kontrakt, PDF-fakturor, Excel-kunddata, CSV-exporter och JSON-loggar.

Fråga sedan vilka verktyg de använder. Svaret är vanligtvis tre till fem. Varje verktyg har olika entitetstäckning. Varje verktyg har olika inställningar. Varje verktyg producerar en annan revisionslogg.

Detta kallas formatfragmentering. Det skapar verkliga efterlevnadsluckor.

Varför fragmentering uppstår

Inget enskilt verktyg har hanterat alla produktionsformat med samma kvalitet. Specialiserade verktyg uppstod för varje format. Ett för PDF-filer. Ett för kalkylblad. Ett makro för CSV. Varje verktyg har sin egen entitetslista. Ingen delar ett spårningssystem.

Resultatet är förutsägbart. Ett DSAR-svar spänner över flera filtyper. Flera verktyg bearbetar det. Varje verktyg använder olika standarder. Entitet X fångas i PDF-filen men missas i Excel-filen. DPA-revisioner avslöjar denna inkonsekvens.

Formatspecifika tekniska utmaningar

Varje format skapar sina egna detektionsproblem.

PDF

PDF-filer finns i två typer: inbyggd text och bildbaserade skanningar. Skannade PDF-filer behöver OCR först. OCR introducerar fel. Inbyggda PDF-filer lagrar ofta varje ord som ett separat textobjekt. Detta bryter entitetsdetektionen över ordgränser. Flerradsiga layouter behöver rekonstruktion av läsordningen innan analysen kan börja.

Word (DOCX)

DOCX-filer håller text i XML. Men också i sidhuvuden, sidfötter, kommentarer, spårade ändringar och textrutor. En brevhuvudadress i sidhuvudet är en personuppgift. De flesta verktyg missar den. Spårade ändringar kan hålla raderade personuppgifter. Den texten är osynlig i den renderade vyn men finns i filen.

Excel (XLSX)

Excel lagrar PII i valfri cell i hundratals kolumner och tusentals rader. Kolumnrubriker som "Personnummer" eller "E-post" ger kontext som NER-modeller missar från rå text. Datum och personnummer lagras ofta som siffror. Fritext-fält som "chefsanteckningar" håller ostrukturerade personuppgifter. Kolumnbaserade verktyg hoppar över dessa fält.

CSV

CSV saknar Excels struktur. Fritext-fält i "antecknings"-kolumner blandar personuppgifter med annat innehåll. Kodningsproblem — UTF-8 kontra Latin-1 — orsakar fel för icke-ASCII-tecken i europeiska namn och adresser.

JSON

Nästlad JSON begrave personuppgifter djupt: user.address.street.line1. Arrayer behöver iteration. Samma fältnamn kan hålla olika datatyper i olika objekt. Bra detektion behöver schemamedvetenhet och innehållsanalys tillsammans.

Inkonsekvens är en juridisk risk

Här är ett konkret GDPR DSAR-scenario.

En registrerad person begär alla personuppgifter som hålls om dem. Efterlevnadsteamet hittar dessa filer:

  • 3 Word-dokument (kontrakt, korrespondens).
  • 2 PDF-dokument (fakturor, supporttranskript).
  • 1 Excel-kalkylblad (kundkontodata).
  • 1 CSV-export (systemåtkomstloggar).

De använder Verktyg A för PDF-filer. Verktyg B för Word. Ett makro för XLSX. Manuell granskning för CSV. Varje verktyg har olika entitetstäckning.

Den registrerade personen får det anonymiserade paketet. Excels "chefsanteckningar"-kolumn bearbetades inte. Word-brevhuvudadressen missades. Båda innehåller personuppgifter som den registrerade begärde att få anonymiserade.

Enligt GDPR Artikel 15 (rätt till tillgång) eller Artikel 17 (rätt till radering) är detta ett ofullständigt DSAR-svar. Om den registrerade eller en tillsynsmyndighet hittar luckan är det inkonsekventa verktygsanvändandet ett dokumenterat bidragande faktum.

Argumentet för en konsekvent standard

Stark DSAR-efterlevnad listar inte bara vilka PII-typer som ska anonymiseras. Det kräver samma standard i varje format i svarets set.

Det innebär:

  • Samma entitetstyper kontrolleras i Word, PDF, Excel, CSV och JSON.
  • Samma konfidensströsklar tillämpas på alla filer.
  • Samma ersättningstokens används. Om "Anna Svensson" förekommer i tre dokument ersätter en token namnet i alla tre.
  • En revisionslogg täcker alla format.

En enda plattformslösning gör detta möjligt genom förinställningar. En "DSAR EU-individer"-förinställning kontrollerar samma 32 entitetstyper. Den körs på ett PDF-kontrakt, en Excel-post och en CSV-logg. Samma motor bearbetar alla tre.

För mer om hur förinställningar fungerar i batchjobb, se vår guide om GDPR DSAR-batchbearbetning i stor skala.

Batchbearbetning av mixade formatset

DSAR-efterlevnad i stor skala innebär att bearbeta mappar med blandade format som en enhet.

Inmatning: En mapp med 15 filer — PDF-filer, DOCX, XLSX, CSV — som representerar all data som hålls för en registrerad person.

Bearbetningssteg:

  • Detektera formatet på varje fil.
  • Applicera rätt tolk. PDF-textextraktion. DOCX XML-tolkning. XLSX celliteration. CSV fälttolkning.
  • Kör samma NLP-pipeline på extraherad text från alla filer.
  • Applicera samma förinställning på varje fil i batchen.
  • Använd en delad token-pool. Samma namn får samma ersättningstoken i alla 15 filer.

Utmatning:

  • Anonymiserade versioner av alla 15 filer i deras ursprungliga format.
  • En tvärsektionell revisionsrapport. Den visar varje detekterad entitet, dess källdokument, dess konfidenspoäng och den åtgärd som vidtogs.

Den revisionsrapporten är efterlevnadsdokumentet. Det bevisar att alla 15 filer bearbetades med samma standard. För en DPA-revision är detta mycket starkare än fragmenterat verktygsanvändande.

Relaterat: realtids-PII-förebyggande för AI-dataläckor.

Kända begränsningar med enhetliga pipelines

Formatenhetssamordning löser fragmentering. Men det introducerar sina egna begränsningar.

Konverteringsfidelitet: Att konvertera DOCX till ett bearbetningsformat och tillbaka kan förlora spårningsändringshistoriken eller korrumpera inbäddade objekt. Juridiska dokument behöver extra validering efter bearbetning.

Formatspecifikt underhåll: Entitetsigenkännare för CSV skiljer sig från de för skannade formulär. En "enhetlig" pipeline behöver fortfarande formatspecifik förbearbetning. Den förbearbetningen behöver uppdateringar när format utvecklas.

Noggrannhet på ovanliga format: De flesta NLP-modeller tränas på webbtext och vanliga kontorsdokument. Äldre format — gamla EDI-filer, anpassade XML-scheman, CAD-metadata — producerar ofta sämre noggrannhet än riktmärken antyder.

Icke-rekonstruerbara format: Vissa PDF-typer och bildbaserade filer kan inte anonymiseras på plats. De behöver visuell redigering. Visuell redigering förstör maskinläsbar struktur. Om du behöver sökning eller indexering efter anonymisering kan detta vara otillräckligt.

Praktiskt DSAR-arbetsflöde

För efterlevnadsteam med regelbundna DSAR-volymer:

  1. Samla in alla dokument för den registrerade
  2. Skapa ett DSAR-batch — dra in alla filer oavsett format
  3. Välj förinställningen "DSAR EU-individer"
  4. Kör batchen
  5. Ladda ner anonymiserade utdata och den konsoliderade revisionsrapporten
  6. Stickprovskontrollera två eller tre dokument från utmatningen
  7. Paketera de anonymiserade dokumenten för den registrerades svar
  8. Bifoga revisionsrapporten till DSAR-ärendeposten

Steg 1 (manuell insamling) är fortfarande den huvudsakliga tidskostnaden. Steg 2 till 8 tar under 10 minuter för en typisk batch. Revisionsrapporten från steg 5 uppfyller GDPR:s ansvarsprincip.


anonym.legal hanterar DOCX, PDF, XLSX, CSV och JSON. Varje fil använder samma förinställning. En revisionsrapport täcker batchen.

Källor

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.