By · Last updated 2026-06-05

Takaisin BlogiinTekninen

Asiakirjaformaattien hajanaisuus henkilötietotyökaluissa

Yksi DSAR-vastaus voi kattaa Word-sopimuksia, PDF-laskuja, Excel-asiakaslistoja ja CSV-vientejä. Eri työkalujen käyttäminen kullekin formaatille luo vaatimustenmukaisuusaukkoja.

June 5, 20267 min lukuaika
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Monimuotoinen ongelma henkilötietojen vaatimustenmukaisuudessa

Päivitetty vuodelle 2026

Kysyttäessä vaatimustenmukaisuusvastaavalta, mitä formaatteja he anonymisoivat DSAR-vastauksissa, lista on aina sama: Word-sopimukset, PDF-laskut, Excel-asiakasdata, CSV-viennit ja JSON-lokitiedostot.

Kysyttäessä sitten, mitä työkaluja he käyttävät, vastaus on yleensä kolmesta viiteen. Kullakin työkalulla on erilainen yksikkökattavuus. Kullakin on eri asetukset. Kukin tuottaa oman auditointilokiinsa.

Tämä on formaattien hajanaisuus. Se luo todellisia vaatimustenmukaisuusaukkoja.

Miksi hajanaisuus syntyy

Mikään yksittäinen työkalu ei ole kyennyt käsittelemään kaikkia tuotantoformaatteja samalla laadulla. Erikoistuneita työkaluja syntyi kullekin formaatille. Yksi PDF:ille. Yksi taulukkolaskentatiedostoille. Makro CSV:lle. Kullakin on oma yksikkölistansa. Mikään niistä ei jaa auditointipolkua.

Tulos on ennakoitavissa. DSAR-vastaus kattaa useita tiedostotyyppejä. Useampi työkalu käsittelee sen. Kukin työkalu käyttää eri standardeja. Yksikkö X havaitaan PDF:ssä mutta jää huomaamatta Excel-tiedostossa. Tietosuojaviranomaisten tarkastukset paljastavat tämän epäjohdonmukaisuuden.

Formaattikohtaiset tekniset haasteet

Kukin formaatti luo omat tunnistushaasteensa.

PDF

PDF-tiedostoja on kahta tyyppiä: natiivi teksti ja kuvapohjaiset skannaukset. Skannatut PDF:t tarvitsevat ensin OCR:n. OCR aiheuttaa virheitä. Natiivit PDF:t tallentavat usein jokaisen sanan erillisenä tekstiobjektina. Tämä rikkoo yksikköjen tunnistuksen sanarajojen yli. Monisarakkeinen asettelu vaatii lukemisjärjestyksen rekonstruoinnin ennen analyysin aloittamista.

Word (DOCX)

DOCX-tiedostot sisältävät tekstiä XML:ssä, mutta myös ylä- ja alatunnisteissa, kommenteissa, seuratuissa muutoksissa ja tekstilaatikoissa. Ylätunnisteessa oleva kirjelomakkeen osoite on henkilötieto. Useimmat työkalut jättävät sen huomaamatta. Seuratut muutokset voivat sisältää poistettuja henkilötietoja. Tämä teksti on näkymätöntä renderöidyssä näkymässä mutta esiintyy tiedostossa.

Excel (XLSX)

Excel tallentaa henkilötietoja missä tahansa sadoista sarakkeista ja tuhansista riveistä. Sarakeotsikoiden kuten "SSN" tai "Email" antama konteksti jää NER-malleilta huomaamatta pelkästä tekstistä. Päivämäärät ja henkilötunnukset tallennetaan usein numeroina. Vapaamuotoiset kentät kuten "esimiehen muistiinpanot" sisältävät jäsentymätöntä henkilötietoa. Sarakepohjaiset työkalut ohittavat nämä kentät.

CSV

CSV:ltä puuttuu Excelin rakenne. Vapaamuotoiset kentät "muistiinpanot"-sarakkeissa sekoittavat henkilötiedot muuhun sisältöön. Koodausongelmat — UTF-8 vastaan Latin-1 — aiheuttavat virheitä eurooppalaisten nimien ja osoitteiden ei-ASCII-merkeille.

JSON

Sisäkkäinen JSON piilottaa henkilötiedot syvälle: user.address.street.line1. Taulukot vaativat iteroinnin. Sama kenttänimi voi sisältää eri tietotyyppejä eri objekteissa. Hyvä tunnistus tarvitsee sekä skeematietoisuutta että sisältöanalyysiä.

Epäjohdonmukaisuus on juridinen riski

Tässä on konkreettinen GDPR DSAR -skenaario.

Rekisteröity pyytää kaikkia hänestä pidettäviä henkilötietoja. Vaatimustenmukaisuustiimi löytää nämä tiedostot:

  • 3 Word-asiakirjaa (sopimukset, kirjeenvaihto).
  • 2 PDF-asiakirjaa (laskut, tukitranskriptit).
  • 1 Excel-taulukkolaskentataulukko (asiakastilitiedot).
  • 1 CSV-vienti (järjestelmän käyttölokit).

He käyttävät Työkalu A:ta PDF:ille. Työkalu B:tä Wordille. Makroa XLSX:lle. Manuaalista tarkistusta CSV:lle. Kullakin työkalulla on erilainen yksikkökattavuus.

Rekisteröity saa anonymisoidun paketin. Excelin "esimiehen muistiinpanot" -saraketta ei käsitelty. Wordin kirjelomakkeen osoite jäi huomaamatta. Molemmat sisältävät henkilötietoja, joiden anonymisointia rekisteröity pyysi.

GDPR:n artiklan 15 (tiedonsaantioikeus) tai artiklan 17 (oikeus tulla unohdetuksi) nojalla tämä on puutteellinen DSAR-vastaus. Jos rekisteröity tai valvoja havaitsee aukon, epäjohdonmukainen työkalujen käyttö on dokumentoitu myötävaikuttava tekijä.

Peruste yhtenäiselle standardille

Vahva DSAR-vaatimustenmukaisuus ei ainoastaan listaa anonymisoitavia henkilötietotyyppejä. Se edellyttää samaa standardia kaikille vastaussarjan formaateille.

Se tarkoittaa:

  • Samat yksikkötyypit tarkistettuna Word-, PDF-, Excel-, CSV- ja JSON-tiedostoissa.
  • Samat luottamuskynnykset kaikissa tiedostoissa.
  • Samat korvaustunnisteet käytössä. Jos "Matti Virtanen" esiintyy kolmessa asiakirjassa, yksi tunniste korvaa nimen kaikissa kolmessa.
  • Yksi auditointipolku, joka kattaa kaikki formaatit.

Yhden alustan ratkaisu mahdollistaa tämän esiasetuksien avulla. Yksi "DSAR EU Individuals" -esiasetus tarkistaa samat 32 yksikkötyyppiä. Se toimii PDF-sopimuksessa, Excel-tietueessa ja CSV-lokissa. Sama moottori käsittelee kaikki kolme.

Lisätietoja esiasetuksien toiminnasta erätöissä löydät oppaastamme GDPR DSAR -eräkäsittelystä mittakaavassa.

Monimuotoisten erien eräkäsittely

DSAR-vaatimustenmukaisuus mittakaavassa tarkoittaa monimuotoisten kansioiden käsittelyä yhtenä kokonaisuutena.

Syöte: Kansio, jossa on 15 tiedostoa — PDF:iä, DOCX:ia, XLSX:iä, CSV:tä — edustaen kaikkia yhdestä rekisteröidystä pidettyjä tietoja.

Käsittelyvaiheet:

  • Tunnista kunkin tiedoston formaatti.
  • Käytä oikeaa jäsentäjää. PDF:n tekstin purkaminen. DOCX:n XML-jäsentäminen. XLSX:n solujen iterointi. CSV:n kenttien jäsentäminen.
  • Aja sama NLP-pipeline kaikista tiedostoista purettuun tekstiin.
  • Käytä samaa esiasetusta kaikkiin erän tiedostoihin.
  • Käytä jaettua tunnistepoolaa. Sama nimi saa saman korvaustunnisteen kaikissa 15 tiedostossa.

Tulos:

  • Anonymisoidut versiot kaikista 15 tiedostosta niiden alkuperäisissä formaateissa.
  • Yksi formaattien välinen auditointiraportti. Se näyttää jokaisen havaitun yksikön, sen lähdetiedoston, sen luottamuspistemäärän ja suoritetun toimenpiteen.

Tämä auditointiraportti on vaatimustenmukaisuusasiakirja. Se todistaa, että kaikki 15 tiedostoa käsiteltiin samalla standardilla. Tietosuojaviranomaisten tarkastuksessa tämä on huomattavasti vahvempi kuin pirstaloitunut työkalujen käyttö.

Liittyvä artikkeli: Reaaliaikainen henkilötietojen suojaus tekoälyn tietovuotoja vastaan.

Yhtenäisten pipelinejen tunnetut rajoitukset

Formaattien yhtenäistäminen ratkaisee hajanaisuuden. Mutta se tuo mukanaan omat rajoitteensa.

Muunnostarkkuus: DOCX:n muuntaminen käsittelyformaattiin ja takaisin voi menettää muutoshistorian tai vioittaa upotettuja objekteja. Oikeudelliset asiakirjat vaativat lisävalidoinnin käsittelyn jälkeen.

Formaattikohtainen ylläpito: CSV:n yksikkötunnistimet eroavat skannattujen lomakkeiden tunnistimista. "Yhtenäinen" pipeline tarvitsee silti formaattikohtaisen esikäsittelyn. Tämä esikäsittely vaatii päivityksiä formaattien kehittyessä.

Tarkkuus epätavallisilla formaateilla: Useimmat NLP-mallit harjoitellaan verkkotekstillä ja tavallisilla toimistoasiakirjoilla. Vanhat formaatit — vanhat EDI-tiedostot, mukautetut XML-skeemat, CAD-metatiedot — tuottavat usein heikompaa tarkkuutta kuin vertailuarvot viittaavat.

Ei-rekonstruoitavat formaatit: Joitain PDF-tyyppejä ja vain kuvina olevia tiedostoja ei voida anonymisoida paikan päällä. Ne vaativat visuaalista redaktointia. Visuaalinen redaktointi tuhoaa koneluettavan rakenteen. Jos tarvitset anonymisoinnin jälkeen hakua tai indeksointia, tämä voi olla riittämätöntä.

Käytännön DSAR-työnkulku

Säännöllisesti DSAR-pyyntöjä käsitteleville vaatimustenmukaisuustiimeille:

  1. Kerää kaikki rekisteröidyn asiakirjat
  2. Luo DSAR-erä — vedä kaikki tiedostot sisään formaatista riippumatta
  3. Valitse "DSAR EU Individuals" -esiasetus
  4. Aja erä
  5. Lataa anonymisoidut tuotokset ja yhdistetty auditointiraportti
  6. Tarkista pistokokein kaksi tai kolme tulosasiakirjaa
  7. Pakkaa anonymisoidut asiakirjat rekisteröidyn vastausta varten
  8. Liitä auditointiraportti DSAR-tapauksen tietueeseen

Vaihe 1 (manuaalinen keräys) on edelleen suurin aikakuluttaja. Vaiheet 2–8 vievät alle 10 minuuttia tyypillisessä erässä. Vaiheen 5 auditointiraportti täyttää GDPR:n vastuuperiaatteen vaatimukset.


anonym.legal käsittelee DOCX-, PDF-, XLSX-, CSV- ja JSON-tiedostoja. Jokainen tiedosto käyttää samaa esiasetusta. Yksi auditointiraportti kattaa koko erän.

Lähteet

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.