anonym.legal
Takaisin BlogiinTekninen

Asiakirjamuotojen fragmentaatioprobleemi: Miksi PII-anonymisointisi tarvitsee käsitellä PDF-, Word-, Excel- ja CSV-muotoja johdonmukaisesti

Yksi DSAR-vastaus voi kattaa Word-sopimuksia, PDF-laskuja, Excel-asiakaslistoja ja CSV-vientitiedostoja. Eri työkalujen käyttäminen jokaiselle muodolle luo vaatimustenmukaisuuden aukkoja. Tässä on syitä, miksi muotojen johdonmukaisuus on tärkeää.

March 7, 20267 min lukuaika
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Heterogeenisen asiakirjaympäristön todellisuus

Kysy miltä tahansa vaatimustenmukaisuusviranomaiselta, mitä asiakirjamuotoja heidän on anonymisoitava DSAR-vastauksia varten, ja lista on ennakoitavissa: Word-sopimukset, PDF-laskut, Excel-asiakasdata, CSV-järjestelmävienti ja joskus JSON-lokit tai XML-syötteet.

Kysy, mitä työkaluja he käyttävät, ja vastaus on tyypillisesti: kolme viisi eri työkalua, joista jokaisella on erilainen entiteettikattavuus, erilaiset konfigurointirajapinnat ja erilaiset auditointilokit.

Tämä fragmentaatio ei ole huonon suunnittelun tulos. Se heijastaa yhden työkalun puuttumista, joka todella käsittelee kaikkia tuotantosasiakirjamuotoja samanlaisella kyvyllä. Erityistyökaluja on olemassa jokaiselle muodolle. Yhtenäinen työkalu, joka käsittelee kaikkia muotoja samalla moottorilla, samoilla entiteettityypeillä ja samalla auditointijäljellä, on historiallisesti ollut harvinaista.

Luotu vaatimustenmukaisuusongelma: DSAR-vastaukset, jotka kattavat useita asiakirjatyyppiä, anonymisoidaan käyttämällä useita työkaluja, joilla on erilaiset standardit. Tuloksena oleva epäjohdonmukaisuus — entiteetti X on anonymisoitu PDF:ssä, mutta ei Excel-viennissä, koska Excel-työkalu käyttää erilaista entiteettiluetteloa — luo juuri sellaista vaatimustenmukaisuuden aukkoa, joka DPA-auditoinneissa tulee esiin.

Muotokohtaiset haasteet

Jokainen asiakirjamuoto esittää erillisiä teknisiä haasteita PII-havainnoinnille:

PDF

PDF-tiedostot voivat olla alkuperäistä tekstiä (valittavaa) tai kuvapohjaisia (skannattuja). Kuvapohjaiset PDF-tiedostot vaativat OCR:ää ennen tekstianalyysiä, mikä tuo mukanaan virheprosentteja. Alkuperäiset PDF-tiedostot voivat sisältää tekstifragmentteja (jokainen sana tallennettuna erillisenä tekstikohteena), jotka häiritsevät entiteettihavaintoa sanarajojen yli. Monisarakkeiset asettelut vaativat lukujärjestyksen uudelleenrakentamista ennen tekstianalyysiä.

Word (DOCX)

DOCX-asiakirjat sisältävät asiakirjan tekstin XML:ssä, mutta myös: otsikot, alatunnisteet, kommentit, seuratut muutokset, tekstiruudut ja alaviitteet. PII:tä otsikoissa/alatunnisteissa (kirjeheadin osoitteet, yhteystiedot) jää usein huomaamatta työkaluista, jotka analysoivat vain pääsisältöä. Seuratuissa muutoksissa voi olla poistettua tekstiä, jossa on PII:tä, joka ei näy renderöidyssä asiakirjassa, mutta on läsnä tiedostorakenteessa.

Excel (XLSX)

Excelin kaksidimensionaalinen rakenne tarkoittaa, että PII voi esiintyä missä tahansa solussa satojen sarakkeiden ja tuhansien rivien joukossa. Sarakeotsikot tarjoavat konteksti-signaaleja ("SSN", "Sähköposti", "Puhelin"), joita NER-mallit eivät saa pelkästään tekstianalyysistä. Soluarvot voivat olla tallennettuina numeroina (päivämäärät, SSN:t ilman viivoja), jotka vaativat muotoa tunnistavaa tulkintaa. Useat taulukot voivat sisältää liittyvää PII:tä, jota on käsiteltävä johdonmukaisesti.

CSV

CSV on rakenteeltaan samanlainen kuin Excel, mutta ilman sarakeotsikoita monissa toteutuksissa. Kenttäarvot "muistiinpano"- tai "kommentti"-sarakkeissa ovat vapaatekstiä ja voivat sisältää PII:tä yhdessä ei-PII-sisällön kanssa. Koodausongelmat (UTF-8 vs. Latin-1) voivat aiheuttaa havaitsemisongelmia ei-ASCII-merkkien osalta Euroopan PII:ssä.

JSON

Sisäkkäinen rakenne tarkoittaa, että PII voi olla syvälle upotettuna (user.address.street.line1). Taulukkoarvot vaativat iteraatiota. Sama kentän nimi eri objekteissa voi sisältää erilaisia PII-ominaisuuksia. Skeema-tietoista analyysiä (tietäen, että "sähköposti"-kentät sisältävät aina sähköpostiosoitteita) on yhdistettävä sisällön perusteella tehtävään havaitsemiseen.

Miksi epäjohdonmukaisuus muotojen välillä on vaatimustenmukaisuusongelma

GDPR DSAR -tilanne havainnollistaa epäjohdonmukaisuuden riskin konkreettisesti:

Tietosubjekti lähettää DSAR:n, jossa pyydetään kaikkia häntä koskevia henkilötietoja. Vaatimustenmukaisuusryhmä löytää:

  • 3 Word-asiakirjaa (sopimukset, kirjeenvaihto)
  • 2 PDF-asiakirjaa (laskut, tukitallenteet)
  • 1 Excel-taulukon (asiakastilitiedot)
  • 1 CSV-viennin (järjestelmäpääsyn lokit)

Vaatimustenmukaisuusryhmä käyttää Työkalua A PDF:lle (erinomainen kattavuus), Työkalua B Wordille (hyvä kattavuus, mutta jättää huomiotta otsikot/alatunnisteet), Excel-makroa XLSX:lle (kattaa ilmeiset sarakkeet, jättää huomiotta vapaatekstikentät) ja ei työkalua CSV:lle (manuaalinen tarkistus).

Tietosubjekti saa anonymisoidun paketin. Excel-taulukossa "johtajan muistiinpanot" -vapaatekstikolumnia ei käsitelty makrolla. Word-asiakirjoissa kirjeheadin osoite sivun otsikossa jäi huomaamatta Työkalulta B. Molemmat kohteet sisältävät PII:tä, jonka tietosubjektin asiakirjat osoittavat, että he ovat pyytäneet anonymisoitavaksi.

GDPR:n artiklan 17 (oikeus tulla unohdetuksi) tai artiklan 15 (oikeus päästä käsiksi tietoihin) mukaan vaatimustenmukaisuusryhmä on tuottanut puutteellisen DSAR-vastauksen. Jos tietosubjekti tai DPA löytää aukon, epäjohdonmukainen työkalujen käyttö on osatekijä vaatimustenmukaisuuden epäonnistumiseen.

Muotojen johdonmukaisuus vaatimustenmukaisuuden vaatimuksena

Tiukimmat DSAR-vaatimustenmukaisuuskehykset määrittävät, että ei vain niitä PII-tyyppejä, jotka on anonymisoitava, vaan että sama anonymisointistandardi on sovellettava kaikissa muodoissa tietyssä vastauksessa.

Tämä tarkoittaa:

  • Samat entiteettityypit tarkistetaan Wordissa, PDF:ssä, Excelissä, CSV:ssä ja JSON:ssa
  • Samat luottamuskynnykset sovelletaan
  • Samat korvaustunnukset käytetään (johdonmukaiset anonymisointitunnukset asiakirjoissa yhdessä vastauksessa)
  • Yksi auditointijälki kattaa kaikki muodot vastauksessa

Yhden alustan muototuki mahdollistaa konfigurointiasetusten, jotka soveltuvat identtisesti kaikille muodoille. "DSAR EU Individuals" -asetukset, jotka on konfiguroitu organisaatiollesi, tarkistavat samat 32 entiteettityyppiä PDF-sopimuksessa, Excel-asiakastiedostossa ja CSV-järjestelmälogissa — koska sama moottori käsittelee kaikkia kolmea.

Erityyppisten muotojen joukkojen käsittely

DSAR-vaatimustenmukaisuudelle suuressa mittakaavassa joukkokäsittelyn on käsiteltävä erimuotoisia joukkoja yhtenä kokonaisuutena:

Syöte: Kansio, joka sisältää 15 tiedostoa eri muodoissa (PDF, DOCX, XLSX, CSV), jotka edustavat kaikkia tietoja, joita on pidetty yhdestä tietosubjektista

Käsittely:

  • Muodon havaitseminen jokaiselle tiedostolle
  • Sopiva analysoija jokaiselle muodolle (PDF-tekstin poiminta, DOCX-XML-analyysi, XLSX-solujen iteraatio, CSV-kenttien analyysi)
  • Sama NLP-putki sovelletaan kaikista muodoista poimittuun tekstiin
  • Sama esiasetettu konfiguraatio sovelletaan kaikkiin tiedostoihin erässä
  • Johdonmukainen anonymisointitunnuspooli (jos "John Smith" esiintyy 3 eri asiakirjassa, sama korvaustunnus käytetään kaikissa 3)

Tuloste:

  • Anonymisoidut versiot kaikista 15 tiedostosta alkuperäisissä muodoissaan
  • Ristiinmuotojen auditointiraportti, joka näyttää kaikki havaitut entiteetit, asiakirjan lähteen, luottamuksen ja tehdyt toimenpiteet

Ristiinmuotojen auditointiraportti on vaatimustenmukaisuusasiakirja: yksi asiakirja, joka todistaa, että kaikkia 15 tiedostoa käsiteltiin samalla standardilla, samalla entiteettikattavuudella, saman konfiguraation alaisena.

DPA-auditointeja varten tämä on huomattavasti puolustettavampaa kuin "käsittelimme PDF:itä Adobella, Exceliä makrolla ja CSV:tä manuaalisesti."

Käytännön integrointi DSAR-tiimeille

Vaatimustenmukaisuusryhmille, jotka käsittelevät säännöllisiä DSAR-määriä, työnkulku yhtenäisen muototuen kanssa:

  1. Kerää kaikki asiakirjat tietosubjektista (manuaalinen keruu järjestelmistä)
  2. Luo DSAR-erä anonymisointialustalla (vedä kaikki tiedostot riippumatta muodosta)
  3. Valitse "DSAR EU Individuals" -esiasetus (kattaa kaikki GDPR:n vaatimukset entiteettityypeille)
  4. Suorita joukkokäsittely
  5. Lataa anonymisoidut tulosteet ja koottu auditointiraportti
  6. Laadun tarkistus: tarkista 2-3 asiakirjaa erästä
  7. Pakkaa anonymisoidut asiakirjat tietosubjektin vastaukseksi
  8. Liitä auditointiraportti DSAR-tapausrekisteriin

Manuaalinen keruu (vaihe 1) pysyy ensisijaisena aikakustannuksena. Vaiheet 2-8 kestävät alle 10 minuuttia tyypilliselle DSAR-erälle. Vaiheessa 5 luotu auditointiraportti tarjoaa vaatimustenmukaisuusasiakirjat GDPR:n vastuullisuusperiaatteen vaatimuksille.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.