Heterogeenisen asiakirjaympäristön todellisuus
Kysy miltä tahansa vaatimustenmukaisuusviranomaiselta, mitä asiakirjamuotoja heidän on anonymisoitava DSAR-vastauksia varten, ja lista on ennakoitavissa: Word-sopimukset, PDF-laskut, Excel-asiakasdata, CSV-järjestelmävienti ja joskus JSON-lokit tai XML-syötteet.
Kysy, mitä työkaluja he käyttävät, ja vastaus on tyypillisesti: kolme viisi eri työkalua, joista jokaisella on erilainen entiteettikattavuus, erilaiset konfigurointirajapinnat ja erilaiset auditointilokit.
Tämä fragmentaatio ei ole huonon suunnittelun tulos. Se heijastaa yhden työkalun puuttumista, joka todella käsittelee kaikkia tuotantosasiakirjamuotoja samanlaisella kyvyllä. Erityistyökaluja on olemassa jokaiselle muodolle. Yhtenäinen työkalu, joka käsittelee kaikkia muotoja samalla moottorilla, samoilla entiteettityypeillä ja samalla auditointijäljellä, on historiallisesti ollut harvinaista.
Luotu vaatimustenmukaisuusongelma: DSAR-vastaukset, jotka kattavat useita asiakirjatyyppiä, anonymisoidaan käyttämällä useita työkaluja, joilla on erilaiset standardit. Tuloksena oleva epäjohdonmukaisuus — entiteetti X on anonymisoitu PDF:ssä, mutta ei Excel-viennissä, koska Excel-työkalu käyttää erilaista entiteettiluetteloa — luo juuri sellaista vaatimustenmukaisuuden aukkoa, joka DPA-auditoinneissa tulee esiin.
Muotokohtaiset haasteet
Jokainen asiakirjamuoto esittää erillisiä teknisiä haasteita PII-havainnoinnille:
PDF-tiedostot voivat olla alkuperäistä tekstiä (valittavaa) tai kuvapohjaisia (skannattuja). Kuvapohjaiset PDF-tiedostot vaativat OCR:ää ennen tekstianalyysiä, mikä tuo mukanaan virheprosentteja. Alkuperäiset PDF-tiedostot voivat sisältää tekstifragmentteja (jokainen sana tallennettuna erillisenä tekstikohteena), jotka häiritsevät entiteettihavaintoa sanarajojen yli. Monisarakkeiset asettelut vaativat lukujärjestyksen uudelleenrakentamista ennen tekstianalyysiä.
Word (DOCX)
DOCX-asiakirjat sisältävät asiakirjan tekstin XML:ssä, mutta myös: otsikot, alatunnisteet, kommentit, seuratut muutokset, tekstiruudut ja alaviitteet. PII:tä otsikoissa/alatunnisteissa (kirjeheadin osoitteet, yhteystiedot) jää usein huomaamatta työkaluista, jotka analysoivat vain pääsisältöä. Seuratuissa muutoksissa voi olla poistettua tekstiä, jossa on PII:tä, joka ei näy renderöidyssä asiakirjassa, mutta on läsnä tiedostorakenteessa.
Excel (XLSX)
Excelin kaksidimensionaalinen rakenne tarkoittaa, että PII voi esiintyä missä tahansa solussa satojen sarakkeiden ja tuhansien rivien joukossa. Sarakeotsikot tarjoavat konteksti-signaaleja ("SSN", "Sähköposti", "Puhelin"), joita NER-mallit eivät saa pelkästään tekstianalyysistä. Soluarvot voivat olla tallennettuina numeroina (päivämäärät, SSN:t ilman viivoja), jotka vaativat muotoa tunnistavaa tulkintaa. Useat taulukot voivat sisältää liittyvää PII:tä, jota on käsiteltävä johdonmukaisesti.
CSV
CSV on rakenteeltaan samanlainen kuin Excel, mutta ilman sarakeotsikoita monissa toteutuksissa. Kenttäarvot "muistiinpano"- tai "kommentti"-sarakkeissa ovat vapaatekstiä ja voivat sisältää PII:tä yhdessä ei-PII-sisällön kanssa. Koodausongelmat (UTF-8 vs. Latin-1) voivat aiheuttaa havaitsemisongelmia ei-ASCII-merkkien osalta Euroopan PII:ssä.
JSON
Sisäkkäinen rakenne tarkoittaa, että PII voi olla syvälle upotettuna (user.address.street.line1). Taulukkoarvot vaativat iteraatiota. Sama kentän nimi eri objekteissa voi sisältää erilaisia PII-ominaisuuksia. Skeema-tietoista analyysiä (tietäen, että "sähköposti"-kentät sisältävät aina sähköpostiosoitteita) on yhdistettävä sisällön perusteella tehtävään havaitsemiseen.
Miksi epäjohdonmukaisuus muotojen välillä on vaatimustenmukaisuusongelma
GDPR DSAR -tilanne havainnollistaa epäjohdonmukaisuuden riskin konkreettisesti:
Tietosubjekti lähettää DSAR:n, jossa pyydetään kaikkia häntä koskevia henkilötietoja. Vaatimustenmukaisuusryhmä löytää:
- 3 Word-asiakirjaa (sopimukset, kirjeenvaihto)
- 2 PDF-asiakirjaa (laskut, tukitallenteet)
- 1 Excel-taulukon (asiakastilitiedot)
- 1 CSV-viennin (järjestelmäpääsyn lokit)
Vaatimustenmukaisuusryhmä käyttää Työkalua A PDF:lle (erinomainen kattavuus), Työkalua B Wordille (hyvä kattavuus, mutta jättää huomiotta otsikot/alatunnisteet), Excel-makroa XLSX:lle (kattaa ilmeiset sarakkeet, jättää huomiotta vapaatekstikentät) ja ei työkalua CSV:lle (manuaalinen tarkistus).
Tietosubjekti saa anonymisoidun paketin. Excel-taulukossa "johtajan muistiinpanot" -vapaatekstikolumnia ei käsitelty makrolla. Word-asiakirjoissa kirjeheadin osoite sivun otsikossa jäi huomaamatta Työkalulta B. Molemmat kohteet sisältävät PII:tä, jonka tietosubjektin asiakirjat osoittavat, että he ovat pyytäneet anonymisoitavaksi.
GDPR:n artiklan 17 (oikeus tulla unohdetuksi) tai artiklan 15 (oikeus päästä käsiksi tietoihin) mukaan vaatimustenmukaisuusryhmä on tuottanut puutteellisen DSAR-vastauksen. Jos tietosubjekti tai DPA löytää aukon, epäjohdonmukainen työkalujen käyttö on osatekijä vaatimustenmukaisuuden epäonnistumiseen.
Muotojen johdonmukaisuus vaatimustenmukaisuuden vaatimuksena
Tiukimmat DSAR-vaatimustenmukaisuuskehykset määrittävät, että ei vain niitä PII-tyyppejä, jotka on anonymisoitava, vaan että sama anonymisointistandardi on sovellettava kaikissa muodoissa tietyssä vastauksessa.
Tämä tarkoittaa:
- Samat entiteettityypit tarkistetaan Wordissa, PDF:ssä, Excelissä, CSV:ssä ja JSON:ssa
- Samat luottamuskynnykset sovelletaan
- Samat korvaustunnukset käytetään (johdonmukaiset anonymisointitunnukset asiakirjoissa yhdessä vastauksessa)
- Yksi auditointijälki kattaa kaikki muodot vastauksessa
Yhden alustan muototuki mahdollistaa konfigurointiasetusten, jotka soveltuvat identtisesti kaikille muodoille. "DSAR EU Individuals" -asetukset, jotka on konfiguroitu organisaatiollesi, tarkistavat samat 32 entiteettityyppiä PDF-sopimuksessa, Excel-asiakastiedostossa ja CSV-järjestelmälogissa — koska sama moottori käsittelee kaikkia kolmea.
Erityyppisten muotojen joukkojen käsittely
DSAR-vaatimustenmukaisuudelle suuressa mittakaavassa joukkokäsittelyn on käsiteltävä erimuotoisia joukkoja yhtenä kokonaisuutena:
Syöte: Kansio, joka sisältää 15 tiedostoa eri muodoissa (PDF, DOCX, XLSX, CSV), jotka edustavat kaikkia tietoja, joita on pidetty yhdestä tietosubjektista
Käsittely:
- Muodon havaitseminen jokaiselle tiedostolle
- Sopiva analysoija jokaiselle muodolle (PDF-tekstin poiminta, DOCX-XML-analyysi, XLSX-solujen iteraatio, CSV-kenttien analyysi)
- Sama NLP-putki sovelletaan kaikista muodoista poimittuun tekstiin
- Sama esiasetettu konfiguraatio sovelletaan kaikkiin tiedostoihin erässä
- Johdonmukainen anonymisointitunnuspooli (jos "John Smith" esiintyy 3 eri asiakirjassa, sama korvaustunnus käytetään kaikissa 3)
Tuloste:
- Anonymisoidut versiot kaikista 15 tiedostosta alkuperäisissä muodoissaan
- Ristiinmuotojen auditointiraportti, joka näyttää kaikki havaitut entiteetit, asiakirjan lähteen, luottamuksen ja tehdyt toimenpiteet
Ristiinmuotojen auditointiraportti on vaatimustenmukaisuusasiakirja: yksi asiakirja, joka todistaa, että kaikkia 15 tiedostoa käsiteltiin samalla standardilla, samalla entiteettikattavuudella, saman konfiguraation alaisena.
DPA-auditointeja varten tämä on huomattavasti puolustettavampaa kuin "käsittelimme PDF:itä Adobella, Exceliä makrolla ja CSV:tä manuaalisesti."
Käytännön integrointi DSAR-tiimeille
Vaatimustenmukaisuusryhmille, jotka käsittelevät säännöllisiä DSAR-määriä, työnkulku yhtenäisen muototuen kanssa:
- Kerää kaikki asiakirjat tietosubjektista (manuaalinen keruu järjestelmistä)
- Luo DSAR-erä anonymisointialustalla (vedä kaikki tiedostot riippumatta muodosta)
- Valitse "DSAR EU Individuals" -esiasetus (kattaa kaikki GDPR:n vaatimukset entiteettityypeille)
- Suorita joukkokäsittely
- Lataa anonymisoidut tulosteet ja koottu auditointiraportti
- Laadun tarkistus: tarkista 2-3 asiakirjaa erästä
- Pakkaa anonymisoidut asiakirjat tietosubjektin vastaukseksi
- Liitä auditointiraportti DSAR-tapausrekisteriin
Manuaalinen keruu (vaihe 1) pysyy ensisijaisena aikakustannuksena. Vaiheet 2-8 kestävät alle 10 minuuttia tyypilliselle DSAR-erälle. Vaiheessa 5 luotu auditointiraportti tarjoaa vaatimustenmukaisuusasiakirjat GDPR:n vastuullisuusperiaatteen vaatimuksille.
Lähteet: