Mitme vormingu probleem PII-nõuetele vastavuses
Uuendatud 2026. aastaks
Küsige nõuetele vastavuse spetsialistilt, milliseid vorminguid nad DSAR-vastuste jaoks anonümiseerivad. Nimekiri on alati sama: Wordi lepingud, PDF-arved, Exceli kliendiandmed, CSV-eksportid ja JSON-logid.
Seejärel küsige, milliseid tööriistu nad kasutavad. Vastus on tavaliselt kolm kuni viis. Igal tööriistal on erinev olemite hõlmavus. Igal tööriistal on erinevad seaded. Igal tuuriistal on erinev auditilogi.
See on vormingute killustumine. See loob reaalseid nõuetele vastavuse lünki.
Miks killustumine juhtub
Ükski tööriist ei ole käsitlenud kõiki tootmisvorminguid sama kvaliteediga. Iga vormingu jaoks tekkisid spetsialiseeritud tööriistad. Üks PDF-idele. Üks arvutustabelitele. Makro CSV jaoks. Igal on oma olemite nimekiri. Ükski ei jaga auditiloogu.
Tulemus on etteaimatav. DSAR-vastus ulatub mitme failitüübi vahele. Mitmed tööriistad töötlevad seda. Iga tööriist kasutab erinevaid standardeid. Olem X tabatakse PDF-is, kuid Exceli failis jäetakse märkamata. DPA auditid paljastavad selle ebajärjepidevuse.
Vormingupõhised tehnilised väljakutsed
Igal vormingul on oma avastamisprobleemid.
PDF-id on kahte tüüpi: algne tekst ja pildipõhised skaneeringud. Skannitud PDF-id vajavad esmalt OCR-i. OCR toob kaasa vigu. Algsed PDF-id salvestavad sageli iga sona eraldi tekstiobjektina. See katkestab olemite tuvastuse sõnapiirüleselt. Mitme veeruga küljendused vajavad lugemiskorra rekonstrueerimist enne analüüsi alustamist.
Word (DOCX)
DOCX-failid hoiavad teksti XML-is. Kuid ka päistes, jalustes, kommentaarides, jälgitud muudatustes ja tekstikastides. Lehe päises olev kirjablankettiaadrass on isikuandmed. Enamik tööriistu jätab selle märkamata. Jälgitud muudatused võivad sisaldada kustutatud isikuandmeid. See tekst on renderdatud vaates nähtamatu, kuid failis olemas.
Excel (XLSX)
Excel salvestab isikuandmed kõikides sadade veergude ja tuhandete ridade lahtrites. Veergude päised nagu "SSN" või "Email" annavad konteksti, mille NER-mudelid toortekstist vahele jätavad. Kuupäevad ja SSN-id salvestatakse sageli numbritena. Vabateksti väljad nagu "juhi märkmed" sisaldavad struktureerimata isikuandmeid. Veerupõhised tööriistad jätavad need väljad vahele.
CSV
CSV-l puudub Exceli struktuur. Vabateksti väljad "märkmete" veergudes segistavad isikuandmeid muu sisuga. Kodeerimisprobleemid - UTF-8 versus Latin-1 - põhjustavad tõrkeid Euroopa nimede ja aadresside mitte-ASCII märkide puhul.
JSON
Pesastatud JSON matab isikuandmed sügavale: user.address.street.line1. Massiivid vajavad itereerimist. Sama välja nimi võib eri objektides sisaldada erinevat andmetüüpi. Hea tuvastus vajab nii skeemiteadlikkust kui ka sisupõhist analüüsi.
Ebajärjepidevus on juriidiline risk
Siin on konkreetne GDPR DSAR stsenaarium.
Andmesubjekt taotleb kõiki tema kohta hoitavaid isikuandmeid. Nõuetele vastavuse meeskond leiab need failid:
- 3 Wordi dokumenti (lepingud, kirjavahetus).
- 2 PDF-dokumenti (arved, tugiteenuse transkriptid).
- 1 Exceli arvutustabel (kliendikonto andmed).
- 1 CSV-eksport (süsteemijuurdepääsu logid).
Nad kasutavad PDF-ide jaoks Tööriista A. Wordi jaoks Tööriista B. XLSX jaoks makrot. CSV jaoks käsitsi ülevaatamist. Igal tööriistal on erinev olemite hõlmavus.
Andmesubjekt saab anonümiseeritud paketi. Exceli "juhi märkmete" veergu ei töödeldud. Wordi kirjablankettiaadressi jäeti märkamata. Mõlemad sisaldavad isikuandmeid, mida andmesubjekt palus anonümiseerida.
GDPR artikli 15 (juurdepääsuõigus) või artikli 17 (kustutamisõigus) alusel on see mittetäielik DSAR-vastus. Kui andmesubjekt või järelevalveasutus leiab lünga, on ebajärjepidev tööriistade kasutamine dokumenteeritud kaasaaitav tegur.
Argumentatsioon ühtse standardi kasuks
Tugev DSAR-nõuetele vastavus ei loetle ainult, milliseid PII-tüüpe anonümiseerida. See nõuab sama standardit kõigi vastusekomplekti vormingute lõikes.
See tähendab:
- Samad olemite tüübid kontrollitakse Wordis, PDF-is, Excelis, CSV-s ja JSON-is.
- Samad usaldusväärsuse läved rakendatakse kõikidele failidele.
- Samad asendamismärgid kasutatakse. Kui "Jaan Tamm" ilmub kolmes dokumendis, asendab üks märk nime kõigis kolmes.
- Üks auditilogi katab kõik vormingud.
Ühe platvormi lahendus muudab selle võimalikuks eelseadistuste kaudu. Üks "DSAR EL-i üksikisikud" eelseadistus kontrollib samu 32 olemitüüpi. See töötab PDF-lepingus, Exceli kirjes ja CSV-logis. Sama mootor töötleb kõiki kolme.
Lisateabe saamiseks selle kohta, kuidas eelseadistused toimivad partiitöötluses, vaadake meie juhendit GDPR DSAR partii töötlemine suurel skaalal.
Segavorminguliste komplektide partiitöötlus
DSAR-nõuetele vastavus suurel skaalal tähendab segavorminguliste kaustade töötlemist ühe üksusena.
Sisend: Kaust 15 failiga - PDF-id, DOCX, XLSX, CSV - mis esindavad kõiki ühe andmesubjekti kohta hoitavaid andmeid.
Töötlemise sammud:
- Tuvastage iga faili vorming.
- Rakendage õige sõeluja. PDF-teksti eraldamine. DOCX XML-i sõelumine. XLSX-lahtrite itereerimine. CSV-väljade sõelumine.
- Käivitage sama NLP-konveier kõigist failidest eraldatud teksti peal.
- Rakendage sama eelseadistus igale partii failile.
- Kasutage jagatud märgi-kogu. Sama nimi saab sama asendamismärgi kõigis 15 failis.
Väljund:
- Kõigi 15 faili anonümiseeritud versioonid nende algsetes vormingutes.
- Üks ristivormiinguline auditiaruanne. See näitab iga tuvastatud olemit, selle lähtedokumenti, usaldusväärsuse skoori ja võetud toimingut.
See auditiaruanne on nõuetele vastavuse dokument. See tõendab, et kõiki 15 faili töödeldi sama standardiga. DPA auditi jaoks on see palju tugevam kui tükkhaaval tööriistad.
Seotud: isikuandmete reaalajas ennetamine AI-andmete lekete korral.
Ühtlustatud konveieri teadaolevad piirangud
Vormingute ühtlustamine lahendab killustumise. Kuid see toob kaasa oma piirangud.
Konversiooni truudus: DOCX-i teisendamine töötlusvormingusse ja tagasi võib kaotada muudatuste jälgimise ajaloo või rikkuda manustatud objekte. Juriidilised dokumendid vajavad pärast töötlemist lisavalideerimist.
Vormingupõhine hooldus: CSV-i olemituvastajad erinevad skannitud vormide omadest. "Ühtne" konveier vajab siiski vormingupõhist eeltöötlust. See eeltöötlus vajab uuendamist vormingute arenedes.
Täpsus ebatavaliste vormingute puhul: Enamik NLP-mudeleid treenib veebitekstidel ja tavalistel kontori dokumentidel. Pärandvormingud - vanad EDI-failid, kohandatud XML-skeemid, CAD-metaandmed - annavad sageli halvemaid tulemusi kui võrdlustestid näitavad.
Mitte-rekonstrueeritavad vormingud: Mõnda PDF-tüüpi ja ainult-pildifaile ei saa kohapeal anonümiseerida. Need vajavad visuaalset tsenseerimist. Visuaalne tsenseerimine hävitab masinloetava struktuuri. Kui vajate pärast anonümiseerimist otsingut või indekseerimist, võib see jääda ebapiisavaks.
Praktiline DSAR töövoog
Tavalise DSAR-mahuga nõuetele vastavuse meeskondadele:
- Koguge kõik andmesubjekti dokumendid
- Looge DSAR-partii - lohistage kõik failid sisse, olenemata vormingust
- Valige eelseadistus "DSAR EL-i üksikisikud"
- Käivitage partii
- Laadige alla anonümiseeritud väljundid ja konsolideeritud auditiaruanne
- Kontrollige pistelist kahe-kolme väljundi dokumendi
- Pakkige anonümiseeritud dokumendid andmesubjekti vastuse jaoks
- Lisage auditiaruanne DSAR-juhtumi kirjele
Samm 1 (käsitsi kogumine) on endiselt peamine ajakulu. Sammud 2 kuni 8 võtavad tüüpilise partii puhul alla 10 minuti. Sammu 5 auditiaruanne vastab GDPR-i vastutuspõhimõttele.
anonym.legal käsitleb DOCX, PDF, XLSX, CSV ja JSON faile. Iga fail kasutab sama eelseadistust. Üks auditiaruanne katab partii.