Kelių formatų problema PII atitikties srityje

Atnaujinta 2026 m.

Paklauskite atitikties pareigūno, kokius formatus jie anonimizuoja DSAR atsakymams. Sąrašas visada tas pats: Word sutartys, PDF sąskaitos, Excel klientų duomenys, CSV eksportai ir JSON žurnalai.

Tada paklauskite, kokius įrankius jie naudoja. Atsakymas paprastai yra trys iki penki. Kiekvienas įrankis turi skirtingą objektų aprėptį. Kiekvienas turi skirtingus nustatymus. Kiekvienas gamina skirtingą audito žurnalą.

Tai yra formatų fragmentacija. Ji sukuria realias atitikties spragas.

Kodėl atsiranda fragmentacija

Nė vienas įrankis nekontroliavo kiekvieno gamybos formato tokia pačia kokybe. Specializuoti įrankiai atsirado kiekvienam formatui. Vienas PDF failams. Vienas skaičiuoklėms. Makrokomanda CSV. Kiekvienas turi savo objektų sąrašą. Nė vienas nesidalija audito keliu.

Rezultatas yra nuspėjamas. DSAR atsakymas apima kelis failų tipus. Keli įrankiai juos apdoroja. Kiekvienas įrankis naudoja skirtingus standartus. X objektas aptinkamas PDF, bet praleidžiamas Excel faile. DPA auditas atskleidžia šį nenuoseklumą.

Kiekvienam formatui būdingi techniniai iššūkiai

Kiekvienas formatas sukuria savų aptikimo problemų.

PDF

PDF failai yra dviejų tipų: natyvus tekstas ir vaizdo pagrindu sukurti nuskaitymai. Nuskaityti PDF failai pirmiausia reikalauja OCR. OCR įveda klaidų. Natyvūs PDF failai dažnai saugo kiekvieną žodį kaip atskirą teksto objektą. Tai sulaužo objektų aptikimą per žodžių ribas. Daugelio stulpelių išdėstymai reikalauja skaitymo tvarkos rekonstrukcijos prieš pradedant analizę.

Word (DOCX)

DOCX failai laiko tekstą XML. Bet taip pat antraštėse, poraštėse, komentaruose, sekamose pakeitimuose ir teksto laukeliuose. Puslapio antraštėje esantis laiško pavadinimo adresas yra asmens duomenys. Dauguma įrankių jo praleidžia. Sekamos pakeitimai gali laikyti ištrintus asmens duomenis. Tas tekstas yra nematomas atvaizduotame rodinyje, bet esantis faile.

Excel (XLSX)

Excel saugo asmens duomenis bet kurioje ląstelėje šimtų stulpelių ir tūkstančių eilučių. Stulpelių antraštės, tokios kaip "SSN" ar "El. paštas", suteikia kontekstą, kurį NER modeliai praleidžia iš neapdoroto teksto. Datos ir socialinio draudimo numeriai dažnai saugomi kaip skaičiai. Laisvojo teksto laukai, tokie kaip "vadovo pastabos", laiko nestruktūrizuotus asmens duomenis. Stulpeliais pagrįsti įrankiai praleidžia tuos laukus.

CSV

CSV neturi Excel struktūros. Laisvojo teksto laukai "pastabų" stulpeliuose maišo asmens duomenis su kitu turiniu. Kodavimo problemos - UTF-8 prieš Latin-1 - sukelia nesėkmes ne ASCII simboliams Europos varduose ir adresuose.

JSON

Įnelgtasis JSON giliai paslepia asmens duomenis: user.address.street.line1. Masyvams reikalinga iteracija. Tas pats lauko pavadinimas gali laikyti skirtingus duomenų tipus skirtinguose objektuose. Geras aptikimas reikalauja schemos supratimo ir turinio analizės kartu.

Nenuoseklumas yra teisinė rizika

Stai konkretus BDAR DSAR scenarijus.

Duomenų subjektas prašo visų apie jį saugomų asmens duomenų. Atitikties komanda randa šiuos failus:

3 Word dokumentai (sutartys, korespondencija).
2 PDF dokumentai (sąskaitos, palaikymo stenogramos).
1 Excel skaičiuoklė (kliento sąskaitos duomenys).
1 CSV eksportas (sistemos prieigos žurnalai).

Jie naudoja A įrankį PDF failams. B įrankį Word. Makrokomandą XLSX. Rankinę peržiūrą CSV. Kiekvienas įrankis turi skirtingą objektų aprėptį.

Duomenų subjektas gauna anonimizuotą paketą. Excel "vadovo pastabų" stulpelis nebuvo apdorotas. Word laiško pavadinimo adresas buvo praleistas. Abu turi asmens duomenų, kurių anonimizavimą duomenų subjektas paprašė.

Pagal BDAR 15 straipsnį (teisė susipažinti) ar 17 straipsnį (teisė būti pamirštam), tai yra neišsamus DSAR atsakymas. Jei duomenų subjektas ar reguliatorius randa spragą, nenuosekli įrankių naudojimas yra dokumentuotas prisidedantis veiksnys.

Argumentas dėl nuoseklaus standarto

Stipri DSAR atitiktis ne tik išvardija, kokius asmens duomenų tipus anonimizuoti. Ji reikalauja to paties standarto visuose atsakymų rinkinio formatuose.

Tai reiškia:

Tie patys objektų tipai patikrinami Word, PDF, Excel, CSV ir JSON.
Tie patys pasikliautinumo slenkstiai taikomi visiems failams.
Naudojami tie patys pakeitimų prieketai. Jei "Jonas Jonaitis" pasirodo trijuose dokumentuose, vienas prieketis pakeičia vardą visuose trijuose.
Vienas audito kelias, apimantis visus formatus.

Vienos platformos sprendimas tai įgalina per išankstines nuostatas. Viena "DSAR ES Asmenys" išankstinė nuostata patikrina tuos pačius 32 objektų tipus. Ji veikia PDF sutartyje, Excel įraše ir CSV žurnale. Tą patį variklį apdoroja visus tris.

Daugiau apie tai, kaip išankstinės nuostatos veikia paketinių užduočių atveju, žiūrėkite mūsų vadovą apie BDAR DSAR paketinį apdorojimą plačiu mastu.

Mišrių formatų rinkinių paketinis apdorojimas

DSAR atitiktis didelio masto reiškia mišrių formatų aplankų apdorojimą kaip vienetą.

Įvestis: Aplankas su 15 failų - PDF, DOCX, XLSX, CSV - atspindintis visus vieno duomenų subjekto laikomus duomenis.

Apdorojimo žingsniai:

Aptikite kiekvieno failo formatą.
Taikykite tinkamą analizatorių. PDF teksto ištraukimas. DOCX XML analizavimas. XLSX ląstelių iteracija. CSV lauko analizavimas.
Vykdykite tą pačią NLP konveijerį ant ištraukto teksto iš visų failų.
Taikykite tą pačią išankstinę nuostatą kiekvienam partijos failui.
Naudokite bendrą prieketų fondą. Tas pats vardas gauna tą patį pakeitimo prieketą visuose 15 failų.

Išvestis:

Anonimizuotos visų 15 failų versijos jų originaliais formatais.
Viena tarptautinės formato audito ataskaita. Ji rodo kiekvieną aptiktą objektą, jo šaltinio dokumentą, pasikliautinumo balą ir imtus veiksmus.

Ta audito ataskaita yra atitikties dokumentas. Ji įrodo, kad visi 15 failų buvo apdoroti tuo pačiu standartu. DPA auditui tai daug stipriau nei skirtingi įrankiai.

Susijęs straipsnis: realaus laiko AAS duomenų nutekėjimo prevencija.

Suvienodintų konveijų žinomos ribos

Formatų suvienodinimas išsprendžia fragmentacijos problemą. Bet įveda savų apribojimų.

Konvertavimo tikslumas: DOCX konvertavimas į apdorojimo formatą ir atgal gali prarasti keitimų sekimo istoriją arba sugadinti įterptuosius objektus. Teisiniai dokumentai reikalauja papildomo patikrinimo po apdorojimo.

Kiekvienai formatui skirta priežiūra: Objektų atpažintuvai CSV failams skiriasi nuo tų, skirtų nuskaitytiems blanks. "Suvienodintas" konveijus vis tiek reikalauja kiekvienam formatui skirto preapdorojimo. Tas preapdorojimas reikalauja atnaujinimų, kai formatai keičiasi.

Tikslumas neįprastiems formatams: Daugelis NLP modelių mokomi ant tinklapio teksto ir įprastų biuro dokumentų. Pasenę formatai - seni EDI failai, pasirinktinės XML schemos, CAD metaduomenys - dažnai duoda blogesnį tikslumą nei lyginamosios vertės rodo.

Neatkuriami formatai: Kai kurie PDF tipai ir tik vaizdo failai negali būti anonimizuoti vietoje. Jiems reikalingas vizualus redagavimas. Vizualus redagavimas sunaikina mašinai skaitomą struktūrą. Jei jums reikia paieškos ar indeksavimo po anonimizavimo, tai gali nepatenkinti.

Praktinis DSAR darbo eigos

Atitikties komandoms su reguliariu DSAR apkrovimu:

Surinkite visus duomenų subjekto dokumentus
Sukurkite DSAR partiją - įtraukite visus failus nepaisant formato
Pasirinkite "DSAR ES Asmenys" išankstinę nuostatą
Vykdykite partiją
Atsisiųskite anonimizuotus rezultatus ir konsoliduotą audito ataskaitą
Patikrinkite du ar tris rezultato dokumentus
Supakuokite anonimizuotus dokumentus duomenų subjekto atsakymui
Pridėkite audito ataskaitą prie DSAR bylos įrašo

1 žingsnis (rankinis rinkimas) vis dar yra pagrindinis laiko sąnaudas. 2–8 žingsniai užtrunka mažiau nei 10 minučių tipinei partijai. 5 žingsnio audito ataskaita atitinka BDAR atskaitomybės principą.

anonym.legal tvarko DOCX, PDF, XLSX, CSV ir JSON. Kiekvienas failas naudoja tą pačią išankstinę nuostatą. Viena audito ataskaita apima partiją.

Šaltiniai

Susiję Straipsniai

Techninė

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

Pradėti Nemokamą Bandomąją Versiją Peržiūrėti Funkcijas

Dokumentų formatų fragmentacija PII anonimizavimo įrankiuose

Kelių formatų problema PII atitikties srityje

Kodėl atsiranda fragmentacija

Kiekvienam formatui būdingi techniniai iššūkiai

PDF

Word (DOCX)

Excel (XLSX)

CSV

JSON

Nenuoseklumas yra teisinė rizika

Argumentas dėl nuoseklaus standarto

Mišrių formatų rinkinių paketinis apdorojimas

Suvienodintų konveijų žinomos ribos

Praktinis DSAR darbo eigos

Šaltiniai

Susiję Straipsniai

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pasiruošę apsaugoti savo duomenis?

Dokumentų formatų fragmentacija PII anonimizavimo įrankiuose

Kelių formatų problema PII atitikties srityje

Kodėl atsiranda fragmentacija

Kiekvienam formatui būdingi techniniai iššūkiai

PDF

Word (DOCX)

Excel (XLSX)

CSV

JSON

Nenuoseklumas yra teisinė rizika

Argumentas dėl nuoseklaus standarto

Mišrių formatų rinkinių paketinis apdorojimas

Suvienodintų konveijų žinomos ribos

Praktinis DSAR darbo eigos

Šaltiniai

Susiję Straipsniai

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pasiruošę apsaugoti savo duomenis?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow