anonym.legal

By · Last updated 2026-06-05

Înapoi la BlogTehnic

Fragmentarea formatelor de documente în instrumentele PII

Un răspuns DSAR poate cuprinde contracte Word, facturi PDF, liste de clienți Excel și exporturi CSV. Utilizarea unor instrumente diferite pentru fiecare format creează lacune de conformitate.

June 5, 20267 min citire
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Problema multi-format în conformitatea PII

Actualizat pentru 2026

Întrebați un ofițer de conformitate ce formate anonimizează pentru răspunsurile DSAR. Lista este întotdeauna aceeași: contracte Word, facturi PDF, date despre clienți în Excel, exporturi CSV și jurnale JSON.

Apoi întrebați ce instrumente utilizează. Răspunsul este de obicei trei până la cinci. Fiecare instrument are o acoperire diferită a entităților. Fiecare are setări diferite. Fiecare produce un jurnal de audit diferit.

Acesta este fragmentarea formatului. Ea creează lacune reale de conformitate.

De ce apare fragmentarea

Niciun instrument unic nu a gestionat toate formatele de producție la aceeași calitate. Au apărut instrumente specializate pentru fiecare format. Unul pentru PDF-uri. Unul pentru foi de calcul. O macrocomandă pentru CSV. Fiecare are propria listă de entități. Niciuna nu partajează un jurnal de audit.

Rezultatul este previzibil. Un răspuns DSAR acoperă mai multe tipuri de fișiere. Mai multe instrumente îl procesează. Fiecare instrument utilizează standarde diferite. Entitatea X este identificată în PDF, dar omisă în fișierul Excel. Auditurile DPA expun această inconsistență.

Provocări tehnice specifice formatului

Fiecare format creează propriile sale probleme de detectare.

PDF

PDF-urile vin în două tipuri: text nativ și scanuri pe bază de imagini. PDF-urile scanate necesită mai întâi OCR. OCR introduce erori. PDF-urile native stochează adesea fiecare cuvânt ca un obiect text separat. Aceasta întrerupe detectarea entităților la granițele cuvintelor. Aspectele cu mai multe coloane necesită reconstrucția ordinii de citire înainte ca analiza să poată începe.

Word (DOCX)

Fișierele DOCX conțin text în XML. Dar și în anteturi, subsoluri, comentarii, modificări urmărite și casete de text. O adresă din antetul paginii este date cu caracter personal. Majoritatea instrumentelor o ratează. Modificările urmărite pot conține date cu caracter personal șterse. Acel text este invizibil în vizualizarea redată, dar prezent în fișier.

Excel (XLSX)

Excel stochează date cu caracter personal în orice celulă din sute de coloane și mii de rânduri. Antetele de coloană precum „CNP” sau „Email” oferă context pe care modelele NER îl ratează din textul brut. Datele și CNP-urile sunt adesea stocate ca numere. Câmpurile de text liber precum „note manager” conțin date cu caracter personal nestructurate. Instrumentele bazate pe coloane omit acele câmpuri.

CSV

CSV nu are structura Excel. Câmpurile de text liber din coloanele „note” amestecă date cu caracter personal cu alt conținut. Problemele de codare — UTF-8 față de Latin-1 — cauzează eșecuri pentru caracterele non-ASCII în numele și adresele europene.

JSON

JSON-ul imbricat îngropă adânc datele cu caracter personal: user.address.street.line1. Array-urile necesită iterație. Același nume de câmp poate conține tipuri de date diferite în obiecte diferite. Detectarea bună necesită conștientizarea schemei și analiza conținutului împreună.

Inconsistența reprezintă un risc juridic

Iată un scenariu concret de GDPR DSAR.

O persoană vizată solicită toate datele cu caracter personal deținute despre ea. Echipa de conformitate găsește aceste fișiere:

  • 3 documente Word (contracte, corespondență).
  • 2 documente PDF (facturi, transcrieri de suport).
  • 1 foaie de calcul Excel (date cont client).
  • 1 export CSV (jurnale de acces la sistem).

Utilizează Instrumentul A pentru PDF-uri. Instrumentul B pentru Word. O macrocomandă pentru XLSX. Revizuire manuală pentru CSV. Fiecare instrument are o acoperire diferită a entităților.

Persoana vizată primește pachetul anonimizat. Coloana „note manager” din Excel nu a fost procesată. Adresa din antetul documentului Word a fost omisă. Ambele conțin date cu caracter personal pe care persoana vizată a solicitat să fie anonimizate.

Conform Articolului 15 GDPR (dreptul de acces) sau Articolului 17 (dreptul la ștergere), acesta este un răspuns DSAR incomplet. Dacă persoana vizată sau un regulator descoperă lacuna, instrumentarea inconsistentă este un factor contribuitor documentat.

Argumentul pentru un standard consistent

Conformitatea DSAR solidă nu enumeră doar tipurile de date cu caracter personal de anonimizat. Necesită același standard pentru fiecare format din setul de răspunsuri.

Aceasta înseamnă:

  • Aceleași tipuri de entități verificate în Word, PDF, Excel, CSV și JSON.
  • Aceleași praguri de încredere aplicate tuturor fișierelor.
  • Aceleași token-uri de înlocuire utilizate. Dacă „Ion Popescu” apare în trei documente, un singur token înlocuiește numele în toate trei.
  • Un jurnal de audit unic care acoperă toate formatele.

O soluție cu platformă unică face acest lucru posibil prin preset-uri. Un preset „DSAR Persoane Fizice UE” verifică aceleași 32 de tipuri de entități. Rulează pe un contract PDF, o înregistrare Excel și un jurnal CSV. Același motor procesează toate trei.

Pentru mai multe informații despre cum funcționează preset-urile în lucrările batch, consultați ghidul nostru despre procesarea batch GDPR DSAR la scară.

Procesarea batch a seturilor cu formate mixte

Conformitatea DSAR la scară înseamnă procesarea dosarelor cu formate mixte ca unitate.

Intrare: Un dosar cu 15 fișiere — PDF-uri, DOCX, XLSX, CSV — reprezentând toate datele deținute pentru o persoană vizată.

Pași de procesare:

  • Detectarea formatului fiecărui fișier.
  • Aplicarea analizorului potrivit. Extragerea textului PDF. Analizarea XML DOCX. Iterarea celulelor XLSX. Analizarea câmpurilor CSV.
  • Rularea aceluiași pipeline NLP pe textul extras din toate fișierele.
  • Aplicarea aceluiași preset pentru fiecare fișier din lot.
  • Utilizarea unui pool de token-uri partajat. Același nume primește același token de înlocuire în toate cele 15 fișiere.

Ieșire:

  • Versiuni anonimizate ale tuturor celor 15 fișiere în formatele lor originale.
  • Un raport de audit cross-format. Arată fiecare entitate detectată, documentul sursă, scorul de încredere și acțiunea întreprinsă.

Acel raport de audit este documentul de conformitate. Dovedește că toate cele 15 fișiere au fost procesate cu același standard. Pentru un audit DPA, acesta este mult mai solid decât instrumentarea fragmentată.

Articol conex: prevenirea PII în timp real pentru scurgeri de date AI.

Limitele cunoscute ale pipeline-urilor unificate

Unificarea formatelor rezolvă fragmentarea. Dar introduce propriile constrângeri.

Fidelitatea conversiei: Convertirea DOCX într-un format de procesare și înapoi poate pierde istoricul modificărilor urmărite sau poate corupe obiectele încorporate. Documentele juridice necesită validare suplimentară după procesare.

Întreținere per format: Recunoaștoarele de entități pentru CSV diferă de cele pentru formulare scanate. Un pipeline „unificat” necesită totuși preprocesare per format. Acea preprocesare necesită actualizări pe măsură ce formatele evoluează.

Acuratețe pe formate neobișnuite: Cele mai multe modele NLP se antrenează pe text web și documente office comune. Formatele vechi — fișiere EDI vechi, scheme XML personalizate, metadate CAD — produc adesea acuratețe mai slabă decât sugerează referințele.

Formate nereconstruibile: Unele tipuri de PDF și fișiere numai imagine nu pot fi anonimizate la locul lor. Necesită redactare vizuală. Redactarea vizuală distruge structura lizibilă de mașină. Dacă aveți nevoie de căutare sau indexare post-anonimizare, acest lucru poate fi insuficient.

Flux de lucru practic DSAR

Pentru echipele de conformitate cu volume regulate DSAR:

  1. Colectați toate documentele pentru persoana vizată
  2. Creați un lot DSAR — trageți toate fișierele înăuntru, indiferent de format
  3. Selectați preset-ul „DSAR Persoane Fizice UE”
  4. Rulați lotul
  5. Descărcați ieșirile anonimizate și raportul de audit consolidat
  6. Verificați spot două sau trei documente din ieșire
  7. Pregătiți documentele anonimizate pentru răspunsul la DSAR
  8. Atașați raportul de audit la dosarul cazului DSAR

Pasul 1 (colectarea manuală) este principalul cost de timp. Pașii 2 până la 8 durează sub 10 minute pentru un lot tipic. Raportul de audit de la pasul 5 satisface principiul responsabilității GDPR.


anonym.legal gestionează DOCX, PDF, XLSX, CSV și JSON. Fiecare fișier utilizează același preset. Un singur raport de audit acoperă lotul.

Surse

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.