By · Last updated 2026-06-05

Tornar al BlogTècnic

Fragmentacio de formats de documents en eines de dades personals

Una sola resposta a una DSAR pot abastar contractes Word, factures PDF, llistes de clients Excel i exportacions CSV. Usar eines diferents per a cada format crea buits de compliment.

June 5, 20267 min llegit
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

El problema multiformat en el compliment de la proteccio de dades

Actualitzat per al 2026

Pregunteu a un responsable de compliment quins formats anonimitza per a les respostes DSAR. La llista es sempre la mateixa: contractes Word, factures PDF, dades de clients Excel, exportacions CSV i registres JSON.

Llavors pregunteu quines eines utilitza. La resposta sol ser tres o cinc. Cada eina te una cobertura d'entitats diferent. Cada una te configuracions diferents. Cada una produeix un registre d'auditoria diferent.

Aixo es la fragmentacio de formats. I crea bretlles de compliment reals.

Per que es produeix la fragmentacio

Cap eina unica ha gestionat tots els formats de produccio amb la mateixa qualitat. Van sorgir eines especialitzades per a cada format. Una per a PDF. Una per a fulls de calcul. Una macro per a CSV. Cada una te la seva propia llista d'entitats. Cap comparteix un rastre d'auditoria.

El resultat es previsible. Una resposta DSAR abasta diversos tipus de fitxer. Diverses eines la processen. Cada eina usa estandards diferents. L'entitat X es detecta al PDF pero s'omet al fitxer Excel. Les auditories de l'autoritat de proteccio de dades exposen aquesta inconsistència.

Desafiaments tècnics especifics per format

Cada format crea els seus propis problemes de deteccio.

PDF

Els PDF es presenten en dos tipus: text natiu i escanejats com a imatge. Els PDF escanejats necessiten OCR primer. L'OCR introdueix errors. Els PDF natius sovint emmagatzemen cada paraula com un objecte de text separat. Aixo trenca la deteccio d'entitats entre els limits de les paraules. Els dissenys de diverses columnes necessiten una reconstruccio de l'ordre de lectura abans que pugui comenar l'analisi.

Word (DOCX)

Els fitxers DOCX contenen text en XML. Pero tambe en capaleres, peus de pagina, comentaris, control de canvis i quadres de text. Una adreca al membret de la pagina es una dada personal. La majoria de les eines l'ometen. El control de canvis pot contenir dades personals eliminades. Aquest text es invisible a la vista renderitzada pero present al fitxer.

Excel (XLSX)

Excel emmagatzema dades personals en qualsevol cel·la de centenars de columnes i milers de files. Les capaleres de columna com "NSS" o "Correu" proporcionen context que els models NER no capten del text pla. Les dates i els numeros de la seguretat social sovint s'emmagatzemen com a numeros. Els camps de text lliure com "notes del responsable" contenen dades personals no estructurades. Les eines basades en columnes ometen aquests camps.

CSV

El CSV manca de l'estructura de l'Excel. Els camps de text lliure en columnes de "notes" barregen dades personals amb altre contingut. Els problemes de codificacio --UTF-8 versus Latin-1-- causen errors en caracters no ASCII en noms i adreces europees.

JSON

El JSON niuat enterra les dades personals en profunditat: user.address.street.line1. Els arrays necessiten iteracio. El mateix nom de camp pot contenir tipus de dades diferents en objectes diferents. Una bona deteccio necessita consciència de l'esquema i analisi de contingut conjuntament.

Aqui teniu un escenari concret d'una DSAR del RGPD.

Un interessat sol·licita totes les dades personals que es conserven sobre ell. L'equip de compliment troba aquests fitxers:

  • 3 documents Word (contractes, correspondència).
  • 2 documents PDF (factures, transcripcions d'atencio al client).
  • 1 full de calcul Excel (dades del compte de client).
  • 1 exportacio CSV (registres d'acces al sistema).

Utilitzen l'Eina A per a PDF. L'Eina B per a Word. Una macro per a XLSX. Revisio manual per a CSV. Cada eina te una cobertura d'entitats diferent.

L'interessat rep el paquet anonimitzat. La columna de "notes del responsable" d'Excel no s'ha processat. L'adreca del membret de Word s'ha passat per alt. Totes dues contenen dades personals que l'interessat havia demanat que s'anonimitzessin.

En virtut de l'Article 15 del RGPD (dret d'acces) o l'Article 17 (dret de supressio), aixo es una resposta DSAR incompleta. Si l'interessat o un regulador detecta la bretlla, l'us d'eines inconsistents es un factor contribuent documentat.

L'argument a favor d'un estandard consistent

Un fort compliment de les DSAR no nomes enumera quins tipus de dades personals cal anonimitzar. Requereix el mateix estandard en tots els formats del conjunt de resposta.

Aixo significa:

  • Els mateixos tipus d'entitats comprovats en Word, PDF, Excel, CSV i JSON.
  • Els mateixos llindars de confianca aplicats a tots els fitxers.
  • Els mateixos tokens de substitucio utilitzats. Si "Joan Garcia" apareix en tres documents, un sol token substitueix el nom en tots tres.
  • Un unic rastre d'auditoria que cobreixi tots els formats.

Una solucio de plataforma unica ho fa possible mitjancant presets. Un preset de "DSAR UE Persones Fisiques" comprova els mateixos 32 tipus d'entitats. S'executa en un contracte PDF, un registre Excel i un registre CSV. El mateix motor processa els tres.

Per obtenir mes informacio sobre com funcionen els presets en treballs per lots, consulteu la nostra guia sobre el processament per lots de DSAR del RGPD a escala.

Processament per lots de conjunts de formats mixtos

El compliment de les DSAR a escala implica processar carpetes de formats mixtos com una unitat.

Entrada: Una carpeta amb 15 fitxers --PDF, DOCX, XLSX, CSV-- que representen totes les dades conservades d'un interessat.

Passos de processament:

  • Detectar el format de cada fitxer.
  • Aplicar l'analitzador adequat. Extraccio de text PDF. Analisi XML de DOCX. Iteracio de cel·les XLSX. Analisi de camps CSV.
  • Executar el mateix pipeline de PLN sobre el text extret de tots els fitxers.
  • Aplicar el mateix preset a cada fitxer del lot.
  • Usar un conjunt de tokens compartit. El mateix nom obte el mateix token de substitucio en tots els 15 fitxers.

Sortida:

  • Versions anonimitzades dels 15 fitxers en els seus formats originals.
  • Un informe d'auditoria multiformat. Mostra cada entitat detectada, el seu document d'origen, la seva puntuacio de confianca i l'accio presa.

Aquest informe d'auditoria es el document de compliment. Demostra que els 15 fitxers s'han processat amb el mateix estandard. Per a una auditoria de l'autoritat de proteccio de dades, aixo es molt mes solid que eines fragmentades.

Relacionat: prevencio de filtracions de dades personals en temps real per a fuites de dades d'IA.

Limitacions conegudes dels pipelines unificats

La unificacio de formats resol la fragmentacio. Pero introdueix les seves propies limitacions.

Fidelitat de conversio: Convertir DOCX a un format de processament i tornar-lo a convertir pot perdre l'historial de control de canvis o corrompre objectes incrustats. Els documents legals necessiten una validacio addicional despres del processament.

Manteniment per format: Els reconeixedors d'entitats per a CSV difereixen dels de formularis escanejats. Un pipeline "unificat" segueix necessitant preprocessament per format. Aquest preprocessament necessita actualitzacions a mesura que els formats evolucionen.

Precisio en formats poc habituals: La majoria dels models de PLN s'entrenen amb text web i documents d'oficina habituals. Els formats llegats --fitxers EDI antics, esquemes XML personalitzats, metadades CAD-- sovint produeixen una precisio pitjor que la que suggereixen els punts de referència.

Formats no reconstruibles: Alguns tipus de PDF i fitxers nomes d'imatge no es poden anonimitzar in situ. Necessiten redaccio visual. La redaccio visual destrueix l'estructura llegible per maquina. Si necessiteu cerques o indexacio despres de l'anonimitzacio, aixo pot resultar insuficient.

Flux de treball practic per a DSAR

Per a equips de compliment amb volums regulars de DSAR:

  1. Recolliu tots els documents de l'interessat
  2. Creeu un lot DSAR: arrossegueu tots els fitxers, independentment del format
  3. Seleccioneu el preset "DSAR UE Persones Fisiques"
  4. Executeu el lot
  5. Descarregueu les sortides anonimitzades i l'informe d'auditoria consolidat
  6. Verifiqueu dos o tres documents de la sortida
  7. Empaqueteu els documents anonimitzats per a la resposta a l'interessat
  8. Adjunteu l'informe d'auditoria al registre del cas DSAR

El pas 1 (recopilacio manual) continua sent el principal cost de temps. Els passos del 2 al 8 triguen menys de 10 minuts per a un lot tipic. L'informe d'auditoria del pas 5 satisfa el principi de responsabilitat proactiva del RGPD.


anonym.legal gestiona DOCX, PDF, XLSX, CSV i JSON. Cada fitxer usa el mateix preset. Un informe d'auditoria cobreix el lot.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.