By · Last updated 2026-06-05

Itzuli BlogeraTeknikoa

Dokumentuen Formatuen Zatiketa PII Tresnan

DSAR erantzun bakarrak Word kontratuak, PDF fakturak, Excel bezeroen zerrendak eta CSV esportazioak biltzen ditu. Formatu bakoitzerako tresna ezberdinak erabiltzeak hutsuak sortzen ditu.

June 5, 20267 min irakurri
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Formatu Anitzen Arazoa PII Betetzean

2026rako eguneratua

Galdetu betetze-ofiziari DSAR erantzunetarako zein formatu anonimizatzen dituzten. Zerrenda beti bera izaten da: Word kontratuak, PDF fakturak, Excel bezero-datuak, CSV esportazioak eta JSON erregistroak.

Gero galdetu zein tresna erabiltzen dituzten. Erantzuna normalean hiru eta bost artekoa izaten da. Tresna bakoitzak entitate-estaldura ezberdina du. Bakoitzak ezarpen ezberdinak ditu. Bakoitzak ikuskatze-erregistro ezberdina sortzen du.

Hau da formatu-zatiketa. Betetze-hutsune errealak sortzen ditu.

Zergatik Gertatzen Den Zatiketa

Tresna bakarrik ez du formatu guztiak kalitate berdinarekin kudeatu. Tresna espezializatuak formatu bakoitzarentzat sortu ziren. Bat PDFentzat. Beste bat kalkulu-orriendako. Makro bat CSVrako. Bakoitzak bere entitate-zerrenda du. Inork ez dute ikuskatze-arrastoa partekatzen.

Emaitza aurreikusgarria da. DSAR erantzunak fitxategi-mota anitzak hartzen ditu. Tresna anitzek prozesatzen dute. Tresna bakoitzak estandar ezberdinak erabiltzen ditu. X entitatea PDFan harrapatzen da baina Excel fitxategian galtzen da. DPA ikuskatzeek inkoherentzia hau agerian uzten dute.

Formatuaren Araberako Arazo Teknikoak

Formatu bakoitzak bere detekzio-arazoak sortzen ditu.

PDF

PDFak bi motatan datoz: jatorrizko testua eta irudiak. Eskaneaturiko PDFek OCR behar dute lehenik. OCRek akatsak sartzen ditu. Jatorrizko PDFek hitz bakoitza testu-objektu bereizi gisa gordetzen dute. Horrek entitate-detekzioa hitzen muga-tarteetan hausten du. Zutabe anitzeko diseinuek irakurketa-ordena berreraiki behar dute analisiak hasi aurretik.

Word (DOCX)

DOCX fitxategiek testua XMLan gordetzen dute. Baina goiburuan, oinean, iruzkinen, jarraitutako aldaketen eta testu-kaxetan ere. Orriaren goiburuko gutun-paper helbidea PII da. Tresna gehienek galtzen dute. Jarraitutako aldaketek ezabatutako PII eduki dezakete. Testu hori bistaratzean ikusezina da baina fitxategian presente dago.

Excel (XLSX)

Excelek PII gordetzen du ehunka zutabetan eta milaka errenkadatan edozein gelaxkatan. "SSN" edo "Posta elektronikoa" bezalako zutabe-goiburiek NER modeloek testu gordinean galtzen duten testuingurua ematen dute. Datak eta SSNak zenbaki gisa gordetzen dira askotan. "Kudeatzaileen oharrak" bezalako testu askeko eremuek egituratu gabeko PII dute. Zutabetan oinarritutako tresnak eremu horiek saltzen dituzte.

CSV

CSVk Excel-en egitura du gabe. "Oharrak" zutabeetako testu askeko eremuek PII eta beste edukia nahasten dute. Kodeketa-arazoak -- UTF-8 versus Latin-1 -- Europako izen eta helbideetako ASCII ez diren karaktereentzako hutsegiteak eragiten dituzte.

JSON

JSON habiaratutako JSONek PII sakon ezkutatzen du: user.address.street.line1. Matrizeek iterazioa behar dute. Izen-eremu berak datu-mota ezberdinak eduki ditzake objektu ezberdinetan. Detekzio onak eskema-kontzientzia eta eduki-analisia batera behar ditu.

Inkoherentzia Arrisku Juridiko Bat Da

Hona GDPR DSAR eszenatoki zehatza.

Datu-subjektu batek eurei buruz gordetako datu pertsonal guztiak eskatzen ditu. Betetze-taldeak fitxategi hauek aurkitzen ditu:

  • 3 Word agiri (kontratuak, korrespondentziak).
  • 2 PDF agiri (fakturak, laguntza-transkribiketak).
  • 1 Excel kalkulu-orri (bezero-kontuaren datuak).
  • 1 CSV esportazio (sistema-sarbide erregistroak).

A tresna erabiltzen dute PDFentzat. B tresna Wordentzat. Makro bat XLSXrako. Eskuzko berrikuspena CSVrako. Tresna bakoitzak entitate-estaldura ezberdina du.

Datu-subjektuak pakete anonimizatua jasotzen du. Excelek "kudeatzaileen oharrak" zutabea ez zen prozesatu. Word-en gutun-paper helbidea galdu egin zen. Biek datu-subjektuak anonimizatzea eskatu zuen PII daukate.

GDPR 15. artikuluaren (sarbide eskubidea) edo 17. artikuluaren (ezabatze eskubidea) arabera, hau DSAR erantzun ez-osoa da. Datu-subjektuak edo arautzaileak hutsa aurkitzen badu, tresna inkoherentea dokumentatutako faktorea da.

Estandar Koherentea Izatearen Argudioa

DSAR betetze sendoak ez du soilik zein PII mota anonimizatu zerrenda. Erantzun-multzoaren formatu guztietan estandar bera eskatzen du.

Horrek esan nahi du:

  • Word, PDF, Excel, CSV eta JSONan egiaztatutako entitate-mota berdinak.
  • Fitxategi guztiei aplikatutako konfiantza-atalase berak.
  • Ordezkatze-token berak erabili. "John Smith" hiru agiritan agertzen bada, token bakarrak izen hori ordezkatu behar du hiruretan.
  • Formatu guztiak estaltzen dituen ikuskatze-arrastoa bakarra.

Plataforma bakarreko soluzio batek honekin posiblea egiten du aurre-ezarpen bidez. DSAR EU Indibidualak aurre-ezarpen bakarrak 32 entitate-mota berdinak egiaztatzen ditu. PDF kontratu, Excel erregistro eta CSV erregistroan dabil. Motor berberak hirurak prozesatzen ditu.

Aurre-ezarpenek batch lanetan nola funtzionatzen duten gehiago jakiteko, ikusi gure gida GDPR DSAR batch prozesatzea eskalan.

Formatu Misto-Multzoaren Batch Prozesatzea

ESCALAN DSAR betetzeak formatu mistoko karpetak unitate gisa prozesatzea esan nahi du.

Sarrera: 15 fitxategidun karpeta bat -- PDFak, DOCX, XLSX, CSV -- datu-subjektu batentzat gordetako datu guztiak irudikatuz.

Prozesatze-urratsak:

  • Fitxategi bakoitzaren formatua detektatu.
  • Parser egokia aplikatu. PDF testu-erauzketa. DOCX XML analisia. XLSX gelaxka-iterazioa. CSV eremu-analisia.
  • NLP hodieria bera exekutatu fitxategi guztietatik ateratako testuan.
  • Aurre-ezarpen bera aplikatu batcheko fitxategi bakoitzari.
  • Token-multzo partekatua erabili. Izen bera ordezkatze-token beraz ordezkatzen da 15 fitxategietan.

Irteera:

  • 15 fitxategi guztien bertsio anonimizatuak beren jatorrizko formatuetan.
  • Formatu guztiak estaltzen dituen ikuskatze-txosten bat. Detektatutako entitate bakoitza, bere iturri-agiria, konfiantza-puntuazioa eta hartutako ekintza erakusten ditu.

Ikuskatze-txosten hori betetze-agiria da. 15 fitxategi guztiak estandar berdinarekin prozesatu direla frogatzen du. DPA ikuskatze baterako, hau askoz sendoagoa da tresna zatikatu baten aldean.

Ikusi ere: denbora errealeko PII prebentzioa AI datu-ihesarentzat.

Hodieria Baturatuaren Muga Ezagunak

Formatu batasunak zatiketa konpontzen du. Baina bere mugak sartzen ditu.

Konbertsio-fideltasuna: DOCX prozesatze-formatu batera bihurtzeak eta atzera egiteak aldaketa-jarraipenaren historia galdu dezake edo txertatutako objektuak hondatu. Agiri juridikoek prozesatu osteko egiaztapen gehigarria behar dute.

Formatuaren araberako mantentzea: CSVrako entitate-ezagutzaileak eskaneaturiko inprimakietakoetatik ezberdinak dira. Hodieria "baturatu" batek oraindik formatuaren araberako aurre-prozesatzea behar du. Aurre-prozesatze horrek eguneraketak behar ditu formatuak eboluzionatu ahala.

Formatu ohikoak ez direnetan zehaztasuna: NLP eredu gehienek web-testuan eta epe-dokumentu ohikoetan entrenatzen dute. Formatu zaharrak -- EDI fitxategi zaharrak, XML eskema pertsonalizatuak, CAD metadatuak -- normalean benchmarken arabera adierazitako baino zehaztasun txikiagoa ekoizten dute.

Berreraikitzerik gabeko formatuak: Zenbait PDF mota eta irudi-bakarrek ezin dira lekuan bertan anonimizatu. Zerrenda-ezka bisual behar dute. Zerrenda-ezka bisu-alak makinak irakur daitekeen egitura suntsitzen du. Anonimizazioaren ondoren bilaketa edo indexazioa behar baduzu, hau motz gera daiteke.

DSAR Lan-Fluxu Praktikoa

DSAR bolumen erregularra duten betetze-taldeen-tzat:

  1. Datu-subjektuaren agiri guztiak bildu

  2. DSAR batcha sortu -- sartu fitxategi guztiak, formatua edozein dela ere

  3. Hautatu "DSAR EU Indibidualak" aurre-ezarpena

  4. Batacha exekutatu

  5. Deskargatu irteera anonimizatuak eta ikuskatze-txosten bateratua

  6. Bigarren mailako egiaztapena egin bi edo hiru agiritan

  7. Agiri anonimizatuak paketatu datu-subjektuaren erantzunerako

  8. Erantsi ikuskatze-txostena DSAR kasu-erregistroari

  9. urratsa (eskuzko bilketa) denbora-kostu nagusia da oraindik. 2. eta 8. urratsek hamar minutu baino gutxiago behar dute batch tipiko baterako. 5. urratseko ikuskatze-txostenak GDPR kontabilitate-printzipioa betetzen du.


anonym.legal DOCX, PDF, XLSX, CSV eta JSONrekin lan egiten du. Fitxategi bakoitzak aurre-ezarpen bera erabiltzen du. Ikuskatze-txosten bakarrak batcha estaltzen du.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.