By · Last updated 2026-06-05

Rudi kwa BlogKitaalamu

Mgawanyiko wa Muundo wa Hati katika Zana za PII

Jibu moja la DSAR linaweza kujumuisha mikataba ya Word, ankara za PDF, orodha za wateja wa Excel, na maudhui ya CSV. Kutumia zana tofauti kwa kila muundo kunasababisha pengo la uthabiti ambalo linaweza kufichuliwa na ukaguzi wa DPA.

June 5, 20267 dakika kusoma
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Tatizo la Miundo Mingi katika Uzingatiaji wa PII

Imesasishwa kwa mwaka 2026

Uliza afisa wa uzingatiaji muundo gani wanaoficha kwa majibu ya DSAR. Orodha ni sawa kila wakati: mikataba ya Word, ankara za PDF, data ya wateja ya Excel, maudhui ya CSV, na kumbukumbu za JSON.

Kisha uulize zana wanazotumia. Jibu kawaida ni tatu hadi tano. Kila zana ina uangalizi tofauti wa enti. Kila moja ina mipangilio tofauti. Kila moja inazalisha kumbukumbu tofauti ya ukaguzi.

Hii ni mgawanyiko wa muundo. Unasababisha mapengo ya kweli ya uzingatiaji.

Kwa Nini Mgawanyiko Hutokea

Hakuna zana moja iliyoshughulikia kila muundo wa uzalishaji kwa ubora sawa. Zana maalum ziliibuka kwa kila muundo. Moja kwa PDF. Moja kwa lahajedwali. Mkraba kwa CSV. Kila moja ina orodha yake ya enti. Hakuna zinazoshiriki njia ya ukaguzi.

Matokeo yanatabirika. Jibu la DSAR linahusisha aina nyingi za faili. Zana nyingi zinashughulikia. Kila zana inatumia viwango tofauti. Enti X inapatikana katika PDF lakini haigunduliki katika faili ya Excel. Ukaguzi wa DPA hufunua kutofautiana huku.

Changamoto za Kiufundi Maalum za Muundo

Kila muundo husababisha matatizo yake ya ugunduzi.

PDF

PDF zinakuja katika aina mbili: maandishi ya asili na skanzi zinazotokana na picha. PDF zilizoskaniwa zinahitaji OCR kwanza. OCR huingiza makosa. PDF za asili mara nyingi huhifadhi kila neno kama kitu tofauti cha maandishi. Hii huvunja ugunduzi wa enti katika mipaka ya neno. Mipangilio ya safu nyingi inahitaji ujenzi upya wa mpangilio wa kusoma kabla uchambuzi kuanza.

Word (DOCX)

Faili za DOCX huhifadhi maandishi katika XML. Lakini pia katika vichwa vya kurasa, miguu ya kurasa, maoni, mabadiliko yaliyofuatiliwa, na sanduku za maandishi. Anwani ya kichwa cha ukurasa katika kichwa cha ukurasa ni PII. Zana nyingi haziioni. Mabadiliko yaliyofuatiliwa yanaweza kushikilia PII iliyofutwa. Maandishi hayo hayaonekani katika mwonekano uliotengenezwa lakini yako katika faili.

Excel (XLSX)

Excel huhifadhi PII katika seli yoyote katika safu mia kadhaa na mistari maelfu. Vichwa vya safu kama "SSN" au "Barua pepe" hutoa muktadha ambao mifano ya NER haipati kutoka maandishi ya kawaida. Tarehe na SSN mara nyingi huhifadhiwa kama nambari. Sehemu za maandishi huru kama "maelezo ya msimamizi" hushikilia PII isiyopangwa. Zana zinazotegemea safu zinapuuza sehemu hizo.

CSV

CSV haikuwa na muundo wa Excel. Sehemu za maandishi huru katika safu za "maelezo" zinachanganya PII na maudhui mengine. Matatizo ya usimbaji — UTF-8 dhidi ya Latin-1 — husababisha kushindwa kwa herufi zisizo za ASCII katika majina na anwani za Ulaya.

JSON

JSON iliyopachikwa huzika PII kwa kina: `user.address.street.line1`. Safu zinahitaji ufuatiliaji. Jina la sehemu lile lile linaweza kushikilia aina tofauti za data katika vitu tofauti. Ugunduzi mzuri unahitaji ufahamu wa muundo na uchambuzi wa maudhui pamoja.

Kutofautiana Ni Hatari ya Kisheria

Hapa kuna hali halisi ya GDPR DSAR.

Mtu anayehusika na data anaomba data yote ya kibinafsi inayomhusu. Timu ya uzingatiaji inapata faili hizi:

  • Hati 3 za Word (mikataba, mawasiliano).
  • Hati 2 za PDF (ankara, nakala za msaada).
  • Lahajedwali 1 la Excel (data ya akaunti ya mteja).
  • Maudhui 1 ya CSV (kumbukumbu za ufikiaji wa mfumo).

Wanatumia Zana A kwa PDF. Zana B kwa Word. Mkraba kwa XLSX. Ukaguzi wa mkono kwa CSV. Kila zana ina uangalizi tofauti wa enti.

Mtu anayehusika na data anapata kifurushi kilichofutwa. Safu ya "maelezo ya msimamizi" ya Excel haikushughulikiwa. Anwani ya kichwa cha ukurasa wa Word iliachwa. Zote mbili zina PII ambayo mtu anayehusika na data aliomba ifitiwe.

Chini ya Kifungu cha 15 cha GDPR (haki ya ufikiaji) au Kifungu cha 17 (haki ya kufutwa), hii ni jibu lisilo kamili la DSAR. Ikiwa mtu anayehusika na data au msimamizi ataona pengo, zana tofauti zinazotumika ni sababu inayochangia iliyoandikwa.

Hoja ya Kiwango Thabiti

Uzingatiaji mzuri wa DSAR haorodeshi tu aina za PII za kufuta. Unahitaji kiwango sawa katika kila muundo katika seti ya jibu.

Hiyo inamaanisha:

  • Aina sawa za enti zinazokaguliwa katika Word, PDF, Excel, CSV, na JSON.
  • Vizingiti sawa vya ujasiri vinavyotumika kwa faili zote.
  • Tokeni sawa za uingizwaji zinazotumika. Ikiwa "John Smith" anaonekana katika hati tatu, tokeni moja inabadilisha jina katika zote tatu.
  • Njia moja ya ukaguzi inayohusisha miundo yote.

Suluhisho la jukwaa moja hufanya hili liwezekane kupitia viweko. Kiweko kimoja cha "DSAR EU Individuals" hukagua aina 32 sawa za enti. Kinafanya kazi kwenye mkataba wa PDF, rekodi ya Excel, na kumbukumbu ya CSV. Injini sawa inashughulikia zote tatu.

Kwa habari zaidi kuhusu jinsi viweko vinavyofanya kazi katika kazi za kundi, angalia mwongozo wetu wa usindikaji wa kundi la GDPR DSAR kwa kiwango.

Usindikaji wa Kundi la Seti za Miundo Mchanganyiko

Uzingatiaji wa DSAR kwa kiwango unamaanisha kushughulikia folda za miundo mchanganyiko kama kitengo.

Ingizo: Folda yenye faili 15 — PDF, DOCX, XLSX, CSV — zinazowakilisha data yote inayoshikiliwa kwa mtu mmoja anayehusika na data.

Hatua za usindikaji:

  • Gundua muundo wa kila faili.
  • Tumia mchanganuo sahihi. Uokoaji wa maandishi ya PDF. Uchanganuzi wa XML wa DOCX. Ufuatiliaji wa seli za XLSX. Uchanganuzi wa sehemu za CSV.
  • Endesha mfululizo sawa wa NLP kwenye maandishi yaliyookolewa kutoka faili zote.
  • Tumia kiweko sawa kwa kila faili katika kundi.
  • Tumia dimbwi la tokeni zilizoshirikishwa. Jina lile lile hupata tokeni ile ile ya uingizwaji katika faili zote 15.

Matokeo:

  • Matoleo yaliyofutwa ya faili zote 15 katika miundo yao ya asili.
  • Ripoti moja ya ukaguzi wa miundo yote. Inaonyesha kila enti iliyogunduliwa, hati yake ya chanzo, alama yake ya ujasiri, na hatua iliyochukuliwa.

Ripoti hiyo ya ukaguzi ndiyo hati ya uzingatiaji. Inathibitisha faili zote 15 zilishughulikiwa kwa kiwango sawa. Kwa ukaguzi wa DPA, hii ni nguvu zaidi kuliko zana tofauti.

Kuhusiana: kuzuia PII kwa wakati halisi kwa uvujaji wa data ya AI.

Mipaka Inayojulikana ya Mifululizo Iliyounganishwa

Muunganisho wa muundo hutatua mgawanyiko. Lakini unaleta vikwazo vyake.

Uaminifu wa ubadilishaji: Kubadilisha DOCX hadi muundo wa usindikaji na kurudi kunaweza kupoteza historia ya mabadiliko yaliyofuatiliwa au kuharibu vitu vilivyowekwa. Hati za kisheria zinahitaji uthibitishaji wa ziada baada ya usindikaji.

Matengenezo ya kila muundo: Vitambulizi vya enti kwa CSV vinatofautiana na vile vya fomu zilizoskaniwa. Mfululizo "uliyounganishwa" bado unahitaji uandaaji wa awali kwa kila muundo. Uandaaji huo unahitaji masasisho muundo unavyobadilika.

Usahihi kwenye miundo isiyozoeleka: Mifano mingi ya NLP hufunzwa kwenye maandishi ya wavuti na hati za ofisi za kawaida. Miundo ya zamani — faili za EDI za zamani, mipangilio ya XML maalum, metadata ya CAD — mara nyingi hutoa usahihi mbaya zaidi kuliko vipimo vinavyopendekeza.

Miundo isiyoweza kurejeshwa: Baadhi ya aina za PDF na faili za picha peke yake haiwezi kufutwa mahali pake. Zinahitaji kufuta kwa kuona. Kufuta kwa kuona kunaharibu muundo unaosomeka na mashine. Ikiwa unahitaji utafutaji au orodha baada ya kufuta, hii inaweza kutosheleza.

Mtiririko wa Kazi wa DSAR wa Vitendo

Kwa timu za uzingatiaji zenye mtiririko wa kawaida wa DSAR:

  1. Kusanya hati zote kwa mtu anayehusika na data
  2. Unda kundi la DSAR — buruta faili zote ndani, bila kujali muundo
  3. Chagua kiweko cha "DSAR EU Individuals"
  4. Endesha kundi
  5. Pakua matokeo yaliyofutwa na ripoti iliyounganishwa ya ukaguzi
  6. Angalia sampuli ya hati mbili au tatu kutoka matokeo
  7. Panga hati zilizofutwa kwa jibu la mtu anayehusika na data
  8. Ambatisha ripoti ya ukaguzi kwenye rekodi ya kesi ya DSAR

Hatua ya 1 (mkusanyiko wa mkono) bado ndiyo gharama kuu ya muda. Hatua 2 hadi 8 zinachukua chini ya dakika 10 kwa kundi la kawaida. Ripoti ya ukaguzi kutoka hatua ya 5 inakidhi kanuni ya uwajibikaji ya GDPR.


anonym.legal inashughulikia DOCX, PDF, XLSX, CSV, na JSON. Kila faili inatumia kiweko kimoja. Ripoti moja ya ukaguzi inashughulikia kundi.

Vyanzo

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.