By · Last updated 2026-06-04

Bumalik sa BlogTeknikal

Privacy na Maaaring Gawin Nang Paulit-ulit: Mga Preset para sa ML

Ang anonymization ng datos ng pagsasanay ng ML ay dapat na pare-pareho at maaaring gawin nang paulit-ulit. Kung ang mga data scientist na A at B ay mag-apply ng iba't ibang uri ng entity, ang mga dataset ng pagsasanay ay.

June 4, 20266 min basahin
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Privacy na Maaaring Gawin Nang Paulit-ulit: Bakit Kailangan ng mga ML Team ng mga Preset, Hindi Lamang mga Dokumento

Inaprubahan ng DPO ang plano sa anonymization. Sumasaklaw ito sa apat na aytem: mga pangalan, email, numero ng telepono, at mga petsa ng kapanganakan. Ang paraan ay Replace. Ang plano ay apat na pahina at nananatili sa compliance wiki.

Labindalawang data scientist ang nagbasa nito sa kickoff. Bawat isa ay nagse-setup ng tool sa kanilang sarili. Nagdagdag ang ilan ng mga national ID. Nagdagdag ang ilan ng mga IP address. Lumipat ang ilan sa Redact. Pagkalipas ng tatlong buwan, ang mga set ay hindi pare-pareho.

Sinuri ng CNIL ang ilang AI firm noong 2024. Ang isyu: hindi wastong paggamit ng mga personal na detalye sa mga set ng modelo. Hindi lamang nila tinanong kung nangyari ang anonymization. Tinanong nila kung gaano ito pare-pareho inilapat.

Kailangan ang mga dokumento. Hindi sapat ang mga ito. Ang solusyon ay ang preset.

Bakit Kailangan ng Sariling Config ang Mga Set ng Modelo ng ML

Ang pagtatayo ng mga set ng modelo ay may mga natatanging pangangailangan. Hindi ibinabahagi ng pangkalahatang anonymization ng dokumento ang mga ito.

Replace, hindi Redact. Ang mga modelo na sinanay sa teksto kung saan ang mga pangalan ay nagiging [REDACTED] ay natututo ng token na iyon bilang isang marker ng posisyon ng pangalan. Nakakasama ito sa modelo. Pinapalitan ng Replace ang "John Smith" ng "David Chen." Nakakakita ang modelo ng mga tunay na pattern ng pangalan. Hindi nito nakikita ang isang mask token.

Parehong proseso para sa lahat ng rekord. Ang isang set kung saan ang 70% ng mga pangalan ay pinalitan at ang 30% ay [REDACTED] ay nagpapadala ng halo-halong signal. Bawat rekord ay dapat dumaan sa parehong mga hakbang.

Parehong listahan ng entity. Kung ang set ay naglalaman ng mga detalye ng kalusugan, ang pag-alis ng mga pangalan ngunit pag-iwan ng mga petsa ng kapanganakan sa ilang rekord ay lumilikha ng mga gap. Lahat ng labindalawang data scientist ay dapat mag-alis ng parehong mga uri.

Walang labis na pag-alis. Ang pag-alis ng mga petsa na mga timestamp - hindi mga petsa ng kapanganakan - ay nagbabawas ng kalidad ng set nang walang karagdagang pakinabang sa pagsunod. Ang naaprubahang preset ay nagsasabi kung exactly aling mga aytem ang aalisin.

Maaaring ulitin na output. Kung ang isang set ay kailangang patakbuhin muli - sabihin, pagkatapos matuklasan ang isang napalampas na uri ng entity - ang preset ay nagbibigay ng parehong resulta sa bawat pagkakataon. Ang mga ad-hoc na config ay hindi.

Ang Problema sa Labindalawang Data Scientist

Isang ML team ng fintech sa Europa ang gumagamit ng mga set mula sa mga log ng customer. Inaprubahan ng DPO ang layunin - pagtuklas ng pandaraya - na may isang panuntunan: lahat ng pangalan ng customer, email, numero ng telepono, at payment ID ay dapat palitan bago magsimula ang trabaho sa modelo.

Nang walang mga preset:

  • Tao 1 ay nag-aalis ng mga pangalan, email, at numero ng telepono - ngunit napalampas ang mga payment ID
  • Tao 2 ay nagsasama ng mga payment ID ngunit gumagamit ng Redact, hindi Replace
  • Tao 3 ay sumusunod sa dokumento ng plano nang eksakto
  • Mga tao 4-12 ay nag-iiba-iba

Ang pinagsanib na set ay bahagyang hindi sumusunod at bahagyang labis na pinoproseso. Hindi maaaring sertipikahan ng DPO ito.

Gamit ang preset na naaprubahan ng DPO:

  • Lumilikha ang DPO ng "ML Dev - Fraud Detection" na may eksaktong mga uri ng entity at paraan ng Replace
  • Napupunta ang preset sa lahat ng labindalawang tao na may isang panuntunan: gamitin ito para sa lahat ng trabaho sa set
  • Walang sinuman ang maaaring baguhin ang preset nang walang pag-apruba ng DPO

Bawat tao ngayon ay gumagawa ng parehong output. Ang pinagsanib na set ay pare-pareho. Pumapasa ang taunang AI audit na may zero na natuklasan. Ang nakaraang taon ay mayroong tatlong natuklasan mula sa hindi pare-parehong trabaho sa set.

GDPR at ang AI Act

Na-update para sa 2026

Ang EU AI Act ay ganap na nagsimula noong Agosto 2024. Nagdaragdag ito ng mga panuntunan para sa mga sistema ng AI na gumagamit ng personal na detalye para sa trabaho sa modelo. Ang mga mataas na panganib na sistema ng AI ay dapat idokumento ang kanilang mga set, kasama kung anong anonymization ang inilapat.

Ang GDPR Article 5(1)(b) - ang panuntunan sa limitasyon ng layunin - ay humahadlang sa paggamit ng personal na detalye nang walang malinaw na legal na batayan. Ang mga kaso ng CNIL noong 2024 ay nakatuon sa gap na ito: mga detalyeng nakolekta para sa isang serbisyo ay ginamit para sa trabaho sa modelo nang walang wastong batayan o anonymization.

Tumutulong ang mga preset sa kasiyahan sa parehong hanay ng mga panuntunan:

  • Pangalan at config ng preset: ang dokumentadong paraan
  • Mga log ng pagproseso: patunay na inilapat ang paraan
  • Pag-apruba ng DPO: isang naitala na sign-off sa config

Lumilikha ito ng audit trail na kinakailangan ng parehong batas. Para sa mga obligasyon ng Article 10 nang detalyado, tingnan ang gabay sa datos ng pagsasanay ng EU AI Act.

Config ng Preset para sa Mga Set ng Modelo ng NLP

Mga uri na isasama sa karamihan ng mga set ng modelo ng NLP:

  • PERSON - Palitan ng katulad na mga pangalan
  • EMAIL_ADDRESS - Palitan ng mga synthetic na address
  • PHONE_NUMBER - Palitan ng mga synthetic na numero
  • CREDIT_CARD / IBAN - Replace o Redact
  • LOCATION - Palitan ng katulad na mga lugar kung mahalaga ang lokasyon; I-redact kung hindi
  • DATE_OF_BIRTH - I-redact; ang pangkat ng edad ay kadalasang kailangan

Mga uri na madalas na iniiwan:

  • Mga pangkalahatang petsa - ang mga timestamp ay tumutulong sa mga temporal na modelo
  • Mga pangalan ng organisasyon - tumutulong sa mga modelo ng named-entity
  • Mga URL - tumutulong sa mga modelo ng link at sanggunian

Itinatakda ng ML lead at DPO ang mga panuntunan na ito sa naaprubahang preset. Inilalapat ng mga miyembro ng team ito. Hindi sila gumagawa ng mga pagpipilian sa config.

Mga Preset bilang Institutional Memory

Bago ang mga preset. Ang tamang config ng entity ay nakatira sa mga ulo ng tatlong data scientist. Nagtrabaho sila sa pagsusuri ng pagsunod. Dalawa ang umalis noong Q3. Pumunta ang kaalaman kasama nila.

Pagkatapos ng mga preset. Ang config ay nakatira sa "ML Dev - Customer Records v2.1." Ang log ng bersyon ay nagpapakita kung kailan ito ginawa, sino ang nag-apruba nito, at kung ano ang nagbago mula sa v2.0. Ang mga bagong miyembro ng team ay gumagamit ng preset at nakukuha ang lahat ng kaalaman na itinayo dito.

Idinagdag ng Bersyon 2.1 ang pagtuklas ng IBAN pagkatapos ng isang pagsusuri ay natuklasan na nawawala ito. Inaprubahan ang Bersyon 2.0 noong Pebrero 2025. Kumpleto ang log.

Para sa kung paano gumagana ang mga log ng pagproseso at daloy ng pagsusuri ng DPO, tingnan ang gabay sa anonymization ng datos ng pagsasanay ng GDPR ML.

Mga Preset kumpara sa Pattern ng CNIL

Ang mga kaso ng AI ng CNIL noong 2024 ay nagtatakda ng malinaw na pattern. Hindi lamang nila tinatanong kung ano ang inalis kundi kung paano ito pinamahalaaan. Ang isang ibinahaging preset na may talaan ng pag-apruba ng DPO at mga log ng pagproseso ay direktang sumasagot dito.

Hindi ito ng isang ad-hoc na config. Ang parehong gap ay umiiral sa ibang mga kaso ng EU DPA na sumusunod sa lohika ng CNIL. Para sa karagdagang impormasyon tungkol sa diskarte ng CNIL sa AI, tingnan ang gabay sa pagsunod ng CNIL GDPR AI.

Konklusyon

Sinasabi ng mga dokumento sa mga miyembro ng team kung ano ang gagawin. Ginagawang madali ng mga preset - at maipapatupad - na gawin ito sa parehong paraan sa bawat pagkakataon.

Para sa mga set ng modelo ng ML, ang pagkakatugma ay parehong isang legal at teknikal na pangangailangan. Tinutugunan ng preset ang pareho nang sabay.

Ang mga DPA na tumitingin sa mga kasanayan sa AI ay nagnanais ng ebidensya ng pare-parehong anonymization. Ang isang preset na inilapat sa parehong paraan sa lahat ng trabaho sa set ay ang pinakamalinawin na patunay na maaari mong ibigay sa kanila.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.