anonym.legal

By · Last updated 2026-06-04

Terug na BlogTegnies

Herhaalbare privaatheid: ML-voorkeurinstellings

ML-opleidingsdata-anonimisering moet konsekwent en herhaalbaar wees. As datawetenskap-lede A en B verskillende entiteitstipes toepas, is opleidingsdatastelle.

June 4, 20266 min lees
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Herhaalbare Privaatheid: Hoekom ML-spanne Voorkeurinstellings benodig, nie net Dokumente nie

Die DPO het die anonimiseringsplan goedgekeur. Dit dek vier items: name, e-posadresse, telefoonnommers en geboortedatums. Die metode is Vervang. Die plan is vier bladsye en woon in die voldoeningswiki.

Twaalf datawetenskap-lede lees dit by aanvangs. Elkeen stel die nutsmiddel self op. Sommige voeg nasionale ID's by. Sommige voeg IP-adresse by. Sommige skakel oor na Redigeer. Drie maande later is die stelle nie konsekwent nie.

Die CNIL het verskeie KI-firmas in 2024 nagegaan. Die kwessie: onbehoorlike gebruik van persoonlike besonderhede in modelstelle. Hulle het nie net gevra of anonimisering plaasgevind het nie. Hulle het gevra hoe konsekwent dit toegepas is.

Dokumente is nodig. Hulle is nie genoeg nie. Die oplossing is die voorkeurinstelling.

Hoekom ML-modelstelle hul eie konfigurasie benodig

Die bou van modelstelle het unieke behoeftes. Algemene dokumentanonimisering deel dit nie.

Vervang, nie Redigeer nie. Modelle wat opgelei is op teks waar name [GEREDIGEERD] word, leer die token as 'n naam-posisie-merker. Dit benadeel die model. Vervang swaai "John Smith" vir "David Chen." Die model sien werklike naampatrone. Dit sien nie 'n maskertoken nie.

Dieselfde proses vir alle rekords. 'n Stel waar 70% van name vervang is en 30% [GEREDIGEERD] is, stuur gemengde sein. Elke rekord moet deur dieselfde stappe gaan.

Dieselfde entiteitslys. As die stel gesondheidsbesonderhede bevat, die verwydering van name maar die hou van geboortedatums in sommige rekords skep leemtes. Alle twaalf datawetenskap-lede moet dieselfde tipes verwyder.

Geen oordadige verwydering nie. Die uitneem van datums wat tydstempels is - nie geboortedatums nie - verminder stelkwaliteit sonder voldoeningsvoordeel. Die goedgekeurde voorkeurinstelling se presies watter items om te verwyder.

Herhaalbare uitvoer. As 'n stel weer gestoot moet word - se nou, na 'n gemiste entiteitstipe gevind is - gee die voorkeurinstelling dieselfde resultaat elke keer. Ad hoc-konfigs doen dit nie.

Die Twaalf Datawetenskappe Probleem

'n Fintech ML-span in Europa gebruik stelle van klientelogs. Die DPO het die doel goedgekeur - bedrogopsporing - met een reel: alle klientename, e-posadresse, telefoonnommers en betalings-ID's moet vervang word voordat modelwerk begin.

Sonder voorkeurinstellings:

  • Persoon 1 verwyder name, e-posadresse en telefoonnommers - maar mis betalings-ID's
  • Persoon 2 sluit betalings-ID's in maar gebruik Redigeer, nie Vervang nie
  • Persoon 3 volg die plandokument presies
  • Persone 4-12 verskil

Die saamgevoegde stel is gedeeltelik nie-voldoenend en gedeeltelik oorbewerkend. 'n DPO kan dit nie sertifiseer nie.

Met 'n DPO-goedgekeurde voorkeurinstelling:

  • Die DPO skep "ML Ontwikkeling - Bedrogopsporing" met presiese entiteitstipes en die Vervang-metode
  • Die voorkeurinstelling gaan na alle twaalf mense met een reel: gebruik dit vir alle stelwerk
  • Niemand kan die voorkeurinstelling verander sonder DPO-goedkeuring nie

Elke persoon produseer nou dieselfde uitvoer. Die saamgevoegde stel is konsekwent. Die jaarlikse KI-oudit slaag met nul bevindinge. Die vorige jaar had drie bevindinge van inkonsekwente stelwerk.

GDPR en die KI-wet

Opgedateer vir 2026

Die EU KI-wet het in Augustus 2024 ten volle in werking getree. Dit voeg reels by vir KI-stelsels wat persoonlike besonderhede vir modelwerk gebruik. Hoerisikokoue KI-stelsels moet hul stelle dokumenteer, insluitend watter anonimisering toegepas is.

GDPR Artikel 5(1)(b) - die doelbegrensingsreel - blokkeer die gebruik van persoonlike besonderhede sonder 'n duidelike regsbasis. Die CNIL se 2024-sake het op hierdie gaping gefokus: besonderhede versamel vir een diens wat vir modelwerk gebruik word sonder 'n geldige grondslag of anonimisering.

Voorkeurinstellings help om albei stelle reels te bevredig:

  • Voorkeurinstelling-naam en -konfigurasie: die gedokumenteerde metode
  • Verwerkingslogs: bewys dat die metode toegepas is
  • DPO-goedkeuring: 'n opgetekende aftekening op die konfigurasie

Dit skep die ouditspoor wat albei wette vereis. Vir Artikel 10-verpligtinge in detail, sien die EU KI-wet opleidingsdatagids.

Voorkeurinstelling-konfigurasie vir NLP-modelstelle

Tipes om in te sluit in die meeste NLP-modelstelle:

  • PERSOON - Vervang met soortgelyke name
  • E_POS_ADRES - Vervang met sintetiese adresse
  • TELEFOONNOMMER - Vervang met sintetiese nommers
  • KREDIETKAART / IBAN - Vervang of Redigeer
  • LIGGING - Vervang met soortgelyke plekke as ligging saak maak; Redigeer as nie
  • GEBOORTEDATUM - Redigeer; ouderdomsgroepering word dikwels benodig

Tipes wat dikwels uitgelaat word:

  • Algemene datums - tydstempels help temporale modelle
  • Organisasienaam - help benoemde-entiteitmodelle
  • URL's - help skakel- en verwysingsmodelle

Die ML-hoof en DPO stel hierdie reels in die goedgekeurde voorkeurinstelling. Spanlede pas dit toe. Hulle maak nie konfigurasie-keuses nie.

Voorkeurinstellings as institusionele geheue

Voor voorkeurinstellings. Die regte entiteitkonfigurasie het in die hoofde van drie datawetenskap-lede gewoon. Hulle had deur die voldoeningshersiening gewerk. Twee het in K3 vertrek. Die kennis het saamgegaan.

Na voorkeurinstellings. Die konfigurasie woon in "ML Ontwikkeling - Klientesurekords v2.1." Die versie-log wys wanneer dit geskep is, wie dit goedgekeur het en wat verander het van v2.0. Nuwe spanlede gebruik die voorkeurinstelling en kry alle kennis wat daarin gebou is.

Weergawe 2.1 het IBAN-opsporing bygevoeg nadat 'n hersiening dit as vermis gevind het. Weergawe 2.0 is in Februarie 2025 goedgekeur. Die log is volledig.

Vir hoe verwerkingslogs en DPO-hersieningsvloei werk, sien die GDPR ML-opleiding anonimiseringsgids.

Voorkeurinstellings vs. die CNIL-patroon

Die CNIL se 2024 KI-sake stel 'n duidelike patroon. Hulle vra nie net wat verwyder is nie maar hoe dit bestuur is. 'n Gedeelde voorkeurinstelling met 'n DPO-goedkeuringsrekord en verwerkingslogs beantwoord dit direk.

'n Ad hoc-konfigurasie doen dit nie. Dieselfde gaping bestaan in ander EU DPA-sake wat CNIL-logika volg. Vir meer oor die CNIL KI-benadering, sien die CNIL GDPR KI-voldoeningsgids.

Gevolgtrekking

Dokumente vertel spanlede wat om te doen. Voorkeurinstellings maak dit maklik - en afdwingbaar - om dit elke keer op dieselfde manier te doen.

Vir ML-modelstelle is konsekwentheid beide 'n regsbehoefte en 'n tegniese een. Die voorkeurinstelling voldoen aan albei tegelyk.

DPA's wat na KI-praktyke kyk, wil bewyse van uniforme anonimisering he. 'n Voorkeurinstelling wat dieselfde manier oor alle stelwerk toegepas word, is die duidelikste bewys wat u hulle kan gee.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.