Tilbake til BloggGDPR & Overholdelse

Hvorfor PII-detekteringsverktøyet ditt kun er...

En tysk Steuer-ID, fransk NIR og svensk Personnummer krever all forskjellige deteksjonslogikk.

March 3, 202610 min lesing
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Den skjulte GDPR-kompatibilitetskløften

GDPR har ingen språkpreferanse. Artikkel 4(1) definerer "personopplysninger" uten referanse til språket de vises i. En tysk Steuer-ID er like beskyttet som et amerikansk personnummer. En fransk NIR er like regulert som et britisk nasjonalt forsikringsnummer.

Men de fleste PII-detekteringsverktøy ble bygget for engelsk.

Forskning publisert på ACL 2024 fant at hybride NLP-tilnærminger oppnår F1-poeng på 0,60-0,83 for europeiske lokasjoner — men engelskspråklige verktøy anvendt på ikke-engelsk tekst scorer nær null for strukturerte nasjonale identifikatorer. Den praktiske implikasjonen: et anonymiseringsverktøy som brukes i en multinasjonal organisasjon kan oppdage 95% av engelsk PII mens det går glipp av 40-60% av tysk, fransk, polsk eller nederlandsk PII i det samme datasettet.

Dette er en systematisk GDPR-kompatibilitetskløft som påvirker praktisk talt hver multinasjonal virksomhet som bruker engelsksentrerte anonymiseringsverktøy.

Hvorfor PII er språkspesifikk

PII-detektering har to komponenter: mønsterbasert deteksjon (strukturerte identifikatorer som skatte-ID-er, telefonformater) og NER-basert deteksjon (kontekstuelle enheter som personnavn, organisasjonsnavn, adresser).

Begge komponentene er dypt språkspesifikke.

Strukturerte identifikatorer varierer radikalt etter land

LandSkatteidentifikatorFormatDeteksjonskrav
TysklandSteuer-ID11 sifre, sjekksumalgoritmeModulo-11 validering
FrankrikeNIR15 sifre + 2-sifret nøkkelINSEE-algoritmevalidering
SverigePersonnummer10 sifre, århundreindikatorLuhn-validering
PolenPESEL11 sifre, fødselsdato kodetModulo-10 validering
NederlandBSN9 sifre, elfproef (11-sjekk)Elfproef-algoritme
SpaniaDNI/NIE8 sifre + bokstavModulo-23 validering
ItaliaCodice Fiscale16 alfanumeriskeKompleks sjekksum

Et engelskspråklig regex-mønster for SSN-er (format: NNN-NN-NNNN) vil ikke matche noen av disse identifikatorene. Hver krever landsspesifikk regex-logikk pluss sjekksumvalidering.

Personnavn på tysk følger forskjellige mønstre enn engelske navn. "Hans-Dieter Müller" og "Anna-Lena Schreiber-Koch" er gjenkjennelige som tyske navn av konteksten — men en modell trent primært på engelsk tekst vil ofte gå glipp av dem eller feilklassifisere dem.

Mer problematisk: falske positiver på ett språk kan bli falske negativer på et annet. Microsoft Presidio GitHub-problemet dokumenterer systematiske falske positiver for tyske ord som feilklassifiseres som engelsk PII. Det samme ordet "Null" (tysk for "null") utløser falske positiver for navnedeteksjon i engelsktrente modeller. Dette øker falske positive rater til 3 feil per 1 ekte enhet i flerspråklige produksjonsmiljøer (Alvaro et al., 2024).

Den regulatoriske eksponeringen

EU-datapersonvernmyndigheter er i økende grad klar over denne kløften. Flere nasjonale DPAs har utstedt veiledning eller håndhevelsesaksjoner som involverer flerspråklig behandling:

Tysk BfDI: Har presisert at GDPR Artikkel 5(1)(f) (integritet og konfidensialitet) gjelder for data i alle behandlingsformer, inkludert ikke-engelske data behandlet av tredjepartsverktøy.

Fransk CNIL: Den 2024 CNIL Årsrapporten bemerket økende bekymringer om AI-verktøy som behandler franskspråklige data uten franskspråklige PII-detekteringsmuligheter.

Europeiske DPA-er generelt: I henhold til GDPR Artikkel 25 (Privacy by Design), må de tekniske tiltakene være passende for de faktiske dataene som behandles — som inkluderer ikke-engelsk PII i multinasjonale distribusjoner.

Den praktiske risikoen: en organisasjon kan demonstrere 95% PII-detekteringseffektivitet på engelsk innhold under en GDPR-revisjon, men hvis de også behandler tysk, fransk og polsk innhold med det samme verktøyet, kan revisjonen avdekke systematiske kløfter for disse språkene.

Den tre-nivå tilnærmingen til flerspråklig PII-detektering

Akademisk forskning og produksjonsdistribusjoner har konvergert på en tre-nivå hybridarkitektur som den mest effektive tilnærmingen til flerspråklig PII-detektering:

Nivå 1: Språk-native spaCy-modeller (høyt ressursspråk)

spaCy tilbyr trente pipeline-komponenter for 25 språk inkludert tysk, fransk, spansk, portugisisk, italiensk, nederlandsk, russisk, kinesisk, japansk, koreansk, polsk og andre. Disse modellene er trent på native-språk korpora og forstår morfologi, syntaks og enhetsmønstre for hvert språk.

For tysk: spaCy de_core_news_lg-modellen forstår sammensatte substantiv, kasusbøyning og tyske navnmønstre. For fransk: fr_core_news_lg håndterer franske enhetsmønstre inkludert titler, stedsnavn og organisasjonsformater.

Språk-native modeller oppnår betydelig høyere presisjon og tilbakekalling for navnedeteksjon enn tverrspråklige modeller anvendt på spesifikke høyt ressursspråk.

Nivå 2: Stanza (tilleggspråk)

Stanford's Stanza-bibliotek gir NER for tilleggspråk som ikke dekkes av spaCys kommersielle tilbud, inkludert kroatisk, slovensk, ukrainsk og andre. Dette utvider dekningen til språk med mindre, men fortsatt betydelige EU-talende befolkninger.

Nivå 3: XLM-RoBERTa (tverrspråklig dekning)

For språk der verken spaCy eller Stanza tilbyr trente NER-modeller, gir XLM-RoBERTa tverrspråklig overføring. Trenet på Common Crawl-data på tvers av 100 språk, oppnår XLM-RoBERTa 91,4% tverrspråklig F1 for PII-detektering (HuggingFace 2024), noe som muliggjør rimelig deteksjon for lavere ressursspråk.

Den tverrspråklige modellen håndterer kodeveksling (blandet språk tekst) spesielt godt — en egenskap som blir kritisk for internasjonale organisasjoner der et enkelt dokument kan inneholde tekst på flere språk.

Språk-spesifikke enhetstyper

Utover deteksjonsmodellen krever GDPR-kompatibilitet enhetstype dekning for landsspesifikke identifikatorer. Et flerspråklig verktøy trenger:

EU nasjonale identifikatorer:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET, numéro de téléphone
  • PL: PESEL, NIP, REGON
  • NL: BSN, BurgerServiceNummer
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Telefonnummerformater: Hvert EU-land har unike mobilprefiksstrukturer, retningsnummerformater og lokale oppringingskonvensjoner. +49 (Tyskland), +33 (Frankrike), +48 (Polen) krever alle landsspesifikk validering.

Adresseformater: Postnummerformater varierer radikalt — tysk PLZ (5 sifre), fransk code postal (5 sifre som begynner med 01-99), britisk postnummer (alfanumerisk, flere formater), spansk código postal (5 sifre 01000-52999).

Brukstilfellet: Sveitsiske farmasøytiske flerspråklige dokumenter

Et sveitsisk farmasøytisk selskap behandler arbeidskontrakter som inneholder tekst på tysk, fransk og engelsk innenfor det samme dokumentet (Sveits har fire offisielle språk). Deres nåværende verktøy er konfigurert for tysk og går glipp av all fransk-seksjon PII.

En arbeidskontrakt for en ansatt basert i Genève refererer til deres franske AVS-nummer (13 sifre), deres sveitsiske bankkonto IBAN, deres kanton for bosted, og deres navn i fransk format. Det tysk-konfigurerte verktøyet går glipp av det franske formatet for navn, klarer ikke å oppdage mønsteret for det franske AVS-nummeret (forskjellig fra tysk AHV-Nummer format), og oppdager bare delvis IBAN.

Den tre-nivå tilnærmingen behandler dokumentet som en helhet, oppdager språk automatisk for hvert tekstsegment, anvender språk-tilpassede NER-modeller, og bruker landsspesifikke regex-validerere for hver nasjonal identifikatortype — uavhengig av hvilket språk seksjonen vises i.

Håndtering av dokumenter med blandet språk

Det vanskeligste flerspråklige PII-problemet er språkblanding innen dokumentet: et dokument som inneholder avsnitt på forskjellige språk, kodevekslede setninger, eller sitert tekst på et annet språk enn den omkringliggende konteksten.

Eksempler:

  • En tysk bedrifts engelskspråklige kontrakt med tyske ansattdata (navn, skatte-ID-er)
  • Et fransk GDPR-samtykkeskjema som inkluderer et utdrag av en engelskspråklig personvernerklæring
  • En flerspråklig kundeservice chatlogg der agenten svarer på engelsk, men kunden skriver på arabisk

XLM-RoBERTa håndterer dette naturlig: dens tverrspråklige trening betyr at den ikke krever eksplisitte språkdeklarasjoner og behandler blandet språk tekst uten å kreve segmentering.

For produksjonsdistribusjoner gir kombinasjonen av automatisk språkdeteksjon (anvendt på setningsnivå) og XLM-RoBERTa tverrspråklig inferens den mest robuste håndteringen av dokumenter med blandet språk.

Praktiske distribusjonsretningslinjer

Revider språkdekningen til ditt nåværende verktøy: Be din nåværende anonymiseringsleverandør om å gi F1-poeng for de spesifikke språkene i dataene dine. "Støtter 20 språk" betyr ofte at verktøyet sender tekst gjennom Google Translate før det anvender engelsk-trente NER — noe som ikke er det samme som språk-native deteksjon.

Kartlegg dataene dine til språk: Gjennomfør en datainventar som inkluderer språkfordeling. En multinasjonal med 70% engelsk, 20% tysk og 10% fransk data har en annen risikoeeksponering enn en med 95% engelsk.

Test med nasjonale identifikatorsamples: Lag et testdatasett med 10 eksempler hver av de nasjonale identifikatorene som er relevante for driften din (Steuer-ID, NIR, PESEL, BSN, osv.) og verifiser deteksjonsrater. Dette er en raskere revisjon enn storskala F1-evaluering.

Gå gjennom dine DPIA-er: Hvis du har Data Protection Impact Assessments som dekker anonymiseringsverktøyene dine, verifiser at språkdekninganalysen er inkludert. En ufullstendig DPIA som antar engelsk-dekning kan trenge oppdatering.


anonym.legal's PII-detekteringsmotor bruker en tre-nivå flerspråklig tilnærming: språk-native spaCy-modeller for 25 høyt ressursspråk, Stanza for tilleggspråkdekning, og XLM-RoBERTa tverrspråklige transformatorer for 48-språk dekning totalt. Landsspesifikke enhetstyper for alle EU-medlemsland er inkludert.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.