Flersproget PII: Hvorfor ensprogede værktøjer fejler
Opdateret for 2026.
Dokumenter krydser sproggrænser
En schweizisk farmaceutisk virksomheds ansættelseskontrakt er ikke skrevet på ét sprog. Schweiz har fire officielle sprog. Schweiziske virksomheder blander tysk i hoveddelen, fransk i juridiske klausuler og engelsk i globale afsnit. Dette kan forekomme i ét og samme afsnit.
Et belgisk bestyrelsesmødereferat har hollandsk tekst, franske formelle dele og engelske resuméer. En global dataaftale kan have engelske tekniske specifikationer og tyske rettighedsklausuler.
Dette er ikke undtagelsen. Det er normen for virksomheder i DACH-regionen og EU. Ensprogede PII-værktøjer fejler på disse dokumenter.
Hullet på 45 % fejlrate
Ensprogede NER-værktøjer har 45 % højere PII-fejlrate i flersprogede dokumenter. Det er sammenlignet med rene etsprogede dokumenter.
Årsagen er designmæssig. En model trænet på tysk tekst kender lokale navneformer og adresseregler. Når den støder på et fransk afsnit, er den uden for sit træningstermometer. Navne og ID-numre i den del detekteres dårligt. Modellen er ikke svag — den er blot bygget til et andet sprog.
EDPB 2024 fandt, at 72 % af EU's virksomheder behandler dokumenter på tre eller flere sprog samtidigt. Gartner 2024 fandt, at flersprogede HR-dokumenter indeholder 67 % mere PII pr. side end etsprogede. Mere PII plus flere fejl forstærker problemet.
Se vores GDPR-vejledning for de gældende regler.
Hvor fejlene koncentreres
Fejlene er ikke jævnt fordelt i et dokument. PII ved sektionsskift er mest udsat.
Tag denne klausul: tysk sætningsstruktur, et fransk medarbejdernavn og en fransk fødselsdato — alt i én linje. NER-modellen ser det franske navn, hvor den forventer et lokalt navn. Den markerer det muligvis ikke. En fransktrænset model ser de tyske kontekstord og kan ikke læse strukturen.
HR-dokumenter gør dette kostbart. Gartner fandt 67 % mere PII pr. side i flersprogede HR-filer. Fejl ved sektionsskift er mest skadelige i den filtype, der indeholder flest personoplysninger.
Tværsproglige modeller løser problemet
XLM-RoBERTa træner på tekst fra 100 sprog på én gang. Den anvender ikke en ny model pr. sprog. Den lærer, at navnegenkendelse fungerer ens på tværs af sproglige kontekster. Et navn og dets kontekst har samme struktur på tysk, fransk og engelsk.
For flersprogede dokumenter skifter modellen ikke ved et sektionsskift. Den læser den samlede tekst som én blok. Den anvender de samme entitetsregler overalt.
Finjustering på tysk og fransk øger præcisionen for hvert enkelt sprog. Men den tværsproglige base fanger PII ved skift, hvor ensprogede modeller fejler.
For DACH-virksomheder, hvis dokumenter krydser sproglige sektioner, er dette en reel gevinst. Entiteter, som ensprogede værktøjer overser ved skift, fanges af tværsproglige modeller.
Se vores sikkerhedsside for, hvordan anonym.legal håndterer dette.
Anbefalede tiltag
Tjek dit værktøjs dækningsomfang. Bed din leverandør om recall-score pr. sprogkode. "Understøtter mange sprog" kan betyde, at teksten først maskinoversættes. Det er ikke nativ scanning.
Kortlæg dine dokumenter efter sprog. En DACH-virksomhed med 60 % tysk, 30 % fransk og 10 % engelsk har forskellige dækningsgab.
Test med eksempler på sektionsskift. Byg et testsæt med ti flersprogede klausuleksempler. Tjek recall i hele dokumentet, ikke kun i den primære sprogdel.
Gennemgå dine DPIA'er. En DPIA baseret på etsprogede registreringer kan være ufuldstændig. Ret den, inden en audit gør det.
For API-detaljer og entitetsdækning, se prissiden.
anonym.legal anvender XLM-RoBERTa kombineret med native spaCy- og Stanza-modeller. Det finder PII på tværs af sektionsskift på tysk, fransk, engelsk og 45 andre sprogkoder.