Dokumenter som trosser monolinguale verktøy
En sveitsisk legemiddelfirms ansettelseskontrakt er ikke skrevet på ett språk. Sveits har fire offisielle språk. Dokumenter produsert av sveitsiske organisasjoner blander rutinemessig tysk for hovedkontrakten, fransk for visse regulatoriske klausuler, og engelsk for internasjonale standarder — noen ganger innenfor et enkelt avsnitt.
Et belgisk selskaps styreprotokoll inneholder nederlandsk rapportering med franske formelle resolusjoner og engelske oppsummeringsseksjoner for internasjonale investorer. En multinasjonal selskaps databehandlingsavtale har engelske tekniske spesifikasjoner, tyske rettigheter for registrerte personer, og fransk kontaktinformasjon for DPA.
Disse er ikke uvanlige dokumenter. De er standardutgangen fra multinasjonale organisasjoner som opererer i flerspråklige markeder. Og monolinguale PII-detekteringsverktøy feiler systematisk på dem.
Den 45% høyere feilraten
Forskning som sammenligner monolinguale og flerspråklige NER-tilnærminger på blandede språkdokumenter har funnet at blandede språkdokumenter forårsaker en 45% høyere PII-feilrate i monolinguale NER-verktøy sammenlignet med deres ytelse på rene enkelt-språk dokumenter.
Kilden til gapet er arkitektonisk: en monolingual NER-modell trent på tysk tekst lærer tyske navnemønstre, tyske organisasjonsnavnkonvensjoner og tyske adresse-strukturer. Når den modellen møter en fransk seksjon innenfor et overveiende tysk dokument, opererer den utenfor sin treningsfordeling. De franske personnavnene, franske adressene og franske organisasjonsidentifikatorene i den seksjonen er utsatt for redusert deteksjonsnøyaktighet — ikke fordi modellen er dårlig trent, men fordi den ble trent på feil språk for den seksjonen.
Den ekstra funn: 72% av EU-virksomheter behandler dokumenter på 3+ språk samtidig (EDPB 2024), og flerspråklige HR-dokumenter inneholder 67% mer PII per side enn enkelt-språklige ekvivalenter (Gartner 2024). Kombinasjonen av høyere PII-tetthet og høyere feilrater forsterker samsvars gapet i organisasjoner som behandler flerspråklige HR-, juridiske og kommersielle dokumenter.
Hvordan språkgrensene skaper deteksjonsfeil
Feilen er ikke uniform. PII ved språkgrenser — hvor en seksjon går fra ett språk til et annet — er spesielt sårbar.
En ansettelseskontrakt kan inneholde en klausul som: "Der Arbeitnehmer (Employee: Jean-Pierre Dupont, né le 15 mars 1985 à Lyon) stimmt zu..." — som blander tysk setningsstruktur med et fransk navn og fødselsdato. En tysk NER-modell møter det franske navnet i en posisjon der den forventer tyske mønster-navn og kan feile i å klassifisere det korrekt. En fransk NER-modell ser kontekstord på tysk og kan ikke pålitelig identifisere den omkringliggende dokumentstrukturen.
Gartner 2024-observasjonen om at flerspråklige HR-dokumenter inneholder 67% mer PII per side enn enkelt-språklige ekvivalenter gjør denne grensedeteksjonsfeilen spesielt konsekvent: HR-dokumenter er blant de høyeste PII-tetthets dokumenttypene, og de produseres av flerspråklige organisasjoner i blandet språkform.
Løsningen med kryss-språklig transformer
XLM-RoBERTa (Kryss-språklig språkmodell - Roberta) representerer en annen arkitektonisk tilnærming til dette problemet. I stedet for å trene en egen modell for hvert språk, trenes XLM-RoBERTa på tekst fra 100 språk samtidig. Modellen lærer at oppgaver for entitetsgjenkjenning deler mønstre på tvers av språk — at den strukturelle relasjonen mellom et personnavn og omkringliggende kontekstord er lik i tysk, fransk og engelsk selv når de spesifikke ordene er forskjellige.
For blandede språkdokumenter betyr XLM-RoBERTas kryss-språklige arkitektur at modellen ikke trenger å "bytte" mellom språkmodeller ved en dokumentgrense. Den behandler teksten som en kontinuerlig sekvens, og anvender den samme evnen til entitetsgjenkjenning uavhengig av språkovergang.
Dette er ikke en fullstendig løsning — språkspesifikk finjustering på tysk, fransk og andre språk treningsdata gir ytterligere nøyaktighet for hvert språk individuelt. Men den kryss-språklige baselinjen gir pålitelig deteksjon gjennom språkgrenser som monolinguale modeller håndterer inkonsekvent.
For sveitsiske, belgiske og andre multinasjonale organisasjoner hvis dokumenter rutinemessig krysser språkgrenser, oversettes den arkitektoniske distinksjonen mellom monolingual og kryss-språklig NER direkte til samsvarsresultater: enheter som ble oversett ved språkgrenser i monolinguale verktøy, blir oppdaget av kryss-språklige arkitekturer.
Kilder: