PII v vecjezicnih dokumentih: zakaj enojezicna orodja zamujajo
Posodobljeno za leto 2026.
Dokumenti presegajo jezikovne meje
Delovna pogodba svicarske farmacevtske druzbe ni napisana v enem jeziku. Svica ima stiri uradne jezike. Svicarska podjetja mesajo nemsCino v glavnem delu, francoscino v pravnih klavzulah in anglescino v globalnih razdelkih. To se lahko zgodi v enem odstavku.
Belgijski zapisnik uprave ima nizozemsko besedilo, formalne dele v francoscini in povzetke v anglescini. Svetovna podatkovna pogodba ima lahko angleSke tehnicne specifikacije in nemSke klavzule o pravicah.
To ni redkost. To je norma za podjetja DACH in EU. Enojezicna orodja PII na takih datotekah odpovedo.
Vrzel 45 % zamujenih primerov
Enojezicna orodja NER imajo 45 % visjo stopnjo zamujenih PII pri mesanih datotekah. To v primerjavi s cistimi enojezicnimi datotekami.
Temeljni vzrok je zasnova. Model, izucen na nemSkem besedilu, pozna lokalne oblike imen in pravila naslovov. Ko pride do francoskegA razdelka, je zunaj svojega ucnega obsega. Imena in identifikatorji v tem delu so slabo zaznani. Model ni slab - bil je zgrajen za drug jezik.
EDPB 2024 je ugotovil, da 72 % podjetij v EU obdeluje datoteke v treh ali vec jezikih hkrati. Gartner 2024 je ugotovil, da vecjezicne datoteke HR vsebujejo 67 % vec PII na stran kot enojezicne. Vec PII plus vec zamujenih primerov povecuje vrzel.
Glejte nas vodnik GDPR za veljavna pravila.
Kje se napake kopicijo
Napaka ni enakomerno razporejena po datoteki. PII pri prelomih razdelkov je pod najvecjim tveganjem.
Poglejte to klavzulo: nemSka sintaksa stavka, francosko ime zaposlenega in francoski datum rojstva - vse v eni vrstici. Model NER vidi francosko ime tam, kjer pricakuje lokalno. Morda ga ne oznaci. Francosko izuCen model vidi nemSke kontekstne besede in ne more brati strukture.
Datoteke HR to naredijo dragega. Gartner je ugotovil 67 % vec PII na stran v mesanih datotekah HR. Napake pri prelomih razdelkov najbolj skodijo v vrsti datoteke z najvec osebnimi podatki.
Vecjezicni modeli to popravijo
XLM-RoBERTa se uci na besedilu iz 100 jezikov hkrati. Ne uporablja novega modela za vsak jezik. Nauci se, da zaznavanje imen deluje enako v razlicnih jezikovnih kontekstih. Ime in njegov kontekst imata enako strukturo v nemscini, francoscini in anglescini.
Pri mesanih datotekah se model ne preklopi pri prelomu razdelka. Prebere celotno besedilo kot en blok. Enaka pravila entitet uporablja na vsaki tocki.
Dodatno usposabljanje na nemSkem in francoskem jeziku dodaja natancnost za vsak posamezen jezik. Vecjezicna osnova pa zajame PII pri prelomih, kjer enojezicni modeli odpovedo.
Za podjetja DACH, katerih datoteke presegajo jezikovne razdelke, je to resnicna prednost. Entitete, ki jih enojezicna orodja zamudijo pri prelomih, vecjezicni modeli najdejo.
Glejte naso stran o varovalih za to, kako anonym.legal to obravnava.
Koraki, ki jih je treba storiti zdaj
Preverite obseg svojega orodja. Pri prodajalcu zahtevajte ocene priklica po jezikih. 'Podpira vec jezikov' lahko pomeni, da besedilo najprej gre skozi strojno prevajanje. To ni domaCe skeniranje.
Razvrstite svoje datoteke po jeziku. Podjetje DACH s 60 % nemScine, 30 % francoscine in 10 % anglescine ima drugacne vrzeli.
Testirajte z vzorci prelomov razdelkov. Ustvarite testni nabor z desetimi primeri vecjezicnih klavzul. Preverite priklic po celotni datoteki, ne le v delih z glavnim jezikom.
Preverite svoje DPIA-je. DPIA, zgrajena na enojezicnih zapisih, je morda nepopolna. Popravite jo, preden jo revizija odkrije.
Za podrobnosti API-ja in pokritost entitet glejte stran s cenami.
anonym.legal uporablja XLM-RoBERTa skupaj z domacimi modeli spaCy in Stanza. Najde PII pri prelomih razdelkov v nemscini, francoscini, anglescini in se 45 drugih jezikih.