PII vo viacjazycnych dokumentoch: Preco jednojazyckove nastroje zlyhavaju
Aktualizovane pre rok 2026.
Dokumenty prekracuju jazykove hranice
Pracovna zmluva svajciarskeho farmasutickeho podniku nie je pisana jednym jazykom. Svajciarsko ma styri uradne jazyky. Svajciarske firmy kombinuju nemcinu v hlavnej casti, francuzstinu v pravnych klauzulach a anglictinu v globalnych castiach. To sa moze stat v jednom odseku.
Zapis z belgickeho predstavenstva obsahuje holandsky text, francuzske formalne casti a anglicke zhrnutia. Globalna datova zmluva moze mat anglicke technicke specifikacie a nemecke klauzuly o pravach.
Toto nie je ojedinele. Je to norma pre firmy v oblasti DACH a EÚ. Jednojazyckove nastroje PII na tychto suboroch zlyhavaju.
Medzera 45 % mierou vynechania
Jednojazyckove nastroje NER maju o 45 % vyssi pocet vynechanych PII vo viacjazycnych suboroch. Toto je v porovnani s cistymi jednojazykovymi subormi.
Pricinou je dizajn. Model trenovany na nemeckom texte pozna lokalne formy mien a pravidla adries. Ked narazi na francuzsky oddiel, je mimo rozsahu svojho trenovania. Mena a ID v tej casti su detekovane slabo. Model nie je slaby - bol vytvoreny pre iny jazyk.
EDPB 2024 zistil, ze 72 % firm v EU spracuvava subory v troch alebo viacerych jazykoch sucasne. Gartner 2024 zistil, ze viacjazycne HR subory maju o 67 % viac PII na stranku ako jednojazyckove. Viac PII plus viac vynechani znasobuje medzeru.
Pozrite si nas pruvodca GDPR so zoznamom platnych pravidiel.
Kde sa chyby zhlukouju
Zlyhanie nie je rovnomerne rozlozene po celom subore. PII na prechodoch medzi oddielmi je najviac ohrozena.
Uvazujme tuto klauzulu: nemecka vetna struktura, francuzske meno zamestnanca a francuzsky datum narodenia - vsetko v jednom riadku. Model NER vidi francuzske meno tam, kde ocakava lokalne. Nemusí ho oznacit. Model trenovany na francuztine vidi nemecke kontextove slova a nevie precitat strukturu.
HR subory robia toto nakladnym. Gartner zistil o 67 % viac PII na stranku vo viacjazycnych HR suboroch. Chyby na prechodoch medzi oddielmi su najnakladnejsie v type suboru s najviac osobnymi udajmi.
Viacjazycne modely to riesia
XLM-RoBERTa je trenovany na textoch zo 100 jazykov sucasne. Nepouziva novy model pre kazdy jazyk. Uci sa, ze detekcia mien funguje rovnako napriec jazykovymi kontextmi. Meno a jeho kontext zdielaju rovnaku strukturu v nemcine, francuztine a anglictine.
Pre viacjazycne subory model neprepina pri prechode oddielov. Cita cely text ako jeden blok. Uplatuje rovnake pravidla pre entity na kazdom mieste.
Doladenie na nemcinu a francuzstinu pridava presnost pre kazdy jazyk samostatne. Ale viacjazycny zaklad zachyti PII na prechodoch, kde jednojazyckove modely zlyhavaju.
Pre firmy DACH, ktore maju subory prechádzajuce cez jazykove oddiely, ide o realny prinos. Entity vynechane jednojazykovymi nastrojmi pri prechodoch su viacjazycnymi modelmi najdene.
Pozrite si nasu stranku bezpecnostnych zaruk o tom, ako anonym.legal toto riesi.
Kroky, ktore treba podniknut teraz
Skontrolujte rozsah vasho nastroja. Poziadajte dodavatela o skore navratnosti podla miestnych nastaveni. "Podporuje viacero jazykov" moze znamenat, ze text je najprv strojovo prelozeny. To nie je native skenovanie.
Zmapujte svoje subory podla miestneho nastavenia. Firma DACH so 60 % nemeckych, 30 % francuzskych a 10 % anglickych suborov ma odlisne medzery.
Testujte s vzorkami prechodov oddielov. Vytvorte testovaciu sadu s desiatimi viacjazycnymi prıkladmi klauzul. Skontrolujte navratnost v celom subore, nielen v castiach v hlavnom jazyku.
Skontrolujte svoje DPIA. DPIA vytvorena na zaklade jednojazyckych zaznamov moze byt neuplna. Opravte to pred auditom.
Podrobnosti o API a pokryti entit najdete na stranke s cenami.
anonym.legal pouziva XLM-RoBERTa plus nativne modely spaCy a Stanza. Nachadza PII napriec prechodmi oddielov v nemcine, francuztine, anglictine a 45 dalsich miestnych nastavenych.