PII ve vícejazyčných dokumentech: proč monolingvální nástroje selhávají
Aktualizováno pro rok 2026.
Dokumenty překračují jazykové hranice
Pracovní smlouva švýcarské farmaceutické společnosti není sepsána v jediném jazyce. Švýcarsko má čtyři úřední jazyky. Švýcarské firmy kombinují němčinu v hlavním textu, francouzštinu v právních doložkách a angličtinu v mezinárodních částech. To vše může být v jednom odstavci.
Zápis z jednání belgické rady obsahuje text v holandštině, formální části ve francouzštině a shrnutí v angličtině. Globální datová smlouva může mít technické specifikace v angličtině a licenční doložky v němčině.
To není výjimka. Pro firmy z oblasti DACH a celé EU je to norma. Monolingvální nástroje pro PII na těchto souborech selhávají.
Propast 45% míry přehlédnutí
Monolingvální nástroje NER mají o 45 % vyšší míru přehlédnutí PII ve vícejazyčných souborech než v čistě jednojazyčných dokumentech.
Příčina spočívá v samotném návrhu nástrojů. Model trénovaný na německých textech zná místní formy jmen a pravidla pro adresy. Když narazí na francouzskou část, je mimo oblast svého tréninku. Jména a identifikátory v té části jsou detekovány spolehlivě méně. Model není slabý — byl navržen pro jiný jazyk.
EDPB zjistila v roce 2024, že 72 % podniků v EU zpracovává soubory ve třech nebo více jazycích současně. Gartner zjistil v roce 2024, že vícejazyčné personální soubory obsahují o 67 % více PII na stránku než jednojazyčné. Více PII a vyšší míra přehlédnutí tuto mezeru ještě prohlubují.
Pravidla, která se na tuto situaci vztahují, najdete v našem průvodci GDPR.
Kde se chyby kumulují
Selhání není v celém souboru rovnoměrné. Nejvíce ohroženy jsou PII na přechodech mezi sekcemi.
Uvažme tuto doložku: německá větná struktura, francouzské jméno zaměstnance a francouzské datum narození — vše na jednom řádku. Model NER vidí francouzské jméno tam, kde očekává místní formu. Nemusí ho označit. Model trénovaný na francouzštině vidí německá kontextová slova a nedokáže rozluštit strukturu.
Personální soubory tento problém zdražují. Gartner zjistil o 67 % více PII na stránku ve smíšených personálních souborech. Chyby na přechodech sekcí bolí nejvíce právě v tom typu souboru, který obsahuje nejvíce osobních údajů.
Vícejazyčné modely tento problém řeší
XLM-RoBERTa je trénován na textech ze 100 jazyků najednou. Nepoužívá pro každý jazyk samostatný model. Naučí se, že detekce jmen funguje stejným způsobem napříč různými jazykovými kontexty. Jméno a jeho kontext sdílejí stejnou strukturu v němčině, francouzštině i angličtině.
U vícejazyčných souborů model nepřepíná při přechodu na novou sekci. Čte celý text jako jeden celek. Aplikuje stejná pravidla pro entity na každém místě.
Doladění na němčinu a francouzštinu přidává přesnost pro každý jazyk samostatně. Vícejazyčný základ ale zachytí PII na přechodech tam, kde monolingvální modely selhávají.
Pro firmy z oblasti DACH, jejichž soubory přecházejí mezi jazykovými sekcemi, jde o skutečný přínos. Entity, které jednojazyčné nástroje na přechodech přehlédnou, vícejazyčné modely naleznou.
Informace o tom, jak anonym.legal tuto situaci řeší, najdete na naší stránce o bezpečnostních opatřeních.
Doporučené kroky
Ověřte rozsah svého nástroje. Požádejte dodavatele o skóre přesnosti rozpoznávání (recall) podle jazykové oblasti. „Podporuje více jazyků” může znamenat, že text prochází nejprve strojovým překladem. To není nativní skenování.
Zmapujte své soubory podle jazyka. Firma z oblasti DACH s 60 % němčiny, 30 % francouzštiny a 10 % angličtiny má jiné mezery než ostatní.
Testujte se vzorky na přechodech sekcí. Sestavte testovací sadu s deseti příklady smíšených vícejazyčných doložek. Ověřte přesnost rozpoznávání v celém souboru, nejen v částech s hlavním jazykem.
Zkontrolujte své posouzení dopadů na ochranu osobních údajů (DPIA). DPIA sestavená na základě jednojazyčných záznamů může být neúplná. Napravte to dříve, než tak učiní audit.
Podrobnosti o rozhraní API a pokrytí entit najdete na stránce s cenami.
anonym.legal využívá XLM-RoBERTa spolu s nativními modely spaCy a Stanza. Nalézá PII na přechodech sekcí v němčině, francouzštině, angličtině a dalších 45 jazycích.