Dokumenty, które nie poddają się jednojęzycznym narzędziom
Umowa o pracę szwajcarskiej firmy farmaceutycznej nie jest napisana w jednym języku. Szwajcaria ma cztery języki urzędowe. Dokumenty produkowane przez szwajcarskie organizacje rutynowo mieszają niemiecki jako główny tekst umowy, francuski dla niektórych klauzul regulacyjnych oraz angielski dla sekcji dotyczących międzynarodowych standardów — czasami w obrębie jednego akapitu.
Protokół z posiedzenia zarządu belgijskiej firmy zawiera raporty w języku niderlandzkim z formalnymi uchwałami w języku francuskim i sekcjami podsumowującymi w języku angielskim dla międzynarodowych inwestorów. Umowa o przetwarzaniu danych międzynarodowej korporacji ma specyfikacje techniczne w języku angielskim, klauzule dotyczące praw osób, których dane dotyczą, w języku niemieckim oraz informacje kontaktowe DPA w języku francuskim.
To nie są niezwykłe dokumenty. To standardowy wynik działalności międzynarodowych organizacji działających na wielojęzycznych rynkach. A jednojęzyczne narzędzia do wykrywania PII systematycznie zawodzą w ich przypadku.
O 45% wyższy wskaźnik błędów
Badania porównujące jednojęzyczne i wielojęzyczne podejścia NER w przypadku dokumentów w różnych językach wykazały, że dokumenty w różnych językach powodują o 45% wyższy wskaźnik błędów PII w jednojęzycznych narzędziach NER w porównaniu do ich wydajności w przypadku czystych dokumentów w jednym języku.
Źródło tej różnicy jest architektoniczne: model NER w jednym języku wytrenowany na niemieckim tekście uczy się wzorców nazw niemieckich, konwencji nazw organizacji niemieckich i struktur adresowych niemieckich. Kiedy ten model napotyka francuską sekcję w przeważająco niemieckim dokumencie, działa poza swoją dystrybucją treningową. Francuskie imiona, francuskie adresy i francuskie identyfikatory organizacyjne w tej sekcji są narażone na zmniejszoną dokładność wykrywania — nie dlatego, że model jest źle wytrenowany, ale dlatego, że był trenowany na niewłaściwym języku dla tej sekcji.
Dodatkowe ustalenie: 72% przedsiębiorstw UE przetwarza dokumenty w 3+ językach jednocześnie (EDPB 2024), a wielojęzyczne dokumenty HR zawierają o 67% więcej PII na stronę niż odpowiedniki w jednym języku (Gartner 2024). Połączenie wyższej gęstości PII i wyższych wskaźników błędów pogłębia lukę w zgodności w organizacjach przetwarzających wielojęzyczne dokumenty HR, prawne i handlowe.
Jak granice językowe tworzą błędy wykrywania
Błąd nie jest jednolity. PII na granicach językowych — gdzie sekcja przechodzi z jednego języka do drugiego — jest szczególnie podatne na błędy.
Umowa o pracę może zawierać klauzulę jak: "Der Arbeitnehmer (Pracownik: Jean-Pierre Dupont, né le 15 mars 1985 à Lyon) stimmt zu..." — mieszając niemiecką strukturę zdania z francuskim imieniem i datą urodzenia. Model NER w języku niemieckim napotyka francuskie imię w pozycji, w której oczekuje niemieckich wzorców imion i może nie sklasyfikować go poprawnie. Model w języku francuskim widzi słowa kontekstowe w języku niemieckim i nie może niezawodnie zidentyfikować otaczającej struktury dokumentu.
Obserwacja Gartnera 2024, że wielojęzyczne dokumenty HR zawierają o 67% więcej PII na stronę niż odpowiedniki w jednym języku, czyni tę granicę błędu wykrywania szczególnie istotną: dokumenty HR są jednym z typów dokumentów o najwyższej gęstości PII, a są produkowane przez wielojęzyczne organizacje w formie mieszanej.
Rozwiązanie Cross-Lingual Transformer
XLM-RoBERTa (Cross-lingual Language Model - Roberta) reprezentuje inne podejście architektoniczne do tego problemu. Zamiast trenować osobny model dla każdego języka, XLM-RoBERTa jest trenowany na tekstach z 100 języków jednocześnie. Model uczy się, że zadania rozpoznawania encji dzielą wzorce między językami — że strukturalny związek między imieniem osoby a otaczającymi słowami kontekstowymi jest podobny w języku niemieckim, francuskim i angielskim, nawet gdy konkretne słowa się różnią.
Dla dokumentów w różnych językach architektura cross-lingual XLM-RoBERTa oznacza, że model nie musi "przełączać się" między modelami językowymi na granicy dokumentu. Przetwarza tekst jako ciągłą sekwencję, stosując tę samą zdolność rozpoznawania encji niezależnie od przejścia językowego.
To nie jest pełne rozwiązanie — specyficzne dla języka dostosowanie na danych treningowych w języku niemieckim, francuskim i innych zapewnia dodatkową dokładność dla każdego języka z osobna. Ale podstawowy model cross-lingual zapewnia niezawodne wykrywanie przez granice językowe, które modele jednojęzyczne obsługują w sposób niespójny.
Dla szwajcarskich, belgijskich i innych międzynarodowych organizacji, których dokumenty rutynowo przekraczają granice językowe, architektoniczna różnica między jednojęzycznym a cross-lingual NER przekłada się bezpośrednio na wyniki zgodności: encje pominięte na granicach językowych w narzędziach jednojęzycznych są wykrywane przez architektury cross-lingual.
Źródła: