Dokumente, die einsprachige Tools herausfordern
Ein Arbeitsvertrag eines Schweizer Pharmaunternehmens ist nicht in einer Sprache verfasst. Die Schweiz hat vier Amtssprachen. Dokumente, die von Schweizer Organisationen erstellt werden, mischen routinemäßig Deutsch für den Hauptvertragstext, Französisch für bestimmte regulatorische Klauseln und Englisch für internationale Normierungsabschnitte – manchmal innerhalb eines einzigen Absatzes.
Ein Protokoll eines belgischen Unternehmens enthält niederländische Berichte mit französischen formalen Beschlüssen und englischen Zusammenfassungsabschnitten für internationale Investoren. Ein Datenverarbeitungsvertrag eines multinationalen Unternehmens hat englische technische Spezifikationen, deutsche Rechte der betroffenen Personen und französische Kontaktinformationen der DPA.
Dies sind keine ungewöhnlichen Dokumente. Sie sind die Standardausgabe multinationaler Organisationen, die auf mehrsprachigen Märkten tätig sind. Und einsprachige PII-Erkennungstools versagen systematisch bei ihnen.
Die 45 % höhere Auslassungsrate
Forschung, die einsprachige und mehrsprachige NER-Ansätze bei mehrsprachigen Dokumenten vergleicht, hat ergeben, dass mehrsprachige Dokumente eine 45 % höhere PII-Auslassungsrate in einsprachigen NER-Tools verursachen im Vergleich zu ihrer Leistung bei rein einsprachigen Dokumenten.
Die Quelle der Lücke ist architektonisch: Ein einsprachiges NER-Modell, das auf deutschem Text trainiert wurde, lernt deutsche Namensmuster, deutsche Konventionen für Organisationsnamen und deutsche Adressstrukturen. Wenn dieses Modell auf einen französischen Abschnitt innerhalb eines überwiegend deutschen Dokuments stößt, arbeitet es außerhalb seiner Trainingsverteilung. Die französischen Personennamen, französischen Adressen und französischen organisatorischen Identifikatoren in diesem Abschnitt unterliegen einer verringerten Erkennungsgenauigkeit – nicht weil das Modell schlecht trainiert ist, sondern weil es auf die falsche Sprache für diesen Abschnitt trainiert wurde.
Die zusätzliche Erkenntnis: 72 % der EU-Unternehmen verarbeiten Dokumente in 3+ Sprachen gleichzeitig (EDPB 2024), und mehrsprachige HR-Dokumente enthalten 67 % mehr PII pro Seite als einsprachige Äquivalente (Gartner 2024). Die Kombination aus höherer PII-Dichte und höheren Auslassungsraten verstärkt die Compliance-Lücke in Organisationen, die mehrsprachige HR-, rechtliche und kommerzielle Dokumente verarbeiten.
Wie Sprachgrenzen Erkennungsfehler erzeugen
Das Versagen ist nicht einheitlich. PII an Sprachgrenzen – wo ein Abschnitt von einer Sprache zur anderen wechselt – ist besonders anfällig.
Ein Arbeitsvertrag könnte eine Klausel enthalten wie: "Der Arbeitnehmer (Employee: Jean-Pierre Dupont, né le 15 mars 1985 à Lyon) stimmt zu..." – und mischt deutsche Satzstruktur mit einem französischen Namen und Geburtsdatum. Ein deutschsprachiges NER-Modell trifft auf den französischen Namen an einer Stelle, an der es deutsche Namensmuster erwartet, und könnte es falsch klassifizieren. Ein französischsprachiges Modell sieht Kontextwörter auf Deutsch und kann die umgebende Dokumentstruktur nicht zuverlässig identifizieren.
Die Beobachtung von Gartner 2024, dass mehrsprachige HR-Dokumente 67 % mehr PII pro Seite enthalten als einsprachige Äquivalente, macht diesen Grenzerkennungsfehler besonders folgenschwer: HR-Dokumente gehören zu den Dokumenttypen mit der höchsten PII-Dichte, und sie werden von mehrsprachigen Organisationen in gemischter Sprachform erstellt.
Die Cross-Lingual Transformer-Lösung
XLM-RoBERTa (Cross-lingual Language Model - Roberta) stellt einen anderen architektonischen Ansatz für dieses Problem dar. Anstatt ein separates Modell für jede Sprache zu trainieren, wird XLM-RoBERTa auf Text aus 100 Sprachen gleichzeitig trainiert. Das Modell lernt, dass Aufgaben zur Entitätserkennung Muster über Sprachen hinweg teilen – dass die strukturelle Beziehung zwischen einem Personennamen und umgebenden Kontextwörtern in Deutsch, Französisch und Englisch ähnlich ist, auch wenn die spezifischen Wörter unterschiedlich sind.
Für mehrsprachige Dokumente bedeutet die cross-linguale Architektur von XLM-RoBERTa, dass das Modell nicht zwischen Sprachmodellen an einer Dokumentgrenze "wechseln" muss. Es verarbeitet den Text als kontinuierliche Sequenz und wendet dieselbe Entitätserkennungsfähigkeit unabhängig vom Sprachwechsel an.
Dies ist keine vollständige Lösung – sprachspezifisches Feintuning auf deutschen, französischen und anderen Sprachtrainingsdaten bietet zusätzliche Genauigkeit für jede Sprache einzeln. Aber die cross-linguale Basislinie bietet zuverlässige Erkennung über Sprachgrenzen hinweg, die einsprachige Modelle inkonsistent behandeln.
Für Schweizer, belgische und andere multinationale Organisationen, deren Dokumente routinemäßig Sprachgrenzen überschreiten, übersetzt sich der architektonische Unterschied zwischen einsprachigen und cross-lingualen NER direkt in Compliance-Ergebnisse: Entitäten, die an Sprachgrenzen in einsprachigen Tools übersehen werden, werden von cross-lingualen Architekturen erkannt.
Quellen: