A vegyes nyelvű dokumentum valósága
A multinacionális szervezetek tényleges dokumentumtermelése:
Teljesítmény felülvizsgálat – Schmidt János / Jean-Pierre Dubois
Projekt: DACH-Benelux integráció
Dátum: 2025. március
[Névkódot]
John Smith (Team Lead, Berlin) reviewed Jan Kowalski's (Varsó)
performance alongside Sophie Martin (Paris). Le rapport complet
ist anliegend / est joint / jest załączony.
Ez egy dokumentum három különböző PII-vel négy különböző nyelven.
Miért vallanak kudarcot az egynyelvű eszközök
Az egynyelvű motor problémája
Az angolra képzett motor:
- Felismeri:
John Smith,Jean-Pierre Dubois,Sophie Martin - Kihagyja:
Schmidt János(fordított névrendű),Jan Kowalski(lengyel névrendű) - Tévesen kezeli: vegyes kontextusú azonosítókat
A közlemény kontextusa megadja a pontos NER-t. A többnyelvű dokumentumokban a kontextus meghatározza a PII-t.
A svájci multinacionális eset
Egy svájci gyógyszeripari vállalat dokumentumait elemezve:
- Három hivatalos svájci nyelv: Hochdeutsch, Français, Italiano
- Plusz angol mint munkanyelv
- Plusz helyi alkalmazott adatok (svájci AHV-számok, IBAN-ok)
Egynyelvű eszköz alkalmazásával az AHV-számok (13 számjegy) teljesen kihagyva – mert az egyetlen eszközük nem rendelkezett svájci azonosítólogikával.
Az anonym.legal többnyelvű megközelítése
Automatikus nyelvfelismerés
Az anonym.legal bekezdés-szintű nyelvfelismerést végez vegyes dokumentumokban.
Rétegzett NER
Minden bekezdéshez a megfelelő spaCy modell alkalmazódik – nem egy globális modell az egész dokumentumhoz.
Keresztnyelvi azonosítók
A strukturált azonosítók (IBAN, hitelkártyák) egységes regex + érvényesítési logikán alapulnak, a szövegtől független.
Következtetés
A multinacionális szervezetek számára a vegyes nyelvű PII-feldolgozás nem opcionális – ez a valóságuk. Az egynyelvű eszközök szisztematikusan kudarcot vallanak ezen a követelményen.
Az anonym.legal automatikus nyelvfelismerése és rétegzett NER-je ezt a kihívást kezeli.