Vegyes nyelvű PII: miért mulasztanak az egynyelvű eszközök
2026-ra frissítve.
A dokumentumok átlépik a nyelvi határokat
Egy svájci gyógyszercég munkaszerződése nem egyetlen nyelven íródik. Svájcnak négy hivatalos nyelve van. A svájci cégek a főszövegben németet, a jogi záradékokban franciát, a globális fejezetekben angolt kevernek – akár egyetlen bekezdésen belül is.
Egy belga igazgatósági ülés jegyzőkönyve holland szöveget, francia formai részeket és angol összefoglalókat tartalmaz. Egy globális adategyezmény angol technikai specifikációkat és német jogosultsági záradékokat foglalhat magában.
Ez nem kivétel – ez a norma a DACH-régió és az EU vállalataiban. Az egynyelvű PII-eszközök ezeken a fájlokon csődöt mondanak.
A 45%-os kihagyási arány
Az egynyelvű NER-eszközök 45%-kal magasabb PII-kihagyási arányt produkálnak vegyes fájlokon a tisztán egynyelvű dokumentumokhoz képest.
A gyökérprobléma a tervezési szemléletből fakad. Egy német szövegen betanított modell ismeri a helyi névformákat és a címszabályokat. Amikor egy francia szakasszal találkozik, kívül kerül a tanítási tartományán. Az ott szereplő neveket és azonosítókat gyengén ismeri fel. A modell nem gyenge – egyszerűen más nyelvhez készítették.
Az EDPB 2024-es vizsgálata megállapította, hogy az EU-s vállalkozások 72%-a egyszerre három vagy több nyelven dolgoz fel dokumentumokat. A Gartner 2024-es kutatása szerint a többnyelvű HR-dokumentumok oldalanként 67%-kal több PII-t tartalmaznak, mint az egynyelvűek. Több PII és több kihagyás együttesen tovább növeli a rést.
Lásd a GDPR-útmutatónkat az alkalmazandó szabályokhoz.
Hol sűrűsödnek a hibák
A hibák nem egyenletesen oszlanak el a dokumentumban. A szakaszhatárokon lévő PII a legveszélyeztetettebb.
Vegyük ezt a záradékot: német mondatszerkezet, egy francia alkalmazott neve és egy francia születési dátum – mindezt egyetlen sorban. A NER-modell olyan helyen látja a francia nevet, ahol helyi nevet vár. Előfordulhat, hogy nem jelöli meg. A franciára betanított modell a német kontextusszavakat látja, és nem tudja értelmezni a szerkezetet.
A HR-dokumentumok esetén ez különösen költséges. A Gartner szerint a vegyes HR-fájlok oldalanként 67%-kal több PII-t tartalmaznak. A szakaszhatárokon elkövetett hibák éppen abban a dokumentumtípusban a legfájdalmasabbak, amelyik a legtöbb személyes adatot hordozza.
A keresztnyelvű modellek megoldást kínálnak
Az XLM-RoBERTa egyszerre 100 nyelv szövegén tanul. Nem alkalmaz külön modellt minden nyelvhez. Megtanulja, hogy a névfelismerés ugyanúgy működik különböző nyelvi kontextusokban. A név és körülötte a szöveg ugyanolyan szerkezetű németül, franciául és angolul is.
Vegyes fájlok esetén a modell nem vált a szakaszhatáron. Az egész szöveget egyetlen blokkként olvassa, és ugyanazokat az entitásszabályokat alkalmazza minden ponton.
A német és a francia szövegek finomhangolása pontosságot ad az egyes nyelvekhez önmagukban. A keresztnyelvű alap azonban megtalálja a PII-t a határhézagoknál is, ahol az egynyelvű modellek csődöt mondanak.
A DACH-régió cégeinek, amelyek dokumentumai több nyelvi szakaszon ívelnek át, ez valódi előnyt jelent. Az egynyelvű eszközök által a határon kihagyott entitásokat a keresztnyelvű modellek megtalálják.
Lásd az anonym.legal garanciáit ennek kezeléséről.
Mit tegyen most
Ellenőrizze eszköze hatókörét. Kérjen a szállítójától területi bontású visszahívási pontszámokat. A „sok nyelvet támogat” állítás mögött gépi fordítás is állhat elsődleges lépésként – ez nem natív szkennelés.
Térképezze fel dokumentumait területi lebontásban. Egy DACH-régió cégnek, amelynek dokumentumainak 60%-a német, 30%-a francia és 10%-a angol, eltérő rései lesznek.
Teszteljen szakaszhatár-mintákon. Állítson össze egy tíz vegyes nyelvű záradékpéldából álló tesztkészletet. Ellenőrizze a visszahívást a teljes fájlon, ne csak a főnyelvi részeken.
Vizsgálja felül DPIA-it. Az egynyelvű feljegyzések alapján készített DPIA hiányos lehet. Javítsa ki, mielőtt egy audit teszi azt meg helyette.
Az API-részletekért és az entitáslefedettségért látogasson el az árazási oldalra.
Az anonym.legal XLM-RoBERTa-t, valamint natív spaCy és Stanza modelleket alkalmaz. A PII-t szakaszhatárokon is megtalálja németül, franciául, angolul és még 45 más területi beállításban.