A többnyelvű NER kihívás
Az angol szövegen tanított Named Entity Recognition (NER) modellek lenyűgöző eredményeket érnek el – 85-92% F1 pontszámot a standard benchmarkokon. Alkalmazza ezeket a modelleket arabra vagy kínaira? A pontosság gyakran 50-70%-ra esik vissza.
A PII-észlelésnél ez a különbség kritikus. A 70%-os felismerési arány azt jelenti, hogy az érzékeny adatok 30%-a védelem nélkül marad.
Miért vallanak kudarcot az angol modellek
1. Szóhatárok
Angol: A szavakat szóközök választják el.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Kínai: Egyáltalán nincs szóhatár.
"张伟住在北京"
→ Először szegmentálni kell: ["张伟", "住在", "北京"]
Arab: A szavak összekapcsolódnak, a rövid magánhangzókat nem írják.
"محمد يعيش في دبي"
→ Összefüggő írás, jobbról balra, kihagyott magánhangzók
Az angol tokenizálási szabályok egyszerűen nem alkalmazhatók.
2. Morfológiai összetettség
Angol morfológia: Viszonylag egyszerű
run → runs, running, ran
Arab morfológia: Rendkívül összetett (gyök-minta rendszer)
كَتَبَ (kataba) = "ő írt"
كَاتِب (kātib) = "író"
مَكْتَبَة (maktaba) = "könyvtár"
مَكْتُوب (maktūb) = "levél/megírt"
Ugyanaz a gyök, de teljesen különböző entitástípusok.
3. Névrendszerek
Nyugati nevek: Keresztnév Vezetéknév (néha középső)
Arab nevek: Ism (saját név) + Nasab (apai ág, "ibn/bint") + Laqab (cím) + Nisba (törzs/hely) + Kunya (apanév)
Kínai nevek: Vezetéknév + Keresztnév (fordított sorrend), általában 2-4 karakter
Egy általános NN-modell, amely angolra van tanítva, egyszerűen nem ismeri fel ezeket a mintákat.
4. Szkriptirány
Az arab, héber, perzsa és urdu szöveg jobbról balra fut. A tokenizálóknak és a megjelenítési motoroknak kifejezetten támogatniuk kell a kétirányú szöveget.
Valós pontossági adatok
| Azonosítótípus | Angol pontosság | Arab pontosság | Kínai pontosság |
|---|---|---|---|
| Személynevek | 95% | 62% | 71% |
| Telefonszámok | 98% | 85% | 91% |
| E-mail-címek | 99% | 99% | 99% |
| Nemzeti azonosítók | 97% | 45% | 67% |
| Bankszámlaszámok | 96% | 58% | 73% |
Az e-mailek és a telefonszámok jól működnek (szkopiumentáltan): az ASCII-formátumok és a nemzetközi számformátumok a szkripttől függetlenül felismerhetők. De a tényleges szóalapú PII – nevek, azonosítók, szöveges tartalom – drámai pontossági veszteséget mutat.
Az anonym.legal megközelítése
Az anonym.legal 48 nyelvet és 24 spaCy modellt tartalmaz:
Telepített spaCy modellek
ca, da, de, el, en, es, fi, fr, hr, it, ja, ko, lt, mk, nb, nl, pl, pt, ro, ru, sl, sv, uk, zh
Minden modell az adott nyelv NER-logikájára van képezve – nem egyszerűen angolból fordítva.
Arabhoz és héberhez
A jobbról balra futó nyelvekhez:
- Natív unicode feldolgozás
- Megfelelő bidirekcionális tokenizálás
- Kontextuális névmintázat felismerés
- Országspecifikus azonosító reguláris kifejezések
Strukturált azonosítók minden területen
Az olyan strukturált PII esetén, mint a nemzeti azonosítószámok:
- 285+ egyedi entitástípus, minden fontosabb ország számára
- Regex minták + ellenőrzőösszeg érvényesítés
- Kontextuális megerősítés
A GDPR-ra vonatkozó következmények
A GDPR 23 EU-s hivatalos nyelven érvényesül. Ha adatfeldolgozása magában foglalja:
- Német vagy francia szöveg → Steuer-ID, NIR felismerés szükséges
- Lengyel szöveg → PESEL felismerés szükséges
- Magyar szöveg → TAJ-szám felismerés szükséges
Egy csupán angolra képzett eszköz nem felel meg a GDPR elvárásoknak az EU-s ügyfelek esetében.
Következtetés
A többnyelvű PII-észlelés nem angol plusz fordítás. Minden egyes nyelv natív modellt, kulturálisan releváns névrendszer-felismerést és lokalizált azonosítóminták kezelést igényel.
Az anonym.legal-lal valódi többnyelvű megfelelőséget kap – nem angolcentrikus eszközt, amely elfedi a hiányosságait.