Vissza a BlograTechnikai

Többnyelvű NER: Miért vall kudarcot az angolra...

Az angol NER-modellek 85-92% pontosságot érnek el. Arab és kínai esetén? Gyakran 50-70%.

February 26, 20268 perc olvasás
NERmultilingualArabic NLPChinese NLPPII detection

A többnyelvű NER kihívás

Az angol szövegen tanított Named Entity Recognition (NER) modellek lenyűgöző eredményeket érnek el – 85-92% F1 pontszámot a standard benchmarkokon. Alkalmazza ezeket a modelleket arabra vagy kínaira? A pontosság gyakran 50-70%-ra esik vissza.

A PII-észlelésnél ez a különbség kritikus. A 70%-os felismerési arány azt jelenti, hogy az érzékeny adatok 30%-a védelem nélkül marad.

Miért vallanak kudarcot az angol modellek

1. Szóhatárok

Angol: A szavakat szóközök választják el.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Kínai: Egyáltalán nincs szóhatár.

"张伟住在北京"
→ Először szegmentálni kell: ["张伟", "住在", "北京"]

Arab: A szavak összekapcsolódnak, a rövid magánhangzókat nem írják.

"محمد يعيش في دبي"
→ Összefüggő írás, jobbról balra, kihagyott magánhangzók

Az angol tokenizálási szabályok egyszerűen nem alkalmazhatók.

2. Morfológiai összetettség

Angol morfológia: Viszonylag egyszerű

run → runs, running, ran

Arab morfológia: Rendkívül összetett (gyök-minta rendszer)

كَتَبَ (kataba) = "ő írt"
كَاتِب (kātib) = "író"
مَكْتَبَة (maktaba) = "könyvtár"
مَكْتُوب (maktūb) = "levél/megírt"

Ugyanaz a gyök, de teljesen különböző entitástípusok.

3. Névrendszerek

Nyugati nevek: Keresztnév Vezetéknév (néha középső)

Arab nevek: Ism (saját név) + Nasab (apai ág, "ibn/bint") + Laqab (cím) + Nisba (törzs/hely) + Kunya (apanév)

Kínai nevek: Vezetéknév + Keresztnév (fordított sorrend), általában 2-4 karakter

Egy általános NN-modell, amely angolra van tanítva, egyszerűen nem ismeri fel ezeket a mintákat.

4. Szkriptirány

Az arab, héber, perzsa és urdu szöveg jobbról balra fut. A tokenizálóknak és a megjelenítési motoroknak kifejezetten támogatniuk kell a kétirányú szöveget.

Valós pontossági adatok

AzonosítótípusAngol pontosságArab pontosságKínai pontosság
Személynevek95%62%71%
Telefonszámok98%85%91%
E-mail-címek99%99%99%
Nemzeti azonosítók97%45%67%
Bankszámlaszámok96%58%73%

Az e-mailek és a telefonszámok jól működnek (szkopiumentáltan): az ASCII-formátumok és a nemzetközi számformátumok a szkripttől függetlenül felismerhetők. De a tényleges szóalapú PII – nevek, azonosítók, szöveges tartalom – drámai pontossági veszteséget mutat.

Az anonym.legal megközelítése

Az anonym.legal 48 nyelvet és 24 spaCy modellt tartalmaz:

Telepített spaCy modellek

ca, da, de, el, en, es, fi, fr, hr, it, ja, ko, lt, mk, nb, nl, pl, pt, ro, ru, sl, sv, uk, zh

Minden modell az adott nyelv NER-logikájára van képezve – nem egyszerűen angolból fordítva.

Arabhoz és héberhez

A jobbról balra futó nyelvekhez:

  • Natív unicode feldolgozás
  • Megfelelő bidirekcionális tokenizálás
  • Kontextuális névmintázat felismerés
  • Országspecifikus azonosító reguláris kifejezések

Strukturált azonosítók minden területen

Az olyan strukturált PII esetén, mint a nemzeti azonosítószámok:

  • 285+ egyedi entitástípus, minden fontosabb ország számára
  • Regex minták + ellenőrzőösszeg érvényesítés
  • Kontextuális megerősítés

A GDPR-ra vonatkozó következmények

A GDPR 23 EU-s hivatalos nyelven érvényesül. Ha adatfeldolgozása magában foglalja:

  • Német vagy francia szöveg → Steuer-ID, NIR felismerés szükséges
  • Lengyel szöveg → PESEL felismerés szükséges
  • Magyar szöveg → TAJ-szám felismerés szükséges

Egy csupán angolra képzett eszköz nem felel meg a GDPR elvárásoknak az EU-s ügyfelek esetében.

Következtetés

A többnyelvű PII-észlelés nem angol plusz fordítás. Minden egyes nyelv natív modellt, kulturálisan releváns névrendszer-felismerést és lokalizált azonosítóminták kezelést igényel.

Az anonym.legal-lal valódi többnyelvű megfelelőséget kap – nem angolcentrikus eszközt, amely elfedi a hiányosságait.

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.