A rejtett GDPR megfelelőségi rés
A GDPR-nak nincs nyelvi preferenciája. A 4(1). cikk a „személyes adatot" anélkül határozza meg, hogy hivatkozna arra a nyelvre, amelyen megjelenik. Egy német Steuer-ID ugyanolyan védett, mint egy USA-beli Társadalombiztosítási szám. Egy francia NIR ugyanolyan szabályozott, mint egy brit Nemzeti Biztosítási szám.
De a legtöbb PII-észlelési eszközt angolra tervezték.
Az ACL 2024-en megjelent kutatás megállapította, hogy a hibrid NLP-megközelítések F1 pontszámai 0,60-0,83-ot érnek el európai területeken – az angolcentric eszközök nem angol szövegen nulla közelbe kerülnek a strukturált nemzeti azonosítók esetén. A gyakorlati következmény: egy multinacionális szervezetben bevezetett anonimizálási eszköz az angol PII 95%-át észlelheti, miközben ugyanabban az adathalmazban a német, francia, lengyel vagy holland PII 40-60%-át hiányozza.
Ez egy szisztematikus GDPR megfelelőségi rés, amely szinte minden multinacionális vállalatot érint, amely angolcentrikus anonimizálási eszközöket használ.
Miért nyelvspecifikus a PII
A PII-észlelésnek két összetevője van:
1. Strukturált azonosítók: Ezek formátum-alapú minták. Egy francia NIR mindig 13 számjegyű meghatározott szemantikával. Egy svéd Personnummer formátuma YYYYMMDD-XXXX. Ezek regex-alapú felismerést igényelnek, és eltérnek minden egyes ország esetén.
2. Kontextuális entitások: Ezek szövegkörnyezetben azonosított nevek, szervezetek, helyek. Ezek NER-t (Named Entity Recognition) igényelnek, amelynek az egyes emberi nyelveken tanítottnak kell lennie.
Mindkét összetevő összeomlana, ha egyszerűen angolra volt tervezve.
Az EU nemzeti azonosítók
Az összes EU-tagállamban PII-ként kezelt nemzeti azonosítók:
| Ország | Azonosító | Formátum | Leírás |
|---|---|---|---|
| Németország | Steuer-ID | 11 számjegy | Adóazonosító |
| Franciaország | NIR | 13 számjegy | Társadalombiztosítási |
| Svédország | Personnummer | YYYYMMDD-XXXX | Személyi szám |
| Hollandia | BSN | 9 számjegy (mod 11) | Polgári szám |
| Lengyelország | PESEL | 11 számjegy | Személyi azonosító |
| Magyarország | TAJ | 9 számjegy | Társadalombiztosítási |
| Olaszország | Codice Fiscale | 16 alfanumerikus | Adókód |
| Spanyolország | DNI/NIE | 8-9 alfanumerikus | Személyi igazolvány |
| Belgium | SSIN/INSZ | 11 számjegy | Nemzeti szám |
| Románia | CNP | 13 számjegy | Személyi azonosító |
Egy angolcentrikus eszköz ezeket az azonosítókat véletlenszerű számsorozatként kezeli.
Az anonym.legal 48-nyelves megközelítése
Az anonym.legal natív felismerést biztosít minden főbb EU-s és globális azonosítóhoz:
Natívan felismert EU-s azonosítók
- Steuer-ID: 11 számjegy, 10 pozíciós ellenőrző összeg érvényesítéssel
- NIR (Francia SSN): 13 számjegy + 2 jegyű ellenőrzőkulcs
- PESEL (Lengyel): 11 számjegy beágyazott születési dátummal
- BSN (Holland): 9 számjegy mod-11 érvényesítéssel
- TAJ (Magyar): 9 számjegy Luhn-jellegű érvényesítéssel
- CNP (Román): 13 számjegy nemmel, születési dátummal, tartomány-kóddal
- Codice Fiscale (Olasz): 16 alfanumerikus betű/szám keverék
A 48 nyelv spaCy NER-modellekkel
A 24 telepített spaCy modell lefedi az EU-s és globális nyelveket:
ca, da, de, el, en, es, fi, fr, hr, it, ja, ko, lt, mk, nb, nl, pl, pt, ro, ru, sl, sv, uk, zh
Ezek natívan tanított NER-modellek, nem gépi fordítással generált proxyk.
A valódi GDPR-megfelelőség következményei
Az Ön szervezete valószínűleg érintett, ha...
- Több EU-tagállamban van jelen
- Több EU-s tagállamból fogad ügyfél-adatokat
- Az alkalmazottai dokumentumokat állítanak elő több EU-s nyelven
- Értékesítési, ügyfélszolgálati vagy üzemeltetési adatokat különböző EU-s területeken dolgozza fel
Ami kockán forog
A GDPR 83. cikke a szándékos jogsértésekért a globális éves forgalom akár 4%-áig terjedő bírságot ír elő. Ha az eszköze szisztematikusan kihagyja a nem angol PII-t, a jogsértés rendszerszintű – és megfelelő méretű lehet a jelentős végrehajtási intézkedéshez.
Következtetés
A GDPR-megfelelőség nem angolul terjed. A személyes adatok 23 EU-s hivatalos nyelven helyezkednek el, és ezek mindegyike más azonosítókat, más névrendszereket és más kontextuális felismerési igényeket igényel.
Az anonym.legal-lal valódi többnyelvű PII-észlelést kap – natívan tanított modellekkel, ország-specifikus azonosítóval, és az EU 23 hivatalos nyelvén való megfelelőséggel.