Vissza a BlograGDPR & Megfelelés

Miért felel meg a PII-észlelési eszköze csak az...

Egy német Steuer-ID, egy francia NIR és egy svéd Personnummer mind különböző észlelési logikát igényel.

March 3, 202610 perc olvasás
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

A rejtett GDPR megfelelőségi rés

A GDPR-nak nincs nyelvi preferenciája. A 4(1). cikk a „személyes adatot" anélkül határozza meg, hogy hivatkozna arra a nyelvre, amelyen megjelenik. Egy német Steuer-ID ugyanolyan védett, mint egy USA-beli Társadalombiztosítási szám. Egy francia NIR ugyanolyan szabályozott, mint egy brit Nemzeti Biztosítási szám.

De a legtöbb PII-észlelési eszközt angolra tervezték.

Az ACL 2024-en megjelent kutatás megállapította, hogy a hibrid NLP-megközelítések F1 pontszámai 0,60-0,83-ot érnek el európai területeken – az angolcentric eszközök nem angol szövegen nulla közelbe kerülnek a strukturált nemzeti azonosítók esetén. A gyakorlati következmény: egy multinacionális szervezetben bevezetett anonimizálási eszköz az angol PII 95%-át észlelheti, miközben ugyanabban az adathalmazban a német, francia, lengyel vagy holland PII 40-60%-át hiányozza.

Ez egy szisztematikus GDPR megfelelőségi rés, amely szinte minden multinacionális vállalatot érint, amely angolcentrikus anonimizálási eszközöket használ.

Miért nyelvspecifikus a PII

A PII-észlelésnek két összetevője van:

1. Strukturált azonosítók: Ezek formátum-alapú minták. Egy francia NIR mindig 13 számjegyű meghatározott szemantikával. Egy svéd Personnummer formátuma YYYYMMDD-XXXX. Ezek regex-alapú felismerést igényelnek, és eltérnek minden egyes ország esetén.

2. Kontextuális entitások: Ezek szövegkörnyezetben azonosított nevek, szervezetek, helyek. Ezek NER-t (Named Entity Recognition) igényelnek, amelynek az egyes emberi nyelveken tanítottnak kell lennie.

Mindkét összetevő összeomlana, ha egyszerűen angolra volt tervezve.

Az EU nemzeti azonosítók

Az összes EU-tagállamban PII-ként kezelt nemzeti azonosítók:

OrszágAzonosítóFormátumLeírás
NémetországSteuer-ID11 számjegyAdóazonosító
FranciaországNIR13 számjegyTársadalombiztosítási
SvédországPersonnummerYYYYMMDD-XXXXSzemélyi szám
HollandiaBSN9 számjegy (mod 11)Polgári szám
LengyelországPESEL11 számjegySzemélyi azonosító
MagyarországTAJ9 számjegyTársadalombiztosítási
OlaszországCodice Fiscale16 alfanumerikusAdókód
SpanyolországDNI/NIE8-9 alfanumerikusSzemélyi igazolvány
BelgiumSSIN/INSZ11 számjegyNemzeti szám
RomániaCNP13 számjegySzemélyi azonosító

Egy angolcentrikus eszköz ezeket az azonosítókat véletlenszerű számsorozatként kezeli.

Az anonym.legal 48-nyelves megközelítése

Az anonym.legal natív felismerést biztosít minden főbb EU-s és globális azonosítóhoz:

Natívan felismert EU-s azonosítók

  • Steuer-ID: 11 számjegy, 10 pozíciós ellenőrző összeg érvényesítéssel
  • NIR (Francia SSN): 13 számjegy + 2 jegyű ellenőrzőkulcs
  • PESEL (Lengyel): 11 számjegy beágyazott születési dátummal
  • BSN (Holland): 9 számjegy mod-11 érvényesítéssel
  • TAJ (Magyar): 9 számjegy Luhn-jellegű érvényesítéssel
  • CNP (Román): 13 számjegy nemmel, születési dátummal, tartomány-kóddal
  • Codice Fiscale (Olasz): 16 alfanumerikus betű/szám keverék

A 48 nyelv spaCy NER-modellekkel

A 24 telepített spaCy modell lefedi az EU-s és globális nyelveket: ca, da, de, el, en, es, fi, fr, hr, it, ja, ko, lt, mk, nb, nl, pl, pt, ro, ru, sl, sv, uk, zh

Ezek natívan tanított NER-modellek, nem gépi fordítással generált proxyk.

A valódi GDPR-megfelelőség következményei

Az Ön szervezete valószínűleg érintett, ha...

  • Több EU-tagállamban van jelen
  • Több EU-s tagállamból fogad ügyfél-adatokat
  • Az alkalmazottai dokumentumokat állítanak elő több EU-s nyelven
  • Értékesítési, ügyfélszolgálati vagy üzemeltetési adatokat különböző EU-s területeken dolgozza fel

Ami kockán forog

A GDPR 83. cikke a szándékos jogsértésekért a globális éves forgalom akár 4%-áig terjedő bírságot ír elő. Ha az eszköze szisztematikusan kihagyja a nem angol PII-t, a jogsértés rendszerszintű – és megfelelő méretű lehet a jelentős végrehajtási intézkedéshez.

Következtetés

A GDPR-megfelelőség nem angolul terjed. A személyes adatok 23 EU-s hivatalos nyelven helyezkednek el, és ezek mindegyike más azonosítókat, más névrendszereket és más kontextuális felismerési igényeket igényel.

Az anonym.legal-lal valódi többnyelvű PII-észlelést kap – natívan tanított modellekkel, ország-specifikus azonosítóval, és az EU 23 hivatalos nyelvén való megfelelőséggel.

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.