Csak angol nyelvű PII-eszközök: A GDPR-rés
A GDPR nem részesít előnyben egyetlen nyelvet sem
A GDPR bármilyen nyelven szereplő személyes adatokra vonatkozik. Német, francia, lengyel, svéd — mindegyiket egyformán lefedi. Egy kihagyott Steuer-ID ugyanolyan jogi kockázatot jelent, mint egy kihagyott társadalombiztosítási szám. A jog nem foglalkozik a nyelvvel.
A legtöbb PII-felismerő eszköz igen.
A vezető kereskedelmi és nyílt forráskódú eszközöket angol szövegekre fejlesztették. Entitásdetektorjuk ezt tükrözi. Jól fedik le az amerikai társadalombiztosítási számokat, az amerikai vezetői engedélyeket és a NANP telefonformátumokat. A nem angol anyanyelvű nemzeti azonosítókhoz tartozó detektorok kevésbé pontosak. Kevésbé karbantartottak. Gyakrabban hagynak ki valódi azonosítókat.
Az uniós tagállamokban működő cégek számára ez lefedettségi rést jelent. Az eszköz azt jelenti, hogy az észlelés teljes. De a nem angol azonosítók az adatokban maradnak. Ezek gyakran azok az azonosítók, amelyek a legnagyobb GDPR-kitettséget jelentik egyes országokban.
Az adatvédelmi hatóságok látják ezt. Az auditorok keresik ezt. Egy eszköz jól működhet az angol rekordokon. De ha megbukik a német vagy francia rekordokon, nem felel meg a követelményeknek. Egy tiszta jelentés ezt nem változtatja meg.
A nemzeti azonosítók eltérő szerkezetűek
Az angolközpontú és a többnyelvű eszközök közötti rés nem csupán arról szól, hogy több regex-mintát adunk hozzá. Az uniós nemzeti azonosítók nagyon különböznek egymástól. A helyes észleléshez országspecifikus logika szükséges.
Német Steuer-Identifikationsnummer (Steuer-ID): 11 számjegy. Luhn-formula-változaton alapuló ellenőrző összeget használ. Egy általános SSN-regex nem ismeri fel. Az összes 11 számjegyű számra vonatkozó regex túl sok hamis pozitívot generál a német dokumentumokban.
Francia NIR (Numéro d'inscription au répertoire): 15 számjegy. A formátum a nemet, a születési évet, a születési hónapot és a születési departement-t kódolja. Tartalmaz születési sorrendszámot és egy 2 számjegyű ellenőrző kulcsot is. A helyes észleléshez az ellenőrző kulcsot érvényesíteni kell.
Svéd Personnummer: 10 számjegy Luhn-ellenőrző számjeggyel. Az 1990 előtt születettek + elválasztójelet használnak a - helyett. Ez megváltoztatja az észlelendő formátumot.
Lengyel PESEL: 11 számjegy. A születési dátumot, a nemet és egy súlyozott összegen alapuló ellenőrző számjegyet kódol. A helyes észleléshez mind a formátumegyeztetés, mind az ellenőrzőösszeg-érvényesítés szükséges.
Ezek nem egy közös minta változatai. Mindegyiknek eltérő hossza van. Mindegyik más ellenőrzési módszert használ. Mindegyik más pozíciósémában kódolja az adatokat. Egy angolra betanított NER-modell, amely egy francia NIR-t lát, nem ismeri fel azt nemzeti azonosítóként. Figyelmen kívül hagyja vagy tévesen osztályozza.
A gyakorlati megfelelőségi kockázat
Képzeljük el egy európai BPO megfelelőségi tisztviselőjét. Egyszerre dolgoz fel adatokat Németországból, Franciaországból, Lengyelországból és Hollandiából. Az eszközük sikeres PII-anonimizálást jelent.
De az eredmény nem teljes. A német rekordokban lévő Steuer-ID-k megmaradnak. A francia rekordokban lévő NIR-számok megmaradnak. A lengyel rekordokban lévő PESEL-számok megmaradnak. Az eszköz detektorai ezekre a formátumokra hiányoznak vagy túl pontatlanok.
Később az adatkészlet analitikába kerül vagy kutatópartnerhez megy. Az adatok még mindig tartalmaznak újra azonosítható nemzeti azonosítókat. A GDPR-probléma nem jelenik meg az eszköz kimeneti naplóiban. Akkor kerül felszínre, amikor érintetti hozzáférési kérelem érkezik. Megjelenhet egy adatvédelmi hatósági audit során. Megjelenhet egy adatszivárgás után.
A hibrid többnyelvű megközelítéseket az angolközpontú eszközökkel összehasonlító kutatás egyértelmű eredményeket hozott. A hibrid módszerek 0,60–0,83-as F1-pontszámot érnek el az európai területi beállítások esetén. A csak angol nyelvű eszközök közel nulla pontszámot érnek el a nem angol anyanyelvű nemzeti azonosítóformátumoknál.
Tekintse meg a GDPR-megfelelőségi áttekintőnket, amelyből megtudhatja, hogyan kapcsolódnak ezek a rések a GDPR-kötelezettségekhez.
A teljes lefedettséghez szükséges
Az EU GDPR-nak való megfeleléshez szükséges valódi többnyelvű PII-észlelés három réteget igényel.
Anyanyelvű spaCy-modellek szemantikai megértést biztosítanak a szöveg nyelvén. Egy német szövegen betanított modell tudja, hogy a Müller egy gyakori német családnév. Modellek léteznek az EU 25 magas erőforrású nyelvéhez.
Stanza NLP-modellek kiterjesztik a lefedettséget a spaCy-ban nem szereplő nyelvekre. Ez elérést biztosít az EU több nyelvi közösségéhez.
Keresztnyelvű transzformer-modellek (XLM-RoBERTa) a keresztnyelvű eseteket kezelik. Egy francia mondatban szereplő nevet személynévként ismer fel. Ez akkor is működik, ha a motor nem az adott névre lett betanítva.
Regex országspecifikus érvényesítéssel lefedi a strukturált nemzeti azonosítókat. A Steuer-ID, a NIR, a PESEL és a Personnummer mindegyike saját ellenőrzőösszeg-logikát igényel. Ez csökkenti a hamis pozitívokat. Az ország érvényesítési szabályain meg nem felelő számsorok kiszűrésre kerülnek.
A rés strukturális. Szólista vagy több regex-minta hozzáadása csak kisebb javulást hoz. Az EU-azonosítók lefedettségének kezdettől fogva történő beépítése az egyetlen megbízható megközelítés.
Ellenőrizze a jelenlegi eszközét
Kérjen F1-pontszámokat a szállítójától a német, francia, lengyel és holland rekordokra vonatkozóan. A több nyelvet támogat jellemző gyakran azt jelenti, hogy az eszköz először fordítást alkalmaz. Ez nem natív szkennelés. A GDPR-megfelelőség natív szkennelést igényel.
Teszteljen valódi nemzeti azonosítómintákkal. Állítson össze egy rövid tesztkészletet 10 példával minden azonosítótípusból a működéséből. Steuer-ID, NIR, PESEL, Personnummer. Ellenőrizze az észlelési arányokat. Ez gyorsabb, mint egy teljes F1-teszt, és gyorsan megmutatja a réseket.
Tekintse meg a biztonsági és megfelelőségi oldalunkat, amelyből megtudhatja, hogyan kezeli az anonym.legal ezeket a követelményeket. Az entitástípus-definíciókért keresse fel az entitásreferenciát.