A GDPR bármilyen nyelven szereplő személyes adatokra vonatkozik. Német, francia, lengyel, svéd — mindegyiket egyformán lefedi. Egy kihagyott Steuer-ID ugyanolyan jogi kockázatot jelent, mint egy kihagyott társadalombiztosítási szám. A jog nem foglalkozik a nyelvvel.

A legtöbb PII-felismerő eszköz igen.

A vezető kereskedelmi és nyílt forráskódú eszközöket angol szövegekre fejlesztették. Entitásdetektorjuk ezt tükrözi. Jól fedik le az amerikai társadalombiztosítási számokat, az amerikai vezetői engedélyeket és a NANP telefonformátumokat. A nem angol anyanyelvű nemzeti azonosítókhoz tartozó detektorok kevésbé pontosak. Kevésbé karbantartottak. Gyakrabban hagynak ki valódi azonosítókat.

Az uniós tagállamokban működő cégek számára ez lefedettségi rést jelent. Az eszköz azt jelenti, hogy az észlelés teljes. De a nem angol azonosítók az adatokban maradnak. Ezek gyakran azok az azonosítók, amelyek a legnagyobb GDPR-kitettséget jelentik egyes országokban.

Az adatvédelmi hatóságok látják ezt. Az auditorok keresik ezt. Egy eszköz jól működhet az angol rekordokon. De ha megbukik a német vagy francia rekordokon, nem felel meg a követelményeknek. Egy tiszta jelentés ezt nem változtatja meg.

A nemzeti azonosítók eltérő szerkezetűek

Az angolközpontú és a többnyelvű eszközök közötti rés nem csupán arról szól, hogy több regex-mintát adunk hozzá. Az uniós nemzeti azonosítók nagyon különböznek egymástól. A helyes észleléshez országspecifikus logika szükséges.

Német Steuer-Identifikationsnummer (Steuer-ID): 11 számjegy. Luhn-formula-változaton alapuló ellenőrző összeget használ. Egy általános SSN-regex nem ismeri fel. Az összes 11 számjegyű számra vonatkozó regex túl sok hamis pozitívot generál a német dokumentumokban.

Francia NIR (Numéro d'inscription au répertoire): 15 számjegy. A formátum a nemet, a születési évet, a születési hónapot és a születési departement-t kódolja. Tartalmaz születési sorrendszámot és egy 2 számjegyű ellenőrző kulcsot is. A helyes észleléshez az ellenőrző kulcsot érvényesíteni kell.

Svéd Personnummer: 10 számjegy Luhn-ellenőrző számjeggyel. Az 1990 előtt születettek + elválasztójelet használnak a - helyett. Ez megváltoztatja az észlelendő formátumot.

Lengyel PESEL: 11 számjegy. A születési dátumot, a nemet és egy súlyozott összegen alapuló ellenőrző számjegyet kódol. A helyes észleléshez mind a formátumegyeztetés, mind az ellenőrzőösszeg-érvényesítés szükséges.

Ezek nem egy közös minta változatai. Mindegyiknek eltérő hossza van. Mindegyik más ellenőrzési módszert használ. Mindegyik más pozíciósémában kódolja az adatokat. Egy angolra betanított NER-modell, amely egy francia NIR-t lát, nem ismeri fel azt nemzeti azonosítóként. Figyelmen kívül hagyja vagy tévesen osztályozza.

A gyakorlati megfelelőségi kockázat

Képzeljük el egy európai BPO megfelelőségi tisztviselőjét. Egyszerre dolgoz fel adatokat Németországból, Franciaországból, Lengyelországból és Hollandiából. Az eszközük sikeres PII-anonimizálást jelent.

De az eredmény nem teljes. A német rekordokban lévő Steuer-ID-k megmaradnak. A francia rekordokban lévő NIR-számok megmaradnak. A lengyel rekordokban lévő PESEL-számok megmaradnak. Az eszköz detektorai ezekre a formátumokra hiányoznak vagy túl pontatlanok.

Később az adatkészlet analitikába kerül vagy kutatópartnerhez megy. Az adatok még mindig tartalmaznak újra azonosítható nemzeti azonosítókat. A GDPR-probléma nem jelenik meg az eszköz kimeneti naplóiban. Akkor kerül felszínre, amikor érintetti hozzáférési kérelem érkezik. Megjelenhet egy adatvédelmi hatósági audit során. Megjelenhet egy adatszivárgás után.

A hibrid többnyelvű megközelítéseket az angolközpontú eszközökkel összehasonlító kutatás egyértelmű eredményeket hozott. A hibrid módszerek 0,60–0,83-as F1-pontszámot érnek el az európai területi beállítások esetén. A csak angol nyelvű eszközök közel nulla pontszámot érnek el a nem angol anyanyelvű nemzeti azonosítóformátumoknál.

Tekintse meg a GDPR-megfelelőségi áttekintőnket, amelyből megtudhatja, hogyan kapcsolódnak ezek a rések a GDPR-kötelezettségekhez.

A teljes lefedettséghez szükséges

Az EU GDPR-nak való megfeleléshez szükséges valódi többnyelvű PII-észlelés három réteget igényel.

Anyanyelvű spaCy-modellek szemantikai megértést biztosítanak a szöveg nyelvén. Egy német szövegen betanított modell tudja, hogy a Müller egy gyakori német családnév. Modellek léteznek az EU 25 magas erőforrású nyelvéhez.

Stanza NLP-modellek kiterjesztik a lefedettséget a spaCy-ban nem szereplő nyelvekre. Ez elérést biztosít az EU több nyelvi közösségéhez.

Keresztnyelvű transzformer-modellek (XLM-RoBERTa) a keresztnyelvű eseteket kezelik. Egy francia mondatban szereplő nevet személynévként ismer fel. Ez akkor is működik, ha a motor nem az adott névre lett betanítva.

Regex országspecifikus érvényesítéssel lefedi a strukturált nemzeti azonosítókat. A Steuer-ID, a NIR, a PESEL és a Personnummer mindegyike saját ellenőrzőösszeg-logikát igényel. Ez csökkenti a hamis pozitívokat. Az ország érvényesítési szabályain meg nem felelő számsorok kiszűrésre kerülnek.

A rés strukturális. Szólista vagy több regex-minta hozzáadása csak kisebb javulást hoz. Az EU-azonosítók lefedettségének kezdettől fogva történő beépítése az egyetlen megbízható megközelítés.

Ellenőrizze a jelenlegi eszközét

Kérjen F1-pontszámokat a szállítójától a német, francia, lengyel és holland rekordokra vonatkozóan. A több nyelvet támogat jellemző gyakran azt jelenti, hogy az eszköz először fordítást alkalmaz. Ez nem natív szkennelés. A GDPR-megfelelőség natív szkennelést igényel.

Teszteljen valódi nemzeti azonosítómintákkal. Állítson össze egy rövid tesztkészletet 10 példával minden azonosítótípusból a működéséből. Steuer-ID, NIR, PESEL, Personnummer. Ellenőrizze az észlelési arányokat. Ez gyorsabb, mint egy teljes F1-teszt, és gyorsan megmutatja a réseket.

Tekintse meg a biztonsági és megfelelőségi oldalunkat, amelyből megtudhatja, hogyan kezeli az anonym.legal ezeket a követelményeket. Az entitástípus-definíciókért keresse fel az entitásreferenciát.

Források

Kapcsolódó Cikkek

GDPR & Megfelelés

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

Ingyenes Próbát Kezd Funkciók Megtekintése

Csak angol nyelvű PII-eszközök: GDPR-rés

A nemzeti azonosítók eltérő szerkezetűek

A gyakorlati megfelelőségi kockázat

A teljes lefedettséghez szükséges

Ellenőrizze a jelenlegi eszközét

Források

Kapcsolódó Cikkek

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Készen áll az adatai védelmére?

Csak angol nyelvű PII-eszközök: GDPR-rés

Csak angol nyelvű PII-eszközök: A GDPR-rés

A GDPR nem részesít előnyben egyetlen nyelvet sem

A nemzeti azonosítók eltérő szerkezetűek

A gyakorlati megfelelőségi kockázat

A teljes lefedettséghez szükséges

Ellenőrizze a jelenlegi eszközét

Források

Kapcsolódó Cikkek

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Készen áll az adatai védelmére?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow