Nástroje pro PII pouze v angličtině: Mezera v GDPR
GDPR nemá jazykové preference
GDPR se vztahuje na osobní údaje v jakémkoli jazyce. Němčina, francouzština, polština, švédština — všechny jsou pokryty stejnou měrou. Přehlédnuté Steuer-ID vytváří stejné právní riziko jako přehlédnuté číslo sociálního pojištění. Zákon na jazyk nehledí.
Většina nástrojů pro detekci PII ano.
Přední komerční i open-source nástroje byly vytvořeny pro anglický text. Jejich detektory entit to odrážejí. Dobře pokrývají americká čísla sociálního pojištění, americké řidičské průkazy a telefonní formáty NANP. Detektory pro neangličtí národní identifikátory jsou méně přesné. Jsou méně udržovány. Reálné identifikátory přehlíží častěji.
Pro firmy napříč členskými státy EU to vytváří mezeru v pokrytí. Nástroj hlásí, že detekce je kompletní. Ale neangličtí identifikátory zůstávají v datech. Jde přitom často o identifikátory s největší expozicí vůči GDPR v určitých zemích.
Datové úřady to vidí. Auditoři to hledají. Nástroj může fungovat dobře na anglické záznamy. Ale pokud selže na německé nebo francouzské záznamy, není v souladu s předpisy. Čistá zpráva to nezmění.
Národní identifikátory se liší svou strukturou
Rozdíl mezi anglocentrickými a vícejazyčnými nástroji není jen o přidání dalších vzorů pro regulární výrazy. Národní identifikátory v EU se od sebe výrazně liší. Pro správnou detekci vyžadují logiku specifickou pro každou zemi.
Německé Steuer-Identifikationsnummer (Steuer-ID): 11 číslic. Používá kontrolní součet na základě varianty Luhnova vzorce. Obecný vzorec pro SSN jej nerozpozná. Vzorec pro libovolné 11místné číslo vytváří příliš mnoho falešně pozitivních výsledků v německých dokumentech.
Francouzské NIR (Numéro d'inscription au répertoire): 15 číslic. Formát kóduje pohlaví, rok a měsíc narození a département. Obsahuje také pořadové číslo a 2místný kontrolní klíč. Pro správnou detekci musí být kontrolní klíč ověřen.
Švédské Personnummer: 10 číslic s Luhnovým kontrolním číslicí. Osoby narozené před rokem 1990 používají místo oddělovače - oddělovač +. To mění formát, který musí být detekován.
Polské PESEL: 11 číslic. Kóduje datum narození, pohlaví a kontrolní číslici na základě váhových součtů. Správná detekce vyžaduje jak porovnání formátu, tak ověření kontrolního součtu.
Nejde o varianty společného vzoru. Každý má jinou délku. Každý používá jinou metodu kontroly. Každý kóduje data v jiném pozičním schématu. Anglicky trénovaný model NER, který uvidí francouzské NIR, jej nerozpozná jako národní identifikátor. Ignoruje jej nebo jej chybně klasifikuje.
Praktické riziko pro dodržování předpisů
Představte si compliance manažera v evropském BPO. Zpracovává data z Německa, Francie, Polska a Nizozemska najednou. Jejich nástroj hlásí úspěšnou anonymizaci PII.
Ale výsledek není úplný. Steuer-ID v německých záznamech zůstávají. Čísla NIR ve francouzských záznamech zůstávají. Čísla PESEL v polských záznamech zůstávají. Detektory nástroje pro tyto formáty chybí nebo jsou příliš nepřesné.
Pozdější přesunutí datové sady do analytiky nebo výzkumnému partnerovi ponechá data stále obsahující re-identifikovatelné národní identifikátory. Problém s GDPR se v protokolech nástroje neobjeví. Vynoří se, když přijde žádost o přístup k datům. Může se objevit při auditu datového úřadu. Může se objevit po úniku dat.
Výzkum srovnávající hybridní vícejazyčné přístupy s anglocentrickými nástroji přinesl jasné výsledky. Hybridní metody dosahují skóre F1 od 0,60 do 0,83 napříč evropskými lokalitami. Nástroje pouze pro angličtinu dosahují skóre blízkého nule pro neangličtí formáty národních identifikátorů.
Podívejte se na náš přehled souladu s GDPR, jak se tyto mezery mapují na povinnosti GDPR.
Co vyžaduje úplné pokrytí
Skutečná vícejazyčná detekce PII pro soulad s EU GDPR vyžaduje tři vrstvy.
Jazykově nativní modely spaCy poskytují sémantické porozumění v jazyce textu. Model trénovaný na německém textu ví, že „Müller" je běžné německé příjmení. Modely existují pro 25 vysoce zdrojovaných jazyků EU.
Modely Stanza NLP rozšiřují pokrytí na jazyky, které nejsou ve spaCy. Přidává dosah pro více jazykových komunit v EU.
Vícejazyčné transformátorové modely (XLM-RoBERTa) řeší mezijazykové případy. Jméno ve francouzské větě je rozpoznáno jako osobní jméno. To funguje i tehdy, pokud engine nebyl trénován na konkrétním jméně.
Regex s validací specifickou pro danou zemi pokrývá strukturované národní identifikátory. Steuer-ID, NIR, PESEL a Personnummer každý potřebuje vlastní logiku kontrolního součtu. Snižuje to falešně pozitivní výsledky. Číselné sekvence, které nesplňují validační pravidla dané země, jsou odfilterovány.
Mezera je strukturální. Přidáváním slovníků nebo dalších vzorů pro regulární výrazy dosáhnete jen drobného zlepšení. Jediným spolehlivým přístupem je začlenění pokrytí identifikátorů EU od samého začátku.
Zkontrolujte svůj aktuální nástroj
Požádejte svého dodavatele o skóre F1 pro německé, francouzské, polské a nizozemské záznamy. „Podporuje více jazyků" často znamená, že nástroj nejprve použije strojový překlad. To není nativní skenování. Soulad s GDPR vyžaduje nativní skenování.
Testujte s reálnými vzorky národních identifikátorů. Sestavte krátkou testovací sadu s 10 příklady každého typu ID ve vašich operacích. Steuer-ID, NIR, PESEL, Personnummer. Zkontrolujte míru detekce. Je to rychlejší než kompletní test F1 a rychle odhaluje mezery.
Podívejte se na naši stránku bezpečnosti a souladu, jak anonym.legal tyto požadavky řeší. Definice typů entit najdete v referenčním přehledu entit.