Powrót do blogaGDPR i zgodność

Dlaczego Twoje Narzędzie Wykrywania PII Jest Zgodne z...

Niemiecki Steuer-ID (11 cyfr z sumą kontrolną) strukturalnie różni się od amerykańskiego SSN. Francuskie numery NIR mają 15 cyfr.

March 20, 20268 min czytania
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

RODO Nie Ma Preferencji Językowej

Ogólne Rozporządzenie o Ochronie Danych Osobowych ma zastosowanie do danych osobowych w języku niemieckim, francuskim, polskim, szwedzkim, hiszpańskim, włoskim i wszystkich innych językach przetwarzanych przez organizacje objęte Rozporządzeniem. Pominięcie identyfikatora w niemieckich danych klientów stwarza takie samo ryzyko regulacyjne jak pominięcie identyfikatora w angielskich danych klientów. RODO nie rozróżnia według języka.

Większość narzędzi wykrywania PII tak.

Dominujące komercyjne i otwarte narzędzia wykrywania PII zostały zbudowane i przetestowane głównie na tekstach angielskich. Ich rozpoznawacze podmiotów odzwierciedlają to: amerykańskie numery ubezpieczenia społecznego, amerykańskie prawo jazdy, formaty paszportów amerykańskich i powszechne uniwersalne identyfikatory (adresy e-mail, numery telefonów w formacie NANP, numery kart kredytowych). Rozpoznawacze dla krajowych identyfikatorów nieanglojęzycznych — gdy już istnieją — są często mniej dokładne, mniej utrzymywane i bardziej skłonne do generowania fałszywych wyników negatywnych.

Dla przedsiębiorstw działających w państwach członkowskich UE stwarza to systematyczną lukę w zgodności: narzędzie informuje, że PII zostało wykryte i usunięte, ale nieangielskie identyfikatory, które stanowią największe ryzyko RODO w niektórych jurysdykcjach, pozostają w danych.

Strukturalna Różnica Między Krajowymi Identyfikatorami

Luka między narzędziami skoncentrowanymi na angielskim a naprawdę wielojęzycznymi narzędziami nie jest kwestią dodania większej liczby wzorców regex. Format krajowych identyfikatorów w państwach członkowskich UE jest strukturalnie odmienny w sposób, który wymaga wiedzy specyficznej dla jurysdykcji, aby wykryć go poprawnie.

Niemiecki Steuer-Identifikationsnummer (Steuer-ID): 11-cyfrowy identyfikator podatkowy z określonym algorytmem sumy kontrolnej opartym na wariancie formuły Luhna. Ogólny regex dla SSN nie będzie pasował do tego formatu. Regex, który pasuje do dowolnej 11-cyfrowej liczby, wygeneruje ogromne wskaźniki fałszywych pozytywów w niemieckich dokumentach finansowych.

Francuski NIR (Numéro d'inscription au répertoire): 15-cyfrowy identyfikator zawierający płeć posiadacza, rok urodzenia, miesiąc urodzenia, kod departamentu lub kraju, numer porządkowy urodzenia oraz 2-cyfrowy klucz kontrolny. Wykrycie wymaga zrozumienia struktury i walidacji klucza kontrolnego.

Szwedzki Personnummer: 10-cyfrowy identyfikator (czasami z wskaźnikiem wieku, co czyni go 12-cyfrowym) z cyfrą kontrolną Luhna. Format różni się w zależności od wieku: osoby urodzone przed 1990 rokiem używają separatora + zamiast -, zmieniając format, który musi być wykryty.

Polski PESEL: 11-cyfrowy identyfikator kodujący datę urodzenia, płeć oraz cyfrę kontrolną opartą na algorytmie ważonej sumy. Poprawne wykrycie wymaga zarówno dopasowania formatu, jak i walidacji sumy kontrolnej.

To nie są wariacje formatu na wspólnym wzorze. To strukturalnie odrębne identyfikatory o różnych długościach, różnych algorytmach walidacji i różnych schematach kodowania pozycji. Model NER wytrenowany na angielskim, napotykający francuski NIR w tekście, nie rozpozna go jako krajowego identyfikatora — albo go zignoruje, albo, jeśli pasuje do innego wzoru, błędnie go sklasyfikuje.

Praktyczne Konsekwencje Zgodności

Dla pracownika ds. zgodności w europejskim BPO przetwarzającym dane obsługi klienta z Niemiec, Francji, Polski i Holandii jednocześnie, praktyczną konsekwencją jest systematyczna luka w wykrywaniu nieangielskich rekordów klientów.

Narzędzie pracownika ds. zgodności informuje o udanej anonimizacji PII. Anonimizowane dane wciąż zawierają Steuer-ID w niemieckich rekordach, numery NIR w francuskich rekordach i numery PESEL w polskich rekordach — ponieważ rozpoznawacze tych formatów są albo nieobecne, albo niewystarczająco dokładne.

Gdy anonimizowany zbiór danych jest później używany do analizy, testowania lub udostępniany partnerowi badawczemu, "anonimizowane" dane wciąż zawierają dane krajowych identyfikatorów, które można ponownie zidentyfikować. Naruszenie RODO nie jest widoczne w dziennikach wyjściowych narzędzia. Staje się widoczne, gdy żądanie dostępu osoby, audyt organu nadzorczego lub naruszenie danych ujawnia, że nieangielskie identyfikatory nie zostały usunięte.

Badania porównujące hybrydowe podejścia do wykrywania wielojęzycznego PII z jednojęzycznymi narzędziami skoncentrowanymi na angielskim wykazały, że podejścia hybrydowe osiągają wyniki F1 od 0.60 do 0.83 w różnych lokalizacjach europejskich — w porównaniu do niemal zerowej wydajności narzędzi tylko angielskich stosowanych do formatów identyfikatorów nieangielskich.

Czego Wymaga Kompleksowe Pokrycie

Prawdziwe wielojęzyczne wykrywanie PII dla zgodności z RODO UE wymaga trzech warstw architektonicznych działających w połączeniu:

Modele spaCy w języku ojczystym zapewniają semantyczne zrozumienie nazw, organizacji i lokalizacji w języku tekstu. Model spaCy wytrenowany na niemieckim tekście rozumie, że "Müller" to powszechne nazwisko w niemieckim kontekście — nie tylko wielka litera. Modele istnieją dla 25 języków UE o wysokich zasobach.

Modele NLP Stanza rozszerzają pokrycie na dodatkowe języki, które nie są objęte przez spaCy na tym samym poziomie dokładności.

Modele transformatorów międzyjęzykowych (XLM-RoBERTa) radzą sobie z niejednoznacznością międzyjęzykową, której czyste dopasowanie wzorców nie może rozwiązać — rozpoznając, że nazwa pojawiająca się w francuskim zdaniu jest nazwiskiem osoby, nawet jeśli silnik wykrywania nie był specjalnie wytrenowany na tej nazwie.

Regex z walidacją specyficzną dla jurysdykcji obejmuje strukturalne krajowe identyfikatory — Steuer-ID, NIR, PESEL, Personnummer — z walidacją sumy kontrolnej, która eliminuje fałszywe pozytywy.

Dla pracownika ds. zgodności, którego narzędzie obecnie pomija nieangielskie identyfikatory: luka jest strukturalna, a nie konfiguracyjna. Dodanie list słów lub rozszerzenie pokrycia regex zapewnia marginalną poprawę. Kompleksowa zgodność z RODO UE dla danych wielojęzycznych wymaga narzędzia zbudowanego z uwzględnieniem pokrycia identyfikatorów UE jako wymogu projektowego, a nie jako myśli po fakcie.

Źródła:

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.