Japoński My Number: APPI i weryfikacja Verhoeffa
Japońska Komisja Ochrony Danych Osobowych (PPC) wydała 45 decyzji egzekucyjnych w 2024 r. Opublikowała również pierwsze japońskie wytyczne dotyczące prywatności w zakresie AI. Badanie PPC wykazało, że 63% narzędzi NLP ogólnego zastosowania nie wykrywa My Number (マイナンバー) w japońskich plikach. Jeśli Twój zespół przetwarza dane rezydentów Japonii, ta luka oznacza bezpośrednie ryzyko naruszenia APPI.
Czym jest My Number
Japonia przyznaje każdemu rezydentowi unikalny 12-cyfrowy identyfikator. To właśnie My Number, element Systemu Numerów Indywidualnych (マイナンバー制度). Obejmuje podatki, emerytury, ubezpieczenie zdrowotne i reagowanie na katastrofy. Identyfikator ten stanowi dane wrażliwe w rozumieniu APPI. Do jego zbierania lub udostępniania niezbędna jest podstawa prawna.
Problem z weryfikacją Verhoeffa
My Number używa algorytmu Verhoeffa do obliczania cyfry kontrolnej. Verhoeff to metoda matematyczna wychwytująca wszystkie błędy jednocyfrowe. Wychwytuje też wszystkie błędy polegające na zamianie dwóch sąsiednich cyfr. Wymaga trzech tablic przeglądowych. Nie można obliczyć go ręcznie. Wymaga kodu programistycznego.
Ma to znaczenie z dwóch powodów. Po pierwsze, japoński format 12-cyfrowy przypomina wiele innych kodów. Numery referencyjne faktur, identyfikatory dokumentów i ciągi dat mają ten sam format. Bez weryfikacji Verhoeffa narzędzie będzie zaznaczać błędne wartości. Po drugie, większość narzędzi nie korzysta z Verhoeffa. Stosują prostsze sumy kontrolne modulo 10 lub modulo 11. Te metody nie działają w tym przypadku.
Badanie PPC wykazało, że 63% narzędzi albo pomija weryfikację, albo stosuje prostszą metodę. Oba problemy występują jednocześnie: fałszywe wyniki pozytywne i fałszywe wyniki negatywne.
Algorytm Luhna, stosowany dla kart kredytowych, jest prostszy. My Number nie używa Luhna. Narzędzia zbudowane dla Luhna nie zadziałają.
Trzy systemy pisma, jedna nazwa
Japoński tekst używa jednocześnie trzech systemów pisma. Narzędzie musi obsługiwać wszystkie trzy.
Hiragana (ひらがな): Stosowana dla gramatyki i rodzimych słów. 46 podstawowych znaków.
Katakana (カタカナ): Stosowana dla słów obcego pochodzenia i imion. 46 podstawowych znaków. Imiona cudzoziemców w Japonii zapisywane są tym pismem.
Kanji (漢字): Symbole dla rzeczowników i imion. Około 2 000 jest w powszechnym użyciu.
Imię jednej osoby może pojawić się w czterech formach: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) i Romaji (Tanaka Taro). Narzędzie musi dopasowywać wszystkie cztery. Jeśli pominie jedną, pominie większość rekordów tej osoby.
Inne japońskie identyfikatory do wykrycia
Prawo jazdy (運転免許証番号): 12 cyfr. Pierwsze dwie cyfry wskazują prefekturę. Tokio to 10. Osaka to 62. Umożliwia to narzędziu weryfikację, czy wartość jest prawidłowa dla danego regionu.
Paszport (旅券番号): Dwie litery i siedem cyfr. Format ICAO. Japonia używa określonych par liter.
Karta ubezpieczenia zdrowotnego (健康保険証記号番号): Symbol i numer. Format zależy od ubezpieczyciela. Krajowe ubezpieczenie zdrowotne (国民健康保険) i ubezpieczenie zarządzane przez towarzystwa (協会けんぽ) używają różnych formatów.
Karta pobytu (在留カード番号): Dla cudzoziemców zamieszkałych w Japonii. Dwie litery, osiem cyfr, dwie litery. Karta wydawana jest przez Ministerstwo Sprawiedliwości.
Zasada anonimizacji w APPI
APIJ ma rygorystyczny standard anonimizowanych danych zwany „informacjami zanonimizowanymi” (匿名加工情報). W jednym kluczowym obszarze wykracza poza RODO. Anonimizacja musi być weryfikowalna przez osoby trzecie i technicznie nieodwracalna.
Dla zachowania zgodności organizacja musi:
- Usunąć wszystkie bezpośrednie identyfikatory, w tym My Number.
- Obsłużyć wszystkie kombinacje quasi-identyfikatorów.
- Zastosować k-anonimizację lub podobną metodę.
- Opublikować ogólny opis podjętych kroków.
- Nigdy nie próbować ponownej identyfikacji danych.
Wytyczne PPC dotyczące AI z 2024 r. dodają konkretną zasadę. Jeśli trenujesz AI na zanonimizowanych danych, nie możesz użyć tego modelu do ponownej identyfikacji osób. To bezpośredni zakaz ataków inwersji modelu na zbiory treningowe objęte APPI.
Dla spełnienia standardów PPC potrzebne są cztery elementy. Po pierwsze, weryfikacja Verhoeffa do wykrywania My Number. Po drugie, japoński NER z użyciem ja_core_news z właściwą tokenizacją. Po trzecie, dopasowywanie imion w Kanji, Kanie i Romaji. Po czwarte, weryfikacja kodu prefektury dla praw jazdy.
Indie używają Aadhaaru, który również wymaga walidacji Verhoeffa. Przewodnik po technicznej zgodności z indyjską DPDPA omawia to szczegółowo. W przypadku wykrywania identyfikatorów z wielu krajów zapoznaj się z przewodnikiem Wykrywanie unijnych numerów identyfikacji podatkowej zgodnie z RODO.