Japan My Number: APPI og Verhoeff Gátartalan
Japanskt Persónuverndarnefnd (PPC) gaf út 45 framkvæmdarákvarðanir árið 2024. Það birti einnig fyrstu AI persónuverndarleiðbeiningar Japans. PPC-rannsókn leiddi í ljós að 63% almennra NLP-verkfæra mistekst við að greina My Number (マイナンバー) í japönskum skrám. Ef lið þitt vinnur með gögn japanskra íbúa þýðir þessi bilun bein APPI-áhætta.
Hvað er My Number
Japan gefur sérhverjum íbúa einstakt 12 stafa auðkenni. Þetta er My Number, hluti af einstaklingsnúmerkerfi (マイナンバー制度). Það nær yfir skatta, lífeyri, sjúkratryggingar og viðbrögð við náttúruhamförum. Þetta auðkenni er viðkvæm gögn samkvæmt APPI. Þú þarft lagalega ástæðu til að safna eða deila því.
Vandinn með Verhoeff-gátartöluna
My Number notar Verhoeff reiknirit fyrir gátarstafinn sinn. Verhoeff er stærðfræðiaðferð sem grípir allar staka stafavillur. Hún grípir einnig allar villur þar sem tveir samliggjandi stafir skipast á. Hún þarf þrjár uppflettitöflur til að virka. Þú getur ekki reiknað hana handvirkt. Það krefst kóða.
Þetta skiptir máli af tveimur ástæðum. Í fyrsta lagi líkist 12 stafa snið Japans mörgum öðrum kóðum. Reikningartilvísanir, skjalauðkenni og dagsetningarstrengir deila öllum sama sniðið. Án Verhoeff-gátartölu mun verkfæri merkja rangar gildi. Í öðru lagi nota flest verkfæri ekki Verhoeff. Þau nota einfaldari modulo-10 eða modulo-11 gátartölur. Þær virka ekki hér.
PPC-rannsóknin leiddi í ljós að 63% verkfæra sleppir annaðhvort gátartölunni eða notar einfaldari aðferð. Bæði vandamál koma fram samtímis: rangar jákvæðar og rangar neikvæðar niðurstöður.
Luhn reiknirit, notað fyrir kreditkort, er einfaldara. My Number notar ekki Luhn. Verkfæri smíðuð fyrir Luhn virka ekki.
Þrjár leturgerðir, eitt nafn
Japanskt texti notar þrjú ritkerfi samtímis. Verkfæri verður að meðhöndla öll þrjú.
Hiragana (ひらがな): Notað fyrir málfræði og innfædd orð. 46 grunnstafir.
Katakana (カタカナ): Notað fyrir erlend orð og nöfn. 46 grunnstafir. Erlend nöfn í Japan birtast á þessu riti.
Kanji (漢字): Tákn fyrir nafnorð og nöfn. Um 2.000 eru í almennri notkun.
Nafn eins manns getur birst á fjórum formum: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) og Romaji (Tanaka Taro). Verkfæri verður að passa öll fjögur. Ef það saknar eins, saknar það flestar skrár þess einstaklings.
Önnur japönsk auðkenni til að greina
Ökuréttindi (運転免許証番号): 12 stafir. Fyrstu tveir stafir sýna héraðið. Tokyo er 10. Osaka er 62. Þetta gerir verkfæri kleift að athuga hvort gildi sé gilt fyrir það svæði.
Vegabréf (旅券番号): Tveir stafir plús sjö tölustafir. ICAO snið. Japan notar sértæk stafapar.
Sjúkratryggingarkort (健康保険証記号番号): Tákn plús númer. Sniðið fer eftir vátryggingaraðila. Þjóðlegar sjúkratryggingar (国民健康保険) og samfélagsstjórndar tryggingar (協会けんぽ) nota mismunandi snið.
Búsetukorт (在留カード番号): Fyrir erlenda búseta. Tveir stafir, átta tölustafir, tveir stafir. Dómsmálaráðuneytið gefur út þetta kort.
Nafnlægar reglur APPI
APPI hefur strangar nafnlægar gagnaskipanir sem kallast nafnlægar upplýsingar (匿名加工情報). Það gengur lengra en GDPR á einu lykilsviði. Nafnleysi verður að vera staðfest af þriðja aðila og tæknilega óafturkræft.
Til að uppfylla kröfur verður stofnun að:
- Fjarlægja öll bein auðkenni, þar á meðal My Number.
- Meðhöndla allar hlutauðkennasamsetningar.
- Nota k-nafnleysi eða svipaða aðferð.
- Birta almenna lýsingu á þrepunum sem voru tekin.
- Aldrei reyna að endurgreina gögnin.
AI-leiðbeiningar PPC frá 2024 bætir við sérstakri reglu. Ef þú þjálfar AI á nafnlægum gögnum geturðu ekki notað það líkan til að endurgreina fólk. Þetta er beinn bann á líkaninversnárásum gegn APPI þjálfunargagnasöfnum.
Til að uppfylla PPC-kröfur þarftu fjóra hluti. Í fyrsta lagi Verhoeff-staðfestingu fyrir My Number uppgreiningu. Í öðru lagi japanska NER með ja_core_news með réttri skiptingu. Í þriðja lagi nafnasamsvörun yfir Kanji, Kana og Romaji. Í fjórða lagi héraðskóðagátartölur fyrir ökuréttindi.
Indland notar Aadhaar, sem krefst einnig Verhoeff-staðfestingar. Tæknilegar samræmisleiðbeiningar Indlands DPDPA fjallar um það nánar. Fyrir uppgreiningu fjölþjóðlegra auðkenna, sjá EU þjóðleg skattnúmer PII uppgreining samkvæmt GDPR.