Izziv Verhoeff zaznave
Nacionalnega sistema posameznika (マイナンバー制度, My Number System) dodeljuje edinstven 12-cifren številko vsakemu prebivalcu Japonske (1,36 milijarde uporabnikov). My Number se uporablja za:
- Davčna uprava (davčne prijave, izjave)
- Socialne varnosti (pokojnine, zdravstveno zavarovanje)
- Odziv na nesreče (identifikacija v nujnih primerih)
Verhoeff algoritem: My Number-jev checksum uporablja Verhoeff algoritem – algoritem za odkrivanje napak, ki temelji na teoriji skupin, ki zazna vse napake ene cifre in vse sosednje napake pri preureditvi. Algoritem ima tri tabele iskanja: tabelo množenja diedralne skupine (D5), tabelo inverzije in tabelo permutacije.
Implementacija Verhoeff zahteva vzdrževanje teh treh tabel in uporabo zaporedja iskanj. Za razliko od Luhn algoritma (preprosta modularna aritmetika), Verhoeff ni mogoče razpravljati v glavi – potrebna je programska implementacija.
Zakaj je to pomembno za zaznavo PII
- My Number se ne morje izračunati ročno – zahteva specifično kodo
- Generični modeli NER zanašajo na vzorce cifr in besednih kontekstov, ne na Verhoeff logiko
- Dokumenti, ki vsebujejo My Numbers, pogosto ne oznake jasno (blizu drugih številk)
- Japonski dokumenti imajo omejeno besedilo za kontekst zaznave (kratek nabor japonskih znakov)
63% generičnih NLP orodij ne izpolnjuje Verhoeff implementacije za My Number.