La detecció PII en formularis manuscrits és un dels problemes més difícils de l'atenció mèdica i el sector d'assegurança. Els pacients omplenen formularis de consentiment, sol·licituds de tracament prèvi, i formularis de registre de manera manuscrita. Els agents d'assegurança reben cartes manuscrites de reclamacions. Els equips de conformitat escanegen documents històrics. Cada imatge contén noms de pacients, números de seguretat social, números de historia clínica, dates de naixement, adreces, números de telèfon, i diagnòstics.
Per què OCR falla en dades PII manuscrits
Variabilitat de la scritpura manual: Cada persona escriu diferent. La mateixa lletra es pot representar de deu maneres. Els engines OCR estan entrenats en text imprès, no en caligrafía. Quan OCR repara en text manuscrit, els errors són exponencials — no només falla a detectar una lletra incorrecte, sinó que pot crear paraules falses que no són en el diccionari.
Context insuficient: La detecció PII típicament es basa en patrons ("X dígits és probablement un SSN") o models de llenguatge ("aquest dígit es pot estirar, així que pot ser part d'un número de telèfon"). En formularis manuscrits, els espais entre dígits són inconsistents. Un "123 45 678" és el même que "12345678" però OCR els veu diferent.
Idiomes múltiples: Els hospitals a Europa aten pacients multilingües. Un formulari de consentiment es pot omplir en 3 idiomes. Els recognitzadors de PII monolingües no reconeixen noms estrangers, direccions o números de compte.