By · Last updated 2026-06-05

Tornar al BlogSanitat

OCR de formularis manuscrits i deteccio de PII

Un hospital de mida mitjana processa 50.000 formularis d'ingres manuscrits a l'any. La redaccio manual de PII a aquest volum requereix 0,5 ETC.

June 5, 20267 min llegit
handwritten formsOCR healthcareHIPAA complianceinsurance documentsdocument automation

La bretxa de PII del paper al digital

Actualitzat per al 2026

La majoria d'eines digitals no poden llegir registres en paper manuscrits escanejats. Tanmateix, els grups de salut i assegurances en gestionen milions.

Fulls d'ingres de pacients. Formularis de reclamacio. Pagines de consentiment. Sol.licituds d'alta. El personal els omple a ma. Els pacients els lliuren o els envien per fax. Els escaneadors els converteixen en PDF d'imatge: fitxers que contenen imatges de pixels, no text llegible.

El volum anual es gran:

  • Un hospital de mida mitjana pot gestionar 50.000 fulls d'ingres manuscrits anualment
  • Una asseguradora pot rebre 500.000 fitxers de reclamacio escanejats anualment
  • Una oficina de serveis socials pot processar 200.000 sollicituds manuscrites anualment

Cada pagina escanejada conte dades personals denses. Noms. Dates de naixement. Numeros de la Seguretat Social. ID de historials medics. Numeros d'asseguranca. Adreces de domicili. Dades de contacte. Notes cliniques. Cada camp es un element llistat a HIPAA o un element de dades personals del RGPD. Consulteu el nostre glossari per als termes clau.

La majoria dels grups no disposen d'cap eina per detectar aquestes dades en fitxers escanejats.

Per que la redaccio manual falla a escala

La solucio habitual es la revisio manual. Un membre del personal llegeix cada pagina, troba el PII i el redacta abans de qualsevol comparticio.

Aixo es trenca rapidament en grans volums.

Temps per conjunt de fitxers (revisor format):

  • Full d'ingres simple, dues pagines: 8-12 minuts
  • Reclamacio complexa, cinc a vuit pagines: 20-30 minuts
  • Fitxers amb adjunts: 30-60 minuts

Calcul de volum per a 3.000 fitxers mensuals:

  • A 12 minuts per fitxer: 600 hores mensuals = 3,75 ETC
  • A 25 euros per hora: 15.000 euros mensuals = 180.000 euros anuals

La qualitat tambe pateix:

  • El personal s'esgota amb tipus de pagina repetitius
  • Cada revisor treballa amb un estandard diferent
  • No hi ha un registre d'auditoria comu
  • El PII es passa per alt o s'etiqueta amb regles diferents cada vegada

A aquesta escala, la revisio manual es costosa i poc fiable. El cas per a l'automatitzacio es clar.

Precisio de l'OCR: que esperar

L'OCR llegeix el text impres be. L'escriptura a ma es mes dificil. Primer cal coneixer els rangs de precisio.

Text impres: Taxa de concordanca de caracters del 98-99%. Pràcticament tot el PII en camps impresos es troba. El processament automatic s'adapta al 100% del volum.

Escriptura a ma clara (lletres de motlle, tinta fosca, paper blanc): Taxa de concordanca de caracters del 90-97%. La taxa de concordanca de noms es superior: una lletra incorrecta segueix llegint-se com un nom. El processament automatic s'adapta al 80-90% del volum. La resta va a una cua de revisio humana.

Escriptura a ma dificil (cursiva, llapís, paper envellit): Taxa de concordanca del 70-88%. El processament automatic s'adapta al 50-70% del volum. La resta necessita revisio humana. Aixo segueix sent molt millor que llegir cada pagina a ma.

La configuracio practica: l'OCR s'executa en tots els fitxers i els puntua. Els fitxers d'alta puntuacio avancen sols. Els fitxers de baixa puntuacio van a una cua de revisio reduda. Els revisors se centren nomes en els casos dificils.

El calcul del ROI en salut

Cas: asseguradora de salut regional, 3.000 fitxers mensuals

Avui:

  • Redaccio manual de PII: 0,5 ETC = 24.000 euros anuals
  • Qualitat de la revisio: tres revisors, sense llista de comprovacio compartida, resultats variables
  • Registre d'auditoria: en paper, no facilment consultable
  • Acumulacio en la matriculacio oberta: dues a tres setmanes

Amb OCR mes deteccio automatica de PII:

  • 85% dels fitxers (alta puntuacio): processament automatic, ~2.550 mensuals
  • 15% dels fitxers (baixa puntuacio): cua de revisio humana, ~450 mensuals = ~3 hores setmanals
  • Qualitat de la revisio: mateixos tipus d'entitat verificats en cada fitxer
  • Registre d'auditoria: digital, facilment consultable, un informe per a cada fitxer
  • Acumulacio: eliminada; el processament automatic s'executa a un ritme constant

Estalvi anual:

  • Estalvi de ma d'obra: 24.000 euros (0,5 ETC a 3 hores setmanals)
  • Cost de revisio restant: 3 hores x 50 setmanes x 25 euros = 3.750 euros
  • Estalvi net: ~20.250 euros anuals

Cost anual:

  • anonym.legal Pro: 180 euros

ROI: ~112x nomes en ma d'obra. Consulteu els detalls del pla actual a la nostra pagina de preus.

Guanys en el compliment de HIPAA

Per als grups coberts per HIPAA, la deteccio automatica de PII en pagines escanejades aporta valor legal mes enlla de les reduccions de cost. La nostra guia de compliment legal cobreix el panorama complet.

Norma del minim necessari: HIPAA 45 CFR 164.502(b) requereix que nomes es comparteixi la PHI minima necessaria. La redaccio automatica aplica aquesta norma de la mateixa manera en cada fitxer.

Desidentificacio del port segur: El port segur requereix l'eliminacio dels 18 identificadors PHI llistats. La deteccio automatica cobreix els 18 de la mateixa manera cada vegada. La revisio manual depen que cada membre del personal conegui cada tipus.

Registres de divulgacio: HIPAA 45 CFR 164.528 requereix el registre de certes divulgacions de PHI. El processament automatic crea un registre d'auditoria per a cada fitxer. Aquest registre mostra quins elements es van trobar i que es va fer. Compleix directament aquesta necessitat de registre.

Risc de violacio: Un menor maneig manual de PHI no redactada significa menor risc intern i menor risc fisic. Tots dos importan en el moment de l'auditoria.

Processament de reclamacions: un patro de pipeline

Per a una asseguradora que gestiona 500.000 fitxers anualment, un pipeline per lots nocturn funciona be.

Com funciona el pipeline:

  • Els fitxers escanejats arriben a una carpeta d'entrada des de les estacions d'escanejat o el correu
  • Cada nit: l'OCR mes la deteccio de PII s'executa en tots els fitxers nous
  • Fitxers d'alta puntuació (per sobre del 90% de qualitat OCR): sortida automatica, versio redactada creada
  • Fitxers de baixa puntuacio: van a una cua de revisio amb el text OCR i les entitats trobades ja emplenades
  • El revisor verifica i aprova la redaccio
  • Cada fitxer obte un registre d'auditoria

On es connecta:

  • Sistema de documents: rep la sortida automatica per lots
  • Sistema de reclamacions: les versions redactades van als ajustadors externs
  • Informes de compliment: resum mensual per tipus de fitxer i classe d'entitat

El canvi clau es on es dedica el temps dels revisors. El personal passa de llegir cada pagina a llegir nomes els casos de baixa puntuacio, generalment el 10-20% del volum. El total d'hores de revisio baixa. La qualitat millora gracies a un proces estandard.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.