By · Last updated 2026-05-25

Retour au blogSanté

Dé-identification HIPAA Safe Harbor à grande échelle...

Le Safe Harbor HIPAA exige la suppression de 18 catégories spécifiques d'identifiants PHI.

May 25, 20269 min de lecture
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

Dé-identification HIPAA Safe Harbor à grande échelle : Guide pour les chercheurs en santé

Un centre médical académique doit anonymiser 200 000 dossiers de sortie. L'objectif : créer un modèle de prédiction des réadmissions. L'outil existant coûte 120 000 USD par an. Le budget de subvention pour le traitement des données : 5 000 USD.

Cet écart est courant. La recherche en santé a besoin de grands ensembles de données. Ces ensembles contiennent des informations de santé protégées (PHI). Les PHI comprennent les noms, les dates, les adresses et d'autres données personnelles. Supprimer les PHI permet aux chercheurs d'utiliser les données légalement. Mais les outils sont tarifés pour les systèmes hospitaliers, pas pour les subventions de recherche.

HIPAA Safe Harbor : Les 18 identifiants

La méthode Safe Harbor de HIPAA (45 CFR §164.514(b)) liste 18 types de PHI. Tous doivent être supprimés avant que les données de santé perdent leur statut « protégé ». Après suppression, la recherche peut se poursuivre sans consentement du patient.

Voici les 18 types :

  1. Noms
  2. Données géographiques inférieures à l'État (les codes postaux doivent être tronqués à 3 chiffres pour les petites populations)
  3. Toutes les dates sauf l'année — admission, sortie, naissance, décès et autres dates
  4. Numéros de téléphone
  5. Numéros de fax
  6. Adresses e-mail
  7. Numéros de sécurité sociale
  8. Numéros de dossiers médicaux
  9. Numéros de bénéficiaires du régime de santé
  10. Numéros de compte
  11. Numéros de certificats et licences
  12. Identifiants de véhicules et numéros de série
  13. Identifiants d'appareils et numéros de série
  14. URLs web
  15. Adresses IP
  16. Identifiants biométriques (empreintes digitales, empreintes vocales)
  17. Photos de visage entier et images similaires
  18. Tout autre numéro ou code d'identification unique

Les cinq premiers apparaissent dans presque chaque dossier de sortie. Tous doivent être supprimés ou modifiés.

Les dates nécessitent une attention particulière. Chaque date patient doit conserver l'année mais perdre le jour et le mois précis. « 15 mars 2023 » devient « 2023 ». Les durées peuvent être conservées en tant que champ calculé — mais seulement après que les dates sources ont été supprimées.

Le problème d'échelle

Les ensembles de données de santé utiles sont grands :

  • Prédiction des réadmissions : 50 000–500 000 rencontres
  • Analyse des résultats de traitement : 10 000–100 000 patients par condition
  • Efficacité des médicaments : 5 000–50 000 dossiers
  • Santé des populations : 100 000+ rencontres

La révision manuelle à cette échelle ne fonctionne pas. Une révision de 5 minutes par dossier prend 250 à 2 500 jours ouvrables pour 100 000 dossiers. Les taux d'erreur humaine se situent entre 1 et 5 %. Même un faible taux de manque crée un risque HIPAA. Deux réviseurs traitant les dates différemment peuvent rompre le statut Safe Harbor. C'est une erreur facile à commettre sur un grand ensemble de données.

La suppression automatisée est la seule vraie option. Elle doit détecter les 18 types dans les formats variés des notes cliniques.

L'écart de prix des outils

Les outils d'entreprise ciblent les systèmes hospitaliers :

  • Datavant : 100 000 USD+/an
  • Veradigm (Allscripts) : prix similaires
  • Clinithink CLiX : contact commercial uniquement
  • Syntegra (données synthétiques) : tarification entreprise

Ces fournisseurs vendent aux grandes organisations dotées d'équipes juridiques et de conformité. Les subventions de recherche ne sont pas leur marché.

Des outils gratuits et open source existent mais nécessitent de l'expertise :

  • MITRE MIST : gratuit, mais nécessite une configuration importante et a un support linguistique limité
  • Stanford NLP DEID : qualité recherche, nécessite Java et des compétences en programmation
  • i2b2 NLP tools : NLP clinique, configuration requise

La plupart des chercheurs ont besoin d'une suppression fiable des PHI avec une configuration simple. Les outils open source nécessitent des compétences en codage et en linguistique. Ils nécessitent également un travail de validation. Les outils d'entreprise coûtent plus que la plupart des subventions ne le permettent. L'écart est réel et bloque la recherche.

Processus en cinq étapes par lots

Pour 200 000 dossiers de sortie, une approche séquentielle par lots fonctionne bien.

Étape 1 : Export depuis l'EHR. Exportez les champs structurés et non structurés sous forme de fichiers texte ou PDF par rencontre. Epic, Cerner et Meditech le supportent tous. Ils exportent des fichiers CSV ou HL7 avec les champs de notes cliniques inclus.

Étape 2 : Traiter des lots de 5 000. Les lots de cette taille sont rapides et assez petits pour être révisés à chaque étape.

Définir les types d'entités pour Safe Harbor :

  • PERSON (noms des patients, membres de la famille mentionnés dans les notes)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (adresses, codes postaux, villes — tout en dessous du niveau de l'État)
  • DATE (toutes les dates cliniques ; les patients de plus de 89 ans deviennent « > 89 »)
  • HEALTHCARE_ID (numéros d'assurance, numéros de bénéficiaires)
  • ACCOUNT_NUMBER

Pour en savoir plus sur la suppression PHI par lots pour les notes cliniques, voir traitement par lots des notes cliniques avec des outils HIPAA locaux. Ce guide couvre en détail les formats de fichiers et le réglage des entités.

Étape 3 : Traiter les dates séparément. Conserver l'année. Supprimer le mois et le jour. Remplacer tout âge supérieur à 89 par « > 89 ». Les paires âge-maladie rares peuvent ré-identifier les patients. Calculer d'abord les champs de durée — durée du séjour, jours jusqu'à la réadmission. Puis supprimer les dates sources.

Étape 4 : Échantillonner et réviser chaque lot. Après chaque lot de 5 000 dossiers, extraire 50 dossiers pour révision humaine. Vérifier les 18 types. Rechercher des éléments contextuels comme les noms des chercheurs dans les notes ou les détails du médecin référent. Confirmer que le traitement des dates correspond aux règles Safe Harbor. Corriger les lacunes avant de continuer.

Étape 5 : Documenter et certifier. HIPAA exige que quelqu'un ayant des connaissances statistiques confirme que le risque de ré-identification est très faible. Pour Safe Harbor, l'équipe qui effectue la suppression prend cette décision. Rédiger la configuration des entités et les résultats d'échantillonnage. Les conserver pour les dossiers IRB.

Besoin d'une piste d'audit pour chaque suppression ? La rédaction explicable avec piste d'audit HIPAA couvre les exigences de journalisation en détail.

Comparaison des coûts

Outil d'entreprise : 120 000 USD/an. Couvre la configuration, la formation, le traitement illimité et le support de conformité.

Traitement par lots :

  • 200 000 dossiers × 300 mots en moyenne = 60 000 000 tokens
  • À €0,0001/token : €6 000 en traitement
  • Plan Pro (€180/an) ou Plan Business (€348/an) pour le projet
  • Temps de révision du chercheur : 20–40 heures
  • Total : environ €7 000–8 000

Économies par rapport à l'outil d'entreprise : 111 000–113 000 USD. La recherche bloquée à 120 000 USD devient faisable à 7 000 USD.

Limites importantes

Texte uniquement. Cette approche traite les PHI textuelles. Les images, l'audio et les données biométriques (catégories Safe Harbor 13, 16 et 17) nécessitent d'autres outils.

La validation est requise. Les outils automatisés manquent certains éléments. Un taux de manque de 0,1 % sur 200 000 dossiers laisse 200 dossiers avec des PHI actives. C'est un vrai risque HIPAA. Ne pas sauter la validation.

Consulter votre bureau de la vie privée. L'approbation IRB pour l'étude ne couvre pas la méthode de suppression. La plupart des centres examinent séparément les approches de suppression des PHI. Ce guide s'ajoute à cet examen — il ne le remplace pas.

L'expertise est une option. HIPAA permet également la suppression via « Expert Determination » (45 CFR §164.514(b)(1)). Un expert en statistiques certifie que le risque de ré-identification est très faible. Cette voie convient aux ensembles de données inhabituels. Elle fonctionne bien quand supprimer toutes les dates briserait l'analyse de séries temporelles.

Pour une comparaison côte à côte des outils PHI automatisés, voir comparaison de la précision de détection des PHI.

Conclusion

La recherche en santé qui pourrait aider les patients est bloquée par les coûts de suppression des PHI. La révision manuelle ne passe pas à l'échelle. Les outils d'entreprise coûtent plus que la plupart des subventions ne le permettent. Les ensembles de données restent verrouillés ou mal nettoyés.

Le traitement par lots basé sur les tokens rend la recherche à grande échelle faisable. Les centres académiques et les chercheurs indépendants obtiennent la même précision que les grands systèmes hospitaliers. Avec un budget de subvention standard.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.