Le problème des 50 % d'omissions
Une étude de 2025 (arXiv:2509.14464) a testé des outils LLM sur des dossiers cliniques. Les résultats étaient mauvais. Ces outils ont manqué plus de 50 % des PHI cliniques dans des documents multilingues. La cause est simple. Les LLM sont conçus pour produire du texte. Ils ne sont pas conçus pour la détection à haute performance que HIPAA exige.
HIPAA Safe Harbor liste 18 types d'identifiants protégés. Noms, dates, numéros de téléphone, numéros de sécurité sociale, MRN, identifiants de plans de santé, identifiants d'appareils et adresses IP. Chacun nécessite sa propre logique de détection.
Les notes cliniques rendent cela plus difficile. Prenons cet exemple : « Pt. John D., DOB 4/12/67, MRN 1234567, admis le 03/15/24, Dr. Smith a prescrit un ECG. » Une seule phrase. Cinq identifiants protégés. La plupart utilisent des abréviations. Un modèle conçu pour la compréhension clinique échoue souvent à la tâche de détection.
Ce que les LLM manquent et pourquoi
Les outils LLM échouent sur les dossiers cliniques de manière prévisible.
Identifiants abrégés : Les notes cliniques utilisent des abréviations. DOB, MRN et Pt. sont des formes courantes. Un modèle orienté vers le sens clinique peut ne pas signaler « Pt. John D. » comme un nom. L'extraction de données sensibles nécessite un objectif différent.
Dates dépendantes du contexte : Toutes les dates ne présentent pas le même risque. « Âge 67 » est un marqueur indirect. « DOB 4/12/67 » est un identifiant directement protégé. « 03/15/24 » comme date d'admission est aussi protégé. La correspondance de motifs seule ne suffit pas.
Formats non américains : Cyberhaven (T4 2025) a constaté que 34,8 % de toutes les entrées ChatGPT contiennent des données sensibles, y compris des PII multilingues. En santé, cela inclut les identifiants de dossiers non américains, les formats de dates régionaux et les types d'identifiants de santé locaux. Les outils formés sur des données américaines les ignorent systématiquement.
Identifiants hospitaliers personnalisés : Les hôpitaux utilisent leurs propres formats MRN, identifiants du personnel et codes de site. Ces données ne figurent pas dans les ensembles d'entraînement NER standard. Un outil sans prise en charge des entités personnalisées ne les trouvera pas.
Le risque des ensembles de données de recherche
Un hôpital construisant un ensemble de données de recherche à partir de 500 000 notes fait face à un vrai problème de conformité. HIPAA exige un standard de « très faible risque » pour les données anonymisées. Un outil manquant la moitié de tous les identifiants protégés ne peut pas atteindre ce seuil.
Les archives de recherche ne sont pas des données propres. Les notes couvrent de nombreux services, périodes et parfois des langues différentes. Un outil fonctionnant sur des données de facturation peut échouer sur des notes narratives. Les données sensibles en texte libre n'ont pas de libellé de champ.
L'approbation IRB impose des exigences supplémentaires. Les établissements doivent montrer la méthode utilisée, les types d'identifiants supprimés et les contrôles effectués. Un outil manquant la moitié de tous les enregistrements ne peut pas satisfaire ces exigences.
Consultez notre aperçu de conformité et nos pratiques de sécurité pour savoir comment anonym.legal soutient les flux de travail HIPAA.
La solution à trois couches
L'étude 2025 a identifié un schéma clair. Les outils avec les taux d'omission les plus bas utilisaient trois couches de détection.
Couche une — regex : Trouve les identifiants structurés. Numéros de sécurité sociale, MRN, numéros de téléphone, identifiants de plans de santé. Fiable sur les formats fixes.
Couche deux — NER : Utilise des modèles transformeurs. Trouve les noms, les dates et les données sensibles dans le texte narratif. Fonctionne là où le regex échoue.
Couche trois — entités personnalisées : Gère les formats propres à chaque site. Modèles MRN propriétaires, identifiants du personnel, codes d'établissement. Aucun modèle standard ne couvre ces éléments.
Les outils ML purs se dégradent sur les formes abrégées et le texte non anglais. Les outils regex purs manquent les données sensibles sans libellé de champ. Aucun seul ne suffit.
Seule la conception à trois couches a atteint des taux d'omission inférieurs à 5 % dans l'étude. C'est le seuil de conformité HIPAA Safe Harbor.
Consultez notre guide sur la dépseudonymisation HIPAA Safe Harbor pour la recherche pour les prochaines étapes.