Le problème du taux de non-détection de 50 %
Une enquête de 2025 sur les outils de désidentification basés sur les LLM (arXiv:2509.14464) a révélé que les outils LLM à usage général manquent plus de 50 % des PHI cliniques dans des documents multilingues. Ce chiffre reflète un décalage architectural fondamental : les LLM sont conçus pour la compréhension et la génération de langage, et non pour la tâche d'identification structurée et à haut rappel que nécessite la désidentification HIPAA.
La méthode Safe Harbor de la règle de confidentialité HIPAA exige la suppression de 18 catégories d'identifiants spécifiques : noms, données géographiques, dates, numéros de téléphone, numéros de fax, adresses e-mail, numéros de sécurité sociale, numéros de dossier médical, numéros de bénéficiaires de plans de santé, numéros de compte, numéros de certificat/de licence, numéros d'identification de véhicule, identifiants d'appareil, URL web, adresses IP, identifiants biométriques, photographies de visage entier, et tout autre numéro ou code d'identification unique. Chacune de ces catégories a des formats structurés qui nécessitent une logique de détection spécifique.
Les notes cliniques sont là où la difficulté se concentre. Considérons un fragment typique de note clinique : "Pt. John D., DOB 4/12/67, MRN 1234567, présenté au service des urgences le 03/15/24 avec des douleurs thoraciques. Antécédents : HTA, DM. Dr. Smith a ordonné un ECG." Cette seule phrase contient un nom, une date de naissance, un MRN, une date d'admission et un médecin traitant — cinq identifiants HIPAA, certains sous forme abrégée, intégrés dans un langage clinique.
Ce que les LLM manquent et pourquoi
Les LLM à usage général échouent sur les PHI cliniques selon des schémas prévisibles.
Identifiants abrégés : Les notes cliniques utilisent des abréviations standard (DOB pour date de naissance, MRN pour numéro de dossier médical, Pt. pour patient) que la reconnaissance d'entités nommées (NER) sans contexte peut ne pas reconnaître comme des marqueurs de PII. Un LLM lisant la note ci-dessus pour une compréhension générale comprend le sens clinique ; un LLM chargé de l'extraction de PHI peut manquer "Pt. John D." comme un modèle de nom partiel.
Dates dépendantes du contexte : Les dates dans les notes cliniques ont une signification spécifique selon la HIPAA. "Âge 67" est un dé-identifiant partiel qui doit être noté. "DOB 4/12/67" est une PHI. "03/15/24" en tant que date d'admission est une PHI. Cela nécessite une extraction de date consciente du contexte, et pas seulement une correspondance de modèle de date.
Formats d'identifiants régionaux : Une recherche de Cyberhaven (T4 2025) a révélé que 34,8 % de toutes les entrées de ChatGPT contiennent des données sensibles, y compris des PII multilingues. Dans les contextes de soins de santé, cela inclut des formats de dossier médical non américains, des conventions de date internationales et des formats d'identifiants de santé spécifiques à chaque pays que les systèmes axés sur les États-Unis manquent.
Identifiants institutionnels personnalisés : Les systèmes de santé utilisent des formats de MRN propriétaires, des identifiants d'employés et des codes d'établissement qui ne font pas partie des données d'entraînement standard de NER. Un système sans support de type d'entité personnalisé ne peut pas détecter ceux-ci.
Le problème de conformité des ensembles de données de recherche
Un système hospitalier construisant un ensemble de données de recherche désidentifié à partir de 500 000 notes cliniques fait face à un risque composé. La HIPAA exige que les ensembles de données de recherche désidentifiés répondent à la norme de "très faible risque" selon la méthode Safe Harbor ou à l'approche statistique selon la Détermination d'Expert. Un système manquant 50 % de PHI produit un ensemble de données qui échoue à cette norme — exposant l'institution de recherche à des mesures d'exécution de l'OCR et à des échecs de conformité IRB.
Les notes cliniques dans un ensemble de données de recherche ne sont pas uniformes. Elles couvrent différents départements (cardiologie, oncologie, psychiatrie), différents styles de documentation, différentes périodes, et — dans les systèmes de santé multilingues — différentes langues. Un système de désidentification qui fonctionne adéquatement sur des données de facturation structurées peut échouer sur des notes de progrès psychiatriques non structurées où la PHI apparaît dans un contexte narratif plutôt que dans des champs étiquetés.
L'exigence de détection hybride
L'enquête de recherche de 2025 a identifié le schéma cohérent : les systèmes avec le meilleur rappel de PHI combinent la détection d'identifiants structurés (regex pour les numéros de sécurité sociale, MRN, numéros de téléphone) avec la NER contextuelle (modèles basés sur des transformateurs pour les noms, dates dans un contexte narratif) et le support d'entités personnalisées (identifiants spécifiques à l'institution).
Les approches ML pures atteignent un haut rappel sur des identifiants communs dans du texte bien formaté mais se dégradent sur les abréviations, les types d'identifiants rares et le texte non anglais. Les approches regex pures atteignent un haut rappel sur des identifiants structurés mais manquent de PHI contextuelle (le nom d'un médecin mentionné dans une narration clinique sans préfixe de titre).
L'architecture hybride à trois niveaux — regex pour les identifiants structurés, NLP pour la PHI contextuelle, modèles de transformateurs pour les formes multilingues et abrégées — est le schéma identifié par l'enquête comme atteignant des taux de non-détection inférieurs à 5 % adaptés à la conformité Safe Harbor de la HIPAA.
Sources :