anonym.legal
Πίσω στο BlogΥγειονομική Περίθαλψη

Γιατί τα LLM Χάνουν το 50% του Κλινικού PHI...

Μια μελέτη 2025 διαπίστωσε ότι τα LLM χάνουν περισσότερο από το 50% του κλινικού PHI σε πολύγλωσσα έγγραφα.

April 2, 20269 λεπτά ανάγνωσης
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Το Πρόβλημα του Ποσοστού Αποτυχίας 50%

Μια έρευνα 2025 εργαλείων απο-ταυτοποίησης βασισμένων σε LLM (arXiv:2509.14464) διαπίστωσε ότι τα γενικής χρήσης εργαλεία LLM χάνουν περισσότερο από 50% του κλινικού PHI σε πολύγλωσσα έγγραφα. Αυτό το στοιχείο αντικατοπτρίζει μια θεμελιώδη αρχιτεκτονική αναντιστοιχία: τα LLM είναι σχεδιασμένα για κατανόηση και παραγωγή γλώσσας, όχι για τη δομημένη, υψηλής ανακλής εργασία ταυτοποίησης που απαιτεί η απο-ταυτοποίηση HIPAA.

Ένα τυπικό απόσπασμα κλινικής σημείωσης: «Ασθ. Ιωάννης Δ., ΗΓ 4/12/67, ΑΙ 1234567, παρουσιάστηκε στο ΤΕΠ στις 03/15/24 με θωρακικό άλγος.» Αυτή η μόνο πρόταση περιέχει όνομα, ημερομηνία γέννησης, ΑΙ, ημερομηνία εισαγωγής και θεράπων ιατρό — πέντε αναγνωριστές HIPAA, μερικοί σε συντομογραφία, ενσωματωμένοι σε κλινική συντομογραφία.

Τι Χάνουν τα LLM και Γιατί

Τα γενικής χρήσης LLM αποτυγχάνουν στο κλινικό PHI σε προβλέψιμα μοτίβα:

Συντομογραφιακοί αναγνωριστές: Οι κλινικές σημειώσεις χρησιμοποιούν τυπικές συντομογραφίες (ΗΓ για ημερομηνία γέννησης, ΑΙ για αριθμό ιατρικού αρχείου) που το NER ανεξαρτήτως πλαισίου μπορεί να μην αναγνωρίσει ως δείκτες PII.

Ημερομηνίες εξαρτώμενες από πλαίσιο: Οι ημερομηνίες στις κλινικές σημειώσεις έχουν συγκεκριμένη σημασία HIPAA. «Ηλικία 67» είναι μερικός δε-αναγνωριστής. «ΗΓ 4/12/67» είναι PHI. «03/15/24» ως ημερομηνία εισαγωγής είναι PHI.

Ειδική ανίχνευση MRN: Τα αριθμητικά αναγνωριστικά ιατρικού αρχείου ποικίλλουν ανά νοσοκομείο (7 ψηφία, 8 ψηφία, αλφαριθμητικά) χωρίς καθολική μορφή που να επιτρέπει ανίχνευση χωρίς εκπαίδευση ειδικά για ιδρύματα.

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.