Το Πρόβλημα του Ποσοστού Αποτυχίας 50%
Μια έρευνα 2025 εργαλείων απο-ταυτοποίησης βασισμένων σε LLM (arXiv:2509.14464) διαπίστωσε ότι τα γενικής χρήσης εργαλεία LLM χάνουν περισσότερο από 50% του κλινικού PHI σε πολύγλωσσα έγγραφα. Αυτό το στοιχείο αντικατοπτρίζει μια θεμελιώδη αρχιτεκτονική αναντιστοιχία: τα LLM είναι σχεδιασμένα για κατανόηση και παραγωγή γλώσσας, όχι για τη δομημένη, υψηλής ανακλής εργασία ταυτοποίησης που απαιτεί η απο-ταυτοποίηση HIPAA.
Ένα τυπικό απόσπασμα κλινικής σημείωσης: «Ασθ. Ιωάννης Δ., ΗΓ 4/12/67, ΑΙ 1234567, παρουσιάστηκε στο ΤΕΠ στις 03/15/24 με θωρακικό άλγος.» Αυτή η μόνο πρόταση περιέχει όνομα, ημερομηνία γέννησης, ΑΙ, ημερομηνία εισαγωγής και θεράπων ιατρό — πέντε αναγνωριστές HIPAA, μερικοί σε συντομογραφία, ενσωματωμένοι σε κλινική συντομογραφία.
Τι Χάνουν τα LLM και Γιατί
Τα γενικής χρήσης LLM αποτυγχάνουν στο κλινικό PHI σε προβλέψιμα μοτίβα:
Συντομογραφιακοί αναγνωριστές: Οι κλινικές σημειώσεις χρησιμοποιούν τυπικές συντομογραφίες (ΗΓ για ημερομηνία γέννησης, ΑΙ για αριθμό ιατρικού αρχείου) που το NER ανεξαρτήτως πλαισίου μπορεί να μην αναγνωρίσει ως δείκτες PII.
Ημερομηνίες εξαρτώμενες από πλαίσιο: Οι ημερομηνίες στις κλινικές σημειώσεις έχουν συγκεκριμένη σημασία HIPAA. «Ηλικία 67» είναι μερικός δε-αναγνωριστής. «ΗΓ 4/12/67» είναι PHI. «03/15/24» ως ημερομηνία εισαγωγής είναι PHI.
Ειδική ανίχνευση MRN: Τα αριθμητικά αναγνωριστικά ιατρικού αρχείου ποικίλλουν ανά νοσοκομείο (7 ψηφία, 8 ψηφία, αλφαριθμητικά) χωρίς καθολική μορφή που να επιτρέπει ανίχνευση χωρίς εκπαίδευση ειδικά για ιδρύματα.
Πηγές: