anonym.legal

By · Last updated 2026-04-02

Πίσω στο BlogΥγειονομική Περίθαλψη

Τα LLM Χάνουν το 50% των Κλινικών PHI

Μελέτη του 2025 διαπίστωσε ότι τα LLM χάνουν πάνω από το 50% των κλινικών PHI σε πολύγλωσσα έγγραφα. Το 34,8% των εισόδων στο ChatGPT περιέχουν ευαίσθητα δεδομένα.

April 2, 20269 λεπτά ανάγνωσης
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Το Πρόβλημα του 50% Ποσοστού Παράλειψης

Μια έρευνα του 2025 (arXiv:2509.14464) δοκίμασε εργαλεία LLM σε κλινικά αρχεία. Τα αποτελέσματα ήταν άσχημα. Αυτά τα εργαλεία έχασαν πάνω από 50% των κλινικών PHI σε πολύγλωσσα έγγραφα. Η αιτία είναι απλή. Τα LLM είναι κατασκευασμένα για παραγωγή κειμένου. Δεν είναι κατασκευασμένα για την εργασία ανίχνευσης υψηλής ανάκλησης που απαιτεί η HIPAA.

Η HIPAA Safe Harbor απαριθμεί 18 τύπους προστατευμένων αναγνωριστικών. Ονόματα, ημερομηνίες, αριθμοί τηλεφώνου, SSN, MRN, αναγνωριστικά ασφαλιστικών σχεδίων υγείας, αναγνωριστικά συσκευών και διευθύνσεις IP. Ο καθένας χρειάζεται τη δική του λογική ανίχνευσης.

Οι κλινικές σημειώσεις κάνουν τα πράγματα δυσκολότερα. Πάρτε αυτό το παράδειγμα: «Ασθ. Ιωάννης Π., ΗΓ 4/12/67, MRN 1234567, εισαγωγή 03/15/24, ο Δρ. Παπαδόπουλος διέταξε ΗΚΓ.» Μια πρόταση. Πέντε προστατευμένα αναγνωριστικά. Τα περισσότερα χρησιμοποιούν συντομευμένες μορφές. Ένα μοντέλο κατασκευασμένο για κλινική σημασία συχνά αποτυγχάνει στην εργασία ανίχνευσης.

Τι Χάνουν τα LLM και Γιατί

Τα εργαλεία LLM αποτυγχάνουν σε κλινικά αρχεία με συγκεκριμένους τρόπους.

Συντομευμένα αναγνωριστικά: Οι κλινικές σημειώσεις χρησιμοποιούν συντομογραφίες. ΗΓ, MRN και Ασθ. είναι συνηθισμένες μορφές. Ένα μοντέλο ρυθμισμένο για κλινική σημασία μπορεί να μην επισημάνει το «Ασθ. Ιωάννης Π.» ως όνομα. Η εξαγωγή ευαίσθητων δεδομένων χρειάζεται διαφορετικό στόχο.

Ημερομηνίες εξαρτώμενες από το πλαίσιο: Δεν εγκυμονούν τον ίδιο κίνδυνο όλες οι ημερομηνίες. Το «Ηλικία 67» είναι ένας ήπιος δείκτης. Το «ΗΓ 4/12/67» είναι άμεσο προστατευμένο αναγνωριστικό. Το «03/15/24» ως ημερομηνία εισαγωγής επίσης προστατεύεται. Η αντιστοίχιση μοτίβων μόνη της δεν αρκεί.

Μη αμερικανικές μορφές: Η Cyberhaven (Q4 2025) διαπίστωσε ότι το 34,8% όλων των εισόδων στο ChatGPT περιέχουν ευαίσθητα δεδομένα, συμπεριλαμβανομένων πολύγλωσσων PII. Στην υγειονομική περίθαλψη, αυτό σημαίνει μη αμερικανικά αναγνωριστικά εγγραφών, περιφερειακές μορφές ημερομηνιών και τοπικούς τύπους αναγνωριστικών υγείας. Τα εργαλεία εκπαιδευμένα στις ΗΠΑ τα χάνουν σταθερά.

Προσαρμοσμένα αναγνωριστικά νοσοκομείων: Τα νοσοκομεία χρησιμοποιούν δικές τους μορφές MRN, αναγνωριστικά προσωπικού και κωδικούς τοποθεσιών. Αυτά δεν βρίσκονται σε τυπικά δεδομένα εκπαίδευσης NER. Ένα εργαλείο χωρίς υποστήριξη προσαρμοσμένων οντοτήτων δεν θα τα βρει.

Ο Κίνδυνος των Ερευνητικών Συνόλων Δεδομένων

Ένα νοσοκομείο που δημιουργεί ερευνητικό σύνολο δεδομένων από 500.000 σημειώσεις αντιμετωπίζει πραγματικό πρόβλημα συμμόρφωσης. Η HIPAA απαιτεί πρότυπο «πολύ μικρού κινδύνου» για ανωνυμοποιημένα δεδομένα. Ένα εργαλείο που χάνει τη μισή από τα προστατευμένα αναγνωριστικά δεν μπορεί να πληροί αυτό το κριτήριο.

Τα ερευνητικά αρχεία δεν είναι καθαρά δεδομένα. Οι σημειώσεις καλύπτουν πολλά τμήματα, χρονικές περιόδους και μερικές φορές γλώσσες. Ένα εργαλείο που λειτουργεί σε δεδομένα χρέωσης μπορεί να αποτύχει σε αφηγηματικές σημειώσεις. Τα ευαίσθητα δεδομένα σε ελεύθερο κείμενο δεν έχουν ετικέτα πεδίου.

Η έγκριση IRB προσθέτει επιπλέον απαιτήσεις. Τα ιδρύματα πρέπει να αποδείξουν τη μέθοδο που χρησιμοποιήθηκε, τους τύπους αναγνωριστικών που αφαιρέθηκαν και τους ελέγχους που πραγματοποιήθηκαν. Ένα εργαλείο που χάνει τη μισή από όλες τις εγγραφές δεν μπορεί να πληροί αυτές τις απαιτήσεις.

Δείτε την επισκόπηση συμμόρφωσης και τις πρακτικές ασφαλείας μας για το πώς το anonym.legal υποστηρίζει εργασίες HIPAA.

Η Τριεπίπεδη Διόρθωση

Η έρευνα του 2025 βρήκε ένα σαφές μοτίβο. Τα εργαλεία με τα χαμηλότερα ποσοστά παράλειψης χρησιμοποιούσαν τρία επίπεδα ανίχνευσης.

Επίπεδο πρώτο — regex: Εντοπίζει δομημένα αναγνωριστικά. SSN, MRN, αριθμούς τηλεφώνου, αναγνωριστικά ασφαλιστικών σχεδίων υγείας. Αξιόπιστο σε σταθερές μορφές.

Επίπεδο δεύτερο — NER: Χρησιμοποιεί μοντέλα transformer. Εντοπίζει ονόματα, ημερομηνίες και ευαίσθητα δεδομένα σε αφηγηματικό κείμενο. Λειτουργεί όπου δεν μπορεί το regex.

Επίπεδο τρίτο — προσαρμοσμένες οντότητες: Χειρίζεται τοποθεσιακές μορφές. Ιδιόκτητα μοτίβα MRN, αναγνωριστικά προσωπικού, κωδικούς εγκαταστάσεων. Κανένα τυπικό μοντέλο δεν τα καλύπτει.

Τα καθαρά εργαλεία ML υποβαθμίζονται σε συντομευμένες μορφές και μη αγγλικό κείμενο. Τα καθαρά εργαλεία regex χάνουν ευαίσθητα δεδομένα χωρίς ετικέτα πεδίου. Κανένα από τα δύο μόνο του δεν αρκεί.

Μόνο ο τριεπίπεδος σχεδιασμός έφτασε ποσοστά παράλειψης κάτω από 5% στην έρευνα. Αυτό είναι το κριτήριο για συμμόρφωση με το HIPAA Safe Harbor.

Δείτε τον οδηγό μας για ανωνυμοποίηση HIPAA Safe Harbor για έρευνα για επόμενα βήματα.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.