By · Last updated 2026-04-11

Retour au blogSanté

Traitement par lots de 50 000 notes cliniques...

Une décision du SDNY de février 2026 a trouvé que les documents traités par IA perdent le secret avocat-client s'ils ne sont pas anonymisés avant le...

April 11, 20268 min de lecture
batch PHI de-identificationclinical notes processingHIPAA local processingresearch dataset complianceIRB requirements

Traiter 50 000 notes cliniques en local : guide HIPAA

Les équipes de recherche qui doivent dépersonnaliser de grandes archives de notes se heurtent souvent au même problème. Les outils cloud ne peuvent pas gérer le volume. De nombreuses réglementations exigent un traitement sur site. La révision manuelle prend trop de temps. Les traitements par lots en local sont la solution.

Ce guide couvre les règles clés, la configuration et les documents nécessaires.

Consultez notre présentation de la conformité et nos pratiques de sécurité pour savoir comment nous soutenons les workflows HIPAA.

Pourquoi le cloud ne convient pas ici

La méthode d'expert de HIPAA fixe un standard précis. Les données dépersonnalisées doivent présenter un « très faible risque » de ré-identification. Une personne qualifiée doit le vérifier. Un IRB qui approuve une recherche avec des données dépersonnalisées exige également des documents. Vous devez documenter la méthode utilisée, les types d'entités supprimées et les contrôles qualité appliqués.

Cette exigence de documentation est essentielle. La dépersonnalisation ne peut pas être une boîte noire. Vous devez montrer ce qui a été détecté, ce qui a été supprimé et comment vous avez vérifié le résultat.

Téléverser 500 000 fichiers vers une API cloud est lent et coûteux. Les limites de débit et les longs délais de transfert rendent cela difficile. Les traitements cloud sont rarement pratiques pour de grands ensembles de données de recherche.

HIPAA ajoute un second problème. L'envoi d'informations de santé protégées (PHI) à un associé commercial — même un prestataire de dépersonnalisation — nécessite un accord d'associé commercial (BAA). Pour la recherche sous protocole IRB, les règles BAA peuvent s'entrecroiser avec les conditions d'utilisation des données IRB. Un avis juridique est souvent nécessaire. Les traitements locaux suppriment entièrement le problème de transmission des données.

Pourquoi l'arrêt sur le privilège est important

Un arrêt du SDNY de février 2026 a jugé que les documents traités par IA perdent le privilège avocat-client s'ils ne sont pas anonymisés au préalable. Le tribunal a conclu que l'envoi de documents privilégiés à un service d'IA externe constituait une divulgation. Cette divulgation a levé le privilège pour le contenu analysé.

Le parallèle dans le domaine de la santé est clair. Les notes médicales envoyées à des outils NLP cloud présentent un risque similaire. Les dossiers de thérapie transmis à des services d'IA externes aussi. Les traitements locaux — où les documents ne quittent jamais votre environnement contrôlé — évitent ce risque.

Consultez notre guide sur HIPAA, cloud et PHI à connaissance nulle pour en savoir plus sur le maintien des données sur site.

Configuration pour 50 000 notes

Taille des lots : L'application de bureau traite 1 à 5 000 fichiers par lot selon votre abonnement. Dix lots de 5 000 couvrent les 50 000 notes en une seule exécution nocturne. Aucune étape manuelle n'est nécessaire entre les lots.

Débit : Exécuter 1 à 5 fichiers en parallèle augmente le rendement. Un seul traitement nocturne termine l'ensemble sans travail supplémentaire.

Types d'entités : Les types spécifiques à la santé comprennent les formats MRN, les numéros NPI, les numéros DEA, les identifiants d'assurance maladie et les formats de date HIPAA. Configurez-les une fois dans un preset nommé. Ce preset s'applique à chaque lot. La dépersonnalisation reste uniforme sur tous les fichiers.

Journaux d'audit : Chaque lot exporte un fichier CSV ou JSON. Il enregistre le nom du fichier, les types d'entités trouvées, les scores de confiance et un horodatage. Ce journal répond directement à l'exigence IRB pour l'Expert Determination. Vous pouvez montrer ce qui a été trouvé et supprimé dans chaque fichier.

Liste de contrôle IRB

Avant de soumettre votre protocole IRB, vérifiez que vous pouvez fournir :

  • Nom et version de l'outil de dépersonnalisation
  • Liste complète des types d'entités dans le preset
  • Résultats des tests sur un échantillon de validation
  • Journaux de lots pour chaque exécution (nom du fichier, comptages d'entités, horodatage)
  • Preuve qu'aucun PHI n'a quitté votre environnement local

Les traitements locaux par lots facilitent la production de chaque élément. Les journaux sont générés automatiquement. Le preset est sauvegardé et versionné. La frontière de l'environnement est claire.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.