Recherche en Sécurité

Recherche sur les Attaques de Confidentialité LLM

12 articles de recherche évalués par des pairs démontrant pourquoi la pseudonymité échoue contre l'IA.

Désanonymisation, extraction de PII, inférence d'appartenance, attaques par injection de requête — et comment se protéger.

68%
Précision de Désanonymisation
$1-$4
Coût par Profil
12
Articles de Recherche
85%
Inférence d'Attributs
100%
Extraction d'Email (GPT-4)
Augmentation d'Extraction de PII

Catégories d'Attaques de Confidentialité

Désanonymisation

Les LLM font correspondre les publications anonymes aux identités réelles en utilisant le style d'écriture, les faits et les modèles temporels. Précision de 68 % à 1-4$/profil.

Inférence d'Attributs

Les LLM déduisent les attributs personnels (lieu, revenu, âge) à partir du texte même quand ils ne sont pas déclarés. GPT-4 atteint une précision top-1 de 85 %.

Extraction de PII

Extraction d'informations personnelles à partir des données d'entraînement ou des invites. Extraction d'email à 100 % avec GPT-4. Augmentation de 5× avec les attaques avancées.

Injection de Requête

Manipulation des agents LLM pour fuir les données personnelles pendant l'exécution des tâches. Taux de succès d'attaque d'environ 20 % sur les scénarios bancaires.

VEDETTEarXiv:2602.16800

Large-scale online deanonymization with LLMs

Simon Lermen (MATS), Daniel Paleka (ETH Zurich), Joshua Swanson (ETH Zurich), Michael Aerni (ETH Zurich), Nicholas Carlini (Anthropic), Florian Tramèr (ETH Zurich)

Published: February 18, 2026

Découverte Clé

68% recall at 90% precision for deanonymization using ESRC framework

Coût d'attaque : $1-$4 per profile

Méthodologie

Designed attacks for closed-world setting with scalable attack pipeline using LLMs to: (1) extract identity-relevant features, (2) search for candidate matches via semantic embeddings, (3) reason over top candidates to verify matches and reduce false positives.

Cadre ESRC

EExtraire

Le LLM extrait les faits d'identification des publications anonymes

SRechercher

Utilise les faits pour interroger les bases de données publiques (LinkedIn, etc.)

RRaisonner

Le LLM raisonne sur les correspondances candidates

CCalibrer

Score de confiance pour minimiser les faux positifs

Résultats Expérimentaux

Ensemble de DonnéesRappel @ 90% PrécisionNotes
Hacker News → LinkedIn68%vs near 0% for classical methods
Reddit cross-community8.5%Multiple subreddits
Reddit temporal split67%Same user over time
Internet-scale (extrapolated)35%At 1M candidates

Implications

Practical obscurity protecting pseudonymous users online no longer holds. Classical methods achieve near 0% recall under same conditions.

Tous les Articles de Recherche

11 études évaluées par des pairs supplémentaires sur les attaques de confidentialité des LLM

arXiv:2310.07298ICLR 2024

Beyond Memorization: Violating Privacy via Inference with Large Language Models

Robin Staab, Mark Vero, Mislav Balunović, et al. (ETH Zurich)

85% top-1 accuracy inferring personal attributes from Reddit posts

First comprehensive study on LLM capabilities to infer personal attributes from text. GPT-4 achieved highest accuracy among 9 tested models.

Découvertes Clés

  • 85% top-1 accuracy, 95% top-3 accuracy at inferring personal attributes
  • 100× cheaper and 240× faster than human annotators
  • Tested 9 state-of-the-art LLMs including GPT-4, Claude 2, Llama 2
  • Infers location, income, age, sex, profession from subtle text cues
arXiv:2505.12402May 2025

AutoProfiler: Automated Profile Inference with Language Model Agents

Yuntao Du, Zitao Li, Bolin Ding, et al. (Virginia Tech, Alibaba, Purdue University)

85-92% accuracy for automated profiling at scale using four specialized LLM agents

Framework using specialized LLM agents (Strategist, Extractor, Retriever, Summarizer) for automated profile inference from pseudonymous platforms.

Découvertes Clés

  • Four specialized agents: Strategist, Extractor, Retriever, Summarizer
  • Iterative workflow enables sequential scraping, analysis, and inference
  • Outperforms baseline FTI across all attributes and LLM backbones
  • Short-term memory for Extractor/Retriever, long-term memory for Strategist/Summarizer
arXiv:2402.13846ICLR 2025

Large Language Models are Advanced Anonymizers

Robin Staab, Mark Vero, Mislav Balunović, et al. (ETH Zurich SRI Lab)

Adversarial anonymization reduces attribute inference from 66.3% to 45.3% after 3 iterations

LLMs can be used defensively in adversarial framework to anonymize text. Outperforms commercial anonymizers in both privacy and utility.

Découvertes Clés

  • Adversarial feedback enables anonymization of significantly finer details
  • Attribute inference accuracy drops from 66.3% to 45.3% after 3 iterations
  • Evaluated 13 LLMs on real-world and synthetic online texts
  • Human study (n=50) showed strong preference for LLM-anonymized texts
arXiv:2503.09780March 2025 (revised October 2025)

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents

Arman Zharmagambetov, Chuan Guo, Ivan Evtimov, et al. (Meta AI, CMU)

GPT-4, Llama-3, and Claude web agents are prone to inadvertent use of unnecessary sensitive information

Benchmark measuring if AI web agents follow data minimization principle. Simulates realistic web interactions across GitLab, Shopping, and Reddit.

Découvertes Clés

  • Evaluates GPT-4, Llama-3, Claude-powered web navigation agents
  • Measures data minimization compliance: use PII only if 'necessary' for task
  • Agents often leak sensitive information when unnecessary
  • Three test environments: GitLab, Shopping, Reddit web apps
arXiv:2506.12699ACM AsiaCCS 2025

SoK: The Privacy Paradox in Large Language Models

Various researchers

Systematization of 5 distinct privacy incident categories beyond memorization

Comprehensive survey categorizing privacy risks: training data leakage, chat leakage, context leakage, attribute inference, and attribute aggregation.

Découvertes Clés

  • Five privacy incident categories identified:
  • 1. Training data leakage via regurgitation
  • 2. Direct chat leakage through provider breaches
  • 3. Indirect context leakage via agents and prompt injection
arXiv:2410.06704October 2024

PII-Scope: A Comprehensive Study on Training Data PII Extraction Attacks in LLMs

Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, et al. (Various)

PII extraction rates increase up to 5× with sophisticated adversarial capabilities and limited query budget

Comprehensive benchmark for PII extraction attacks. Reveals notable underestimation of PII leakage in existing single-query attacks.

Découvertes Clés

  • PII extraction rates can increase up to 5× with sophisticated attacks
  • Existing single-query attacks notably underestimate PII leakage
  • Taxonomy: Black-box (True-prefix, ICL, PII Compass) and White-box (SPT) attacks
  • Hyperparameters like demonstration selection crucial to attack effectiveness
arXiv:2408.07291USENIX Security 2025

Evaluating LLM-based Personal Information Extraction and Countermeasures

Yupei Liu, Yuqi Jia, Jinyuan Jia, et al. (Penn State, Duke University)

GPT-4 achieves 100% accuracy extracting emails and 98% for phone numbers from synthetic profiles

Systematic measurement study benchmarking LLM-based personal information extraction (PIE). Proposes prompt injection as novel defense.

Découvertes Clés

  • GPT-4: 100% email extraction, 98% phone number extraction on synthetic data
  • Larger LLMs more successful: vicuna-7b achieves 65%/95% vs GPT-4's 100%/98%
  • LLMs better at: emails, phone numbers, addresses, names
  • LLMs worse at: work experience, education, affiliation, occupation
arXiv:2408.05212TMLR 2025 (submitted August 2024)

Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions

Michele Miranda, Elena Sofia Ruzzetti, Andrea Santilli, et al. (Various)

Comprehensive taxonomy of privacy attacks: training data extraction, membership inference, model inversion

Survey examining privacy threats from LLM memorization. Proposes solutions from dataset anonymization to differential privacy and machine unlearning.

Découvertes Clés

  • Privacy attacks covered: Training data extraction, Membership inference, Model inversion
  • Training data extraction: non-adversarial and adversarial prompting
  • Membership inference: shadow models and threshold-based approaches
  • Model inversion: output inversion and gradient inversion
arXiv:2509.14278September 2025

Beyond Data Privacy: New Privacy Risks for Large Language Models

Various researchers

LLM autonomous capabilities create new vulnerabilities for inadvertent data leakage and malicious exfiltration

Explores privacy vulnerabilities from LLM integration into applications and weaponization of autonomous abilities.

Découvertes Clés

  • LLM integration creates new privacy vulnerabilities beyond traditional risks
  • Opportunities for both inadvertent leakage and malicious exfiltration
  • Adversaries can exploit systems for sophisticated large-scale privacy attacks
  • Autonomous LLM abilities can be weaponized for data exfiltration
arXiv:2506.01055June 2025

Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents

Various researchers

15-50% utility drop under attack with ~20% average attack success rate for personal data leakage

Examines prompt injection causing tool-calling agents to leak personal data during task execution. Uses fictitious banking agent scenario.

Découvertes Clés

  • 16 user tasks from AgentDojo benchmark evaluated
  • 15-50 percentage point drop in LLM utility under attack
  • ~20% average attack success rate across LLMs
  • Most LLMs avoid leaking passwords due to safety alignments
arXiv:2503.19338March 2025

Membership Inference Attacks on Large-Scale Models: A Survey

Various researchers

First comprehensive review of MIAs targeting LLMs and LMMs across pre-training, fine-tuning, alignment, and RAG stages

Survey analyzing membership inference attacks by model type, adversarial knowledge, strategy, and pipeline stage.

Découvertes Clés

  • Analyzes MIAs across: pre-training, fine-tuning, alignment, RAG stages
  • Strong MIAs require training multiple reference models (computationally expensive)
  • Weaker attacks often perform no better than random guessing
  • Tokenizers identified as new attack vector for membership inference

Stratégies de Défense Basées sur la Recherche

Ce Qui Ne Fonctionne Pas

  • Pseudonymisation — Les LLM défont les noms d'utilisateur, les pseudonymes, les noms d'affichage
  • Conversion texte en image — Diminution légère contre les LLM multimodaux
  • Alignement du modèle uniquement — Actuellement inefficace pour prévenir l'inférence
  • Anonymisation de texte simple — Insuffisante contre le raisonnement LLM

Ce Qui Fonctionne

  • Anonymisation adversariale — Réduit l'inférence de 66,3 % à 45,3 %
  • Confidentialité différentielle — Réduit la précision du PII de 33,86 % à 9,37 %
  • Défense par injection de requête — Plus efficace contre la PIE basée sur LLM
  • Suppression/Remplacement Vrai PII — Supprime les signaux que les LLM utilisent

Pourquoi Cette Recherche est Importante

Ces 12 articles de recherche démontrent un changement fondamental dans les menaces de confidentialité. Les approches d'anonymisation traditionnelles comme les pseudonymes, les noms d'utilisateur et les changements de pseudonymes ne sont plus une protection suffisante contre les adversaires déterminés ayant accès aux LLM.

Métriques de Menace Clés

  • Précision de désanonymisation de 68 % à 90 % de précision (Hacker News → LinkedIn)
  • Précision d'inférence d'attributs de 85 % pour le lieu, le revenu, l'âge, la profession
  • Extraction d'email à 100 % et extraction de numéro de téléphone à 98 % (GPT-4)
  • Augmentation de 5× de la fuite de PII avec les attaques multi-requête sophistiquées
  • Coût de 1-4$ par profil rend les attaques de masse économiquement réalisables

Qui Court un Risque

  • Lanceurs d'alerte et activistes : Les publications anonymes peuvent être liées aux identités réelles
  • Professionnels : Activité Reddit liée aux profils LinkedIn
  • Patients en soins de santé : L'inférence d'appartenance révèle si les données étaient en entraînement
  • Toute personne avec des publications historiques : Les années de données peuvent être rétroactivement désanonymisées

Comment anonym.legal Aborde Ces Menaces

anonym.legal fournit une véritable anonymisation qui supprime les signaux que les LLM utilisent :

  • 285+ Types d'Entités : Noms, lieux, dates, marqueurs temporels, identifiants
  • Perturbation du Modèle d'Écriture : Remplace le texte qui révèle les empreintes stylométriques
  • Cryptage Réversible : AES-256-GCM pour les cas nécessitant un accès autorisé
  • Plusieurs Opérateurs : Remplacer, Rédiger, Hacher, Chiffrer, Masquer, Personnalisé

Questions Fréquemment Posées

Qu'est-ce que la désanonymisation basée sur LLM ?

La désanonymisation basée sur LLM utilise de grands modèles de langage pour identifier les vrais individus à partir de publications en ligne anonymes ou pseudonymisées. Contrairement aux méthodes traditionnelles qui échouent à grande échelle, les LLM peuvent combiner l'analyse du style d'écriture (stylométrie), les faits énoncés, les modèles temporels et le raisonnement contextuel pour faire correspondre les profils anonymes aux identités réelles. La recherche montre une précision jusqu'à 68 % à 90 % de précision, comparée à près de 0 % pour les méthodes classiques.

Quelle est la précision de la désanonymisation par LLM ?

La recherche démontre des niveaux de précision alarmants : 68 % de rappel à 90 % de précision pour la correspondance Hacker News vers LinkedIn, 67 % pour l'analyse temporelle Reddit (même utilisateur au fil du temps), 35 % à l'échelle d'Internet (1M+ candidats). Pour l'inférence d'attributs, GPT-4 atteint une précision top-1 de 85 % en déduisant les attributs personnels comme le lieu, le revenu, l'âge et la profession à partir de publications Reddit uniquement.

Qu'est-ce que le cadre ESRC ?

ESRC (Extract-Search-Reason-Calibrate) est un cadre de désanonymisation LLM en quatre étapes : (1) Extraire - Le LLM extrait les faits d'identification des publications anonymes à l'aide du TAL, (2) Rechercher - interroge les bases de données publiques comme LinkedIn à l'aide des faits extraits et des incorporations sémantiques, (3) Raisonner - Le LLM raisonne sur les correspondances candidates en analysant la cohérence, (4) Calibrer - score de confiance pour minimiser les faux positifs tout en maximisant les vrais résultats.

Combien coûte la désanonymisation par LLM ?

La recherche montre que la désanonymisation basée sur LLM coûte 1-4$ par profil, ce qui rend la désanonymisation de masse économiquement réalisable. Pour l'anonymisation défensive, les coûts sont inférieurs à 0,035$ par commentaire en utilisant GPT-4. Ce faible coût permet aux acteurs de l'État, aux sociétés, aux harceleurs et aux individus malveillants de perpétrer des attaques de confidentialité à grande échelle.

Quels types de PII les LLM peuvent-ils extraire du texte ?

Les LLM excellent à extraire : les adresses e-mail (précision à 100 % avec GPT-4), les numéros de téléphone (98 %), les adresses postales et les noms. Ils peuvent également déduire les PII non explicites : le lieu, le niveau de revenu, l'âge, le sexe, la profession, l'éducation, l'état de la relation et le lieu de naissance à partir d'indices textuels subtils et de modèles d'écriture.

Qu'est-ce qu'une attaque d'inférence d'appartenance (MIA) ?

Les attaques d'inférence d'appartenance déterminent si des données spécifiques ont été utilisées pour entraîner un modèle d'IA. Pour les LLM, cela révèle si vos informations personnelles figuraient dans l'ensemble de données d'entraînement. La recherche montre que les adresses e-mail et les numéros de téléphone sont particulièrement vulnérables. De nouveaux vecteurs d'attaque incluent l'inférence basée sur le tokeniseur et l'analyse des signaux d'attention (AttenMIA).

Comment les attaques par injection de requête fuient-elles les données personnelles ?

L'injection de requête manipule les agents LLM pour fuir les données personnelles observées lors de l'exécution des tâches. Dans les scénarios d'agents bancaires, les attaques atteignent environ 20 % de taux de succès à l'exfiltration de données personnelles, avec une dégradation d'utilité de 15-50 % en attaque. Bien que les alignements de sécurité empêchent les fuites de mots de passe, les autres données personnelles restent vulnérables.

Comment anonym.legal peut-il aider à se protéger contre les attaques de confidentialité LLM ?

anonym.legal fournit une véritable anonymisation grâce à : (1) Détection de PII - 285+ types d'entités incluant les noms, les lieux, les dates, les modèles d'écriture, (2) Remplacement - substitue le PII réel par des alternatives valides au format, (3) Redaction - supprime complètement les informations sensibles, (4) Cryptage Réversible - AES-256-GCM pour l'accès autorisé. Contrairement à la pseudonymisation que les LLM défont, la véritable anonymisation supprime les signaux que les LLM utilisent pour la désanonymisation.

Se Protéger Contre les Attaques de Confidentialité LLM

Ne vous fiez pas à la pseudonymité. Utilisez la véritable anonymisation pour protéger les documents sensibles, les données utilisateur et les communications contre les attaques d'identification alimentées par l'IA.