Istraživanje napada na privatnost LLM-a
12 recenziranih istraživačkih radova koji pokazuju zašto pseudonimnost pada pred AI-om.
Deanonimizacija, ekstrakcija PII, zaključivanje pripadnosti, napadi injekcije upita — i kako se zaštititi.
Kategorije napada na privatnost
Deanonimizacija
LLM-ovi podudaraju anonimne objave sa stvarnim identitetima koristeći stil pisanja, činjenice i vremenske obrasce. Točnost 68% od $1-$4/profil.
Zaključivanje svojstava
LLM-ovi zaključuju osobna svojstva (lokacija, dohodak, dob) iz teksta čak i kada nisu navedena. GPT-4 postiže top-1 točnost od 85%.
Ekstrakcija PII
Ekstrakcija osobnih podataka iz podataka o obučavanju ili upita. Točnost ekstrakcije e-pošte od 100% sa GPT-4. Povećanje 5× sa naprednijim napadima.
Injekcija upita
Manipulacija LLM agentima da procure osobne podatke tijekom izvršavanja zadataka. ~20% stopa uspjeha napada u bankovnim scenarijima.
Large-scale online deanonymization with LLMs
Simon Lermen (MATS), Daniel Paleka (ETH Zurich), Joshua Swanson (ETH Zurich), Michael Aerni (ETH Zurich), Nicholas Carlini (Anthropic), Florian Tramèr (ETH Zurich)
Published: February 18, 2026
Ključno otkriće
68% recall at 90% precision for deanonymization using ESRC framework
Metodologija
Designed attacks for closed-world setting with scalable attack pipeline using LLMs to: (1) extract identity-relevant features, (2) search for candidate matches via semantic embeddings, (3) reason over top candidates to verify matches and reduce false positives.
ESRC okvir
LLM ekstrahira činjenice identifikacije iz anonimnih objava
Koristi činjenice za pretraživanje javnih baza podataka (LinkedIn, itd.)
LLM zaključuje o mogućim podudaranjima
Ocjena pouzdanosti za minimizaciju lažnih pozitiva
Eksperimentalni rezultati
| Skup podataka | Poziv @ 90% točnost | Bilješke |
|---|---|---|
| Hacker News → LinkedIn | 68% | vs near 0% for classical methods |
| Reddit cross-community | 8.5% | Multiple subreddits |
| Reddit temporal split | 67% | Same user over time |
| Internet-scale (extrapolated) | 35% | At 1M candidates |
Implikacije
Practical obscurity protecting pseudonymous users online no longer holds. Classical methods achieve near 0% recall under same conditions.
Svi istraživački radovi
11 dodatnih recenziranih istraživačkih radova o napadima na privatnost LLM-a
Beyond Memorization: Violating Privacy via Inference with Large Language Models
Robin Staab, Mark Vero, Mislav Balunović, i dr. (ETH Zurich)
85% top-1 accuracy inferring personal attributes from Reddit posts
First comprehensive study on LLM capabilities to infer personal attributes from text. GPT-4 achieved highest accuracy among 9 tested models.
Ključna otkrića
- •85% top-1 accuracy, 95% top-3 accuracy at inferring personal attributes
- •100× cheaper and 240× faster than human annotators
- •Tested 9 state-of-the-art LLMs including GPT-4, Claude 2, Llama 2
- •Infers location, income, age, sex, profession from subtle text cues
AutoProfiler: Automated Profile Inference with Language Model Agents
Yuntao Du, Zitao Li, Bolin Ding, i dr. (Virginia Tech, Alibaba, Purdue University)
85-92% accuracy for automated profiling at scale using four specialized LLM agents
Framework using specialized LLM agents (Strategist, Extractor, Retriever, Summarizer) for automated profile inference from pseudonymous platforms.
Ključna otkrića
- •Four specialized agents: Strategist, Extractor, Retriever, Summarizer
- •Iterative workflow enables sequential scraping, analysis, and inference
- •Outperforms baseline FTI across all attributes and LLM backbones
- •Short-term memory for Extractor/Retriever, long-term memory for Strategist/Summarizer
Large Language Models are Advanced Anonymizers
Robin Staab, Mark Vero, Mislav Balunović, i dr. (ETH Zurich SRI Lab)
Adversarial anonymization reduces attribute inference from 66.3% to 45.3% after 3 iterations
LLMs can be used defensively in adversarial framework to anonymize text. Outperforms commercial anonymizers in both privacy and utility.
Ključna otkrića
- •Adversarial feedback enables anonymization of significantly finer details
- •Attribute inference accuracy drops from 66.3% to 45.3% after 3 iterations
- •Evaluated 13 LLMs on real-world and synthetic online texts
- •Human study (n=50) showed strong preference for LLM-anonymized texts
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents
Arman Zharmagambetov, Chuan Guo, Ivan Evtimov, i dr. (Meta AI, CMU)
GPT-4, Llama-3, and Claude web agents are prone to inadvertent use of unnecessary sensitive information
Benchmark measuring if AI web agents follow data minimization principle. Simulates realistic web interactions across GitLab, Shopping, and Reddit.
Ključna otkrića
- •Evaluates GPT-4, Llama-3, Claude-powered web navigation agents
- •Measures data minimization compliance: use PII only if 'necessary' for task
- •Agents often leak sensitive information when unnecessary
- •Three test environments: GitLab, Shopping, Reddit web apps
SoK: The Privacy Paradox in Large Language Models
Various researchers
Systematization of 5 distinct privacy incident categories beyond memorization
Comprehensive survey categorizing privacy risks: training data leakage, chat leakage, context leakage, attribute inference, and attribute aggregation.
Ključna otkrića
- •Five privacy incident categories identified:
- •1. Training data leakage via regurgitation
- •2. Direct chat leakage through provider breaches
- •3. Indirect context leakage via agents and prompt injection
PII-Scope: A Comprehensive Study on Training Data PII Extraction Attacks in LLMs
Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, i dr. (Various)
PII extraction rates increase up to 5× with sophisticated adversarial capabilities and limited query budget
Comprehensive benchmark for PII extraction attacks. Reveals notable underestimation of PII leakage in existing single-query attacks.
Ključna otkrića
- •PII extraction rates can increase up to 5× with sophisticated attacks
- •Existing single-query attacks notably underestimate PII leakage
- •Taxonomy: Black-box (True-prefix, ICL, PII Compass) and White-box (SPT) attacks
- •Hyperparameters like demonstration selection crucial to attack effectiveness
Evaluating LLM-based Personal Information Extraction and Countermeasures
Yupei Liu, Yuqi Jia, Jinyuan Jia, i dr. (Penn State, Duke University)
GPT-4 achieves 100% accuracy extracting emails and 98% for phone numbers from synthetic profiles
Systematic measurement study benchmarking LLM-based personal information extraction (PIE). Proposes prompt injection as novel defense.
Ključna otkrića
- •GPT-4: 100% email extraction, 98% phone number extraction on synthetic data
- •Larger LLMs more successful: vicuna-7b achieves 65%/95% vs GPT-4's 100%/98%
- •LLMs better at: emails, phone numbers, addresses, names
- •LLMs worse at: work experience, education, affiliation, occupation
Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions
Michele Miranda, Elena Sofia Ruzzetti, Andrea Santilli, i dr. (Various)
Comprehensive taxonomy of privacy attacks: training data extraction, membership inference, model inversion
Survey examining privacy threats from LLM memorization. Proposes solutions from dataset anonymization to differential privacy and machine unlearning.
Ključna otkrića
- •Privacy attacks covered: Training data extraction, Membership inference, Model inversion
- •Training data extraction: non-adversarial and adversarial prompting
- •Membership inference: shadow models and threshold-based approaches
- •Model inversion: output inversion and gradient inversion
Beyond Data Privacy: New Privacy Risks for Large Language Models
Various researchers
LLM autonomous capabilities create new vulnerabilities for inadvertent data leakage and malicious exfiltration
Explores privacy vulnerabilities from LLM integration into applications and weaponization of autonomous abilities.
Ključna otkrića
- •LLM integration creates new privacy vulnerabilities beyond traditional risks
- •Opportunities for both inadvertent leakage and malicious exfiltration
- •Adversaries can exploit systems for sophisticated large-scale privacy attacks
- •Autonomous LLM abilities can be weaponized for data exfiltration
Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents
Various researchers
15-50% utility drop under attack with ~20% average attack success rate for personal data leakage
Examines prompt injection causing tool-calling agents to leak personal data during task execution. Uses fictitious banking agent scenario.
Ključna otkrića
- •16 user tasks from AgentDojo benchmark evaluated
- •15-50 percentage point drop in LLM utility under attack
- •~20% average attack success rate across LLMs
- •Most LLMs avoid leaking passwords due to safety alignments
Membership Inference Attacks on Large-Scale Models: A Survey
Various researchers
First comprehensive review of MIAs targeting LLMs and LMMs across pre-training, fine-tuning, alignment, and RAG stages
Survey analyzing membership inference attacks by model type, adversarial knowledge, strategy, and pipeline stage.
Ključna otkrića
- •Analyzes MIAs across: pre-training, fine-tuning, alignment, RAG stages
- •Strong MIAs require training multiple reference models (computationally expensive)
- •Weaker attacks often perform no better than random guessing
- •Tokenizers identified as new attack vector for membership inference
Strategije obrane iz istraživanja
Što ne funkcionira
- ✗Pseudonimnost — LLM-ovi nadilaze korisnička imena, ručke, prikazana imena
- ✗Konverzija teksta u sliku — Samo minimalno smanjenje pred multimodalnim LLM-ovima
- ✗Samo poravnanje modela — Trenutno neučinkovito u sprječavanju zaključivanja
- ✗Jednostavna anonimizacija teksta — Nedovoljna pred LLM zaključivanjem
Što funkcionira
- ✓Antagonistička anonimizacija — Smanjuje zaključivanje 66,3% → 45,3%
- ✓Diferencijalna privatnost — Smanjuje točnost PII 33,86% → 9,37%
- ✓Obrana od injekcije upita — Najefikasnija protiv LLM baziranog PIE
- ✓Prava uklanjanja/zamjena PII — Uklanja signale koje koriste LLM-ovi
Zašto je ovo istraživanje važno
Ovih 12 istraživačkih radova pokazuje fundamentalnu promjenu u prijetnjama privatnosti. Tradicionalni pristupi anonimizaciji kao što su pseudonimi, korisnička imena i promjene ručaka više nisu dovoljna zaštita od odlučnih protivnika sa pristupom LLM-ovima.
Ključne mjere prijetnje
- Točnost deanonimizacije 68% na 90% točnosti (Hacker News → LinkedIn)
- Točnost zaključivanja svojstava 85% za lokaciju, dohodak, dob, zanimanje
- Ekstrakcija e-pošte 100% i ekstrakcija telefonskog broja 98% (GPT-4)
- Povećanje od 5× u curenju PII-a sa sofisticiranim napadima više upita
- Cijena od $1-$4 po profilu čini masovne napade ekonomski izvedivima
Tko je ugrožen
- Otkrivači zlouporabe i aktivisti: Anonimne objave mogu biti povezane sa stvarnim identitetima
- Profesionalci: Reddit aktivnost povezana sa LinkedIn profilima
- Pacijenti u zdravstvu: Zaključivanje pripadnosti otkriva jesu li podaci bili u obučavanju
- Tko god ima povijesne objave: Godine podataka mogu biti retroaktivno deanonimizovane
Kako se anonym.legal bavi ovim prijetnjama
anonym.legal pruža pravu anonimizaciju koja uklanja signale koje koriste LLM-ovi:
- 285+ tipova entiteta: Imena, lokacije, datumi, vremenski markeri, identifikatori
- Poremećaj uzorka pisanja: Zamijeni tekst koji otkriva stilometrijskog otisaka
- Reverzibilna enkripcija: AES-256-GCM za slučajeve koji zahtijevaju odobren pristup
- Višestruki operatori: Zamjena, redakcija, hash, enkripcija, maska, prilagođena
Često postavljana pitanja
Što je deanonimizacija bazirana na LLM-u?
Deanonimizacija bazirana na LLM-u koristi velika jezična modela da identificira stvarne osobe iz anonimnih ili pseudonimnih mrežnih objava. Za razliku od tradicionalnih metoda koje padaju pri mjerilu, LLM-ovi mogu kombinirati analizu stila pisanja (stilometrija), navedene činjenice, vremenske obrasce i kontekstno zaključivanje da podudarnu anonimne profile sa stvarnim identitetima. Istraživanja pokazuju točnost do 68% na 90% točnosti, u odnosu na gotovo 0% za klasične metode.
Koliko je točna deanonimizacija LLM-a?
Istraživanja pokazuju alarmantne razine točnosti: poziv 68% na 90% točnosti za podudaranje Hacker News sa LinkedIn, 67% za vremensku analizu Reddit (ista osoba tijekom vremena), 35% na mrežnoj skali (1M+ kandidati). Za zaključivanje svojstava, GPT-4 postiže top-1 točnost 85% zaključujući osobna svojstva kao što su lokacija, dohodak, dob i zanimanje samo iz Reddit objava.
Što je ESRC okvir?
ESRC (Extract-Search-Reason-Calibrate) je četverostupanjski LLM deanonimizacijski okvir: (1) Ekstrakcija - LLM ekstrahira činjenice identifikacije iz anonimnih objava koristeći NLP, (2) Pretraživanje - traži javne baze podataka kao što je LinkedIn koristeći ekstrahirane činjenice i semantičke ugnježde, (3) Zaključivanje - LLM zaključuje o mogućim podudaranjima analizirajući konzistentnost, (4) Kalibracija - ocjena pouzdanosti za minimizaciju lažnih pozitiva dok se maksimiziraju prava podudaranja.
Koliko košta deanonimizacija bazirana na LLM-u?
Istraživanja pokazuju da deanonimizacija bazirana na LLM-u košta $1-$4 po profilu, čineći masovnu deanonimizaciju ekonomski izvedivom. Za obranu anonimizacije, troškovi su ispod $0,035 po komentaru koristeći GPT-4. Ovaj nizak trošak omogućava državnim akterima, korporacijama, nasljednicima i zlonamernim osobama da izvršavaju napade na privatnost u velikoj mjerilu.
Koje vrste PII mogu ekstrahirati LLM-ovi iz teksta?
LLM-ovi pokazuju vještinu u ekstrakciji: e-mailskih adresa (100% točnost sa GPT-4), telefonskih brojeva (98%), poštanskih adresa i imena. Također mogu zaključiti eksplicitne PII: lokaciju, razinu dohotka, dob, spol, zanimanje, obrazovanje, status odnosa i mjesto rođenja iz suptilnih tekstualnih znakova i uzoraka pisanja.
Što je napad zaključivanja pripadnosti (MIA)?
Napadi zaključivanja pripadnosti određuju jesu li specifični podaci korišteni za obučavanje AI modela. Za LLM-ove, to otkriva jesu li vaši osobni podaci bili u skupu podataka za obučavanje. Istraživanja pokazuju da su e-mailske adrese i telefonski brojevi posebno ranjivi. Novi vektori napada uključuju zaključivanje temeljeno na tokenizeru i analizu signala pažnje (AttenMIA).
Kako napadi injekcije upita procuravaju osobne podatke?
Injekcija upita manipulira LLM agentima da procure osobne podatke opažene tijekom izvršavanja zadataka. U scenarijima bankovnog agenta, napadi postižu ~20% stopu uspjeha pri profiliranju osobnih podataka, sa degradacijom korisnosti 15-50% pod napadom. Dok sigurnosna poravnanja sprječavaju procurivanje lozinke, drugi osobni podaci ostaju ranjivi.
Kako anonym.legal može pomoći u zaštiti od napada na privatnost LLM-a?
anonym.legal pruža pravu anonimizaciju kroz: (1) Detekcija PII - 285+ tipova entiteta uključujući imena, lokacije, datume, uzorke pisanja, (2) Zamjena - zamijeni pravi PII sa alternativama valjanim za format, (3) Redakcija - potpuno uklanja osjetljive podatke, (4) Reverzibilna enkripcija - AES-256-GCM za odobren pristup. Za razliku od pseudonimnosti koju LLM-ovi nadilaze, prava anonimizacija uklanja signale koje LLM-ovi koriste za deanonimizaciju.
Zaštita od napada na privatnost LLM-a
Ne oslanjajte se na pseudonimnost. Koristite pravu anonimizaciju za zaštitu osjetljivih dokumenata, korisničkih podataka i komunikacija od napada na identifikaciju temeljenih na AI.