Istraživanje sigurnosti

Istraživanje napada na privatnost LLM-a

12 recenziranih istraživačkih radova koji pokazuju zašto pseudonimnost pada pred AI-om.

Deanonimizacija, ekstrakcija PII, zaključivanje pripadnosti, napadi injekcije upita — i kako se zaštititi.

68%
Točnost deanonimizacije
$1-$4
Cijena po profilu
12
Istraživački radovi
85%
Zaključivanje svojstava
100%
Ekstrakcija e-pošte (GPT-4)
Povećanje ekstrakcije PII

Kategorije napada na privatnost

Deanonimizacija

LLM-ovi podudaraju anonimne objave sa stvarnim identitetima koristeći stil pisanja, činjenice i vremenske obrasce. Točnost 68% od $1-$4/profil.

Zaključivanje svojstava

LLM-ovi zaključuju osobna svojstva (lokacija, dohodak, dob) iz teksta čak i kada nisu navedena. GPT-4 postiže top-1 točnost od 85%.

Ekstrakcija PII

Ekstrakcija osobnih podataka iz podataka o obučavanju ili upita. Točnost ekstrakcije e-pošte od 100% sa GPT-4. Povećanje 5× sa naprednijim napadima.

Injekcija upita

Manipulacija LLM agentima da procure osobne podatke tijekom izvršavanja zadataka. ~20% stopa uspjeha napada u bankovnim scenarijima.

IZDVOJENOarXiv:2602.16800

Large-scale online deanonymization with LLMs

Simon Lermen (MATS), Daniel Paleka (ETH Zurich), Joshua Swanson (ETH Zurich), Michael Aerni (ETH Zurich), Nicholas Carlini (Anthropic), Florian Tramèr (ETH Zurich)

Published: February 18, 2026

Ključno otkriće

68% recall at 90% precision for deanonymization using ESRC framework

Cijena napada: $1-$4 per profile

Metodologija

Designed attacks for closed-world setting with scalable attack pipeline using LLMs to: (1) extract identity-relevant features, (2) search for candidate matches via semantic embeddings, (3) reason over top candidates to verify matches and reduce false positives.

ESRC okvir

EEkstrakcija

LLM ekstrahira činjenice identifikacije iz anonimnih objava

SPretraživanje

Koristi činjenice za pretraživanje javnih baza podataka (LinkedIn, itd.)

RZaključivanje

LLM zaključuje o mogućim podudaranjima

CKalibracija

Ocjena pouzdanosti za minimizaciju lažnih pozitiva

Eksperimentalni rezultati

Skup podatakaPoziv @ 90% točnostBilješke
Hacker News → LinkedIn68%vs near 0% for classical methods
Reddit cross-community8.5%Multiple subreddits
Reddit temporal split67%Same user over time
Internet-scale (extrapolated)35%At 1M candidates

Implikacije

Practical obscurity protecting pseudonymous users online no longer holds. Classical methods achieve near 0% recall under same conditions.

Svi istraživački radovi

11 dodatnih recenziranih istraživačkih radova o napadima na privatnost LLM-a

arXiv:2310.07298ICLR 2024

Beyond Memorization: Violating Privacy via Inference with Large Language Models

Robin Staab, Mark Vero, Mislav Balunović, i dr. (ETH Zurich)

85% top-1 accuracy inferring personal attributes from Reddit posts

First comprehensive study on LLM capabilities to infer personal attributes from text. GPT-4 achieved highest accuracy among 9 tested models.

Ključna otkrića

  • 85% top-1 accuracy, 95% top-3 accuracy at inferring personal attributes
  • 100× cheaper and 240× faster than human annotators
  • Tested 9 state-of-the-art LLMs including GPT-4, Claude 2, Llama 2
  • Infers location, income, age, sex, profession from subtle text cues
arXiv:2505.12402May 2025

AutoProfiler: Automated Profile Inference with Language Model Agents

Yuntao Du, Zitao Li, Bolin Ding, i dr. (Virginia Tech, Alibaba, Purdue University)

85-92% accuracy for automated profiling at scale using four specialized LLM agents

Framework using specialized LLM agents (Strategist, Extractor, Retriever, Summarizer) for automated profile inference from pseudonymous platforms.

Ključna otkrića

  • Four specialized agents: Strategist, Extractor, Retriever, Summarizer
  • Iterative workflow enables sequential scraping, analysis, and inference
  • Outperforms baseline FTI across all attributes and LLM backbones
  • Short-term memory for Extractor/Retriever, long-term memory for Strategist/Summarizer
arXiv:2402.13846ICLR 2025

Large Language Models are Advanced Anonymizers

Robin Staab, Mark Vero, Mislav Balunović, i dr. (ETH Zurich SRI Lab)

Adversarial anonymization reduces attribute inference from 66.3% to 45.3% after 3 iterations

LLMs can be used defensively in adversarial framework to anonymize text. Outperforms commercial anonymizers in both privacy and utility.

Ključna otkrića

  • Adversarial feedback enables anonymization of significantly finer details
  • Attribute inference accuracy drops from 66.3% to 45.3% after 3 iterations
  • Evaluated 13 LLMs on real-world and synthetic online texts
  • Human study (n=50) showed strong preference for LLM-anonymized texts
arXiv:2503.09780March 2025 (revised October 2025)

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents

Arman Zharmagambetov, Chuan Guo, Ivan Evtimov, i dr. (Meta AI, CMU)

GPT-4, Llama-3, and Claude web agents are prone to inadvertent use of unnecessary sensitive information

Benchmark measuring if AI web agents follow data minimization principle. Simulates realistic web interactions across GitLab, Shopping, and Reddit.

Ključna otkrića

  • Evaluates GPT-4, Llama-3, Claude-powered web navigation agents
  • Measures data minimization compliance: use PII only if 'necessary' for task
  • Agents often leak sensitive information when unnecessary
  • Three test environments: GitLab, Shopping, Reddit web apps
arXiv:2506.12699ACM AsiaCCS 2025

SoK: The Privacy Paradox in Large Language Models

Various researchers

Systematization of 5 distinct privacy incident categories beyond memorization

Comprehensive survey categorizing privacy risks: training data leakage, chat leakage, context leakage, attribute inference, and attribute aggregation.

Ključna otkrića

  • Five privacy incident categories identified:
  • 1. Training data leakage via regurgitation
  • 2. Direct chat leakage through provider breaches
  • 3. Indirect context leakage via agents and prompt injection
arXiv:2410.06704October 2024

PII-Scope: A Comprehensive Study on Training Data PII Extraction Attacks in LLMs

Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, i dr. (Various)

PII extraction rates increase up to 5× with sophisticated adversarial capabilities and limited query budget

Comprehensive benchmark for PII extraction attacks. Reveals notable underestimation of PII leakage in existing single-query attacks.

Ključna otkrića

  • PII extraction rates can increase up to 5× with sophisticated attacks
  • Existing single-query attacks notably underestimate PII leakage
  • Taxonomy: Black-box (True-prefix, ICL, PII Compass) and White-box (SPT) attacks
  • Hyperparameters like demonstration selection crucial to attack effectiveness
arXiv:2408.07291USENIX Security 2025

Evaluating LLM-based Personal Information Extraction and Countermeasures

Yupei Liu, Yuqi Jia, Jinyuan Jia, i dr. (Penn State, Duke University)

GPT-4 achieves 100% accuracy extracting emails and 98% for phone numbers from synthetic profiles

Systematic measurement study benchmarking LLM-based personal information extraction (PIE). Proposes prompt injection as novel defense.

Ključna otkrića

  • GPT-4: 100% email extraction, 98% phone number extraction on synthetic data
  • Larger LLMs more successful: vicuna-7b achieves 65%/95% vs GPT-4's 100%/98%
  • LLMs better at: emails, phone numbers, addresses, names
  • LLMs worse at: work experience, education, affiliation, occupation
arXiv:2408.05212TMLR 2025 (submitted August 2024)

Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions

Michele Miranda, Elena Sofia Ruzzetti, Andrea Santilli, i dr. (Various)

Comprehensive taxonomy of privacy attacks: training data extraction, membership inference, model inversion

Survey examining privacy threats from LLM memorization. Proposes solutions from dataset anonymization to differential privacy and machine unlearning.

Ključna otkrića

  • Privacy attacks covered: Training data extraction, Membership inference, Model inversion
  • Training data extraction: non-adversarial and adversarial prompting
  • Membership inference: shadow models and threshold-based approaches
  • Model inversion: output inversion and gradient inversion
arXiv:2509.14278September 2025

Beyond Data Privacy: New Privacy Risks for Large Language Models

Various researchers

LLM autonomous capabilities create new vulnerabilities for inadvertent data leakage and malicious exfiltration

Explores privacy vulnerabilities from LLM integration into applications and weaponization of autonomous abilities.

Ključna otkrića

  • LLM integration creates new privacy vulnerabilities beyond traditional risks
  • Opportunities for both inadvertent leakage and malicious exfiltration
  • Adversaries can exploit systems for sophisticated large-scale privacy attacks
  • Autonomous LLM abilities can be weaponized for data exfiltration
arXiv:2506.01055June 2025

Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents

Various researchers

15-50% utility drop under attack with ~20% average attack success rate for personal data leakage

Examines prompt injection causing tool-calling agents to leak personal data during task execution. Uses fictitious banking agent scenario.

Ključna otkrića

  • 16 user tasks from AgentDojo benchmark evaluated
  • 15-50 percentage point drop in LLM utility under attack
  • ~20% average attack success rate across LLMs
  • Most LLMs avoid leaking passwords due to safety alignments
arXiv:2503.19338March 2025

Membership Inference Attacks on Large-Scale Models: A Survey

Various researchers

First comprehensive review of MIAs targeting LLMs and LMMs across pre-training, fine-tuning, alignment, and RAG stages

Survey analyzing membership inference attacks by model type, adversarial knowledge, strategy, and pipeline stage.

Ključna otkrića

  • Analyzes MIAs across: pre-training, fine-tuning, alignment, RAG stages
  • Strong MIAs require training multiple reference models (computationally expensive)
  • Weaker attacks often perform no better than random guessing
  • Tokenizers identified as new attack vector for membership inference

Strategije obrane iz istraživanja

Što ne funkcionira

  • Pseudonimnost — LLM-ovi nadilaze korisnička imena, ručke, prikazana imena
  • Konverzija teksta u sliku — Samo minimalno smanjenje pred multimodalnim LLM-ovima
  • Samo poravnanje modela — Trenutno neučinkovito u sprječavanju zaključivanja
  • Jednostavna anonimizacija teksta — Nedovoljna pred LLM zaključivanjem

Što funkcionira

  • Antagonistička anonimizacija — Smanjuje zaključivanje 66,3% → 45,3%
  • Diferencijalna privatnost — Smanjuje točnost PII 33,86% → 9,37%
  • Obrana od injekcije upita — Najefikasnija protiv LLM baziranog PIE
  • Prava uklanjanja/zamjena PII — Uklanja signale koje koriste LLM-ovi

Zašto je ovo istraživanje važno

Ovih 12 istraživačkih radova pokazuje fundamentalnu promjenu u prijetnjama privatnosti. Tradicionalni pristupi anonimizaciji kao što su pseudonimi, korisnička imena i promjene ručaka više nisu dovoljna zaštita od odlučnih protivnika sa pristupom LLM-ovima.

Ključne mjere prijetnje

  • Točnost deanonimizacije 68% na 90% točnosti (Hacker News → LinkedIn)
  • Točnost zaključivanja svojstava 85% za lokaciju, dohodak, dob, zanimanje
  • Ekstrakcija e-pošte 100% i ekstrakcija telefonskog broja 98% (GPT-4)
  • Povećanje od 5× u curenju PII-a sa sofisticiranim napadima više upita
  • Cijena od $1-$4 po profilu čini masovne napade ekonomski izvedivima

Tko je ugrožen

  • Otkrivači zlouporabe i aktivisti: Anonimne objave mogu biti povezane sa stvarnim identitetima
  • Profesionalci: Reddit aktivnost povezana sa LinkedIn profilima
  • Pacijenti u zdravstvu: Zaključivanje pripadnosti otkriva jesu li podaci bili u obučavanju
  • Tko god ima povijesne objave: Godine podataka mogu biti retroaktivno deanonimizovane

Kako se anonym.legal bavi ovim prijetnjama

anonym.legal pruža pravu anonimizaciju koja uklanja signale koje koriste LLM-ovi:

  • 285+ tipova entiteta: Imena, lokacije, datumi, vremenski markeri, identifikatori
  • Poremećaj uzorka pisanja: Zamijeni tekst koji otkriva stilometrijskog otisaka
  • Reverzibilna enkripcija: AES-256-GCM za slučajeve koji zahtijevaju odobren pristup
  • Višestruki operatori: Zamjena, redakcija, hash, enkripcija, maska, prilagođena

Često postavljana pitanja

Što je deanonimizacija bazirana na LLM-u?

Deanonimizacija bazirana na LLM-u koristi velika jezična modela da identificira stvarne osobe iz anonimnih ili pseudonimnih mrežnih objava. Za razliku od tradicionalnih metoda koje padaju pri mjerilu, LLM-ovi mogu kombinirati analizu stila pisanja (stilometrija), navedene činjenice, vremenske obrasce i kontekstno zaključivanje da podudarnu anonimne profile sa stvarnim identitetima. Istraživanja pokazuju točnost do 68% na 90% točnosti, u odnosu na gotovo 0% za klasične metode.

Koliko je točna deanonimizacija LLM-a?

Istraživanja pokazuju alarmantne razine točnosti: poziv 68% na 90% točnosti za podudaranje Hacker News sa LinkedIn, 67% za vremensku analizu Reddit (ista osoba tijekom vremena), 35% na mrežnoj skali (1M+ kandidati). Za zaključivanje svojstava, GPT-4 postiže top-1 točnost 85% zaključujući osobna svojstva kao što su lokacija, dohodak, dob i zanimanje samo iz Reddit objava.

Što je ESRC okvir?

ESRC (Extract-Search-Reason-Calibrate) je četverostupanjski LLM deanonimizacijski okvir: (1) Ekstrakcija - LLM ekstrahira činjenice identifikacije iz anonimnih objava koristeći NLP, (2) Pretraživanje - traži javne baze podataka kao što je LinkedIn koristeći ekstrahirane činjenice i semantičke ugnježde, (3) Zaključivanje - LLM zaključuje o mogućim podudaranjima analizirajući konzistentnost, (4) Kalibracija - ocjena pouzdanosti za minimizaciju lažnih pozitiva dok se maksimiziraju prava podudaranja.

Koliko košta deanonimizacija bazirana na LLM-u?

Istraživanja pokazuju da deanonimizacija bazirana na LLM-u košta $1-$4 po profilu, čineći masovnu deanonimizaciju ekonomski izvedivom. Za obranu anonimizacije, troškovi su ispod $0,035 po komentaru koristeći GPT-4. Ovaj nizak trošak omogućava državnim akterima, korporacijama, nasljednicima i zlonamernim osobama da izvršavaju napade na privatnost u velikoj mjerilu.

Koje vrste PII mogu ekstrahirati LLM-ovi iz teksta?

LLM-ovi pokazuju vještinu u ekstrakciji: e-mailskih adresa (100% točnost sa GPT-4), telefonskih brojeva (98%), poštanskih adresa i imena. Također mogu zaključiti eksplicitne PII: lokaciju, razinu dohotka, dob, spol, zanimanje, obrazovanje, status odnosa i mjesto rođenja iz suptilnih tekstualnih znakova i uzoraka pisanja.

Što je napad zaključivanja pripadnosti (MIA)?

Napadi zaključivanja pripadnosti određuju jesu li specifični podaci korišteni za obučavanje AI modela. Za LLM-ove, to otkriva jesu li vaši osobni podaci bili u skupu podataka za obučavanje. Istraživanja pokazuju da su e-mailske adrese i telefonski brojevi posebno ranjivi. Novi vektori napada uključuju zaključivanje temeljeno na tokenizeru i analizu signala pažnje (AttenMIA).

Kako napadi injekcije upita procuravaju osobne podatke?

Injekcija upita manipulira LLM agentima da procure osobne podatke opažene tijekom izvršavanja zadataka. U scenarijima bankovnog agenta, napadi postižu ~20% stopu uspjeha pri profiliranju osobnih podataka, sa degradacijom korisnosti 15-50% pod napadom. Dok sigurnosna poravnanja sprječavaju procurivanje lozinke, drugi osobni podaci ostaju ranjivi.

Kako anonym.legal može pomoći u zaštiti od napada na privatnost LLM-a?

anonym.legal pruža pravu anonimizaciju kroz: (1) Detekcija PII - 285+ tipova entiteta uključujući imena, lokacije, datume, uzorke pisanja, (2) Zamjena - zamijeni pravi PII sa alternativama valjanim za format, (3) Redakcija - potpuno uklanja osjetljive podatke, (4) Reverzibilna enkripcija - AES-256-GCM za odobren pristup. Za razliku od pseudonimnosti koju LLM-ovi nadilaze, prava anonimizacija uklanja signale koje LLM-ovi koriste za deanonimizaciju.

Zaštita od napada na privatnost LLM-a

Ne oslanjajte se na pseudonimnost. Koristite pravu anonimizaciju za zaštitu osjetljivih dokumenata, korisničkih podataka i komunikacija od napada na identifikaciju temeljenih na AI.