LLM գաղտնիության հարձակում հետազոտություն
12 վստահված ակադեմիական հետազոտական թերթեր, որոնք ցույց են տալիս, թե ինչու կեղծանունիմիտը ձախողվում է AI-ի դեմ:
Դեանոնիմիզացիա, PII-ի արդյունահանում, անդամակցության հետաքրքրում, հրահրման ներարկման հարձակումներ — և ինչպես պաշտպանվել դրանցից:
Գաղտնիության հարձակման կատեգորիաներ
Դեանոնիմիզացիա
LLM-ները հաշվել են անանուն գրառումները իրական նույնականացման հետ՝ օգտագործելով գրելու ոճ, փաստեր և ժամանակային օրինաչափություններ: 68% ճշգրտություն $1-$4/պրոֆիլում:
Հատկանիշի եզրակացություն
LLM-ները անձնական հատկանիշներ են եզրակացնում (տեղանիշ, եկամուտ, տարիք) տեքստից, նույնիսկ երբ նշված չեն: GPT-4-ը հասնում է 85% վերին-1 ճշգրտության:
PII-ի արդյունահանում
Անձնական տեղեկատվության արդյունահանում վերապատրաստման տվյալներից կամ հրահրանից: 100% էլ. փոստի արդյունահանման ճշգրտություն GPT-4-ի հետ: 5× աճ առաջադեմ հարձակումների հետ:
Հրահրման ներարկում
LLM գործակալներին շահարկել՝ անձնական տվյալներ վերլուծել առաջադրանքի կատարման ժամանակ: ~20% հարձակման հաջողության դրույքաչափ բանկային սցենարներում:
Large-scale online deanonymization with LLMs
Simon Lermen (MATS), Daniel Paleka (ETH Zurich), Joshua Swanson (ETH Zurich), Michael Aerni (ETH Zurich), Nicholas Carlini (Anthropic), Florian Tramèr (ETH Zurich)
Published: February 18, 2026
Հիմնական գտածա
68% recall at 90% precision for deanonymization using ESRC framework
Մեթոդոլոգիա
Designed attacks for closed-world setting with scalable attack pipeline using LLMs to: (1) extract identity-relevant features, (2) search for candidate matches via semantic embeddings, (3) reason over top candidates to verify matches and reduce false positives.
ESRC շրջանակ
LLM-ը արդյունահանում է նույնականացնող փաստերը անանուն գրառումներից
Փաստերը օգտագործում է հանրային տվյալների շտեմարանների որոնման համար (LinkedIn և այլն:)
LLM-ը պատճառաբանում է թեկնածուի համընկնման մասին
Վստահության միավորում՝ կեղծ դրական արդյունքները նվազեցնելու համար
Փորձարարական արդյունքներ
| Տվյալների շտեմարան | Կանչ @ 90% ճշգրտություն | Նշումներ |
|---|---|---|
| Hacker News → LinkedIn | 68% | vs near 0% for classical methods |
| Reddit cross-community | 8.5% | Multiple subreddits |
| Reddit temporal split | 67% | Same user over time |
| Internet-scale (extrapolated) | 35% | At 1M candidates |
Հետևանքներ
Practical obscurity protecting pseudonymous users online no longer holds. Classical methods achieve near 0% recall under same conditions.
Բոլոր հետազոտական թերթերը
11 լրացուցիչ վստահված ակադեմիական ուսումնասիրություն LLM գաղտնիության հարձակումների վերաբերյալ
Beyond Memorization: Violating Privacy via Inference with Large Language Models
Robin Staab, Mark Vero, Mislav Balunović, et al. (ETH Zurich)
85% top-1 accuracy inferring personal attributes from Reddit posts
First comprehensive study on LLM capabilities to infer personal attributes from text. GPT-4 achieved highest accuracy among 9 tested models.
Հիմնական գտածաները
- •85% top-1 accuracy, 95% top-3 accuracy at inferring personal attributes
- •100× cheaper and 240× faster than human annotators
- •Tested 9 state-of-the-art LLMs including GPT-4, Claude 2, Llama 2
- •Infers location, income, age, sex, profession from subtle text cues
AutoProfiler: Automated Profile Inference with Language Model Agents
Yuntao Du, Zitao Li, Bolin Ding, et al. (Virginia Tech, Alibaba, Purdue University)
85-92% accuracy for automated profiling at scale using four specialized LLM agents
Framework using specialized LLM agents (Strategist, Extractor, Retriever, Summarizer) for automated profile inference from pseudonymous platforms.
Հիմնական գտածաները
- •Four specialized agents: Strategist, Extractor, Retriever, Summarizer
- •Iterative workflow enables sequential scraping, analysis, and inference
- •Outperforms baseline FTI across all attributes and LLM backbones
- •Short-term memory for Extractor/Retriever, long-term memory for Strategist/Summarizer
Large Language Models are Advanced Anonymizers
Robin Staab, Mark Vero, Mislav Balunović, et al. (ETH Zurich SRI Lab)
Adversarial anonymization reduces attribute inference from 66.3% to 45.3% after 3 iterations
LLMs can be used defensively in adversarial framework to anonymize text. Outperforms commercial anonymizers in both privacy and utility.
Հիմնական գտածաները
- •Adversarial feedback enables anonymization of significantly finer details
- •Attribute inference accuracy drops from 66.3% to 45.3% after 3 iterations
- •Evaluated 13 LLMs on real-world and synthetic online texts
- •Human study (n=50) showed strong preference for LLM-anonymized texts
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents
Arman Zharmagambetov, Chuan Guo, Ivan Evtimov, et al. (Meta AI, CMU)
GPT-4, Llama-3, and Claude web agents are prone to inadvertent use of unnecessary sensitive information
Benchmark measuring if AI web agents follow data minimization principle. Simulates realistic web interactions across GitLab, Shopping, and Reddit.
Հիմնական գտածաները
- •Evaluates GPT-4, Llama-3, Claude-powered web navigation agents
- •Measures data minimization compliance: use PII only if 'necessary' for task
- •Agents often leak sensitive information when unnecessary
- •Three test environments: GitLab, Shopping, Reddit web apps
SoK: The Privacy Paradox in Large Language Models
Various researchers
Systematization of 5 distinct privacy incident categories beyond memorization
Comprehensive survey categorizing privacy risks: training data leakage, chat leakage, context leakage, attribute inference, and attribute aggregation.
Հիմնական գտածաները
- •Five privacy incident categories identified:
- •1. Training data leakage via regurgitation
- •2. Direct chat leakage through provider breaches
- •3. Indirect context leakage via agents and prompt injection
PII-Scope: A Comprehensive Study on Training Data PII Extraction Attacks in LLMs
Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, et al. (Various)
PII extraction rates increase up to 5× with sophisticated adversarial capabilities and limited query budget
Comprehensive benchmark for PII extraction attacks. Reveals notable underestimation of PII leakage in existing single-query attacks.
Հիմնական գտածաները
- •PII extraction rates can increase up to 5× with sophisticated attacks
- •Existing single-query attacks notably underestimate PII leakage
- •Taxonomy: Black-box (True-prefix, ICL, PII Compass) and White-box (SPT) attacks
- •Hyperparameters like demonstration selection crucial to attack effectiveness
Evaluating LLM-based Personal Information Extraction and Countermeasures
Yupei Liu, Yuqi Jia, Jinyuan Jia, et al. (Penn State, Duke University)
GPT-4 achieves 100% accuracy extracting emails and 98% for phone numbers from synthetic profiles
Systematic measurement study benchmarking LLM-based personal information extraction (PIE). Proposes prompt injection as novel defense.
Հիմնական գտածաները
- •GPT-4: 100% email extraction, 98% phone number extraction on synthetic data
- •Larger LLMs more successful: vicuna-7b achieves 65%/95% vs GPT-4's 100%/98%
- •LLMs better at: emails, phone numbers, addresses, names
- •LLMs worse at: work experience, education, affiliation, occupation
Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions
Michele Miranda, Elena Sofia Ruzzetti, Andrea Santilli, et al. (Various)
Comprehensive taxonomy of privacy attacks: training data extraction, membership inference, model inversion
Survey examining privacy threats from LLM memorization. Proposes solutions from dataset anonymization to differential privacy and machine unlearning.
Հիմնական գտածաները
- •Privacy attacks covered: Training data extraction, Membership inference, Model inversion
- •Training data extraction: non-adversarial and adversarial prompting
- •Membership inference: shadow models and threshold-based approaches
- •Model inversion: output inversion and gradient inversion
Beyond Data Privacy: New Privacy Risks for Large Language Models
Various researchers
LLM autonomous capabilities create new vulnerabilities for inadvertent data leakage and malicious exfiltration
Explores privacy vulnerabilities from LLM integration into applications and weaponization of autonomous abilities.
Հիմնական գտածաները
- •LLM integration creates new privacy vulnerabilities beyond traditional risks
- •Opportunities for both inadvertent leakage and malicious exfiltration
- •Adversaries can exploit systems for sophisticated large-scale privacy attacks
- •Autonomous LLM abilities can be weaponized for data exfiltration
Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents
Various researchers
15-50% utility drop under attack with ~20% average attack success rate for personal data leakage
Examines prompt injection causing tool-calling agents to leak personal data during task execution. Uses fictitious banking agent scenario.
Հիմնական գտածաները
- •16 user tasks from AgentDojo benchmark evaluated
- •15-50 percentage point drop in LLM utility under attack
- •~20% average attack success rate across LLMs
- •Most LLMs avoid leaking passwords due to safety alignments
Membership Inference Attacks on Large-Scale Models: A Survey
Various researchers
First comprehensive review of MIAs targeting LLMs and LMMs across pre-training, fine-tuning, alignment, and RAG stages
Survey analyzing membership inference attacks by model type, adversarial knowledge, strategy, and pipeline stage.
Հիմնական գտածաները
- •Analyzes MIAs across: pre-training, fine-tuning, alignment, RAG stages
- •Strong MIAs require training multiple reference models (computationally expensive)
- •Weaker attacks often perform no better than random guessing
- •Tokenizers identified as new attack vector for membership inference
Պաշտպանական ռազմավարություններ հետազոտությունից
Ինչ չի աշխատում
- ✗Կեղծանունիմիտ — LLM-ները հաղթել են օգտանունները, նշումները, ցուցադրման անունները
- ✗Տեքստից պատկերի փոխակերպում — Միայն փոքր նվազում բազմամոդալ LLM-ների դեմ
- ✗Մոդելի համակարգում միայն — Ներկայումս անարդյունավետ եզրակացությունը կանխելու համար
- ✗Պարզ տեքստի անոնիմացիա — Անբավարար LLM պատճառաբանման դեմ
Ինչ է աշխատում
- ✓Հակառակորդային անոնիմացիա — Նվազեցնում է եզրակացությունը 66.3% → 45.3%
- ✓Դիֆերենցիալ գաղտնիություն — Նվազեցնում է PII ճշգրտությունը 33.86% → 9.37%
- ✓Հրահրման ներարկման պաշտպանություն — Ամենաարդյունավետ LLM-ի վրա հիմնված PIE-ի դեմ
- ✓Իսկական PII հեռացում/փոխարինում — Հեռացնում է LLM-ների դիմացակատ ազդանակերպերը
Ինչու այս հետազոտությունը կարևոր է
Այս 12 հետազոտական թերթերը ցույց են տալիս գաղտնիության սպառնալիքների հիմնական փոփոխություն: Ավանդական անոնիմացիայի մեթոդներ, ինչպես կեղծանունիմիտ, օգտանունիներ և նշման փոփոխություններ, այլևս հinsufficient պաշտպանություն չեն լինում որոշակի հակառակորդների համար, որոնք LLM-ներ ունեն:
Հիմնական սպառնալից ցուցանիշներ
- 68% դեանոնիմիզացիայի ճշգրտություն 90% ճշգրտության վրա (Hacker News → LinkedIn)
- 85% հատկանիշի եզրակացության ճշգրտություն տեղանիշի, եկամուտի, տարիքի, մեկնածի համար
- 100% էլ. փոստի արդյունահանում և 98% հեռախոսային համարի արդյունահանում (GPT-4)
- 5× PII տեղահանման աճ բարդ բազմակ հարցման հարձակումների հետ
- $1-$4 արժեք մեկ պրոֆիլի համար հանգամանային հարձակումները տնտեսապես հնարավոր է դարձնում
Ովքե՞ր են ռիսկում
- Բացահայտողներ և ակտիվիստներ. անանուն գրառումները կարող են կապված լինել իրական նույնականացման հետ
- Մասնագետներ. Reddit-ի գործունեությունը կապված LinkedIn պրոֆիլների հետ
- Առողջապահական հիվանդներ. անդամակցության հետաքրքրում բացահայտում է, թե արդյան տվյալները վերապատրաստման մեջ էին
- Ցանկացած, ովքեր պատմական գրառումներ ունեն: տարիների տվյալներ կարող են ետ դեանոնիմիզացիա լինել
Ինչպես anonym.legal-ը լուծում է այս սպառնալիքները
anonym.legal-ը իսկական անոնիմացիա տրամադրում է, որը հեռացնում է LLM-ների դիմացակատ ազդանակերպերը՝
- 285+ անհատի տեսակներ. անուններ, տեղանիշեր, ամսաթվեր, ժամանակային նշումներ, նույնականացամեր
- Գրման օրինաչափության խաթարում. փոխարինում է տեքստը, որը բացահայտում է stylometric մատնահետքերը
- Հետադարձելի էն-կրիպցիա. AES-256-GCM վճռարար մուտքի համար
- Բազմակի օպերատորներ. փոխարինում, թվադարձ, հեշ, գաղտնիացում, ծածկ, հատուկ
Հաճախ տրվող հարցեր
Ինչ է LLM-ի վրա հիմնված դեանոնիմիզացիա:
LLM-ի վրա հիմնված դեանոնիմիզացիա օգտագործում է հավելյալ լեզվի մոդելներ անանուն կամ կեղծանունային առցանց գրառումներից իրական անհատներին ճանաչելու համար: Ի տարբերություն ավանդական մեթոդների, որոնք չափազանց չափի փուլում ձախողվում են, LLM-ները կարող են միացնել գրելու ոճի վերլուծություն (stylometry), նշված փաստերը, ժամանակային օրինաչափությունները և համատեքստային պատճառաբանություն՝ անանուն պրոֆիլները իրական նույնականացման հետ համընկնելու համար: Հետազոտությունը ցույց է տալիս մինչև 68% ճշգրտություն 90% ճշգրտության վրա՝ կտրուկ մեթոդների համար մոտ 0% տեմպերի համեմատ:
Ինչ է LLM դեանոնիմիզացիայի ճշգրտությունը:
Հետազոտությունը վկայում է ահաբեր ճշգրտության մակարդակների. 68% վերհետ 90% ճշգրտության Hacker News-ից LinkedIn համընկնման համար, 67% Reddit ժամանակային վերլուծության համար (նույն օգտատեր ժամանակի ընթացքում), 35% ինտերնետային մասշտաբով (1 մլն+ թեկնածուներ): Հատկանիշի եզրակացության համար GPT-4-ը հասնում է 85% վերին-1 ճշգրտության` միայն Reddit-ի գրառումներից անձնական հատկանիշներ եզրակացնելիս, ինչպես տեղանիշ, եկամուտ, տարիք և մեկնած:
Ինչ է ESRC շրջանակը:
ESRC (Extract-Search-Reason-Calibrate) չորս քայլ LLM դեանոնիմիզացիայի շրջանակ՝ (1) Արդյունահանում - LLM-ը արդյունահանում է նույնականացնող փաստերը անանուն գրառումներից՝ օգտագործելով NLP, (2) Որոնում - հանրային տվյալների շտեմարանների որոնում, ինչպես LinkedIn՝ արդյունահանված փաստերի և semantic բաշխումների միջոցով, (3) Պատճառաբանում - LLM-ը պատճառաբանում է թեկնածուի համընկնման մասին՝ անցկացականություն վերլուծելով, (4) Կալիբրացիա - վստահության միավորում՝ կեղծ դրական արդյունքները նվազեցնելու համար՝ միաժամանակ իսկական համընկնումները առավելագույնի հասցնելով:
Ինչ է LLM դեանոնիմիզացիայի արժեքը:
Հետազոտությունը ցույց է տալիս LLM-ի վրա հիմնված դեանոնիմիզացիայի արժեքը $1-$4 մեկ պրոֆիլի համար՝ հանգամանային դեանոնիմիզացիա տնտեսապես հնարավոր դարձնելով: Պաշտպանական անոնիմացիայի համար արժեքները անցկացականից ցածր են $0.035 GPT-4-ի միջոցով մեկ մեկնաբանության համար: Այս ցածր արժեքը պետական միջնորդներին, կորպորացիաներին, տեղափոխիչներին և չար անհատներին հնարավորություն է տալիս կատարել շարակցական մասշտաբի գաղտնիության հարձակումներ:
Ո՞ր տեսակի PII-ներ կարող են LLM-ներ արդյունահանել տեքստից:
LLM-ները գերազանցում են արդյունահանվածել: էլ. փոստի հասցեներ (100% ճշգրտություն GPT-4-ի հետ), հեռախոսային համարներ (98%), փոստային հասցեներ և անուններ: Նրանք կարող են նաև եզրակացել չոլ չոլ չոլ անձնական տեղեկատվություն. տեղանիշ, եկամուտ մակարդակ, տարիք, սեռ, մեկնած, կրթություն, հարաբերության վիճակ և ծնվածի տեղ` տեքստային խորհրդատվողներ և գրելու օրինաչափությունից:
Ինչ է անդամակցության հետաքրքրման հարձակում (MIA):
Անդամակցության հետաքրքրման հարձակումները որոշում են, թե արդյան կոնկրետ տվյալներ ներառվել են AI մոդելի վերապատրաստման համար: LLM-ների համար սա բացահայտում է, թե արդյան ձեր անձնական տեղեկատվությունը վերապատրաստման շտեմարանում է: Հետազոտությունը ցույց է տալիս էլ. փոստային հասցեներ և հեռախոսային համարներ հատկապես խոցելի են: Նոր հարձակման վեկտորներ ներառում են tokenizer-ի վրա հիմնված եզրակացություն և ուշադրության ազդանակերպ վերլուծություն (AttenMIA):
Ինչպե՞ս հրահրման ներարկման հարձակումներ անձնական տվյալներ վերլուծում են:
Հրահրման ներարկում շահարկում է LLM գործակալներին անձնական տվյալներ վերլուծելու համար, որոնք նկատվել են առաջադրանքի կատարման ժամանակ: Բանկային գործակալի սցենարներում հարձակումներ հասնում են ~20% հաջողության դրույքաչափ անձնական տվյալների արդյունահանման մեջ՝ 15-50% իտուծի անկմամբ հարձակման ներքո: Մինչդեռ անվտանգության համապատասխանումները կանխում են գաղտնաբառի տեղահանումը, այլ անձնական տվյալներ մնում են խոցելի:
Ինչպե՞ս կարող է anonym.legal-ը օգնել պաշտպանել LLM գաղտնիության հարձակումներից:
anonym.legal-ը իսկական անոնիմացիա տրամադրում է հետևյալ միջոցով. (1) PII հայտնաբերում - 285+ անհատի տեսակներ, ներառյալ անուններ, տեղանիշեր, ամսաթվեր, գրման օրինաչափություններ, (2) Փոխարինում - իրական PII փոխարինում ձևաչափ վավեր այլընտրանքներով, (3) Թվադարձ - ամբողջական հեռացում պահպան տեղեկատվության, (4) Հետադարձելի գաղտնիացում - AES-256-GCM կազմակերպված մուտքի համար: Ի տարբերություն կեղծանունիմիտի, որի դեմ LLM-ներ հաղթել են, իսկական անոնիմացիա հեռացնում է LLM-ների դեանոնիմիզացիային դիմացակատ ազդանակերպերը:
Պաշտպանեք LLM գաղտնիության հարձակումներից
Մի ապավինեք կեղծանունիմիտին: Օգտագործեք իսկական անոնիմացիա պահպան փաստաթղթերը, օգտատեր տվյալները և հաղորդակցությունները պաշտպանել AI-ի շնորհակալ նույնականացման հարձակումներից: