Fjöltyngd PII-greining fyrir GDPR
Uppfært fyrir 2026
GDPR-bilið sem er falið
GDPR hefur enga tungumálsforsenda. 4. grein (1) skilgreinir "persónuleg gögn" án þess að nefna hvaða tungumál þau birtast á. Þýsk Steuer-ID er jafn vernduð og bandarísk kennitala (SSN). Frönsk NIR er jafn regluvæð og bresk National Insurance-númer.
Flest PII-greiningarverkfæri voru smíðuð eingöngu fyrir ensku.
Rannsóknir frá ACL 2024 sýndu að blönduð NLP-verkfæri ná F1-skori upp á 0,60-0,83 fyrir evrópska staðhætti. Einslegling-enska verkfæri skora nærri núlli fyrir ekki-enska þjóðleg auðkennissnið. Munurinn er skýr. Verkfæri gæti greinið 95% ensku PII. En það missir af 40-60% þýskra, franskra, pólskra eða hollenskra PII í sömu skrá. Þetta er alvarlegt vandamál. Það skilur fyrirtæki útsettar.
Þetta er raunverulegt GDPR-bil. Það snertir nær öll alþjóðleg fyrirtæki sem nota enskumiðuð þurkkverkfæri. Sjá GDPR-leiðbeiningar okkar fyrir meira.
Hvers vegna PII er staðbundið
PII-greining hefur tvo hluta.
Fyrsti er myndmatskönnun. Þetta nær yfir skipulegar kennitölur eins og skattanúmer og símanúmerasnið.
Annar er NER-könnun. Þetta nær yfir samhengisvíddar einingar eins og nöfn og heimilisföng.
Báðir hlutar eru háðir staðhætti.
Skipuleg kennitala er mismunandi eftir löndum
| Land | Skattanúmer | Snið | Villuleit |
|---|---|---|---|
| Þýskaland | Steuer-ID | 11 tölur | Modúló-11 |
| Frakkland | NIR | 15 tölur + 2-stafa lykill | INSEE |
| Svíþjóð | Personnummer | 10 tölur | Luhn |
| Pólland | PESEL | 11 tölur | Modúló-10 |
| Holland | BSN | 9 tölur | Elfproef |
| Spánn | DNI/NIE | 8 tölur + bókstafur | Modúló-23 |
| Ítalía | Codice Fiscale | 16 stafir | Sértæk villuprófun |
Enskt regex fyrir SSN (NNN-NN-NNNN) passar ekkert af þessum snið. Hvert þarf sitt eigið regex. Hvert þarf líka eigið villuleitarlag.
NER þarf innfædd líkön
Þýsk nöfn eru ólík enskum. "Hans-Dieter Müller" er ljóst fyrir innfætt þýskt líkan. Enskt þjálfað líkan missir oft af slíkum nöfnum.
Falskar jákvæðar eru líka vandamál. Microsoft Presidio málaumræðuspjallborðið sýnir þýsk orð sem eru rangflokkunð sem ensk PII. Orðið "Null" (þýskt fyrir "núll") er eitt dæmi. Það veldur fölskum nafnasmellum í enska-þjálfuðum líkönum. Í framleiðslunotkun þrúgna mistakstíðni upp í 3 fölskar jákvæðar á hverja raunverulega einingu (Alvaro et al., 2024).
Reglufylgniáhætta
Evrópskir gagnaverndaryfirvöld eru meðvitaðir um þetta vandamál. Nokkrir þjóðlegir DPA-aðilar hafa gefið út leiðbeiningar.
Þýski BfDI: GDPR 5. grein (1)(f) gildir um allar skrár. Hún nær yfir ekki-enskur gögn unnið af þriðja-aðila verkfærum.
Franska CNIL: CNIL-ársskýrsla 2024 vakti áhyggjur. Hún merkti AI-verkfæri sem meðhöndla franskar skrár án franskra staðhættis PII-skannunar.
ESB DPA-aðilar almennt: GDPR 25. grein (Persónuvernd í hönnun) krefst verndar sem hentar raunverulegum skrám sem eru unnar. Þetta felur í sér ekki-enska PII í alþjóðlegum uppsetningum.
Áhættan er skýr. Fyrirtæki gæti sýnt 95% PII-greiningu á ensku innihaldi í GDPR-endurskoðun. En ef það meðhöndlar líka þýskar, franskar og pólskar skrár með sama verkfæri munu bil koma í ljós. Endurskoðendur taka eftir. Sektir geta fylgt. Sjá öryggissíðu okkar til að sjá hvernig við tökum á þessu.
Þriggja þrapa hönnun
Rannsóknir og framleiðslunotkun eru sammála um þriggja þrapa blandaða hönnun sem bestu nálgunina.
Þrep 1: Innfæd spaCy-líkön
spaCy veitir þjálfuð líkön fyrir 25 staðhætti. Þetta felur í sér þýsku, frönsku, spænskur, portúgalsku, ítölsku, hollensku, rússnesku, kínversku, japönsku, kóresku og pólsku. Hvert líkan þjálfar á innfæðum texta. Þeir læra setningafræði og einingamynstrin í hverjum staðhætti. Þetta skiptir máli. Innfæð þjálfun þýðir betri heimt og færri fölskar jákvæðar.
Fyrir þýsku: de_core_news_lg meðhöndlar samsett nafnorð og þýsk nafnamynstrin.
Fyrir frönsku: fr_core_news_lg meðhöndlar franskar einingar, titla, staðanöfn og stofnanir.
Innfæð líkön slá krosslíkön fyrir nafnakönnun á auðlindaríkum staðhættum.
Þrep 2: Stanza fyrir fleiri staðhætti
Stanza-safn Stanford nær yfir staðhætti sem eru ekki í spaCy. Þetta felur í sér króatísku, slóvenska og úkraínsku. Þetta bætir við umfangi fyrir ESB-talendahópa sem spaCy þjónar ekki. Stanza er ókeypis og opinn uppspretti. Hún samþættist vel með restina af stöflanum.
Þrep 3: XLM-RoBERTa fyrir breitt umfang
Fyrir staðhætti þar sem spaCy og Stanza skortir NER-líkön fyllir XLM-RoBERTa inn. Hún þjálfar á Common Crawl-texta yfir 100 staðhætti. Hún nær 91,4% krosslægu F1 fyrir PII-greiningu (HuggingFace 2024). Hún meðhöndlar kóðaskiptingu vel. Þetta er lykileiginleiki. Hann skiptir máli þegar eitt skjal inniheldur texta á nokkrum staðhættum í einu.
Heimsæktu táknkerfisdók til að sjá hvernig API-kannanir skala með fjöltyngdu magni.
Staðbundnar einingategundir
Líkön einu og sér duga ekki. GDPR-samræming krefst líka einingategundumsviðs fyrir sértækar landskennitölur.
ESB-þjóðlegar kennitölur eftir landi:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Símanúmerssnið: Hvert ESB-land hefur einkvæmar forskeytisbyggingar. +49, +33 og +48 þurfa hvort um sig eigin villuleitarlag.
Heimilisfangsnið: Póstnúmer eru mjög mismunandi. Þýsk PLZ notar 5 tölur. Frönskur kóðar nota 5 tölur (01-99 bil). Breskur póstnúmer eru stafatölur. Spænskur kóðar nota 5 tölur (01000-52999).
Raunverulegt tilvik: Svissneskur lyfjaframleiðandi
Svissneskur fyritæki vinnur ráðningarsamningum. Hver samningur blandar þýskum, frönskum og enskum texta. Sviss hefur fjögur opinber tungumál. Verkfæri þeirra var stillt eingöngu fyrir þýsku. Það misti af öllu frönskum PII.
Samningur fyrir Genf-starfsmann inniheilt franskt AVS-númer (13 tölur), svissneskur bankaTIBAN og nafn á frönskum sniði. Þýska-eingöngu verkfærið miste af frönskum sniðsheitinu. Það tókst ekki að finna frönskur AVS-númerið. Það greindi IBAN-ið aðeins að hluta.
Þriggja þrapa nálgunin vinnur allt skjalið. Hún greinir staðhætti á hverja textahluta. Hún beitir rétta NER-líkaninu á hvern hluta. Hún staðfestir hverja þjóðlega kennitölu með réttum landsskilgreiningunum.
Blandaðar staðhættisskjöl
Erfiðasta tilfellið er staðhættirblandun innan skjals. Dæmi:
- Enski samningur þýsks fyrirtækis með þýskum starfsmannafærslum (nöfn, skattanúmer)
- Frönsk GDPR-samþykktareyðublað með enskri persónuverndartilkynningu
- Spjall þar sem fulltrúinn svarar á ensku og viðskiptavinurinn skrifar á arabísku
XLM-RoBERTa meðhöndlar þetta innfæðilega. Hún þarf enga skýrar staðhættimerki. Hún vinnur blandaðar staðhættiartexta án fyrirframskiptingar. Þetta sparar tíma. Það forðast líka villur frá röngum skiptingum.
Fyrir framleiðslunotkun gefur það að sameina sjálfvirka staðhættigreiningu (á setningarstigi) með XLM-RoBERTa-ályktunum öfluga meðhöndlun á blandaðar staðhættisskjölum.
Hagnýt þrep
Endurskoðaðu umfang verkfærisins. Spurðu þurkkbirgjann um F1-skor fyrir þína sértæku staðhætti. "Styður 20 tungumál" þýðir oft að verkfærið beinar texta í gegnum vélþýðingu fyrst. Það er ekki innfæð könnun.
Kortaðu skrár þínar í staðhætti. Gerðu skráarúttekt sem inniheldur staðhættidreifingarnar. Alþjóðlegt fyrirtæki með 70% ensku, 20% þýsku og 10% frönsku stendur frammi fyrir mismunandi áhættu. Eitt með 95% ensku er í annarri stöðu.
Prófaðu með þjóðlegum auðkennissýnum. Smíðaðu prófasafn með 10 dæmum um þjóðlegar kennitölur í starfsemi þinni -- Steuer-ID, NIR, PESEL, BSN og aðrar. Staðfestu greiningartíðni. Þetta er hraðara en fullkominnar F1-prófun.
Farðu yfir DPIA-mat þitt. Athugaðu hvort staðhættisumsviðið sé innifalið. Ófullkomið DPIA sem gengur út frá eingöngu enskum skrám gæti þurft uppfærslu. Vertu frumkvöðull. Bíddu ekki eftir endurskoðun til að finna bilið.
Fyrir fulla skilgreiningu einingategunda, sjá einingaviðmiðun og FAQ. Fyrir áætlanir og API-kallstíðni, heimsæktu verðlag.
PII-greiningarvél anonym.legal notar þriggja þrapa fjöltyngda nálgun. Hún nær yfir 25 auðlindaríkar staðhætti í gegnum innfæð spaCy-líkön. Stanza bætir við aukatungustaðhættisumsviðinu. XLM-RoBERTa krosslingvistískar transformer-líkön víkka umfangið til 48 staðhætti. Sértækar einingategundir fyrir öll ESB-aðildarríki eru innifaldar.
Heimildir
- ACL 2024: Hybrid PII Detection for European Locales
- Scalable Multilingual PII Annotation Framework (arXiv 2025)
- HuggingFace XLM-RoBERTa Cross-Lingual NER Benchmarks
- Microsoft Presidio GitHub Issue #1071 -- German False Positives
- EDPB Guidelines on Article 25 Privacy by Design
- CNIL 2024 Annual Report