Jazykový problém GDPR
GDPR chrání osobní data všech osob v EU – bez ohledu na jazyk, ve kterém jsou jejich data uchována. Ale mnoho PII anonymizačních nástrojů podporuje pouze angličtinu nebo hrstku hlavních evropských jazyků.
To vytváří nebezpečné mezery v souladu.
Reálné scénáře vícejazyčného PII
Scénář 1: Zákaznická podpora SaaS
Německý zákazník kontaktuje podporu v němčině. Ticketing systém ukládá e-mail, jméno a popis problému v němčině. Vaše PII detekce fungující pouze v angličtině přehlédne:
- Německá osobní jména (Müller, Schäfer, Köhler)
- Německé adresy (Hauptstraße, Musterstadt)
- Německá telefonní čísla (+49 format)
Scénář 2: Interní HR pro mezinárodní tým
HR tým ve Varšavě zaznamenává schůzky zaměstnanců v polštině. Systém HR obsahuje polská jména, rodná čísla PESEL (národní ID) a adresy. Anglicky zaměřená PII detekce přehlédne vše.
Scénář 3: Právní dokumenty
Italská advokátní kancelář zpracovává smlouvy v italštině a španělštině. Codice fiscale (italské národní ID) a DNI (španělské ID) jsou právní závazky PII.
Jazyky GDPR a pokrytí PII
EU má 24 úředních jazyků, ale GDPR ochrana se vztahuje na mnohem více prostřednictvím rezidentů EU hovořících rodilými jazyky.
Pokrytí anonym.legal: 48 jazyků
Unijní jazyky (24): Bulharština, chorvatština, čeština, dánština, nizozemština, angličtina, estonština, finština, francouzština, němčina, řečtina, maďarština, irština, italština, lotyština, litevština, maltština, polština, portugalština, rumunština, slovenština, slovinština, španělština, švédština
Dodatečné jazyky pro EU trhy (24): Arabština, bengálština, katalánština, čínština (zjednodušená/tradicionální), faerština, hindština, islandština, japonština, korejština, norština, perština, ruština, srbština, svahilština, thajština, turečtina, ukrajinština, urdština, vietnamština
Proč na non-EU jazycích záleží
Arabsky mluvící EU rezidenti: 4+ miliony arabsky mluvících v Německu, Francii, Nizozemsku Turečtina: 5+ milionů tureckých rezidentů v EU Ruština: Baltské státy mají rusky mluvící menšiny s právy EU
Výzvy pro konkrétní jazyk
Česká republika – Rodné číslo
Český národní identifikátor (rodné číslo) má specifický formát: YYMMDD/XXXX.
Regex detekce: \d{2}[0156]\d[0-3]\d\/\d{3,4}
Komplikace pro ženy: měsíc je zvýšen o 50 (01→51, 02→52 atd.)
Slovensko – Rodné číslo
Identické formátu k českému rodné číslo (sdílí historii z Československa).
Polsko – PESEL
11-číselné národní ID s kontrolní číslicí: \d{11}
PESEL kóduje datum narození, pohlaví a kontrolní číslici – vyžaduje algoritmické ověřování.
Německo – Steuer-ID
11-číselné daňové ID: \d{11} (ne začínající 0)
Odlišné od Steuernummer (daňové číslo), které má regionální formáty.
Vícejazyčné testovací výsledky
Testováno na 1 000 dokumentech v každém jazyce (EU jazyky):
| Jazyk | Přesnost osobního jména | Přesnost ID | Přesnost telefonního čísla |
|---|---|---|---|
| Čeština | 96,2 % | 98,1 % | 99,3 % |
| Polština | 95,4 % | 97,8 % | 99,1 % |
| Němčina | 97,1 % | 97,4 % | 99,5 % |
| Francouzština | 96,8 % | 96,9 % | 99,2 % |
| Španělština | 97,3 % | 97,2 % | 99,4 % |
| Italština | 96,5 % | 97,6 % | 99,3 % |
| Rumunština | 94,2 % | 96,8 % | 98,7 % |
| Maďarština | 93,8 % | 97,1 % | 98,9 % |
Implementace vícejazyčné ochrany
API přístup
import requests
response = requests.post(
"https://anonym.legal/api/anonymize",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={
"text": "Jan Novák, narozen 1990, bydliště Praha 1, telefon +420 123 456 789",
"language": "cs",
"entities": ["PERSON", "DATE_TIME", "LOCATION", "PHONE_NUMBER"]
}
)
Automatická detekce jazyka
Pro smíšený vícejazyčný obsah:
response = requests.post(
"https://anonym.legal/api/anonymize",
json={
"text": "...",
"language": "auto", # Automatická detekce jazyka
"entities": ["all"]
}
)
Dávkové zpracování
Pro velké objemy vícejazyčných dokumentů použijte API dávkového zpracování s explicitními kódy jazyka pro optimální přesnost.
Soulad s GDPR pro vícejazyčná data
Klíčové principy
-
Aplikace nezávislá na jazyce: GDPR se vztahuje na osobní data v jakémkoli jazyce. Vaše ochrany musí být srovnatelné.
-
Pokrytí lokálních identifikátorů: Každá členská oblast EU má specifická ID (rodná čísla, daňová ID, zdravotní ID). Vaše detekce musí je znát.
-
Dokumentace shody: Pro každý jazyk v vašem zpracování dokumentujte:
- Typy PII vyskytující se v tomto jazyce
- Metody použité k jejich detekci
- Přesnostní metriky
Závěr
Vícejazyčná mezera v detekci PII je reálnou regulační expozicí. Pokud vaše organizace zpracovává data v jakémkoli jazyce ale vaše PII detekce funguje pouze v angličtině, neplníte GDPR soulad.
anonym.legal pokrývá 48 jazyků se nativními jazykovými modely – ne pouze překladem textů do angličtiny před analýzou.