Zpět na blogGDPR a shoda

Vícejazyčná detekce PII pro soulad s GDPR: Průvodce 2025

GDPR se vztahuje na data subjektů EU bez ohledu na jazyk. Zjistěte, jak detekovat PII v 48 jazycích pro plný soulad s GDPR.

March 3, 202610 min čtení
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Jazykový problém GDPR

GDPR chrání osobní data všech osob v EU – bez ohledu na jazyk, ve kterém jsou jejich data uchována. Ale mnoho PII anonymizačních nástrojů podporuje pouze angličtinu nebo hrstku hlavních evropských jazyků.

To vytváří nebezpečné mezery v souladu.

Reálné scénáře vícejazyčného PII

Scénář 1: Zákaznická podpora SaaS

Německý zákazník kontaktuje podporu v němčině. Ticketing systém ukládá e-mail, jméno a popis problému v němčině. Vaše PII detekce fungující pouze v angličtině přehlédne:

  • Německá osobní jména (Müller, Schäfer, Köhler)
  • Německé adresy (Hauptstraße, Musterstadt)
  • Německá telefonní čísla (+49 format)

Scénář 2: Interní HR pro mezinárodní tým

HR tým ve Varšavě zaznamenává schůzky zaměstnanců v polštině. Systém HR obsahuje polská jména, rodná čísla PESEL (národní ID) a adresy. Anglicky zaměřená PII detekce přehlédne vše.

Scénář 3: Právní dokumenty

Italská advokátní kancelář zpracovává smlouvy v italštině a španělštině. Codice fiscale (italské národní ID) a DNI (španělské ID) jsou právní závazky PII.

Jazyky GDPR a pokrytí PII

EU má 24 úředních jazyků, ale GDPR ochrana se vztahuje na mnohem více prostřednictvím rezidentů EU hovořících rodilými jazyky.

Pokrytí anonym.legal: 48 jazyků

Unijní jazyky (24): Bulharština, chorvatština, čeština, dánština, nizozemština, angličtina, estonština, finština, francouzština, němčina, řečtina, maďarština, irština, italština, lotyština, litevština, maltština, polština, portugalština, rumunština, slovenština, slovinština, španělština, švédština

Dodatečné jazyky pro EU trhy (24): Arabština, bengálština, katalánština, čínština (zjednodušená/tradicionální), faerština, hindština, islandština, japonština, korejština, norština, perština, ruština, srbština, svahilština, thajština, turečtina, ukrajinština, urdština, vietnamština

Proč na non-EU jazycích záleží

Arabsky mluvící EU rezidenti: 4+ miliony arabsky mluvících v Německu, Francii, Nizozemsku Turečtina: 5+ milionů tureckých rezidentů v EU Ruština: Baltské státy mají rusky mluvící menšiny s právy EU

Výzvy pro konkrétní jazyk

Česká republika – Rodné číslo

Český národní identifikátor (rodné číslo) má specifický formát: YYMMDD/XXXX.

Regex detekce: \d{2}[0156]\d[0-3]\d\/\d{3,4}

Komplikace pro ženy: měsíc je zvýšen o 50 (01→51, 02→52 atd.)

Slovensko – Rodné číslo

Identické formátu k českému rodné číslo (sdílí historii z Československa).

Polsko – PESEL

11-číselné národní ID s kontrolní číslicí: \d{11}

PESEL kóduje datum narození, pohlaví a kontrolní číslici – vyžaduje algoritmické ověřování.

Německo – Steuer-ID

11-číselné daňové ID: \d{11} (ne začínající 0)

Odlišné od Steuernummer (daňové číslo), které má regionální formáty.

Vícejazyčné testovací výsledky

Testováno na 1 000 dokumentech v každém jazyce (EU jazyky):

JazykPřesnost osobního jménaPřesnost IDPřesnost telefonního čísla
Čeština96,2 %98,1 %99,3 %
Polština95,4 %97,8 %99,1 %
Němčina97,1 %97,4 %99,5 %
Francouzština96,8 %96,9 %99,2 %
Španělština97,3 %97,2 %99,4 %
Italština96,5 %97,6 %99,3 %
Rumunština94,2 %96,8 %98,7 %
Maďarština93,8 %97,1 %98,9 %

Implementace vícejazyčné ochrany

API přístup

import requests

response = requests.post(
    "https://anonym.legal/api/anonymize",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "text": "Jan Novák, narozen 1990, bydliště Praha 1, telefon +420 123 456 789",
        "language": "cs",
        "entities": ["PERSON", "DATE_TIME", "LOCATION", "PHONE_NUMBER"]
    }
)

Automatická detekce jazyka

Pro smíšený vícejazyčný obsah:

response = requests.post(
    "https://anonym.legal/api/anonymize",
    json={
        "text": "...",
        "language": "auto",  # Automatická detekce jazyka
        "entities": ["all"]
    }
)

Dávkové zpracování

Pro velké objemy vícejazyčných dokumentů použijte API dávkového zpracování s explicitními kódy jazyka pro optimální přesnost.

Soulad s GDPR pro vícejazyčná data

Klíčové principy

  1. Aplikace nezávislá na jazyce: GDPR se vztahuje na osobní data v jakémkoli jazyce. Vaše ochrany musí být srovnatelné.

  2. Pokrytí lokálních identifikátorů: Každá členská oblast EU má specifická ID (rodná čísla, daňová ID, zdravotní ID). Vaše detekce musí je znát.

  3. Dokumentace shody: Pro každý jazyk v vašem zpracování dokumentujte:

    • Typy PII vyskytující se v tomto jazyce
    • Metody použité k jejich detekci
    • Přesnostní metriky

Závěr

Vícejazyčná mezera v detekci PII je reálnou regulační expozicí. Pokud vaše organizace zpracovává data v jakémkoli jazyce ale vaše PII detekce funguje pouze v angličtině, neplníte GDPR soulad.

anonym.legal pokrývá 48 jazyků se nativními jazykovými modely – ne pouze překladem textů do angličtiny před analýzou.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.