ANSPDCP Rumunsko: Detekce CNP a kontroly GDPR
Aktualizováno pro rok 2026
Rumunský úřad pro ochranu dat je ANSPDCP. Jeho hodnocení z roku 2024 zjistilo, že 78 % nástrojů PII správně nedetekuje Cod Numeric Personal (CNP). Většina přeskakuje krok kontrolního součtu. Tato mezera představuje reálné riziko souladu. Rumunsko zpracovává data EU pro mnoho západních klientů. Expozice je rozsáhlá.
Nejdatově bohatší národní ID Rumunska
CNP je 13místný národní identifikátor. Každá skupina číslic nese osobní údaje:
- Číslice 1: Kód pohlaví a století. Muž narozený 1900–1999 = 1. Žena narozená 1900–1999 = 2. Muž narozený od roku 2000 = 5. Žena narozená od roku 2000 = 6. Zahraniční rezident-muž = 7. Zahraniční rezidentka = 8. Ostatní rezidenti = 9.
- Číslice 2–3: Poslední dvě číslice roku narození.
- Číslice 4–5: Měsíc narození (01–12).
- Číslice 6–7: Den narození (01–31).
- Číslice 8–9: Kód kraje. Zahrnuje 41 krajů a šest sektorů Bukurešti (kódy 01–52).
- Číslice 10–12: Pořadí v rámci daného dne a kraje.
- Číslice 13: Kontrolní číslice.
Samotná číslice 1 odhaluje biologické pohlaví. Podle článku 9 GDPR z toho plyne, že toto číslo je položkou zvláštní kategorie údajů. Vyžaduje silnější ochranu než běžné osobní údaje.
Jak funguje kontrolní číslice: Vezměte prvních 12 číslic. Každou vynásobte příslušnou vahou (2, 7, 9, 1, 4, 6, 3, 5, 8, 2, 7, 9). Výsledky sečtěte. Vydělte 11 a vezměte zbytek. Zbytek 10 dává kontrolní číslici 1. Zbytek 11 znamená, že kód není platný. Jakýkoli jiný zbytek je kontrolní číslice.
Nástroje, které tento test přeskočí, selhávají dvěma způsoby. Za prvé, jako shoda se označí jakýkoli 13místný řetězec (falešně pozitivní výsledky). Za druhé, poškozené číslo projde kontrolou vzoru, ale obsahuje špatná data. Tato data potřebují přezkum a jsou přehlédnuta (falešně negativní výsledky).
Problémy NER v dokumentech v rumunském jazyce
Nalezení identifikátorů je jen část práce. Rumunský text přidává další překážky detekce.
Diakritika: Rumunština používá ș, ț, ă, â a î. Nástroje trénované na jiných jazycích často přehlíží jména s těmito písmeny. Staré dokumenty v kódování Latin-2 přidávají další selhání.
Formáty adres: Typy ulic používají zkrácené formy — Str., Bd., Al., Cal. Názvy měst a obcí se řídí místními pravidly. Analyzátory vytvořené pro francouzské nebo německé adresy si zde vedou slabě.
Skloňování jmen: Jména se v rumunštině mění podle gramatického pádu. Stejná osoba má v různých částech věty jinak vypadající jméno. Modely NER musejí toto zvládat, aby propojovaly jména napříč dokumentem.
Viz náš průvodce detekcí PII v regionu APAC, jak jazykové mezery ovlivňují detekci v nezápadních písmech.
Jak se vyvíjejí případy ANSPDCP
Případy ANSPDCP vykazují tři vzory.
Případy porušení u BPO firem: Sdílené soubory obsahují identifikační čísla zaměstnanců a data zákazníků EU bez šifrování. Slabé protokoly znamenají, že firma nedokáže říct, ke kterým záznamům byl přistupováno. To prodlužuje vyšetřování a zvyšuje pokutu.
Expozice ve zdravotnictví: Soubory pacientů — národní ID, číslo zdravotní karty a diagnóza — se dostanou k nesprávné osobě. Nástroj PII tento formát nepodporoval. Data odešla bez maskování.
Selhání přeshraničních přenosů: Firma zajišťující outsourcing posílá záznamy spojené s identifikátory třetí straně mimo EHP. Žádné posouzení dopadu přenosu. Žádné standardní smluvní doložky. Charakter článku 9 u dotčených dat mění rutinní mezeru v závažnější porušení.
Tři kontroly pro soulad s ANSPDCP
Tato trojice tvoří minimální technický základ:
- Detekce CNP s validací modulo-11 — samotná shoda vzoru nestačí.
- NER s podporou diakritiky — pokrytí ș, ț, ă, â a î ve zdrojích UTF-8 i Latin-2.
- Detekce průkazu totožnosti — občanský průkaz se vyskytuje vedle CNP v mnoha typech dokumentů.
Pro širší pohled na to, jak národní ID zakládají riziko GDPR, viz náš průvodce detekcí daňových ID v EU.