Maďarský Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) vydal nejpodrobnější pokyny pro požadavky na ochranu dat systémů AI ze všech středoevropských DPA. V roce 2024 vydal NAIH 34 rozhodnutí o vymáhání — nárůst z 19 v roce 2022 — přičemž systémy AI tvoří rostoucí procento vyšetřování.
NAIH požadavek DPIA pro systémy AI
NAIH vydal pokyny specifikující, že DPIA (Posouzení dopadu na ochranu dat) jsou povinné pro:
- Jakýkoli systém AI zpracovávající osobní data na vysoké škále (není definována konkrétní prahová hodnota)
- Systémy AI využívající profilování nebo automatizované rozhodování
- Systémy AI v sektorech regulovaných pro citlivé kategorie dat (zdravotnictví, vzdělávání, trestní justice)
- Systémy AI zpracovávající biometrická data
NAIH požadavek jde nad rámec standardního GDPR Článek 35 DPIA — specifikuje, že DPIA pro systémy AI musí zahrnovat:
- Posouzení přesnosti modelu pro každou demografickou skupinu v datové sadě
- Posouzení spravedlnosti a diskriminačního potenciálu
- Technická dokumentace architektury modelu a trénovacích dat
- Posouzení šífrování trénovacích dat a dat inference
Maďarské národní identifikátory: TAJ-szám a adóazonosítójel
TAJ-szám (Társadalombiztosítási Azonosító Jel): 9místné číslo sociálního pojištění s váženou kontrolní číslicí (Luhn algoritmus). TAJ-szám se vyskytuje ve všech maďarských zdravotních dokumentech, zaměstnaneckých formulářích a vládních službách.
TAJ-szám je specificky citlivý v kontextu NAIH: NAIH vydal pokyny, že kombinace TAJ-szám + jméno + adresa tvoří zmenšenou kategorii dat vyžadující ekvivalentní zpracování jako zvláštní kategorie dat pro systémy AI.
Adóazonosítójel (Daňové identifikační číslo): 10místné daňové číslo, kde první číslice (8) je fixní prefix, číslice 2-9 kódují datum narození a číslice 10 je kontrolní číslice. Adóazonosítójel se vyskytuje ve všech zaměstnaneckých dokumentech a finančních transakcích.
Problém NER přesnosti pro maďarštinu:
NAIH technická posouzení v roce 2024 zjistila, že průměrná přesnost NER pro maďarské texty je 67 % u obecných nástrojů — výrazně pod průměrem EU 82 %. Primární důvody:
- Maďarská agglutinativní morfologie: jedno slovo může mít desítky variant skloňování, z nichž každá detekce NER musí být schopna identifikovat
- Zcela odlišné pořadí slov od germánských nebo románských jazyků — modely trénované primárně na angličtině nebo němčině mají nízkou přesnost
- Maďarská jmenná konvence: příjmení předchází křestní jméno (například Kovács János, nikoli János Kovács) — způsobuje vysoké míry nepřítomnosti u modelů trénovaných na jmenné konvenci ve stylu angličtiny
Implementační požadavky pro systémy AI v Maďarsku
Pro organizace nasazující systémy AI zpracovávající maďarská osobní data:
- TAJ-szám detekce: 9místný formát s váženou validací kontrolní číslice
- Adóazonosítójel detekce: 10místný formát s fixním prefixem 8, kódováním data narození a validací kontrolní číslice
- Maďarská NER: spaCy hu_core_news nebo ekvivalentní s pokrytím agglutinativní morfologie
- Dokumentace DPIA: Systémy AI zpracovávající maďarská data musí dokumentovat přesnost modelu pro maďarské texty specifikicky — obecné přesnostní metriky jsou pro NAIH nedostatečné
Zdroje: