CNIL Franciaország: Az adatvédelmi hatóság PII-eszköz-követelményei
A francia CNIL az EU legszigorúbb adatvédelmi szerve. A legtöbb EU-s hatóság tág szabályokat alkot — a CNIL ennél továbblép. Pontosan meghatározott műszaki iránymutatásokat, úgynevezett recommandations-okat tesz közzé, amelyek az anonimizálásra és az AI adatfelhasználására vonatkozó konkrét szabványokat rögzítenek.
A CNIL 2024-es határozatai számos esetben hivatkoztak az AI-rendszerek gyenge anonimizálására. A hatóság 2023-ban 16 433 panaszt fogadott be — ez 43%-kal több, mint 2022-ben.
A CNIL iránymutatásai az EU-s politikát alakítják
A CNIL műszaki szövegeit más EU-s adatvédelmi hatóságok széles körben hivatkozzák. Két dokumentum kiemelkedő fontosságú.
Guide pratique de l'anonymisation (2023): Ez az útmutató a k-anonimitást, az l-diverzitást és a differenciális adatvédelmet tárgyalja, és bemutatja, hogyan alkalmazandók ezek a módszerek francia adatokon. A svéd IMY és más EU-s hatóságok saját szabályaikban hivatkoznak rá.
AI-rendszerek iránymutatása (2024): A CNIL hat adattípust nevez meg, amelyeket az AI-képzés előtt kezelni kell. Egyetlen más EU-s adatvédelmi hatóság sem ment ilyen messzire az AI szabályozásában.
Cookie-szabályok: A CNIL cookie-iránymutatása az EU-ban a legmagasabb technikai elvárást támasztja a hozzájárulási eszközökkel szemben, és rendszeresen frissítik.
A NIR: Franciaország legszenzibb azonosítója
A Numéro d'Inscription au Répertoire (NIR) — közismert nevén numéro de sécurité sociale — egy 15 jegyű francia társadalombiztosítási szám.
Formátuma: S AA MM DD CCC OOO K
- S — 1 számjegy: nem
- AA — születési év
- MM — születési hónap
- DD — születési megye (01–95, Korzika esetén 2A/2B, tengerentúli területek 97–99, külföld 99)
- CCC — településkód
- OOO — születési sorrend
- K — 2 jegyű ellenőrző kulcs (97 − (NIR mod 97))
A NIR egyetlen számban tartalmazza a nemet, a születési dátumot és a születési helyet. A CNIL magas kockázatúnak minősíti; ugyanolyan gondossággal kell kezelni, mint a GDPR 9. cikke szerinti különleges kategóriájú adatokat.
Miért marad észrevétlen a generikus eszközök számára: A generikus NLP-eszközök három okból tévesztik el a NIR-t. Először: a 15 jegyű szám (amelyet gyakran szóközök nélkül írnak) más hosszú számsorokra hasonlít. Másodszor: a 7–11. jegy a megye kódját tartalmazza; a mod-97 ellenőrzést kihagyó eszközök téves találatokat engednek át. Harmadszor: a korzikai megyék 2A és 2B kódot használnak tiszta számjegyek helyett, így a csak numerikus mintákat kereső eszközök hibáznak.
A megbízható NIR-felismerés három dolgot igényel: mod-97 kulcsellenőrzést, geográfiai kódkönyvet és Korzika-kompatibilis szabályokat.
Az azonosítók GDPR-védelmi keretbe illesztéséről a biztonsági megfelelőségi áttekintőnkben olvashat.
SIREN és SIRET: Vállalati azonosítók személyes aktákban
SIREN: Luhn ellenőrző számjeggyel ellátott, 9 jegyű francia vállalati azonosító. Minden francia kereskedelmi dokumentumban megjelenik.
SIRET: 14 jegyű szám, amely a SIREN-ből (9 jegy) és egy telephelykódból (5 jegy) áll. A SIRET egy telephely, a SIREN a vállalat azonosítója.
Az üzleti akták gyakran tartalmaznak SIRET-számot a dolgozók neve mellett. A CNIL a SIRET és a névmező kombinációját személyes adatnak minősíti — ez a párosítás külön személyes adatmező nélkül is aktiválja a GDPR szabályait.
Hat anonimizálási lépés az AI-képzéshez
A CNIL 2024-es AI-iránymutatása hat adattípust fed le. Mindegyiket kezelni kell, mielőtt francia személyes adatokat AI-képzéshez használnának:
- Közvetlen azonosítók eltávolítása — A neveket, NIR-t és SIREN-t ki kell cserélni vagy törölni kell
- Kvázi-azonosítók általánosítása — Az életkor, a megye és a foglalkozás kombinálva lehetővé teszi a visszaazonosítást; pontosságukat csökkenteni kell
- Számokhoz zaj hozzáadása — A numerikus mezőkhöz kalibrált zajt kell adni a következtetések megakadályozásához
- K-anonimitás ellenőrzése — Minden személynek legalább k-1 máshoz kell hasonlítania; a CNIL k ≥ 5 értéket javasol
- L-diverzitás ellenőrzése — Az érzékeny attribútumoknak változatosnak kell lenniük az egyes csoportokon belül
- Visszaazonosítási kockázat vizsgálata — Dokumentált módszert kell alkalmazni az adatok nyilvánosságra hozatala előtt
A NIR és a teljes névmező eltávolítása önmagában nem elegendő — ezt a CNIL végrehajtási eljárások is bizonyítják. A kvázi-azonosítókat, mint az irányítószám és az orvosi szakterület, szintén kezelni kell.
A GDPR megfelelőségi útmutatónkban megtalálja, milyen dokumentációt várnak el a francia adatvédelmi hatósági auditok.
Nyelvi kontextus a francia PII-felismeréshez
Franciaország több olyan nyelvi kontextussal rendelkezik, amelyek hatással vannak a felismerésre.
A standard francia az összes hivatalos dokumentum nyelve. A NER-modelleknek kezelniük kell az ékezetes betűket: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Tengerentúli területek (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane és Mayotte 97–98-as tartományú NIR-kódokat használ. A helyi névformák eltérnek az anyaországi Franciaországtól.
Elzász-Mosel: Német eredetű nevek és néhány német dokumentumformátum jelenik meg a francia nyilvántartásokban. A kizárólag standard franciára betanított modellek ezeket könnyen elmulasztják.
Határokon átnyúló felhasználás: A belga francia más azonosítóformátumot alkalmaz. A Franciaországban és Belgiumban is használt eszközöknek mindkét országra vonatkozó szabályokat kell tartalmazniuk.
Mit kell fednie az eszköznek
A francia megfelelőséghez négy műszaki képesség szükséges:
- NIR mod-97 ellenőrzéssel — A mintaillesztés önmagában nem elegendő; az eszközöknek futtatniuk kell a kulcsellenőrzést, és kezelniük kell a 2A/2B kódokat.
- SIREN/SIRET Luhn ellenőrzéssel — A vállalati azonosítók megjelennek a személyes aktákban, és GDPR-hatálya alá eső névazonosító kombinációkat hoznak létre.
- Francia NER teljes ékezettámogatással — Kezelnie kell az összetett neveket (Jean-Pierre), a névpartikulákat (de, du, des) és az ékezetes karaktereket.
- Dokumentált hat lépéses folyamat — Minden francia személyes adatokat tartalmazó AI-képzési folyamathoz írásos nyilvántartást kell készíteni az egyes anonimizálási lépésekről.