CNIL Franciaország: Az adatvédelmi hatóság PII-eszköz-követelményei

A francia CNIL az EU legszigorúbb adatvédelmi szerve. A legtöbb EU-s hatóság tág szabályokat alkot — a CNIL ennél továbblép. Pontosan meghatározott műszaki iránymutatásokat, úgynevezett recommandations-okat tesz közzé, amelyek az anonimizálásra és az AI adatfelhasználására vonatkozó konkrét szabványokat rögzítenek.

A CNIL 2024-es határozatai számos esetben hivatkoztak az AI-rendszerek gyenge anonimizálására. A hatóság 2023-ban 16 433 panaszt fogadott be — ez 43%-kal több, mint 2022-ben.

A CNIL iránymutatásai az EU-s politikát alakítják

A CNIL műszaki szövegeit más EU-s adatvédelmi hatóságok széles körben hivatkozzák. Két dokumentum kiemelkedő fontosságú.

Guide pratique de l'anonymisation (2023): Ez az útmutató a k-anonimitást, az l-diverzitást és a differenciális adatvédelmet tárgyalja, és bemutatja, hogyan alkalmazandók ezek a módszerek francia adatokon. A svéd IMY és más EU-s hatóságok saját szabályaikban hivatkoznak rá.

AI-rendszerek iránymutatása (2024): A CNIL hat adattípust nevez meg, amelyeket az AI-képzés előtt kezelni kell. Egyetlen más EU-s adatvédelmi hatóság sem ment ilyen messzire az AI szabályozásában.

Cookie-szabályok: A CNIL cookie-iránymutatása az EU-ban a legmagasabb technikai elvárást támasztja a hozzájárulási eszközökkel szemben, és rendszeresen frissítik.

A NIR: Franciaország legszenzibb azonosítója

A Numéro d'Inscription au Répertoire (NIR) — közismert nevén numéro de sécurité sociale — egy 15 jegyű francia társadalombiztosítási szám.

Formátuma: S AA MM DD CCC OOO K

S — 1 számjegy: nem
AA — születési év
MM — születési hónap
DD — születési megye (01–95, Korzika esetén 2A/2B, tengerentúli területek 97–99, külföld 99)
CCC — településkód
OOO — születési sorrend
K — 2 jegyű ellenőrző kulcs (97 − (NIR mod 97))

A NIR egyetlen számban tartalmazza a nemet, a születési dátumot és a születési helyet. A CNIL magas kockázatúnak minősíti; ugyanolyan gondossággal kell kezelni, mint a GDPR 9. cikke szerinti különleges kategóriájú adatokat.

Miért marad észrevétlen a generikus eszközök számára: A generikus NLP-eszközök három okból tévesztik el a NIR-t. Először: a 15 jegyű szám (amelyet gyakran szóközök nélkül írnak) más hosszú számsorokra hasonlít. Másodszor: a 7–11. jegy a megye kódját tartalmazza; a mod-97 ellenőrzést kihagyó eszközök téves találatokat engednek át. Harmadszor: a korzikai megyék 2A és 2B kódot használnak tiszta számjegyek helyett, így a csak numerikus mintákat kereső eszközök hibáznak.

A megbízható NIR-felismerés három dolgot igényel: mod-97 kulcsellenőrzést, geográfiai kódkönyvet és Korzika-kompatibilis szabályokat.

Az azonosítók GDPR-védelmi keretbe illesztéséről a biztonsági megfelelőségi áttekintőnkben olvashat.

SIREN és SIRET: Vállalati azonosítók személyes aktákban

SIREN: Luhn ellenőrző számjeggyel ellátott, 9 jegyű francia vállalati azonosító. Minden francia kereskedelmi dokumentumban megjelenik.

SIRET: 14 jegyű szám, amely a SIREN-ből (9 jegy) és egy telephelykódból (5 jegy) áll. A SIRET egy telephely, a SIREN a vállalat azonosítója.

Az üzleti akták gyakran tartalmaznak SIRET-számot a dolgozók neve mellett. A CNIL a SIRET és a névmező kombinációját személyes adatnak minősíti — ez a párosítás külön személyes adatmező nélkül is aktiválja a GDPR szabályait.

Hat anonimizálási lépés az AI-képzéshez

A CNIL 2024-es AI-iránymutatása hat adattípust fed le. Mindegyiket kezelni kell, mielőtt francia személyes adatokat AI-képzéshez használnának:

Közvetlen azonosítók eltávolítása — A neveket, NIR-t és SIREN-t ki kell cserélni vagy törölni kell
Kvázi-azonosítók általánosítása — Az életkor, a megye és a foglalkozás kombinálva lehetővé teszi a visszaazonosítást; pontosságukat csökkenteni kell
Számokhoz zaj hozzáadása — A numerikus mezőkhöz kalibrált zajt kell adni a következtetések megakadályozásához
K-anonimitás ellenőrzése — Minden személynek legalább k-1 máshoz kell hasonlítania; a CNIL k ≥ 5 értéket javasol
L-diverzitás ellenőrzése — Az érzékeny attribútumoknak változatosnak kell lenniük az egyes csoportokon belül
Visszaazonosítási kockázat vizsgálata — Dokumentált módszert kell alkalmazni az adatok nyilvánosságra hozatala előtt

A NIR és a teljes névmező eltávolítása önmagában nem elegendő — ezt a CNIL végrehajtási eljárások is bizonyítják. A kvázi-azonosítókat, mint az irányítószám és az orvosi szakterület, szintén kezelni kell.

A GDPR megfelelőségi útmutatónkban megtalálja, milyen dokumentációt várnak el a francia adatvédelmi hatósági auditok.

Nyelvi kontextus a francia PII-felismeréshez

Franciaország több olyan nyelvi kontextussal rendelkezik, amelyek hatással vannak a felismerésre.

A standard francia az összes hivatalos dokumentum nyelve. A NER-modelleknek kezelniük kell az ékezetes betűket: é, è, ê, ë, à, â, î, ô, û, ç, œ.

Tengerentúli területek (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane és Mayotte 97–98-as tartományú NIR-kódokat használ. A helyi névformák eltérnek az anyaországi Franciaországtól.

Elzász-Mosel: Német eredetű nevek és néhány német dokumentumformátum jelenik meg a francia nyilvántartásokban. A kizárólag standard franciára betanított modellek ezeket könnyen elmulasztják.

Határokon átnyúló felhasználás: A belga francia más azonosítóformátumot alkalmaz. A Franciaországban és Belgiumban is használt eszközöknek mindkét országra vonatkozó szabályokat kell tartalmazniuk.

Mit kell fednie az eszköznek

A francia megfelelőséghez négy műszaki képesség szükséges:

NIR mod-97 ellenőrzéssel — A mintaillesztés önmagában nem elegendő; az eszközöknek futtatniuk kell a kulcsellenőrzést, és kezelniük kell a 2A/2B kódokat.
SIREN/SIRET Luhn ellenőrzéssel — A vállalati azonosítók megjelennek a személyes aktákban, és GDPR-hatálya alá eső névazonosító kombinációkat hoznak létre.
Francia NER teljes ékezettámogatással — Kezelnie kell az összetett neveket (Jean-Pierre), a névpartikulákat (de, du, des) és az ékezetes karaktereket.
Dokumentált hat lépéses folyamat — Minden francia személyes adatokat tartalmazó AI-képzési folyamathoz írásos nyilvántartást kell készíteni az egyes anonimizálási lépésekről.

Források

Limitations / When this doesn't apply

The NIR format and French text need configuration plus held-out testing. The mod-97 key check, the geographic codebook for departments, and Corsica's 2A/2B codes only work once configured against real documents; overseas codes in the 97–98 range, Alsace-Moselle's German-origin names, and Belgian French ID formats each shift the patterns, and accented characters and particles like de, du, des trip generic tokenizers. Validate against a held-out sample of your own French records.

Quasi-identifiers re-identify even after the NIR is gone. CNIL has held in enforcement that removing the NIR and full name is not enough — department plus age plus medical specialty can re-identify in combination, leaving output pseudonymized and in scope. This is why CNIL's six steps add k-anonymity (k≥5), l-diversity, and a documented re-identification risk check.

The tool supports compliance; it does not constitute it. CNIL audits the DPIA, the legal basis for AI training, and the written record for each anonymization activity, not a single detector's hit rate. This is educational guidance on CNIL's evolving recommandations, not legal advice or a substitute for counsel.

Kapcsolódó Cikkek

GDPR & Megfelelés

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

Ingyenes Próbát Kezd Funkciók Megtekintése

CNIL Franciaország: Az adatvédelmi hatóság PII-eszköz-követelményei