Franciaország Commission Nationale de l'Informatique et des Libertés (CNIL) az EU legtechnikailag igényesebb adatvédelmi hatósága. Míg más DPA-k elsősorban az eljárási megfelelőségre összpontosítanak, a CNIL részletes technikai útmutatókat — "recommandations" — tesz közzé, amelyek meghatározott algoritmikus szabványokat állítanak fel a névtelenítéshez, álnevesítéshez és az AI adatirányításhoz. A CNIL 2024-es formális értesítéseinek 63%-a nem megfelelő névtelenítést hivatkozott az AI rendszerekben.
A CNIL Technikai Befolyása Franciaországon Túl
A CNIL technikai útmutatóit más EU-beli DPA-k is rendszeresen idézik:
Guide pratique de l'anonymisation (2023): A CNIL gyakorlati névtelenítési útmutatója a k-anonimitást, l-diverzitást, differenciális adatvédelmet és ezek praktikus alkalmazását lefedi a francia adatkészletekre. 12+ EU-beli DPA hivatkozik erre az útmutatóra saját végrehajtási iránymutatásaikban (beleértve az IMY Svédországot, amely részben a CNIL módszertanán alapuló saját verziót készített).
AI rendszerek útmutatója (2024): A CNIL AI irányítási útmutatója 6 kötelező névtelenítési kategóriát tartalmaz az AI képzési adatokhoz — az EU legtechnikaibb DPA útmutatója ebben a témában.
Cookie technikai követelmények: A CNIL cookie végrehajtási útmutatója (rendszeresen frissítve) meghatározott technikai megvalósítást ír elő a beleegyezéskezelési platformokhoz — az EU legtechnikaibb DPA útmutatója a beleegyezési technológiáról.
A NIR: Franciaország Legsensitívabb Azonosítója
A Numéro d'Inscription au Répertoire (NIR) — más nevén numéro de sécurité sociale — egy 15 jegyű francia társadalombiztosítási szám a következő formátumban:
S AAHH NNKKKOOOO K
Ahol:
- S = 1 számjegy: nem (1=férfi, 2=nő)
- AA = 2 számjegy: születési év
- HH = 2 számjegy: születési hónap
- NN = 2 számjegy: születési megye (01-95, 2A/2B Korzikára, 97-99 tengerentúli területekre, 99 külföldi születésre)
- KKK = 3 számjegy: közigazgatási egység kódja a megyén belül
- OOO = 3 számjegy: születési sorszám
- K = 2 számjegy: ellenőrző kulcs (97 - (NIR mod 97))
A NIR kódolja a nemet, születési dátumot, születési helyet és születési sorrendet — így az EU egyik leginformatívabb nemzeti azonosítója. A CNIL a NIR-t különleges kategóriájú adatokkal egyenértékű fokozott védelmet igénylő adatnak minősíti.
Észlelési kihívás: A generikus NLP-eszközök a CNIL 2024-es elemzése szerint a dokumentumok 78%-ában kihagyják a NIR-t. A tipikus hibák:
- A NIR 15 jegyű struktúrája (sok dokumentumban elválasztók nélkül) összekeveredik más hosszú számsorozatokkal
- A megye/közigazgatási egység kódolása (7-11. számjegy) földrajzi ismereteket igényel az érvényesítéshez — az eszközök, amelyek nem valósítják meg a mod-97 kulcsszámítást, nem különböztethetik meg az érvényes NIR számokat a hamis pozitívoktól
- A Korzikai megyék (2A/2B — betűk, nem számjegyek) törnek azokat a mintaillesztő eszközöket, amelyek csak numerikus karaktereket várnak
SIREN/SIRET: Üzleti Azonosítók a Francia Dokumentumokban
SIREN szám: 9 jegyű francia cégazonosítási szám Luhn-ellenőrző jeggyel. Megjelenik minden francia kereskedelmi dokumentumban.
SIRET szám: A SIREN 14 jegyű kiterjesztése (9 jegyű SIREN + 5 jegyű telephely-szám). A SIRET egyedileg azonosít egy meghatározott üzleti telephelyet, míg a SIREN a vállalati entitást azonosítja.
Az üzleti dokumentumok gyakran tartalmaznak SIRET számokat a vállalati képviselők személyes adataival együtt — a CNIL végrehajtási útmutatása a SIRET + egyéni név kombinációját azonosítható információt létrehozónak tekinti, ami GDPR kötelezettségeket vált ki.
A CNIL AI Névtelenítési Követelményei
A CNIL 2024-es AI útmutatója 6 meghatározott névtelenítési kategóriát ír elő a francia személyes adatokat tartalmazó AI képzési adatokhoz:
- Azonosítók eltávolítása: Az explicit azonosítókat (nevet, NIR-t, SIREN-t) pszeudonymokkal kell helyettesíteni vagy eltávolítani
- Kváziazonosítók általánosítása: A kombinált újraazonosítást lehetővé tevő attribútumokat (kor, megye, foglalkozás) általánosítani kell a specifikusság csökkentése érdekében
- Zajhozzáadás: A numerikus attribútumokhoz kalibrált zajt kell hozzáadni az inferencia megakadályozásához
- k-anonimitás ellenőrzése: Az adatkészletben minden egyénnek legalább k-1 másikkal felcserélhetőnek kell lennie (a CNIL k≥5-t ajánl)
- l-diverzitás ellenőrzése: Az érzékeny attribútumok értékeinek megfelelő diverzitással kell rendelkezniük minden ekvivalencia-osztályon belül
- Újraazonosítási kockázat felmérése: A közzététel előtt az adatkészleteknek dokumentált módszertannal újraazonosítási kockázatértékelésen kell átesniük
A CNIL kifejezetten megállapította, hogy a NIR és a teljes név egyszerű eltávolítása egy adatkészletből nem elegendő névtelenítés. A további kváziazonosítókat (kor, irányítószám, foglalkozás, orvosi szakma) is kezelni kell.
Kétnyelvű Francia/Regionális Nyelv Kontextus
Franciaországnak összetett nyelvi helyzete van a PII-észlelés szempontjából:
Kontinentális francia: Szabványos franciaként Franciaországban — minden hivatalos dokumentum elsődleges nyelve.
DOM-TOM azonosítók: A tengerentúli területek (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) saját adminisztratív kódokkal rendelkeznek a NIR számokban (97, 98 előtag a tengerentúli megyéknél) és helyi névkonvenciókkal.
Elzászi kontextus: Az Elzász-Moselle régiónak történelmi német adminisztratív hagyományai vannak — német eredetű nevek és bizonyos német adminisztratív dokumentumformátumok jelennek meg a francia adminisztratív nyilvántartásokban.
Belga francia: A Franciaországban és Belgiumban egyaránt működő szervezetek számára a francia és belga azonosítóformátumok eltérnek (NIR vs. belga nemzeti nyilvántartási szám), és a belga franciában némileg eltérő névkonvenciók vannak.
A francia megfelelőséghez szükséges: NIR-észlelés mod-97 kulcsérvényesítéssel, SIREN/SIRET-észlelés Luhn-érvényesítéssel, francia NER ékezetes karakterek támogatásával (é, è, ê, ë, à, â, î, ô, û, ç, œ), és a CNIL 6 kategóriás keretrendszerének megfelelő dokumentált névtelenítés az AI képzési adatokhoz.
Források: