Die Commission Nationale de l'Informatique et des Libertés (CNIL) ist die technisch anspruchsvollste Datenschutzbehörde der EU. Während andere Datenschutzbehörden hauptsächlich auf die prozedurale Einhaltung fokussiert sind, veröffentlicht die CNIL detaillierte technische Leitlinien — "recommandations" — die spezifische algorithmische Standards für Anonymisierung, Pseudonymisierung und KI-Datenverwaltung festlegen. 63% der formalen Benachrichtigungen der CNIL im Jahr 2024 erwähnten unzureichende Anonymisierung in KI-Systemen.
Technischer Einfluss der CNIL über Frankreich hinaus
Die technischen Leitlinien der CNIL werden regelmäßig von anderen EU-Datenschutzbehörden zitiert:
Praktischer Leitfaden zur Anonymisierung (2023): Der praktische Anonymisierungsleitfaden der CNIL behandelt k-Anonymität, l-Diversität, differenzielle Privatsphäre und deren praktische Anwendung auf französische Datensätze. 12+ EU-Datenschutzbehörden beziehen sich in ihren eigenen Durchsetzungsleitlinien auf diesen Leitfaden (einschließlich IMY Schweden, das eine eigene Version basierend auf der Methodik der CNIL erstellt hat).
Leitlinien für KI-Systeme (2024): Die Leitlinien der CNIL zur KI-Governance behandeln 6 obligatorische Anonymisierungskategorien für KI-Trainingsdaten — die spezifischsten Leitlinien einer EU-Datenschutzbehörde zu diesem Thema.
Technische Anforderungen an Cookies: Die Durchsetzungsleitlinien der CNIL zu Cookies (regelmäßig aktualisiert) erfordern spezifische technische Implementierungen für Plattformen zur Einwilligungsverwaltung — die technisch spezifischsten Leitlinien einer Datenschutzbehörde zur Einwilligungstechnologie in der EU.
Das NIR: Frankreichs sensibelster Identifikator
Die Numéro d'Inscription au Répertoire (NIR) — auch als numéro de sécurité sociale bekannt — ist eine 15-stellige französische Sozialversicherungsnummer im Format:
S AAMMDDCCC OOO K
Wobei:
- S = 1 Ziffer: Geschlecht (1=männlich, 2=weiblich)
- AA = 2 Ziffern: Geburtsjahr
- MM = 2 Ziffern: Geburtsmonat
- DD = 2 Ziffern: Geburtsabteilung (01-95, 2A/2B für Korsika, 97-99 für Überseegebiete, 99 für ausländische Geburt)
- CCC = 3 Ziffern: Gemeindecode innerhalb der Abteilung
- OOO = 3 Ziffern: Geburtsreihenfolge
- K = 2 Ziffern: Prüfziffer (97 - (NIR mod 97))
Das NIR kodiert Geschlecht, Geburtsdatum, Geburtsort und Geburtsreihenfolge — was es zu einem der informationsreichsten nationalen Identifikatoren in der EU macht. Die CNIL klassifiziert das NIR als einen Identifikator, der einen erhöhten Schutz erfordert, der dem Schutz besonderer Kategorien von Daten entspricht.
Erkennungsherausforderung: Generische NLP-Tools übersehen das NIR in 78% der Dokumente laut der Analyse der CNIL von 2024. Die spezifischen Fehler:
- Die 15-stellige Struktur des NIR (ohne Trennzeichen in vielen Dokumenten) wird mit anderen langen Zahlenfolgen verwechselt
- Die Kodierung der Abteilung/Gemeinde (Ziffern 7-11) erfordert geografisches Wissen zur Validierung — Tools, die die Berechnung des mod-97-Schlüssels nicht implementieren, können gültige NIR-Nummern nicht von falsch positiven Ergebnissen unterscheiden
- Korsische Abteilungen (2A/2B — Buchstaben, nicht Ziffern) brechen Mustererkennungstools, die nur numerische Zeichen erwarten
SIREN/SIRET: Unternehmensidentifikatoren in französischen Dokumenten
SIREN-Nummer: 9-stellige französische Unternehmensidentifikationsnummer mit Luhn-Prüfziffer. Erscheint in allen französischen Handelsdokumenten.
SIRET-Nummer: 14-stellige Erweiterung von SIREN (9-stellige SIREN + 5-stellige Betriebsnummer). Die SIRET identifiziert ein bestimmtes Geschäft, während SIREN die Unternehmensentität identifiziert.
Unternehmensdokumente enthalten häufig SIRET-Nummern zusammen mit persönlichen Daten von Unternehmensvertretern — die Durchsetzungsleitlinien der CNIL behandeln die Kombination von SIRET + individuellem Namen als schaffend identifizierbare Informationen, die GDPR-Pflichten auslösen.
CNILs Anforderungen an die KI-Anonymisierung
Die KI-Leitlinien der CNIL von 2024 verlangen 6 spezifische Anonymisierungskategorien für KI-Trainingsdaten, die französische personenbezogene Daten betreffen:
- Entfernung von Identifikatoren: Explizite Identifikatoren (Name, NIR, SIREN) müssen durch Pseudonyme ersetzt oder entfernt werden
- Verallgemeinerung von Quasi-Identifikatoren: Attribute, die eine Re-Identifizierung in Kombination ermöglichen könnten (Alter, Abteilung, Beruf), müssen verallgemeinert werden, um die Spezifität zu reduzieren
- Rauschhinzufügung: Numerische Attribute müssen kalibriertes Rauschen hinzugefügt werden, um Inferenz zu verhindern
- k-Anonymitätsüberprüfung: Jede Person im Datensatz muss von mindestens k-1 anderen nicht unterscheidbar sein (die CNIL empfiehlt k≥5)
- l-Diversitätsüberprüfung: Sensible Attributwerte müssen innerhalb jeder Äquivalenzklasse ausreichende Diversität aufweisen
- Risikobewertung zur Re-Identifizierung: Vor der Veröffentlichung müssen Datensätze einer Risikobewertung zur Re-Identifizierung unterzogen werden, die eine dokumentierte Methodik verwendet
Die CNIL hat ausdrücklich festgestellt, dass das bloße Entfernen des NIR und des vollständigen Namens aus einem Datensatz keine ausreichende Anonymisierung darstellt. Zusätzliche Quasi-Identifikatoren (Alter, PLZ, Beruf, medizinische Fachrichtung) müssen ebenfalls berücksichtigt werden.
Bilingualer französischer/regionaler Kontext
Frankreich hat eine komplexe sprachliche Situation, die für die PII-Erkennung relevant ist:
Metropolitanfranzösisch: Standardfranzösisch, wie es in Frankreich gesprochen wird — Hauptsprache aller offiziellen Dokumente.
DOM-TOM-Identifikatoren: Überseegebiete (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) haben eigene Verwaltungscodes in NIR-Nummern (97, 98 Präfix für Überseeabteilungen) und lokale Namenskonventionen.
Elsässischer Kontext: Die Region Elsass-Moselle hat historische deutsche Verwaltungsgewohnheiten — deutschsprachige Namen und einige deutsche Verwaltungsdokumentformate erscheinen in französischen Verwaltungsunterlagen.
Belgisches Französisch: Für Organisationen, die in Frankreich und Belgien tätig sind, unterscheiden sich die französischen und belgischen Identifikatorformate (NIR vs. belgische nationale Registrierungsnummer), und belgisches Französisch verwendet leicht unterschiedliche Namenskonventionen.
Für die französische Einhaltung: NIR-Erkennung mit mod-97-Schlüsselvalidierung, SIREN/SIRET-Erkennung mit Luhn-Validierung, französischsprachige NER mit Unterstützung für akzentuierte Zeichen (é, è, ê, ë, à, â, î, ô, û, ç, œ) und dokumentierte Anonymisierung, die den 6-Kategorien-Rahmen der CNIL für KI-Trainingsdaten erfüllt.
Quellen: