CNIL Prantsusmaa: GDPR tehniline vastavus
Prantsusmaa range privaatsusreguleerija
Prantsusmaa andmeorgan on CNIL. See kehtestab EL-i kõige täpsemad privaatsuseeskirjad. Enamik EL-i reguleerijaid kirjutab laiapõhjalisi juhiseid. CNIL läheb kaugemale. See avaldab täpseid tehnilisi spetsifikatsioone, mida nimetatakse recommandations. Need määratlevad, mis on tegelik GDPR vastavus.
Teised EL-i reguleerijad kopeerivad sageli CNIL-i tööd. Võtmetekstid hõlmavad 2023. aasta Guide pratique de l'anonymisation ja 2024. aasta tehisintellekti juhiseid.
Numbrid näitavad, et agentuur on aktiivne. See käsitles 2023. aastal 16 433 kaebust. See on 43% rohkem kui 2022. aastal. See on jõustamise algusest peale välja andnud umbes 150 miljonit eurot GDPR trahve.
Tehisintellekti treenimine: kuus andmete tüüpi, mis vajavad puhastamist
CNIL-i 2024. aasta tehisintellekti juhised kehtivad laialdaselt. Need hõlmavad kõiki rühmi, kes treenivad tehisintellekti Prantsuse isikuandmetel. Need kehtivad ka neile, kes teenindavad Prantsuse kasutajaid tehisintellekti tööriistadega.
Agentuur loetleb kuut andmete tüüpi, mis vajavad enne tehisintellekti treenimist puhastamist:
- Identifiants directs (otsesed identifikaatorid): Nimed, aadressid, ID-numbrid. Eemaldage või asendage need enne treenimist.
- Identifiants quasi-directs (kvaasi-ID-d): Omaduste rühmad, mis võimaldavad tuvastamist. Rakendage k-anonüümsuse kontrolle.
- Donnees sensibles (eriliigid): Tervise-, biomeetrilised, poliitilised ja usuandmed. Eraldage lisanduvate kontrollidega.
- Donnees comportementales (kasutusandmed): Sirvimine ja kasutusharjumused. Koondage või maskeerige need.
- Donnees inferees (tuletatud tunnused): Tehisintellekti poolt kasutusest tuletatud signaalid. Rakendage eesmärgi piiranguid.
- Donnees relatives aux mineurs (laste andmed): Kõik alla 15-aastaste isikutega seotud andmed. Tehke vanuse kontrollid ja kasutage tugevat puhastamist.
Kasutate suurtest keelemudelitest koosneva sisu peal treenitud LLM-e? Vajate kirjalikku tõendit. Näidake, et teie treenimisandmeid vaadati läbi ja puhastati. Vaadake meie GDPR vastavuse juhendit ulatuse üksikasjade jaoks.
Anonüümsustamise juhend: põhireeglid
- aasta juhend on EL-i kõige üksikasjalikum tekst selles teemas. See seab lati, mida loetakse tõeliselt anonüümseks.
Heakskiidetud tehnikad:
- k-anonüümsus - iga kirje näeb välja nagu vähemalt k-1 teist
- l-mitmekesisus - tundlikud tunnused varieeruvad igas rühmas
- Diferentsiaalne privaatsus - müra lisatakse väljundstatistikale
- Pseudonüümsustamine - riskivähendamise samm, mitte tõeline anonüümsustamine
Nõutavad andmed:
Iga puhastamist kasutava tegevuse jaoks ootab CNIL fiche d'anonymisation (anonüümsustamise andmelehe). See peab sisaldama:
- Kasutatud tehnika ja selle põhiseadistused (k-väärtus, epsilon-väärtus)
- Tuvastamisriski kontrolli tulemus
- Valideerimismeetod (testimine või väline ülevaatus)
- Vastutav isik ja ülevaatuse kuupäev
Tuvastamisriski kontroll:
Enne andmete anonüümseks tunnistamist tehke formaalne kontroll. Küsige: kas motiveeritud isik suudaks seda tuvastada? Vaadake, millised abiandmestikud on olemas. Arvestage kogu kontekstiga.
Prantsuse isikuandmed: mida teie tööriistad peavad leidma
Prantsuse eeskirjad nõuavad prantsuskeelset isikuandmete katvust. Teie tööriistad peavad tuvastama Prantsuse-spetsiifilisi ID tüüpe.
Peamised ID-d, mida katta:
- NIR: 15 numbrit (13 baas + 2-kohaline võti). See on Prantsuse sotsiaalkindlustusnumber.
- Carte vitale number: Tervisekindlustuse kaardi ID.
- SIRET/SIREN: Äri-ID-d, mida leidub isikufailides.
- Numero d'ordre professionnel: Registrinumbrid arstidele, advokaatidele ja raamatupidajatele.
- CNI (Carte nationale d'identite): Prantsuse riikliku ID-kaardi number.
Prantsuse NER mudelid peavad käsitlema Prantsuse nimemustreid. Nende hulka kuuluvad liitnimed (Jean-Pierre), osakesed (de, du, des) ja sidekriipsuga perekonnanimed. Vaadake meie mitmekeelset isikuandmete tuvastamise juhendit, kuidas katta kõik lokaadid.
Jõustamine: mis saab trahvi
Agentuuri trahvid järgivad selget mustrit. Need sihivad puuduvaid tehnilisi kontrolle. Halb protsess üksinda on harva peamine küsimus.
Clearview AI - 20M euro trahv (2022): Firma töötas Prantsuse inimeste biomeetrilisi andmeid ilma õigusliku aluseta. Andmeid kraabiti avalikest veebiallikatest. Juhtum kinnitas: hulgi veebikraabimiseks tehisintellekti treenimiseks on vaja selgesõnalist õiguslikku alust.
TikTok - uurimine algatati 2024: Keskendub süsteemidele, mis võivad tuletada tundlikke tüüpe kasutussignaalidest. See meetod on nüüd EL-i viide tehisintellekti auditite jaoks.
Generatiivse tehisintellekti ülevaatus (2024-2025): Agentuur vaatas Prantsusmaal üle LLM müüjaid. Fookus oli treenimissisu päritolul. Müüjad, kellel puudusid nõuetekohased andmed, pidid lisama kontrolle.
Neli sammu CNIL vastavuseks
Käsitlete Prantsuse isikuandmeid? Vajate nelja asja.
1. Anonüümsustamise andmeleht iga tegevuse jaoks
Iga puhastamist kasutav tegevus vajab oma andmelehte. Märkige tehnika, selle seadistused, riskitulemus ja ülevaatuse kuupäev.
2. Tehisintellekti eeltöötluslogi
Logige, millist isikuandmete tuvastamistööriista kasutasite. Märkige, millised üksuste tüübid leiti. Registreerige, mis eemaldati või maskeeriti. Hoidke neid logisid auditite jaoks valmis.
3. Prantsuskeelne isikuandmete katvus
Kontrollige, kas teie tööriist leiab NIR-i, carte vitale'i ja CNI numbreid. Testige oma Prantsuse NER mudelit päris Prantsuse nimedel. Märkige lüngad. Registreerige kontrollid, mida rakendate nende kõrvaldamiseks.
4. Treenimissisu päritoluandmed
Kraabitud sisu puhul: dokumenteerige lähteallika puhastamise kontroll. Kasutajaandmete puhul: dokumenteerige kasutaja puhastamise protsess. Meie turvalisuse vastavuse ülevaade näitab, kuidas see sobib laiemasse kaitsemeetmete paketti.
Hea dokumentatsiooniga rühmad läbivad auditid kiiresti. Ehitage oma toimik nüüd. Ärge oodake inspektsiooniga alustamist.