Privacy na Maaaring Gawin Nang Paulit-ulit: Bakit Kailangan ng mga ML Team ng mga Preset, Hindi Lamang mga Dokumento
Inaprubahan ng DPO ang plano sa anonymization. Sumasaklaw ito sa apat na aytem: mga pangalan, email, numero ng telepono, at mga petsa ng kapanganakan. Ang paraan ay Replace. Ang plano ay apat na pahina at nananatili sa compliance wiki.
Labindalawang data scientist ang nagbasa nito sa kickoff. Bawat isa ay nagse-setup ng tool sa kanilang sarili. Nagdagdag ang ilan ng mga national ID. Nagdagdag ang ilan ng mga IP address. Lumipat ang ilan sa Redact. Pagkalipas ng tatlong buwan, ang mga set ay hindi pare-pareho.
Sinuri ng CNIL ang ilang AI firm noong 2024. Ang isyu: hindi wastong paggamit ng mga personal na detalye sa mga set ng modelo. Hindi lamang nila tinanong kung nangyari ang anonymization. Tinanong nila kung gaano ito pare-pareho inilapat.
Kailangan ang mga dokumento. Hindi sapat ang mga ito. Ang solusyon ay ang preset.
Bakit Kailangan ng Sariling Config ang Mga Set ng Modelo ng ML
Ang pagtatayo ng mga set ng modelo ay may mga natatanging pangangailangan. Hindi ibinabahagi ng pangkalahatang anonymization ng dokumento ang mga ito.
Replace, hindi Redact. Ang mga modelo na sinanay sa teksto kung saan ang mga pangalan ay nagiging [REDACTED] ay natututo ng token na iyon bilang isang marker ng posisyon ng pangalan. Nakakasama ito sa modelo. Pinapalitan ng Replace ang "John Smith" ng "David Chen." Nakakakita ang modelo ng mga tunay na pattern ng pangalan. Hindi nito nakikita ang isang mask token.
Parehong proseso para sa lahat ng rekord. Ang isang set kung saan ang 70% ng mga pangalan ay pinalitan at ang 30% ay [REDACTED] ay nagpapadala ng halo-halong signal. Bawat rekord ay dapat dumaan sa parehong mga hakbang.
Parehong listahan ng entity. Kung ang set ay naglalaman ng mga detalye ng kalusugan, ang pag-alis ng mga pangalan ngunit pag-iwan ng mga petsa ng kapanganakan sa ilang rekord ay lumilikha ng mga gap. Lahat ng labindalawang data scientist ay dapat mag-alis ng parehong mga uri.
Walang labis na pag-alis. Ang pag-alis ng mga petsa na mga timestamp - hindi mga petsa ng kapanganakan - ay nagbabawas ng kalidad ng set nang walang karagdagang pakinabang sa pagsunod. Ang naaprubahang preset ay nagsasabi kung exactly aling mga aytem ang aalisin.
Maaaring ulitin na output. Kung ang isang set ay kailangang patakbuhin muli - sabihin, pagkatapos matuklasan ang isang napalampas na uri ng entity - ang preset ay nagbibigay ng parehong resulta sa bawat pagkakataon. Ang mga ad-hoc na config ay hindi.
Ang Problema sa Labindalawang Data Scientist
Isang ML team ng fintech sa Europa ang gumagamit ng mga set mula sa mga log ng customer. Inaprubahan ng DPO ang layunin - pagtuklas ng pandaraya - na may isang panuntunan: lahat ng pangalan ng customer, email, numero ng telepono, at payment ID ay dapat palitan bago magsimula ang trabaho sa modelo.
Nang walang mga preset:
- Tao 1 ay nag-aalis ng mga pangalan, email, at numero ng telepono - ngunit napalampas ang mga payment ID
- Tao 2 ay nagsasama ng mga payment ID ngunit gumagamit ng Redact, hindi Replace
- Tao 3 ay sumusunod sa dokumento ng plano nang eksakto
- Mga tao 4-12 ay nag-iiba-iba
Ang pinagsanib na set ay bahagyang hindi sumusunod at bahagyang labis na pinoproseso. Hindi maaaring sertipikahan ng DPO ito.
Gamit ang preset na naaprubahan ng DPO:
- Lumilikha ang DPO ng "ML Dev - Fraud Detection" na may eksaktong mga uri ng entity at paraan ng Replace
- Napupunta ang preset sa lahat ng labindalawang tao na may isang panuntunan: gamitin ito para sa lahat ng trabaho sa set
- Walang sinuman ang maaaring baguhin ang preset nang walang pag-apruba ng DPO
Bawat tao ngayon ay gumagawa ng parehong output. Ang pinagsanib na set ay pare-pareho. Pumapasa ang taunang AI audit na may zero na natuklasan. Ang nakaraang taon ay mayroong tatlong natuklasan mula sa hindi pare-parehong trabaho sa set.
GDPR at ang AI Act
Na-update para sa 2026
Ang EU AI Act ay ganap na nagsimula noong Agosto 2024. Nagdaragdag ito ng mga panuntunan para sa mga sistema ng AI na gumagamit ng personal na detalye para sa trabaho sa modelo. Ang mga mataas na panganib na sistema ng AI ay dapat idokumento ang kanilang mga set, kasama kung anong anonymization ang inilapat.
Ang GDPR Article 5(1)(b) - ang panuntunan sa limitasyon ng layunin - ay humahadlang sa paggamit ng personal na detalye nang walang malinaw na legal na batayan. Ang mga kaso ng CNIL noong 2024 ay nakatuon sa gap na ito: mga detalyeng nakolekta para sa isang serbisyo ay ginamit para sa trabaho sa modelo nang walang wastong batayan o anonymization.
Tumutulong ang mga preset sa kasiyahan sa parehong hanay ng mga panuntunan:
- Pangalan at config ng preset: ang dokumentadong paraan
- Mga log ng pagproseso: patunay na inilapat ang paraan
- Pag-apruba ng DPO: isang naitala na sign-off sa config
Lumilikha ito ng audit trail na kinakailangan ng parehong batas. Para sa mga obligasyon ng Article 10 nang detalyado, tingnan ang gabay sa datos ng pagsasanay ng EU AI Act.
Config ng Preset para sa Mga Set ng Modelo ng NLP
Mga uri na isasama sa karamihan ng mga set ng modelo ng NLP:
- PERSON - Palitan ng katulad na mga pangalan
- EMAIL_ADDRESS - Palitan ng mga synthetic na address
- PHONE_NUMBER - Palitan ng mga synthetic na numero
- CREDIT_CARD / IBAN - Replace o Redact
- LOCATION - Palitan ng katulad na mga lugar kung mahalaga ang lokasyon; I-redact kung hindi
- DATE_OF_BIRTH - I-redact; ang pangkat ng edad ay kadalasang kailangan
Mga uri na madalas na iniiwan:
- Mga pangkalahatang petsa - ang mga timestamp ay tumutulong sa mga temporal na modelo
- Mga pangalan ng organisasyon - tumutulong sa mga modelo ng named-entity
- Mga URL - tumutulong sa mga modelo ng link at sanggunian
Itinatakda ng ML lead at DPO ang mga panuntunan na ito sa naaprubahang preset. Inilalapat ng mga miyembro ng team ito. Hindi sila gumagawa ng mga pagpipilian sa config.
Mga Preset bilang Institutional Memory
Bago ang mga preset. Ang tamang config ng entity ay nakatira sa mga ulo ng tatlong data scientist. Nagtrabaho sila sa pagsusuri ng pagsunod. Dalawa ang umalis noong Q3. Pumunta ang kaalaman kasama nila.
Pagkatapos ng mga preset. Ang config ay nakatira sa "ML Dev - Customer Records v2.1." Ang log ng bersyon ay nagpapakita kung kailan ito ginawa, sino ang nag-apruba nito, at kung ano ang nagbago mula sa v2.0. Ang mga bagong miyembro ng team ay gumagamit ng preset at nakukuha ang lahat ng kaalaman na itinayo dito.
Idinagdag ng Bersyon 2.1 ang pagtuklas ng IBAN pagkatapos ng isang pagsusuri ay natuklasan na nawawala ito. Inaprubahan ang Bersyon 2.0 noong Pebrero 2025. Kumpleto ang log.
Para sa kung paano gumagana ang mga log ng pagproseso at daloy ng pagsusuri ng DPO, tingnan ang gabay sa anonymization ng datos ng pagsasanay ng GDPR ML.
Mga Preset kumpara sa Pattern ng CNIL
Ang mga kaso ng AI ng CNIL noong 2024 ay nagtatakda ng malinaw na pattern. Hindi lamang nila tinatanong kung ano ang inalis kundi kung paano ito pinamahalaaan. Ang isang ibinahaging preset na may talaan ng pag-apruba ng DPO at mga log ng pagproseso ay direktang sumasagot dito.
Hindi ito ng isang ad-hoc na config. Ang parehong gap ay umiiral sa ibang mga kaso ng EU DPA na sumusunod sa lohika ng CNIL. Para sa karagdagang impormasyon tungkol sa diskarte ng CNIL sa AI, tingnan ang gabay sa pagsunod ng CNIL GDPR AI.
Konklusyon
Sinasabi ng mga dokumento sa mga miyembro ng team kung ano ang gagawin. Ginagawang madali ng mga preset - at maipapatupad - na gawin ito sa parehong paraan sa bawat pagkakataon.
Para sa mga set ng modelo ng ML, ang pagkakatugma ay parehong isang legal at teknikal na pangangailangan. Tinutugunan ng preset ang pareho nang sabay.
Ang mga DPA na tumitingin sa mga kasanayan sa AI ay nagnanais ng ebidensya ng pare-parehong anonymization. Ang isang preset na inilapat sa parehong paraan sa lahat ng trabaho sa set ay ang pinakamalinawin na patunay na maaari mong ibigay sa kanila.