Binárna detekcia PII a počítanie dôvery: Kedy sa pospešovanie stáva problémom dodržiavania
Aké vysoké by malo byť skóre dôvery na detekciu PII ako "detegnuté"?
Presidio vracia skóre.
- 0,92 = 92% istota, že je to PII
- 0,45 = 45% istota
Ale systém musí rozhodovať binárne: detegnuté alebo nie. Kde nastavíte práh?
Výber prahu
Nízky prah (0,5):
- Detegne viac skutočného PII
- Ale aj falošné pozitívy (50% chybovosť)
- Regulátor: "Prečo ste tak agresívni?"
Vysoký prah (0,95):
- Falošné pozitívy sú zriedkavé
- Ale chýba 20% skutočného PII
- Regulátor: "Prečo ste tak opatrní? Meníte sa údajom."
Prípad auditu: Nemecký DPA
Podnik prenášajúci údaje do "anonymného" systému. DPA (Der Berliner Beauftragte für Datenschutz und Informationsfreiheit) auditi a objavuje:
- Spoločnosť používala Presidio na anonymizáciu
- Presidio s prahom 0,6 (60% dôvera)
- DPA nájde 100 záznamov, kde Presidio vrátil 0,58 (pod prahom = "nie je PII")
- Ľudský audítor vidí: "Berlinskému mestskému mobilnému číslu" v textoch (je to osobné číslo)
- DPA: "Váš systém je neadekvatný. Pokutu €50,000."
Dokumentácia
Podľa GDPR: Musíte vedieť a zdokumentovať:
- Aký prah ste si vybrali
- Prečo tento prah
- Ako ste overili, že prah je vhodný pre vašu cestu (región, jazyk, typ dokumentu)
- Ako monitorujete falošné pozitívy a chyby v praktickom nasadení
Bez tohto: Regulátor vám hovorí: "Nemáte obnovu."