anonym.legal
Takaisin BlogiinGDPR & Vaatimustenmukaisuus

Mitä Presidio jättää huomiotta: 220+ entiteettityyppiä, jotka ovat välttämättömiä GDPR-yhteensopivassa PII-tunnistuksessa

Presidio toimitetaan noin 40 oletusentiteettitunnistimen kanssa, jotka keskittyvät Yhdysvaltojen tunnisteisiin. Eurooppalaiset organisaatiot tarvitsevat IBANin, Codice Fiscalen, Steueridentifikationsnumerin, EU-ajokorttimuodot ja kansalliset terveydenhuoltotunnisteet - kaikki puuttuvat Presidion oletuksista.

March 7, 20267 min lukuaika
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Mitä Presidio jättää huomiotta: 220+ entiteettityyppiä, jotka ovat välttämättömiä GDPR-yhteensopivassa PII-tunnistuksessa

Microsoft Presidio toimitetaan noin 40 oletusentiteettitunnistimen kanssa. Yhdysvaltojen alueella toimiville käyttöönottoille, jotka käsittelevät Yhdysvaltojen keskeisiä asiakirjoja, tämä kattaa olennaiset kategoriat: SSN, Yhdysvaltojen passit, Yhdysvaltojen ajokortit, luottokortit, sähköpostiosoitteet, puhelinnumerot ja henkilön nimet.

EU-käyttöönottotapauksissa kattavuusaukko on merkittävä. GDPR koskee kaikkia EU:n henkilötietoja kansallisuudesta riippumatta. EU-organisaatiot, jotka käsittelevät omien kansalaistensa tietoja, tarvitsevat tunnistimia, joita Presidio ei tarjoa suoraan.

Oletus Presidio-entiteettikirjasto

Presidion oletustunnistimet sisältävät:

Yhdysvaltojen keskeiset tunnisteet:

  • Yhdysvaltojen sosiaaliturvatunnus (SSN)
  • Yhdysvaltojen passinumero
  • Yhdysvaltojen ajokorttinumero (useita osavaltiomuotoja)
  • Yhdysvaltojen pankkitilin numero
  • Yhdysvaltojen ITIN (Yksilöllinen verotunnus)
  • Yhdysvaltojen lääkäriluvan numero

Yleiset tunnisteet:

  • Sähköpostiosoite
  • Puhelinnumero (Yhdysvaltojen keskeinen muoto etusijalla)
  • IP-osoite
  • Luottokorttinumero (Luhn-algoritmi)
  • Kryptolompakon osoite
  • URL

Yleiset tekstientiteetit:

  • PERSON (NER-pohjainen)
  • LOCATION (NER-pohjainen)
  • ORGANIZATION (NER-pohjainen)
  • DATE_TIME (NER-pohjainen)

Rajoitettu kansainvälinen kattavuus:

  • UK NHS-numero
  • UK:n kansallinen vakuutustunnus (NINO)
  • Rahoitusentiteettitunnisteet (joitakin)

Yhteensä: ~40 tunnistinta

Mitä EU-organisaatiot todella tarvitsevat

Rahoitustunnisteet: IBAN (kansainvälinen pankkitilin numero) esiintyy käytännössä jokaisessa EU:n liiketoimiasiakirjassa, joka liittyy maksuihin, rahansiirtoihin, laskutukseen ja palkkoihin. IBAN-muodot vaihtelevat maittain, mutta seuraavat kansainvälistä standardia (ISO 13616). Presidion oletuksissa ei ole IBAN-tunnistinta.

Saksalainen fintech, joka käsittelee asiakasmaksutietoja, käsittelee IBAN-numeroita jokaisessa liiketoimiasiakirjassa. Ilman IBAN-tunnistusta näitä asiakirjoja käsitellään luottokorttitunnistuksen ollessa aktiivinen (tunnistetaan korttinumerot), mutta IBAN-kentät (pääasiallinen EU:n maksutunniste) jätetään täysin huomiotta.

Kansalliset verotunnisteet:

  • Saksan Steueridentifikationsnummer: 11-numeroinen
  • Ranskan NIR (Numéro d'Inscription au Répertoire): 13-merkkinen alfanumeerinen
  • Italian Codice Fiscale: 16-merkkinen alfanumeerinen rakenteellisella validoinnilla
  • Espanjan NIF/NIE: 9-merkkinen, kirjaimellisella liitteellä/alkuliitteellä
  • Alankomaiden BSN: 9-numeroinen, 11-todistusvalidoinnilla

Yksikään näistä ei ole Presidion oletusentiteettikirjastossa. EU:n palkanlaskija, joka käsittelee työntekijäasiakirjoja useista jäsenvaltioista, on käytännössä sokea heidän herkimmille rahoitustunnisteilleen.

Kansalliset terveydenhuoltotunnisteet:

  • UK NHS-numero: 10-numeroinen, modulus-11-tarkistus
  • Ranskan Numéro de Sécurité Sociale (NIR): Palvelee myös terveydenhuollon ID:nä
  • Saksan Krankenkassennummer: Alfanumeerinen, vakuutusyhtiökohtainen
  • Italian Codice Fiscale: Käytetään myös terveydenhuollon ID:nä
  • Alankomaiden BSN: Käytetään myös sairausvakuutuksessa

Terveydenhuolto-organisaatiot ympäri EU:ta tarvitsevat näitä tunnisteita HIPAA:n kaltaiseen terveysdatan suojaamiseen. Presidio tarjoaa UK NHS-numeron, mutta jättää huomiotta manner-Euroopan terveydenhuoltotunnisteet.

EU-ajokorttimuodot: Presidion oletustunnistimet sisältävät Yhdysvaltojen ajokortteja (osavaltiokohtaisia). EU-ajokorttimuodot on standardoitu direktiivin 2006/126/EY alaisuudessa, mutta ne vaihtelevat jäsenvaltioittain alfanumeerisessa rakenteessaan. EU-ajokorttimuotoja ei ole Presidian oletuksissa.

ALV-rekisterinumerot: EU:n ALV-numerot esiintyvät jokaisessa yritysten välisessä liiketoiminnassa. Muoto: maan koodi (2 kirjainta) + 8-12 alfanumeerista numeroa. Presidio ei tarjoa ALV-numerotunnistinta. EU-yrityksille, jotka jakavat laskuja, sopimuksia ja kaupallisia asiakirjoja, ALV-numerot ovat tunnisteita, jotka linkittävät rekisteröityihin liiketoimintayksiköihin ja niiden johtajiin.

EU-passimuodot: Yhdysvaltojen passitunnistus on Presidiossa, mutta EU-passimuotoja (erityisesti koneellisesti luettavan alueen muotoa) ei kateta.

Mukautetun tunnistimen kehittämisen insinöörikustannukset

Kun EU-organisaatiot käyttävät Presidiota ja huomaavat entiteettikattavuuden puutteen, vastaus on yleensä mukautetun tunnistimen kehittäminen. Kustannus:

Per tunnistin kehitysaika:

  • Tunnisteen muodon tutkiminen: 1-2 tuntia
  • PatternRecognizer Python-luokan kirjoittaminen: 2-4 tuntia
  • Regexin toteuttaminen validointilogikalla: 2-4 tuntia
  • Kontekstisanojen määrittäminen tarkkuuden parantamiseksi: 1-2 tuntia
  • Testien kirjoittaminen: 2-3 tuntia
  • Integrointi ja testaus käyttöönotossa: 1-2 tuntia

Per tunnistin: 9-17 tuntia.

Saksalaiselle fintechille, joka tarvitsee IBAN + Steuer-ID + EU-ajokortti + Saksan ALV + IBAN:

  • 4 mukautettua tunnistinta × 13 tuntia keskimäärin = 52 insinöörityötuntia
  • 100 €/tunti: 5 200 € mukautetun tunnistimen kehittämiseen

Lisäksi jatkuva ylläpito, kun muodot muuttuvat, uusia testitapauksia syntyy ja Presidion API-päivitykset vaativat tunnistimen muutoksia.

Kokonaiskustannus EU:n GDPR-kattavuudelle Presidion päällä: 5 200 € + alkuperäinen + jatkuva ylläpito

Vaihtoehto: Hallinnoidut entiteettikirjastot

anonym.legal laajentaa Presidion perustaa 285+ entiteettityypillä, joita kehitystiimi ylläpitää - mukaan lukien EU:lle erityiset tunnisteet, joita Presidion oletukset jättävät huomiotta:

Kattavuuden kohokohdat, jotka ylittävät Presidion oletukset:

  • IBAN (kaikki EU:n jäsenvaltioiden muodot)
  • EU:n jäsenvaltioiden verotunnisteet (mukaan lukien Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL ja muita)
  • EU:n kansalliset terveydenhuoltotunnisteet
  • ALV-numerot (EU-muoto)
  • EU-ajokorttimuodot
  • Euroopan passimuodot
  • Kaikki 48 tuetun kielen entiteettimuunnosta

Ylläpito: Entiteettikirjaston päivitykset julkaistaan osana hallinnoitua palvelua. Kun Saksa esittelee uuden verotunnisteen muodon, käyttäjät saavat tunnistimen ilman, että heidän tarvitsee tehdä vetopyyntöä.

Mukautettu laajennus: Organisaatiokohtaisille tunnisteille, joita ei ole kirjastossa, mukautettu entiteettirakentaja mahdollistaa mallien lisäämisen ilman Python-koodia.

Saksan Fintech-esimerkki

Saksalainen fintech tarvitsee IBANien, BICien, Saksan verotunnusten (Steuer-ID) ja Saksan kaupallisten rekisterinumeroiden (Handelsregisternummer) tunnistamista asiakirjoissa.

Presidion oletustunnistustaso näille 4 entiteettityypille: 0%

Ei matalaa tarkkuutta, ei väärien positiivisten - nollatunnistuksia. Yksikään näistä 4 entiteettityypistä ei esiinny Presidion oletusentiteettikirjastossa.

Mukautettujen tunnistimien kirjoittaminen: 4 tunnistinta × 13 tuntia = 52 tuntia = 5 200 € insinöörikustannuksilla.

Hallinnoidun entiteettikirjaston käyttäminen, jossa kaikki 4 katetaan: 180 €/vuosi (Ammattisuunnitelma).

Kustannus saavuttaa GDPR-yhteensopiva tunnistus näille saksalaisille rahoitustunnisteille:

  • Presidion reitti: 5 200 € insinööri + Presidion operatiiviset kustannukset
  • Hallinnoitu palvelureitti: 180 €/vuosi, kaikki 4 tunnistettuna suoraan

Kuilu on 28-kertainen ensimmäisenä vuonna. Jokaisena toimintavuonna mukautettujen tunnistimien ylläpitoon käytetty insinööriaika lisää Presidion kustannuksia, kun taas hallinnoidun palvelun kustannus pysyy tasaisena.

Johtopäätös

Presidion ~40 oletustunnistinta palvelevat Yhdysvaltojen keskeisiä käyttötapauksia hyvin. EU:n käyttöönottoihin, jotka vaativat GDPR-yhteensopivuutta jäsenvaltioiden erityisten tunnisteiden osalta, suoraan saatavilla oleva kattavuus on riittämätöntä. Aukko täytetään joko mukautetun tunnistimen kehittämisen (kallis, aikaa vievä) tai hallinnoidun palvelun kautta, joka ylläpitää EU:n entiteettikattavuutta osana tilausta.

EU-organisaatioille, joissa vaatimustenmukaisuus ei ole neuvoteltavissa ja insinööriresurssit ovat rajalliset, hallinnoidun palvelun valmiiksi rakennettu EU-entiteettikirjasto eliminoi yli 50 tunnin mukautetun kehitysprojektin ennen ensimmäisen asiakirjan anonymisointia.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.