Mitä Presidio jättää huomiotta: 220+ entiteettityyppiä, jotka ovat välttämättömiä GDPR-yhteensopivassa PII-tunnistuksessa
Microsoft Presidio toimitetaan noin 40 oletusentiteettitunnistimen kanssa. Yhdysvaltojen alueella toimiville käyttöönottoille, jotka käsittelevät Yhdysvaltojen keskeisiä asiakirjoja, tämä kattaa olennaiset kategoriat: SSN, Yhdysvaltojen passit, Yhdysvaltojen ajokortit, luottokortit, sähköpostiosoitteet, puhelinnumerot ja henkilön nimet.
EU-käyttöönottotapauksissa kattavuusaukko on merkittävä. GDPR koskee kaikkia EU:n henkilötietoja kansallisuudesta riippumatta. EU-organisaatiot, jotka käsittelevät omien kansalaistensa tietoja, tarvitsevat tunnistimia, joita Presidio ei tarjoa suoraan.
Oletus Presidio-entiteettikirjasto
Presidion oletustunnistimet sisältävät:
Yhdysvaltojen keskeiset tunnisteet:
- Yhdysvaltojen sosiaaliturvatunnus (SSN)
- Yhdysvaltojen passinumero
- Yhdysvaltojen ajokorttinumero (useita osavaltiomuotoja)
- Yhdysvaltojen pankkitilin numero
- Yhdysvaltojen ITIN (Yksilöllinen verotunnus)
- Yhdysvaltojen lääkäriluvan numero
Yleiset tunnisteet:
- Sähköpostiosoite
- Puhelinnumero (Yhdysvaltojen keskeinen muoto etusijalla)
- IP-osoite
- Luottokorttinumero (Luhn-algoritmi)
- Kryptolompakon osoite
- URL
Yleiset tekstientiteetit:
- PERSON (NER-pohjainen)
- LOCATION (NER-pohjainen)
- ORGANIZATION (NER-pohjainen)
- DATE_TIME (NER-pohjainen)
Rajoitettu kansainvälinen kattavuus:
- UK NHS-numero
- UK:n kansallinen vakuutustunnus (NINO)
- Rahoitusentiteettitunnisteet (joitakin)
Yhteensä: ~40 tunnistinta
Mitä EU-organisaatiot todella tarvitsevat
Rahoitustunnisteet: IBAN (kansainvälinen pankkitilin numero) esiintyy käytännössä jokaisessa EU:n liiketoimiasiakirjassa, joka liittyy maksuihin, rahansiirtoihin, laskutukseen ja palkkoihin. IBAN-muodot vaihtelevat maittain, mutta seuraavat kansainvälistä standardia (ISO 13616). Presidion oletuksissa ei ole IBAN-tunnistinta.
Saksalainen fintech, joka käsittelee asiakasmaksutietoja, käsittelee IBAN-numeroita jokaisessa liiketoimiasiakirjassa. Ilman IBAN-tunnistusta näitä asiakirjoja käsitellään luottokorttitunnistuksen ollessa aktiivinen (tunnistetaan korttinumerot), mutta IBAN-kentät (pääasiallinen EU:n maksutunniste) jätetään täysin huomiotta.
Kansalliset verotunnisteet:
- Saksan Steueridentifikationsnummer: 11-numeroinen
- Ranskan NIR (Numéro d'Inscription au Répertoire): 13-merkkinen alfanumeerinen
- Italian Codice Fiscale: 16-merkkinen alfanumeerinen rakenteellisella validoinnilla
- Espanjan NIF/NIE: 9-merkkinen, kirjaimellisella liitteellä/alkuliitteellä
- Alankomaiden BSN: 9-numeroinen, 11-todistusvalidoinnilla
Yksikään näistä ei ole Presidion oletusentiteettikirjastossa. EU:n palkanlaskija, joka käsittelee työntekijäasiakirjoja useista jäsenvaltioista, on käytännössä sokea heidän herkimmille rahoitustunnisteilleen.
Kansalliset terveydenhuoltotunnisteet:
- UK NHS-numero: 10-numeroinen, modulus-11-tarkistus
- Ranskan Numéro de Sécurité Sociale (NIR): Palvelee myös terveydenhuollon ID:nä
- Saksan Krankenkassennummer: Alfanumeerinen, vakuutusyhtiökohtainen
- Italian Codice Fiscale: Käytetään myös terveydenhuollon ID:nä
- Alankomaiden BSN: Käytetään myös sairausvakuutuksessa
Terveydenhuolto-organisaatiot ympäri EU:ta tarvitsevat näitä tunnisteita HIPAA:n kaltaiseen terveysdatan suojaamiseen. Presidio tarjoaa UK NHS-numeron, mutta jättää huomiotta manner-Euroopan terveydenhuoltotunnisteet.
EU-ajokorttimuodot: Presidion oletustunnistimet sisältävät Yhdysvaltojen ajokortteja (osavaltiokohtaisia). EU-ajokorttimuodot on standardoitu direktiivin 2006/126/EY alaisuudessa, mutta ne vaihtelevat jäsenvaltioittain alfanumeerisessa rakenteessaan. EU-ajokorttimuotoja ei ole Presidian oletuksissa.
ALV-rekisterinumerot: EU:n ALV-numerot esiintyvät jokaisessa yritysten välisessä liiketoiminnassa. Muoto: maan koodi (2 kirjainta) + 8-12 alfanumeerista numeroa. Presidio ei tarjoa ALV-numerotunnistinta. EU-yrityksille, jotka jakavat laskuja, sopimuksia ja kaupallisia asiakirjoja, ALV-numerot ovat tunnisteita, jotka linkittävät rekisteröityihin liiketoimintayksiköihin ja niiden johtajiin.
EU-passimuodot: Yhdysvaltojen passitunnistus on Presidiossa, mutta EU-passimuotoja (erityisesti koneellisesti luettavan alueen muotoa) ei kateta.
Mukautetun tunnistimen kehittämisen insinöörikustannukset
Kun EU-organisaatiot käyttävät Presidiota ja huomaavat entiteettikattavuuden puutteen, vastaus on yleensä mukautetun tunnistimen kehittäminen. Kustannus:
Per tunnistin kehitysaika:
- Tunnisteen muodon tutkiminen: 1-2 tuntia
- PatternRecognizer Python-luokan kirjoittaminen: 2-4 tuntia
- Regexin toteuttaminen validointilogikalla: 2-4 tuntia
- Kontekstisanojen määrittäminen tarkkuuden parantamiseksi: 1-2 tuntia
- Testien kirjoittaminen: 2-3 tuntia
- Integrointi ja testaus käyttöönotossa: 1-2 tuntia
Per tunnistin: 9-17 tuntia.
Saksalaiselle fintechille, joka tarvitsee IBAN + Steuer-ID + EU-ajokortti + Saksan ALV + IBAN:
- 4 mukautettua tunnistinta × 13 tuntia keskimäärin = 52 insinöörityötuntia
- 100 €/tunti: 5 200 € mukautetun tunnistimen kehittämiseen
Lisäksi jatkuva ylläpito, kun muodot muuttuvat, uusia testitapauksia syntyy ja Presidion API-päivitykset vaativat tunnistimen muutoksia.
Kokonaiskustannus EU:n GDPR-kattavuudelle Presidion päällä: 5 200 € + alkuperäinen + jatkuva ylläpito
Vaihtoehto: Hallinnoidut entiteettikirjastot
anonym.legal laajentaa Presidion perustaa 285+ entiteettityypillä, joita kehitystiimi ylläpitää - mukaan lukien EU:lle erityiset tunnisteet, joita Presidion oletukset jättävät huomiotta:
Kattavuuden kohokohdat, jotka ylittävät Presidion oletukset:
- IBAN (kaikki EU:n jäsenvaltioiden muodot)
- EU:n jäsenvaltioiden verotunnisteet (mukaan lukien Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL ja muita)
- EU:n kansalliset terveydenhuoltotunnisteet
- ALV-numerot (EU-muoto)
- EU-ajokorttimuodot
- Euroopan passimuodot
- Kaikki 48 tuetun kielen entiteettimuunnosta
Ylläpito: Entiteettikirjaston päivitykset julkaistaan osana hallinnoitua palvelua. Kun Saksa esittelee uuden verotunnisteen muodon, käyttäjät saavat tunnistimen ilman, että heidän tarvitsee tehdä vetopyyntöä.
Mukautettu laajennus: Organisaatiokohtaisille tunnisteille, joita ei ole kirjastossa, mukautettu entiteettirakentaja mahdollistaa mallien lisäämisen ilman Python-koodia.
Saksan Fintech-esimerkki
Saksalainen fintech tarvitsee IBANien, BICien, Saksan verotunnusten (Steuer-ID) ja Saksan kaupallisten rekisterinumeroiden (Handelsregisternummer) tunnistamista asiakirjoissa.
Presidion oletustunnistustaso näille 4 entiteettityypille: 0%
Ei matalaa tarkkuutta, ei väärien positiivisten - nollatunnistuksia. Yksikään näistä 4 entiteettityypistä ei esiinny Presidion oletusentiteettikirjastossa.
Mukautettujen tunnistimien kirjoittaminen: 4 tunnistinta × 13 tuntia = 52 tuntia = 5 200 € insinöörikustannuksilla.
Hallinnoidun entiteettikirjaston käyttäminen, jossa kaikki 4 katetaan: 180 €/vuosi (Ammattisuunnitelma).
Kustannus saavuttaa GDPR-yhteensopiva tunnistus näille saksalaisille rahoitustunnisteille:
- Presidion reitti: 5 200 € insinööri + Presidion operatiiviset kustannukset
- Hallinnoitu palvelureitti: 180 €/vuosi, kaikki 4 tunnistettuna suoraan
Kuilu on 28-kertainen ensimmäisenä vuonna. Jokaisena toimintavuonna mukautettujen tunnistimien ylläpitoon käytetty insinööriaika lisää Presidion kustannuksia, kun taas hallinnoidun palvelun kustannus pysyy tasaisena.
Johtopäätös
Presidion ~40 oletustunnistinta palvelevat Yhdysvaltojen keskeisiä käyttötapauksia hyvin. EU:n käyttöönottoihin, jotka vaativat GDPR-yhteensopivuutta jäsenvaltioiden erityisten tunnisteiden osalta, suoraan saatavilla oleva kattavuus on riittämätöntä. Aukko täytetään joko mukautetun tunnistimen kehittämisen (kallis, aikaa vievä) tai hallinnoidun palvelun kautta, joka ylläpitää EU:n entiteettikattavuutta osana tilausta.
EU-organisaatioille, joissa vaatimustenmukaisuus ei ole neuvoteltavissa ja insinööriresurssit ovat rajalliset, hallinnoidun palvelun valmiiksi rakennettu EU-entiteettikirjasto eliminoi yli 50 tunnin mukautetun kehitysprojektin ennen ensimmäisen asiakirjan anonymisointia.
Lähteet: