Presidio ei tunnista 220+ GDPR-entiteettiä: EU-kattavuuden aukko
Päivitetty vuodelle 2026
Microsoft Presidio toimitetaan noin 40 valmiilla entiteettitunnistimella. Yhdysvaltalaisia käyttöönottoja varten tämä toimii. Se kattaa SSN:t, yhdysvaltalaiset passit, ajokortit, luottokortit ja sähköpostit.
EU-käyttöönottoja varten aukko on suuri. GDPR kattaa kaikki EU:n henkilötiedot. Tämä pätee riippumatta rekisteröidyn kansallisuudesta. Eurooppalaiset tiimit tarvitsevat tunnistimia, joita Presidio ei sisällä.
Mitä Presidio sisältää
Prresidion oletusarvot jakautuvat neljään ryhmään.
Yhdysvaltakeskeiset tunnisteet:
- Yhdysvaltalainen sosiaaliturvatunnus (SSN)
- Yhdysvaltalainen passinumero
- Yhdysvaltalainen ajokorttinumero
- Yhdysvaltalainen pankkitilinumero
- ITIN USA
- Yhdysvaltalainen lääkärinlisenssinumero
Universaalit tunnisteet:
- Sähköpostiosoite
- Puhelinnumero
- IP-osoite
- Luottokorttinumero
- Kryptovaluuttalompakon osoite
- URL
Tekstipohjaiset entiteetit (NER-pohjaiset):
- HENKILÖ
- PAIKKA
- ORGANISAATIO
- PÄIVÄYS_AIKA
Rajallinen kansainvälinen tuki:
- Brittiläinen NHS-numero
- Brittiläinen kansanvakuutusnumero (NINO)
- Joitakin taloustunnistimia
Yhteensä: noin 40 tunnistinta.
Mitä EU-tiimit tarvitsevat
Taloustunnisteet
IBAN esiintyy useimmissa eurooppalaisissa yritysasiakirjoissa. Se esiintyy maksuissa, laskuissa ja palkkalistoissa. IBAN noudattaa ISO 13616 -standardia. Presidiolla ei ole IBAN-tunnistinta.
Otetaan esimerkiksi saksalainen fintech-yritys. Jokaisessa maksutiedostossa on IBAN. Ilman IBAN-tunnistusta työkalu etsii vain luottokorttinumeroita. EU:n tärkein maksutunniste jää huomiotta. Tämä tarkoittaa, että keskeinen GDPR:n kattama tieto ei koskaan löydy.
Kansalliset verotunnisteet
Mikään näistä ei ole Presidion oletusarvoissa:
- Saksalainen Steueridentifikationsnummer: 11 numeroa
- Ranskalainen NIR: 15 numeroa tarkistusavaimella
- Italialainen codice fiscale: 16 merkkiä tarkistussummalla
- Espanjalainen NIF/NIE: 9 merkkiä kirjaimella
- Hollantilainen BSN: 9 numeroa elfproef-validoinnilla
Eurooppalainen HR-tiimi käsittelee useista jäsenvaltioista peräisin olevia tiedostoja. Ilman näitä se menettää herkimmät tunnisteet kyseisissä tietueissa.
Kansalliset terveydenhuollon tunnisteet
Brittiläinen NHS-numero on katettu. Nämä eivät ole:
- Ranskalainen NIR (myös terveydenhuollon tunniste)
- Saksalainen Krankenversicherungsnummer
- Italialainen codice fiscale (myös terveydenhuollon tunniste)
- Hollantilainen BSN (käytetään sairausvakuutuksessa)
Eurooppalaiset terveydenhuoltotiimit tarvitsevat näitä GDPR-tason tietosuojaan.
EU:n ajokortit
EU:n ajokortit kuuluvat direktiivin 2006/126/EY piiriin. Kullakin jäsenvaltiolla on oma formaattinsa. Aakkosnumeerinen rakenne vaihtelee maittain. Presidiolla on ajokorttitunnisteita vain Yhdysvalloille. EU:n ajokorteille ei ole tukea. Tämä tarkoittaa, että EU:n ajokorttitiedot jäävät huomaamatta.
ALV-numerot
EU:n ALV-numerot esiintyvät jokaisessa B2B-transaktiossa. Muoto: 2-kirjaiminen maakoodi plus 8–12 numeroa. Presidiolla ei ole ALV-tunnistinta. ALV-numerot on yhdistetty yrityksiin ja niiden omistajiin. Ne ovat henkilötietoja GDPR:n mukaan.
Lisätietoja GDPR-velvoitteista löydät GDPR-compliance-dokumentaatiostamme.
Mukautettujen tunnistimien kustannukset
Kun EU-tiimit löytävät aukon, he rakentavat mukautettuja tunnistimia. Tämä vie todellista aikaa.
Aika per tunnistin (karkea arvio):
- Formaatin tutkiminen: 1–2 tuntia
- Python-luokan kirjoittaminen: 2–4 tuntia
- Regexin ja validoinnin luominen: 2–4 tuntia
- Kontekstisanojen lisääminen: 1–2 tuntia
- Testien kirjoittaminen: 2–3 tuntia
- Käyttöönotto ja verifiointi: 1–2 tuntia
Se on 9–17 tuntia per tunnistin. Nämä ovat karkeita arvioita.
Esimerkki: saksalainen fintech-yritys tarvitsee neljä tunnistinta.
IBAN, Steuer-ID, EU:n ajokortti, saksalainen ALV.
- 4 tunnistinta × 13 tuntia = 52 tuntia työtä
- 100 €/h: noin 5 200 €
Tämä kattaa vain ensimmäisen toteutuksen. Formaatit muuttuvat ajan myötä. Uusia reunatapauksia ilmenee. Presidion API-päivitykset voivat rikkoa asioita. Jokainen muutos vaatii kehittäjän tarkistamaan ja korjaamaan. Jatkuva työ lisää kustannuksia vuosi toisensa jälkeen.
Hallittu kirjasto
anonym.legal laajentaa Presidiota yli 285 entiteettityypillä. Tiimi ylläpitää kirjastoa ajantasaisena. EU-tunnisteet sisältyvät alusta päivästä alkaen.
Mitä menee Presidion oletusarvojen ulkopuolelle:
- IBAN kaikissa EU:n jäsenvaltioiden formaateissa
- Kansalliset verotunnisteet: Steuer-ID, NIR, codice fiscale, NIF/NIE, BSN, PESEL ja muut
- Eurooppalaiset kansalliset terveydenhuollon tunnisteet
- ALV-numerot (EU-formaatti)
- EU:n ajokorttien formaatit
- Eurooppalaisten passien formaatit
- Entiteettivariantit 48 tuetussa kielessä
Kun Saksa päivittää verotunnisteen formaatin, päivitys toimitetaan palvelun mukana. Tiimiisi ei tarvitse tehdä pull requestia.
Tunnisteille, joita kirjastossa ei ole, mukautettujen entiteettien rakentaja mahdollistaa kuvioiden lisäämisen. Python-koodia ei tarvita.
Katso tietoturva- ja compliance-dokumentaatiomme siitä, miten päivitykset ja auditointilokitukset toimivat.
Saksalainen fintech-esimerkki
Saksalaisen fintech-yrityksen on tunnistettava IBAN, BIC, Steuer-ID ja Handelsregisternummer asiakastiedostoista.
Presidion oletustunnistusaste näille neljälle tyypille: 0 %.
Mikään niistä ei ole oletuskirjastossa. Kyse ei ole heikosta tarkkuudesta. Se on nolla tunnistusta. Työkalu ei osin missaa niitä. Se ei näe niitä lainkaan.
Kustannusvertailu:
| Lähestymistapa | Ensimmäisen vuoden kustannus |
|---|---|
| Mukautetut tunnistimet (4 × 13 h × 100 €/h) | ~5 200 € plus jatkuva ylläpito |
| Hallittu entiteettikirjasto (Pro-suunnitelma) | 180 €/vuosi, kaikki neljä katettu |
Ero on noin 29-kertainen ensimmäisenä vuonna. Joka seuraavana vuonna mukautettu ylläpito lisää lisäkustannuksia. Hallitun palvelun hinta pysyy muuttumattomana.
Yhteenveto
Prresidion oletusarvot palvelevat hyvin yhdysvaltalaisia käyttötapauksia. GDPR:n alaisille EU-käyttöönotoille ne ovat riittämättömiä. Aukko vaatii joko mukautettua tunnistintyötä tai hallittua palvelua.
EU-tiimeille, joille compliance on pakollista ja insinööriaika rajoitettua, valmiiksi rakennettu EU-entiteettikirjasto poistaa yli 50 tunnin kehitysprojektin. Tiedostoja voidaan käsitellä ensimmäisestä päivästä alkaen. Mukautettua koodia ei tarvita.