GDPR:llä ei ole kielivalintaa
Yleinen tietosuoja-asetus koskee yhtä lailla henkilökohtaisia tietoja saksaksi, ranskaksi, puolaksi, ruotsiksi, espanjaksi, italiaksi ja kaikilla muilla kielillä, joita käsitellään asetuksen alaisissa organisaatioissa. Saksalaisten asiakastietojen ohittaminen tunnistimessa luo saman sääntelyaltistuksen kuin englanninkielisten asiakastietojen ohittaminen. GDPR ei tee eroa kielen mukaan.
Useimmat PII-tunnistustyökalut tekevät.
Hallitsevat kaupalliset ja avoimen lähdekoodin PII-tunnistustyökalut on rakennettu ja testattu ensisijaisesti englanninkielisellä tekstillä. Niiden entiteettitunnistimet heijastavat tätä: Yhdysvaltain sosiaaliturvatunnukset, Yhdysvaltain ajokortit, Yhdysvaltain passimuodot ja yleiset universaalit tunnistimet (sähköpostiosoitteet, puhelinnumerot NANP-muodossa, luottokorttinumerot). Ei-englanninkielisten kansallisten tunnistimien tunnistimet — kun niitä on olemassa — ovat usein vähemmän tarkkoja, huonosti ylläpidettyjä ja todennäköisemmin tuottavat vääriä negatiivisia tuloksia.
EU:n jäsenvaltioissa toimiville yrityksille tämä luo systemaattisen vaatimustenmukaisuusaukko: työkalu raportoi, että PII on havaittu ja poistettu, mutta ei-englanninkieliset tunnistimet, jotka edustavat suurinta GDPR-altistusta tietyillä lainkäyttöalueilla, jäävät tietoihin.
Rakenteellinen ero kansallisten tunnistimien välillä
Ero englanninkielisten työkalujen ja aidosti monikielisten työkalujen välillä ei ole vain lisäämistä enemmän regex-malleja. Kansallisten tunnistimien muodot EU:n jäsenvaltioissa ovat rakenteellisesti erilaisia tavoilla, jotka vaativat lainkäyttöaluekohtaisia tietoja oikean havaitsemisen varmistamiseksi.
Saksalainen Steuer-Identifikationsnummer (Steuer-ID): 11-numeroista verotunnistetta, jossa on erityinen tarkistussumma-algoritmi, joka perustuu Luhn-kaavan muunnelmaan. Yleinen SSN-regex ei vastaa tätä muotoa. Regex, joka vastaa mitä tahansa 11-numeroista lukua, tuottaa valtavia vääriä positiivisia tuloksia saksalaisissa talousasiakirjoissa.
Ranskalainen NIR (Numéro d'inscription au répertoire): 15-numeroista tunnistetta, joka sisältää haltijan sukupuolen, syntymävuoden, syntymäkuukauden, syntymäosaston tai maan koodin, syntymäjärjestysnumeron ja 2-numeroisen tarkistusavaimen. Havaitseminen vaatii rakenteen ymmärtämistä ja tarkistusavaimen validointia.
Ruotsin Personnummer: 10-numeroista tunnistetta (joskus vuosisadan indikaattorilla, jolloin se on 12 numeroa), jossa on Luhn-tarkistusnumero. Muoto vaihtelee iän mukaan: ennen vuotta 1990 syntyneet käyttävät +-erotinta -n sijaan, mikä muuttaa havaittavaa muotoa.
Puolan PESEL: 11-numeroista tunnistetta, joka koodaa syntymäpäivän, sukupuolen ja tarkistusnumeron, joka perustuu painotettuun summa-algoritmiin. Oikea havaitseminen vaatii sekä muodon vastaamista että tarkistussumman validointia.
Nämä eivät ole muotovariaatioita yhteisestä mallista. Ne ovat rakenteellisesti erilaisia tunnisteita, joilla on eri pituudet, erilaiset validointialgoritmit ja erilaiset paikalliset koodausjärjestelmät. Englanniksi koulutettu NER-malli, joka kohtaa ranskalaisen NIR:n tekstissä, ei tunnista sitä kansalliseksi tunnisteeksi — se joko ohittaa sen tai, jos se vastaa jotain muuta mallia, luokittelee sen väärin.
Käytännön vaatimustenmukaisuuden seuraus
EU:n BPO:n vaatimustenmukaisuusviranomaiselle, joka käsittelee asiakaspalvelutietoja Saksasta, Ranskasta, Puolasta ja Alankomaista samanaikaisesti, käytännön seuraus on systemaattinen havaitsemisaukko ei-englanninkielisissä asiakirjoissa.
Vaatimustenmukaisuusviranomaisen työkalu raportoi onnistuneesta PII-anonymisoinnista. Anonymisoidut tiedot sisältävät edelleen Steuer-ID:t saksalaisissa asiakirjoissa, NIR-numerot ranskalaisissa asiakirjoissa ja PESEL-numerot puolalaisissa asiakirjoissa — koska työkalun tunnistimet näille muodoille ovat joko poissa tai riittämättömän tarkkoja.
Kun anonymisoitua datasettiä käytetään myöhemmin analytiikassa, testauksessa tai jaettaessa tutkimuskumppanin kanssa, "anonymisoidut" tiedot sisältävät edelleen uudelleen tunnistettavia kansallisia tunnistustietoja. GDPR-rikkomus ei näy työkalun tuloslokissa. Se tulee näkyviin, kun tietosubjektin pääsypyyntö, valvontaviranomaisen tarkastus tai tietoturvaloukkaus paljastaa, että ei-englanninkielisiä tunnistimia ei poistettu.
Tutkimus, joka vertaa hybridimonikielisiä PII-tunnistusmenetelmiä yksikielisiin englanninkeskeisiin työkaluihin, havaitsi, että hybridimenetelmät saavuttavat F1-pisteet 0.60 - 0.83 eri Euroopan alueilla — verrattuna lähes nollan suorituskykyyn englanninkielisille työkaluilla, joita sovelletaan ei-englanninkielisiin tunnistusmuotoihin.
Mitä kattava kattavuus vaatii
Aito monikielinen PII-tunnistus EU:n GDPR-vaatimustenmukaisuuden varmistamiseksi vaatii kolmea arkkitehtonista kerrosta, jotka toimivat yhdessä:
Kielikohtaiset spaCy-mallit tarjoavat semanttista ymmärrystä nimistä, organisaatioista ja sijainneista tekstin kielellä. SpaCy-malli, joka on koulutettu saksankielisellä tekstillä, ymmärtää, että "Müller" on yleinen sukunimi saksalaisessa kontekstissa — ei vain päättyvä sana. Malteja on olemassa 25:lle korkearesurssille EU-kielelle.
Stanza NLP -mallit laajentavat kattavuutta lisäkielille, joita spaCy ei kata samalla tarkkuustasolla.
Ristiinlingvistiset muunnosmalleja (XLM-RoBERTa) käsittelevät ristiinkielistä epäselvyyttä, jota pelkkä mallin vastaavuus ei voi käsitellä — tunnistaen, että nimi, joka esiintyy ranskalaisessa lauseessa, on henkilön nimi, vaikka tunnistamo ei olisi erityisesti koulutettu kyseiselle nimelle.
Regex lainkäyttöaluekohtaisella validoinnilla kattaa rakenteelliset kansalliset tunnistimet — Steuer-ID, NIR, PESEL, Personnummer — tarkistussumman validoinnilla, joka eliminoi vääriä positiivisia tuloksia.
Vaatimustenmukaisuusviranomaiselle, jonka työkalu tällä hetkellä ohittaa ei-englanninkieliset tunnistimet: aukko on rakenteellinen, ei konfiguraatio. Sanalistojen lisääminen tai regex-kattavuuden laajentaminen tuo vain marginaalista parannusta. Kattava EU:n GDPR-vaatimustenmukaisuus monikielisille tiedoille vaatii työkalua, joka on rakennettu EU:n tunnistuskattavuus suunnitteluvaatimuksena, ei jälkikäteisenä ajatuksena.
Lähteet: