Enskumiðuð PII-tæki: GDPR-bilið
GDPR hefur enga tungumálaflokkun
GDPR nær yfir persónuupplýsingar á hvaða tungumáli sem er. Þýska, franska, pólska, sænska - öll eru jafngild. Saknað Steuer-ID skapar sömu lagalegu áhættu og saknað kennitölu. Lögin skipta ekki tungumáli.
Flest PII-uppgötvunartæki gera það.
Framsæknustu viðskipta- og oplindar tækin voru byggð fyrir enska texta. Einingagreinarnir þeirra endurspegla þetta. Þeir ná vel yfir bandarískar kennitölur, bandarískar ökuskírteinisnúmer og NANP-símanúmersform. Greinarnir fyrir erlendar þjóðarkennimiðar eru minna nákvæmir. Þeir eru síður vel viðhaldnir. Þeir missa raunverulegar kennimiðar oftar.
Fyrir fyrirtæki á milli ESB-þjóðríkja skapar þetta þekjubil. Tækið segir að uppgötvan sé fullkomin. En erlend kennimiðar eru enn í gögnunum. Þessar eru oft kennamiðarnar með mestu GDPR-útsetningu í ákveðnum löndum.
Gagnastarfsveitar sjá þetta. Endurskoðendur leita að þessu. Tæki getur virkað vel á enskum skrám. En ef það mistakast á þýskum eða frönskum skrám er það ekki samræmt. Hrein skýrsla breytir því ekki.
Þjóðarkennamiðar eru mismunandi að uppbyggingu
Bilið milli enskumiðaðra tækja og fjöltyngismálatækja snýst ekki um að bæta við fleiri regluleg tjáningarmunstur. ESB-þjóðarkennamiðar eru mjög mismunandi. Þeir þurfa landssértækar rök til að vera greindar rétt.
Þýskt Steuer-Identifikationsnummer (Steuer-ID): 11 tölustafir. Notar eftirlitssummu sem byggir á afbrigði af Luhn-formúlu. Almenn SSN-tjáning mun ekki stemma við hana. Tjáning fyrir hvers kyns 11-stafa tölu skapar of margar falskar jákvæðar í þýskum skjölum.
Franskt NIR (Numero d'inscription au repertoire): 15 tölustafir. Sniðið kóðar kyn, fæðingarár, fæðingarmánuð og fæðingardeild. Það inniheldur einnig fæðingarröð og 2-stafa stjórnarlykil. Stjórnarlykillinn verður að vera staðfestur fyrir rétta uppgötvun.
Sænskt Personnummer: 10 tölustafir með Luhn-eftirlitsstaf. Fólk fætt fyrir 1990 notar + aðskilnað í stað -. Það breytir sniðinu sem verður að greina.
Pólskt PESEL: 11 tölustafir. Kóðar fæðingardagsetningu, kyn og eftirlitsstaf sem byggist á vegnum summum. Rétt uppgötvan þarfnast bæði snið samsvörunar og eftirlitssummusannprófunar.
Þessar eru ekki afbrigði af sameiginlegu mynstri. Hvert hefur aðra lengd. Hvert notar aðra eftirlitsaðferð. Hvert kóðar gögn í öðru staðsetningarkerfi. NER-líkan þjálfað á ensku sem sér franskt NIR mun ekki þekkja það sem þjóðarkennamerki. Það mun hunsa það eða rangflokka það.
Hagnýtur samræmniáhættan
Lítum á samræmnistarfsmann hjá evrópskum BPO. Þeir vinna úr gögnum frá Þýskalandi, Frakklandi, Póllandi og Hollandi í einu. Tækið þeirra greinir frá árangursríkri PII-nafnlögun.
En niðurstaðan er ekki fullkomin. Steuer-ID í þýskum skrám eru eftir. NIR-númer í frönskum skrám eru eftir. PESEL-númer í pólskum skrám eru eftir. Greinarnir í tækinu fyrir þessi snið vantar eða eru of ónákvæmir.
Seinna fer gagnasettið til greiningar eða til rannsóknarfélaga. Gögnin innihalda enn endurgreinanlegar þjóðarkennaminðar. GDPR-vandinn birtist ekki í frálægsskrám tækisins. Hann kemur í ljós þegar beiðni um aðgang að gögnum berst. Hann getur komið í ljós við gagnastarfsveita endurskoðun. Hann getur komið í ljós eftir gagnabrot.
Rannsóknir sem bera saman blendnar fjöltyngismálaleg leiðir við enskumiðuð tæki fundu skýrar niðurstöður. Blandaðar aðferðir ná F1-stigum 0,60 til 0,83 yfir evrópsk svæði. Enskur einmálalegar tæki fá nálægt núll fyrir erlend þjóðarkennamiðarsnið.
Sjá GDPR-samræmningaryfirlit fyrir hvernig þessi bil varpa á GDPR-skyldur.
Hvað full þekja krefst
Sönn fjöltyngisleg PII-uppgötvan fyrir GDPR-samræmni þarf þrjár lög.
Tungumálanæmar spaCy-líkön veita merkingarfræðilegan skilning á tungumáli textans. Líkan þjálfað á þýskum texta veit að "Muller" er algengt þýskt eftirnafn. Líkön eru til fyrir 25 háauðlindatungumál í ESB.
Stanza NLP-líkön víkka þekjuna til tungumála sem eru ekki í spaCy. Þetta bætir við sviðsmöguleika fyrir fleiri ESB-tungumálasamfélög.
Þverlingvistilíkön (XLM-RoBERTa) meðhöndla þverlingvistilegar aðstæður. Nafn í frönskri setning u er þekkt sem mannanafn. Þetta virkar jafnvel þótt vélin hafi ekki verið þjálfuð á því tiltekna nafni.
Regluleg tjáning með landssértæka sannprófun nær yfir skipulagðar þjóðarkennamiðar. Steuer-ID, NIR, PESEL og Personnummer þurfa hvert sitt eftirlitssummurök. Þetta dregur úr fölskum jákvæðum. Tölustafastrengir sem standast ekki landssannprófunarreglur eru síaðir út.
Bilið er uppbyggingarlegt. Að bæta við orðalistum eða fleiri reglulegum tjáningum gefur aðeins minniháttar umbætur. Að byggja inn ESB-kennamiðaþekju frá upphafi er eina áreiðanlega leiðin.
Athugndu núverandi tæki þitt
Biddu lánardrottin þinn um F1-stig á þýskum, frönskum, pólskum og holllenskum skrám. "Styður mörg tungumál" þýðir oft að tækið notar þýðingu fyrst. Það er ekki innfædd skoðun. GDPR-samræmni krefst innfæddrar skoðunar.
Prófaðu með raunverulegum þjóðarkennamiðarsýnum. Búðu til stutt prófasett með 10 dæmum af hverjum kenna-miðargerð í starfsemi þinni. Steuer-ID, NIR, PESEL, Personnummer. Athugndu uppgötvunartíðni. Þetta er hraðara en fullt F1-próf og sýnir bil fljótt.
Sjá öryggi og samræmni síðu okkar fyrir hvernig anonym.legal takast á við þessar kröfur. Fyrir skilgreiningar á einingagerðum, heimsóttu eininga viðmiðunina.