Zana za PII za Kiingereza Peke Yake: Pengo la GDPR
GDPR Haina Upendeleo wa Lugha
GDPR inashughulikia data ya kibinafsi katika lugha yoyote. Kijerumani, Kifaransa, Kipolandi, Kiswidi - zote zinashughulikiwa kwa usawa. Steuer-ID iliyokosekana huunda hatari sawa ya kisheria na nambari ya Usalama wa Jamii iliyokosekana. Sheria haijalishi lugha.
Zana nyingi za kugundua PII zinalijali.
Zana zinazoongoza za biashara na chanzo wazi ziliundwa kwa maandishi ya Kiingereza. Vigundua vya huluki vyao vinaakisi hili. Vinashughulikia vizuri Nambari za Usalama wa Jamii za Marekani, leseni za udereva za Marekani, na miundo ya simu ya NANP. Vigundua kwa vitambulisho vya kitaifa visivyo vya Kiingereza vina usahihi mdogo zaidi. Vimehifadhiwa vizuri kidogo. Vinakosa vitambulisho halisi mara nyingi zaidi.
Kwa makampuni katika nchi wanachama wa EU, hii huunda pengo la ufunikaji. Zana inasema kugundua kumekamilika. Lakini vitambulisho visivyo vya Kiingereza vibaki kwenye data. Hizi mara nyingi ni vitambulisho vyenye mfiduo mkubwa zaidi wa GDPR katika nchi fulani.
Mandalizi ya data yanaona hili. Wakaguzi wanalitafuta. Zana inaweza kufanya kazi vizuri kwenye kumbukumbu za Kiingereza. Lakini ikiwa inashindwa kwenye kumbukumbu za Kijerumani au Kifaransa, haiko katika utii. Ripoti safi haibadilishi hilo.
Vitambulisho vya Kitaifa Vinatofautiana kwa Muundo
Pengo kati ya zana zinazozingatia Kiingereza na zana za lugha nyingi sio kuhusu kuongeza mifumo zaidi ya regex. Vitambulisho vya kitaifa vya EU ni tofauti sana kutoka kwa vingine. Vinahitaji mantiki maalum ya nchi ili vigundulive kwa usahihi.
Steuer-Identifikationsnummer ya Kijerumani (Steuer-ID): Tarakimu 11. Inatumia jumla ya ukaguzi kulingana na tofauti ya fomula ya Luhn. Regex ya jumla ya SSN haitaifanana. Regex ya nambari yoyote ya tarakimu 11 huunda uwongo mwingi sana wa matokeo chanya katika hati za Kijerumani.
NIR ya Kifaransa (Numero d'inscription au repertoire): Tarakimu 15. Muundo unasimba jinsia, mwaka wa kuzaliwa, mwezi wa kuzaliwa, na idara ya kuzaliwa. Pia unajumuisha mpangilio wa kuzaliwa na ufunguo wa udhibiti wa tarakimu 2. Ufunguo wa udhibiti lazima uthibitishwe kwa kugundua kwa usahihi.
Personnummer ya Kiswidi: Tarakimu 10 zenye tarakimu ya ukaguzi ya Luhn. Watu waliozaliwa kabla ya 1990 hutumia kitenganishi cha + badala ya -. Hiyo hubadilisha muundo ambao lazima ugundulive.
PESEL ya Kipolandi: Tarakimu 11. Inasimba tarehe ya kuzaliwa, jinsia, na tarakimu ya ukaguzi kulingana na jumla zilizopimwa. Kugundua kwa usahihi kunahitaji kufanana kwa muundo na uthibitisho wa jumla ya ukaguzi.
Hizi si tofauti za mfumo wa kawaida. Kila moja ina urefu tofauti. Kila moja inatumia njia tofauti ya ukaguzi. Kila moja inasimba data katika mpango tofauti wa msimamo. Mfano wa NER uliofunzishwa kwa Kiingereza ukiona NIR ya Kifaransa hatatambua kama kitambulisho cha kitaifa. Atakipuuza au kukiainisha vibaya.
Hatari ya Vitendo ya Utii
Fikiria afisa wa utii katika BPO ya Ulaya. Wanashughulikia data kutoka Ujerumani, Ufaransa, Upolandi, na Uholanzi kwa wakati mmoja. Zana yao inaripoti kufanikiwa kwa kutambulisha PII.
Lakini matokeo si kamili. Steuer-ID katika kumbukumbu za Kijerumani zinabaki. Nambari za NIR katika kumbukumbu za Kifaransa zinabaki. Nambari za PESEL katika kumbukumbu za Kipolandi zinabaki. Vigundua vya zana kwa miundo hii havipo au havina usahihi wa kutosha.
Baadaye, seti ya data huenda kwa uchambuzi au kwa mshirika wa utafiti. Data bado ina vitambulisho vya kitaifa vinavyoweza kutambuliwa upya. Tatizo la GDPR haliongezeki kwenye kumbukumbu za matokeo za zana. Linaonekana ombi la ufikiaji wa data ya mtu binafsi linapofika. Linaweza kuonekana wakati wa ukaguzi wa mamlaka ya data. Linaweza kuonekana baada ya uvunjaji wa data.
Utafiti unaolinganisha mbinu za mseto wa lugha nyingi dhidi ya zana zinazozingatia Kiingereza ulipata matokeo wazi. Mbinu za mseto zinafikia alama za F1 za 0.60 hadi 0.83 katika maeneo ya Ulaya. Zana za Kiingereza peke yake zinapata karibu na sifuri kwa miundo ya vitambulisho vya kitaifa visivyo vya Kiingereza.
Angalia muhtasari wetu wa utii wa GDPR kwa jinsi mapungufu haya yanavyolingana na majukumu ya GDPR.
Kile Ufunikaji Kamili Unahitaji
Kugundua PII kamili ya lugha nyingi kwa utii wa EU GDPR kunahitaji tabaka tatu.
Mifano ya spaCy asilia ya lugha hutoa uelewa wa kisemantiki katika lugha ya maandishi. Mfano uliofunzishwa kwenye maandishi ya Kijerumani unajua kwamba "Muller" ni jina la kawaida la Kijerumani. Mifano ipo kwa lugha 25 za EU zenye rasilimali nyingi.
Mifano ya NLP ya Stanza hupanua ufunikaji kwa lugha ambazo hazipo katika spaCy. Hii inaongeza ufikiaji kwa jamii za lugha nyingi zaidi za EU.
Mifano ya transformer ya lugha mbalimbali (XLM-RoBERTa) inashughulikia visa vya lugha mbalimbali. Jina katika sentensi ya Kifaransa linatambuliwa kama jina la mtu. Hii inafanya kazi hata kama injini haikufunzishwa kwenye jina hilo maalum.
Regex yenye uthibitisho maalum wa nchi inashughulikia vitambulisho vya kitaifa vilivyopangwa. Steuer-ID, NIR, PESEL, na Personnummer kila moja inahitaji mantiki yake ya jumla ya ukaguzi. Hii hupunguza matokeo chanya ya uwongo. Mfuatano wa tarakimu ambao haupiti sheria za uthibitisho wa nchi huchujwa.
Pengo ni la kimuundo. Kuongeza orodha za maneno au mifumo zaidi ya regex kutoa uboreshaji mdogo tu. Kujenga ufunikaji wa vitambulisho vya EU kutoka mwanzo ndiyo mbinu ya kutegemewa pekee.
Angalia Zana Yako ya Sasa
Ulizia mtoaji wako alama za F1 kwenye kumbukumbu za Kijerumani, Kifaransa, Kipolandi, na Kiholanzi. "Inaunga mkono lugha nyingi" mara nyingi inamaanisha zana inatumia tafsiri kwanza. Hiyo si uchunguzi wa asili. Utii wa GDPR unahitaji uchunguzi wa asili.
Jaribu kwa sampuli halisi za kitambulisho cha kitaifa. Jenga seti fupi ya majaribio yenye mifano 10 ya kila aina ya kitambulisho katika shughuli zako. Steuer-ID, NIR, PESEL, Personnummer. Angalia viwango vya kugundua. Hii ni haraka zaidi kuliko jaribio kamili la F1 na inaonyesha mapungufu haraka.
Angalia ukurasa wetu wa usalama na utii kwa jinsi anonym.legal inavyoshughulikia mahitaji haya. Kwa ufafanuzi wa aina za huluki, tembelea rejea ya huluki.