Kelių kalbų asmens duomenys: kodėl vienakalbiai įrankiai atsilieka
Atnaujinta 2026 m.
Dokumentai kerta kalbų ribas
Šveicarijos farmacijos įmonės darbo sutartis nėra viena kalba. Šveicarijoje yra keturios oficialios kalbos. Šveicarijos įmonės pagrindinę dalį rašo vokiškai, teisines sąlygas – prancūziškai, o globalias dalis – angliškai. Tai gali nutikti net viename paragrafe.
Belgijos valdybos posėdžio protokolas turi tekstą olandiškai, oficialias dalis prancūziškai ir santraukas angliškai. Globalus duomenų sandoris gali turėti angliškas technines specifikacijas ir vokiškus teisių sąlygų punktus.
Tai nėra išimtis. Tai yra norma DACH ir ES įmonėms. Vienakalbiai asmens duomenų aptikimo įrankiai nepajėgia tinkamai apdoroti tokių failų.
45 % praleidimų spraga
Vienakalbių NER įrankių asmens duomenų praleidimų dažnis mišriuose failuose yra 45 % didesnis. Palyginimui imami gryni vienos kalbos failai.
Pagrindinė priežastis – projektavimo sprendimai. Modelis, apmokytas vokiškame tekste, žino vietos vardų formas ir adresų taisykles. Kai jis susiduria su prancūzišku skyriumi, jis viršija savo mokymo sritį. Vardai ir ID toje dalyje aptinkami prastai. Modelis nėra silpnas – jis buvo sukurtas kitai kalbai.
EDPB 2024 m. nustatė, kad 72 % ES įmonių vienu metu apdoroja failus trimis ar daugiau kalbų. Gartner 2024 m. nustatė, kad daugiakalbiai HR failai turi 67 % daugiau asmens duomenų vienam puslapiui nei vienos kalbos failai. Daugiau asmens duomenų kartu su daugiau praleidimų dar labiau padidina spragą.
Žiūrėkite mūsų BDAR vadovą dėl taikomų taisyklių.
Kur klaidų klasterizuojasi
Klaidos nėra tolygiai pasiskirsčiusios visame faile. Asmens duomenys skyriaus perėjimuose yra labiausiai pažeidžiami.
Įsivaizduokite šią sąlygą: vokiška sakinio struktūra, prancūziškas darbuotojo vardas ir prancūziška gimimo data – viskas viename sakinyje. NER modelis mato prancūzišką vardą ten, kur tikisi vietos vardo. Jis gali jo nepažymėti. Prancūziškai apmokytas modelis mato vokiškus kontekstinius žodžius ir negali perskaityti struktūros.
HR failai padaro tai itin brangiai kainuojančia klaida. Gartner nustatė 67 % daugiau asmens duomenų vienam puslapiui mišriuose HR failuose. Klaidos skyriaus perėjimuose labiausiai skaudžios failo tipo, kuriame yra daugiausia asmens duomenų.
Tarpkalbiniai modeliai išsprendžia problemą
XLM-RoBERTa apmokomas vienu metu 100 kalbų tekstu. Jis nenaudoja atskiro modelio kiekvienai kalbai. Jis išmoksta, kad vardų aptikimas veikia vienodai skirtinguose kalbiniuose kontekstuose. Vardas ir jo kontekstas turi tą pačią struktūrą vokiškai, prancūziškai ir angliškai.
Mišriems failams modelis neperjungiamas ties skyriaus perėjimu. Jis skaito visą tekstą kaip vieną bloką. Jis taiko tas pačias objektų taisykles kiekviename taške.
Derinimas su vokiečių ir prancūzų kalbomis padidina tikslumą kiekvienai kalbai atskirai. Tačiau tarpkalbinis pagrindas aptinka asmens duomenis perėjimuose, kur vienakalbiai modeliai atsilieka.
DACH įmonėms, kurių failai kerta kalbų skyrius, tai yra realus privalumas. Vienakalbių įrankių perėjimuose praleisti objektai randami tarpkalbiniais modeliais.
Žiūrėkite mūsų apsaugos priemonių puslapį, kaip anonym.legal tai sprendžia.
Veiksmai dabar
Patikrinkite savo įrankio aprėptį. Paklauskite tiekėjo apie atkūrimo balus pagal kalbą. "Palaiko daug kalbų" gali reikšti, kad tekstas pirmiausia eina per mašininį vertimą. Tai nėra natyvus nuskaitymas.
Susiekite failus pagal kalbą. DACH įmonė su 60 % vokiečių, 30 % prancūzų ir 10 % anglų kalbos turi skirtingas spragas.
Testuokite su skyriaus perėjimo pavyzdžiais. Sukurkite bandomąjį rinkinį su dešimčia mišrių kalbų sąlygų pavyzdžių. Patikrinkite atkūrimą visame faile, o ne tik pagrindinės kalbos dalyse.
Patikrinkite savo DPIA. DPIA, sukurta remiantis vienos kalbos įrašais, gali būti neišsami. Išspręskite tai prieš tai, kol tai padarys auditas.
API detalių ir objektų aprėpties žiūrėkite kainų puslapyje.
anonym.legal naudoja XLM-RoBERTa kartu su natyviais spaCy ir Stanza modeliais. Jis randa asmens duomenis skyriaus perėjimuose vokiečių, prancūzų, anglų ir dar 45 kalbomis.