PII Hizkuntza Nahasian: Zergatik Hizkuntz Bakarreko Tresnek Huts Egiten Duten
2026rako eguneratuta.
Dokumentuak Hizkuntza-Mugak Gainditzen Dituzte
Suitzako farmazeutika-enpresa baten lan-kontratua ez dago hizkuntza batean. Suitzak lau hizkuntza ofizial ditu. Suitzako enpresek gorputz nagusian alemana, klausula juridikoetan frantsesa eta atzerriko ataletan ingelesa nahasten dituzte. Hori paragrafo berean gerta daiteke.
Belgikako batzorde-minutu batek testu nederlandera du, zati formal frantsesa eta laburpen ingelesak. Mundu mailako datu-akordio batek ingelesezko zehaztapen teknikoak eta alemaniazko eskubide-klausulak izan ditzake.
Hau ez da arraroa. Europa Zentraleko eta EBko enpresentzat araua da. PII tresna elebakarrek fitxategi hauetan huts egiten dute.
%45ko Galera-Tasaren Arrakala
NER tresna elebakarrek %45 PII galera-tasa handiagoa dute fitxategi nahastuetan. Hau hizkuntza bakarreko fitxategiekin alderatuta da.
Erroa diseinuan dago. Alemana testuan trebatutako modelo batek tokiko izen-formak eta helbide-arauak ezagutzen ditu. Frantsesezko atal bat aurkitzean, bere trebakuntza-eremutik kanpo dago. Zati horretako izenak eta IDak detekzio txarra jasotzen dute. Modeloa ahula ez da — hizkuntza desberdin baterako eraikia zegoen.
EDPB 2024-k ikusi zuen EBko enpresen %72k aldi berean hiru hizkuntza edo gehiagotan dokumentuak kudeatzen dituztela. Gartner 2024-k ikusi zuen hizkuntza anitzeko HR dokumentuek %67 PII gehiago dituztela orrialdeko hizkuntza bakarreko dokumentuekin alderatuta. PII gehiago gehi galera gehiago arrakala areagotzen du.
Ikusi gure GDPR gida aplikatzen diren arauen inguruan.
Non Multzen Diren Akatsak
Huts-egitea ez da fitxategi batean zehar berdina. Atalen arteko puntuetan PII arrisku gehienean dago.
Kontsideratu klausula hau: alemaniazko esaldi-egitura, frantsesezko langile-izena eta frantsesezko jaiotze-data — lerro berean. NER modeloak frantsesezko izena ikusten du tokiko bat espero zuen tokian. Baliteke ez markatzea. Frantsesez trebatutako modelo batek alemaniazko testuinguru-hitzak ikusten ditu eta ezin du egitura irakurri.
HR fitxategiek hau garestia egiten dute. Gartnerrek %67 PII gehiago ikusi zuen orrialdeko fitxategi nahastuetan. Atalen arteko puntuetan akatsak min gehien egiten dute datu pertsonalik gehien duen fitxategi mota horretan.
Hizkuntza Gurutzatuetako Modeloek Hau Konpontzen Dute
XLM-RoBERTa aldi berean 100 hizkuntzako testuan trebatzen da. Ez du hizkuntza bakoitzeko modelo berri bat erabiltzen. Ikaskuntzak izen-detekzioa modu berean funtzionatzen duela ikasten du hizkuntz testuinguru guztietan. Izen batek eta bere testuinguruak egitura berbera partekatzen dute alemaneraz, frantsesez eta ingelesez.
Fitxategi nahastu batentzat, modeloak ez du atal-haustura batean aldatzen. Testu osoa bloke bakar gisa irakurtzen du. Entitate-arau berberak aplikatzen ditu puntu bakoitzean.
Alemana eta frantsesa findu-trebatzeak zehaztasuna gehitzen die hizkuntza bakoitzari banaka. Baina hizkuntza gurutzatuaren oinarriak PII atalka-haustura puntutan harrapatzen du, non hizkuntza bakarreko modeloek huts egiten duten.
Europa Zentraleko eta DACH enpresentzat, hizkuntz atalak gurutzatzen dituzten fitxategiekin, hau irabazi erreala da. Hizkuntza bakarreko tresnek hausturetan galtzen dituzten entitateak hizkuntza gurutzatuetako modeloek aurkitzen dituzte.
Ikusi gure berme-orria nola kudeatzen duen anonym.legal hau.
Orain Hartu Beharreko Urratsak
Egiaztatu zure tresnaren irismena. Eskatu zure hornitzaileari tokiaren araberako berraromatzeko puntuazioak. "Hizkuntza asko onartzen ditu" esan nahi dezake testua lehenik itzulpen automatikotik pasatzen dela. Hori ez da jatorrizko eskaneatze.
Mapeatu zure fitxategiak tokiaren arabera. Europa Zentraleko eta DACH enpresa batek %60 alemana, %30 frantsesa eta %10 ingelesa dituena arriskuen arakala desberdinak ditu.
Probatu atal-haustura laginekin. Eraiki proba-multzo bat hamar hizkuntza mistoko klausula-adibiderekin. Egiaztatu berraromatzea fitxategi osoan, ez soilik hizkuntza nagusiko ataletan.
Egiaztatu zure DPIAk. Hizkuntza bakarreko erregistroetan eraikitako DPIA bat osatugabea izan daiteke. Konpondu ikuskaritza batek egin aurretik.
API xehetasunetarako eta entitate-estaldura jakiteko, ikusi prezio-orria.
anonym.legal-ek XLM-RoBERTa erabiltzen du jatorrizko spaCy eta Stanza modeloekin batera. PII aurkitzen du atal-haustura puntutan alemaneraz, frantsesez, ingelesez eta 45 toki gehiagotan.