By · Last updated 2026-03-26

Itzuli BlogeraTeknikoa

PII Hizkuntza Nahasian: Tresna Elebakarrak Huts Egiten Dute

EBko enpresen %72k aldi berean 3+ hizkuntzatan dokumentuak kudeatzen dituzte. Hizkuntza mistoko dokumentuek NER tresna elebakarretan %45 PII galera-tasa handiagoa eragiten dute.

March 26, 20267 min irakurri
mixed-language PII detectionSwiss GDPR compliancemultilingual document processingXLM-RoBERTaDACH data protection

PII Hizkuntza Nahasian: Zergatik Hizkuntz Bakarreko Tresnek Huts Egiten Duten

2026rako eguneratuta.

Dokumentuak Hizkuntza-Mugak Gainditzen Dituzte

Suitzako farmazeutika-enpresa baten lan-kontratua ez dago hizkuntza batean. Suitzak lau hizkuntza ofizial ditu. Suitzako enpresek gorputz nagusian alemana, klausula juridikoetan frantsesa eta atzerriko ataletan ingelesa nahasten dituzte. Hori paragrafo berean gerta daiteke.

Belgikako batzorde-minutu batek testu nederlandera du, zati formal frantsesa eta laburpen ingelesak. Mundu mailako datu-akordio batek ingelesezko zehaztapen teknikoak eta alemaniazko eskubide-klausulak izan ditzake.

Hau ez da arraroa. Europa Zentraleko eta EBko enpresentzat araua da. PII tresna elebakarrek fitxategi hauetan huts egiten dute.

%45ko Galera-Tasaren Arrakala

NER tresna elebakarrek %45 PII galera-tasa handiagoa dute fitxategi nahastuetan. Hau hizkuntza bakarreko fitxategiekin alderatuta da.

Erroa diseinuan dago. Alemana testuan trebatutako modelo batek tokiko izen-formak eta helbide-arauak ezagutzen ditu. Frantsesezko atal bat aurkitzean, bere trebakuntza-eremutik kanpo dago. Zati horretako izenak eta IDak detekzio txarra jasotzen dute. Modeloa ahula ez da — hizkuntza desberdin baterako eraikia zegoen.

EDPB 2024-k ikusi zuen EBko enpresen %72k aldi berean hiru hizkuntza edo gehiagotan dokumentuak kudeatzen dituztela. Gartner 2024-k ikusi zuen hizkuntza anitzeko HR dokumentuek %67 PII gehiago dituztela orrialdeko hizkuntza bakarreko dokumentuekin alderatuta. PII gehiago gehi galera gehiago arrakala areagotzen du.

Ikusi gure GDPR gida aplikatzen diren arauen inguruan.

Non Multzen Diren Akatsak

Huts-egitea ez da fitxategi batean zehar berdina. Atalen arteko puntuetan PII arrisku gehienean dago.

Kontsideratu klausula hau: alemaniazko esaldi-egitura, frantsesezko langile-izena eta frantsesezko jaiotze-data — lerro berean. NER modeloak frantsesezko izena ikusten du tokiko bat espero zuen tokian. Baliteke ez markatzea. Frantsesez trebatutako modelo batek alemaniazko testuinguru-hitzak ikusten ditu eta ezin du egitura irakurri.

HR fitxategiek hau garestia egiten dute. Gartnerrek %67 PII gehiago ikusi zuen orrialdeko fitxategi nahastuetan. Atalen arteko puntuetan akatsak min gehien egiten dute datu pertsonalik gehien duen fitxategi mota horretan.

Hizkuntza Gurutzatuetako Modeloek Hau Konpontzen Dute

XLM-RoBERTa aldi berean 100 hizkuntzako testuan trebatzen da. Ez du hizkuntza bakoitzeko modelo berri bat erabiltzen. Ikaskuntzak izen-detekzioa modu berean funtzionatzen duela ikasten du hizkuntz testuinguru guztietan. Izen batek eta bere testuinguruak egitura berbera partekatzen dute alemaneraz, frantsesez eta ingelesez.

Fitxategi nahastu batentzat, modeloak ez du atal-haustura batean aldatzen. Testu osoa bloke bakar gisa irakurtzen du. Entitate-arau berberak aplikatzen ditu puntu bakoitzean.

Alemana eta frantsesa findu-trebatzeak zehaztasuna gehitzen die hizkuntza bakoitzari banaka. Baina hizkuntza gurutzatuaren oinarriak PII atalka-haustura puntutan harrapatzen du, non hizkuntza bakarreko modeloek huts egiten duten.

Europa Zentraleko eta DACH enpresentzat, hizkuntz atalak gurutzatzen dituzten fitxategiekin, hau irabazi erreala da. Hizkuntza bakarreko tresnek hausturetan galtzen dituzten entitateak hizkuntza gurutzatuetako modeloek aurkitzen dituzte.

Ikusi gure berme-orria nola kudeatzen duen anonym.legal hau.

Orain Hartu Beharreko Urratsak

Egiaztatu zure tresnaren irismena. Eskatu zure hornitzaileari tokiaren araberako berraromatzeko puntuazioak. "Hizkuntza asko onartzen ditu" esan nahi dezake testua lehenik itzulpen automatikotik pasatzen dela. Hori ez da jatorrizko eskaneatze.

Mapeatu zure fitxategiak tokiaren arabera. Europa Zentraleko eta DACH enpresa batek %60 alemana, %30 frantsesa eta %10 ingelesa dituena arriskuen arakala desberdinak ditu.

Probatu atal-haustura laginekin. Eraiki proba-multzo bat hamar hizkuntza mistoko klausula-adibiderekin. Egiaztatu berraromatzea fitxategi osoan, ez soilik hizkuntza nagusiko ataletan.

Egiaztatu zure DPIAk. Hizkuntza bakarreko erregistroetan eraikitako DPIA bat osatugabea izan daiteke. Konpondu ikuskaritza batek egin aurretik.

API xehetasunetarako eta entitate-estaldura jakiteko, ikusi prezio-orria.

anonym.legal-ek XLM-RoBERTa erabiltzen du jatorrizko spaCy eta Stanza modeloekin batera. PII aurkitzen du atal-haustura puntutan alemaneraz, frantsesez, ingelesez eta 45 toki gehiagotan.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.