Atpakaļ uz BloguTehniskā

Jauktās valodas dokumenti: Kāpēc DACH dokumenti...

DACH reģionā (Vācija, Austrija, Šveice) dokumenti bieži satur jauktās valodas saturu. Tas padara PII noteikšanu grūtu un neprecīzu.

March 26, 20267 min lasīšanai
mixed-language PII detectionSwiss GDPR compliancemultilingual document processingXLM-RoBERTaDACH data protection

DACH jauktās valodas realitāte

Vācijā, Austrijā un Šveicē daudzi bizness dokumenti ir jaukti - daļa vācu, daļa angļu, daļa franču. Tas ir normāla situācija.

PII noteikšana šajā kontekstā ir sarežģīta. Modelis, kas ir apmācīts uz grīdas vācu teksta, var neizdot angļu entitātes jauktajā dokumentā. Rezultāts: nepilnīga anonimizācija.

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.