Asiakirjat, jotka haastavat monikieliset työkalut
Sveitsiläisen lääketeollisuusyrityksen työsopimus ei ole kirjoitettu yhdellä kielellä. Sveitsissä on neljä virallista kieltä. Sveitsiläisten organisaatioiden tuottamat asiakirjat sekoittavat säännöllisesti saksaa pääsopimustekstissä, ranskaa tietyissä sääntelylausekkeissa ja englantia kansainvälisissä standardointiosioissa — joskus jopa yhdessä kappaleessa.
Belgialaisen yrityksen hallituksen pöytäkirjat sisältävät hollanninkielistä raportointia ranskankielisten muodollisten päätösten ja englanninkielisten yhteenvetojen kanssa kansainvälisille sijoittajille. Monikansallisen yrityksen tietojenkäsittelysopimuksessa on englanninkielisiä teknisiä eritelmiä, saksankielisiä tietosuojaoikeuksia koskevia lausekkeita ja ranskankielisiä DPA-yhteystietoja.
Nämä asiakirjat eivät ole epätavallisia. Ne ovat monikansallisten organisaatioiden standardituotantoa, jotka toimivat monikielisillä markkinoilla. Ja monikieliset PII-tunnistusvälineet epäonnistuvat niissä systemaattisesti.
45 % korkeampi epäonnistumisaste
Tutkimus, joka vertasi monikielisiä ja monikielisiä NER-lähestymistapoja sekakielisissä asiakirjoissa, havaitsi, että sekakieliset asiakirjat aiheuttavat 45 % korkeammat PII-epäonnistumisasteet monikielisissä NER-työkaluissa verrattuna niiden suorituskykyyn puhtailla yksikielisillä asiakirjoilla.
Erojen syy on arkkitehtoninen: monikielinen NER-malli, joka on koulutettu saksankieliselle tekstille, oppii saksalaisia nimimalleja, saksalaisia organisaationimien konventioita ja saksalaisia osoiterakenteita. Kun tämä malli kohtaa ranskankielisen osion pääasiassa saksankielisessä asiakirjassa, se toimii koulutustaan laajemman jakautumisen ulkopuolella. Ranskankieliset henkilönimet, ranskankieliset osoitteet ja ranskankieliset organisaatioidentifioijat tässä osiossa ovat alttiita vähentyneelle tunnistustarkkuudelle — ei siksi, että malli olisi huonosti koulutettu, vaan koska se oli koulutettu väärällä kielellä tälle osalle.
Lisäksi havainto: 72 % EU:n yrityksistä käsittelee asiakirjoja samanaikaisesti 3+ kielellä (EDPB 2024), ja monikielisissä HR-asiakirjoissa on 67 % enemmän PII:tä sivua kohti kuin yksikielisissä vastineissa (Gartner 2024). Korkeamman PII-tiheyden ja korkeampien epäonnistumisasteiden yhdistelmä pahentaa vaatimustenmukaisuuden puutetta organisaatioissa, jotka käsittelevät monikielisiä HR-, oikeudellisia ja kaupallisia asiakirjoja.
Kuinka kielirajat aiheuttavat tunnistusongelmia
Epäonnistuminen ei ole tasaista. PII kielirajoilla — missä osio siirtyy yhdestä kielestä toiseen — on erityisen haavoittuvaa.
Työsopimus saattaa sisältää lauseen kuten: "Der Arbeitnehmer (Työntekijä: Jean-Pierre Dupont, syntynyt 15. maaliskuuta 1985 Lyonissa) stimmt zu..." — sekoittaen saksankielistä lauserakennetta ranskankielisen nimen ja syntymäajan kanssa. Saksankielinen NER-malli kohtaa ranskankielisen nimen paikassa, jossa se odottaa saksankielisiä nimiä, ja saattaa epäonnistua sen oikeassa luokittelussa. Ranskankielinen malli näkee kontekstisanoja saksaksi eikä voi luotettavasti tunnistaa ympäröivää asiakirjarakennetta.
Gartner 2024 -havainto, että monikielisissä HR-asiakirjoissa on 67 % enemmän PII:tä sivua kohti kuin yksikielisissä vastineissa, tekee tästä rajatunnistusongelmasta erityisen merkittävän: HR-asiakirjat ovat yksi korkeimman PII-tiheyden asiakirjatyyppi, ja niitä tuottavat monikieliset organisaatiot sekakielisessä muodossa.
Ristikkäiskielinen muunninratkaisu
XLM-RoBERTa (Ristikkäiskielinen kielimalli - Roberta) edustaa erilaista arkkitehtonista lähestymistapaa tähän ongelmaan. Sen sijaan, että koulutettaisiin erillinen malli jokaiselle kielelle, XLM-RoBERTa koulutetaan samanaikaisesti 100 kielen tekstillä. Malli oppii, että entiteettitunnistustehtävillä on yhteisiä malleja kielten välillä — että henkilön nimen ja ympäröivien kontekstisanojen välinen rakenteellinen suhde on samanlainen saksassa, ranskassa ja englannissa, vaikka tietyt sanat eroavatkin.
Sekakielisille asiakirjoille XLM-RoBERTAn ristikkäiskielinen arkkitehtuuri tarkoittaa, että mallin ei tarvitse "vaihtaa" kielimallien välillä asiakirjarajalla. Se käsittelee tekstiä jatkuvana sekvenssinä, soveltaen samaa entiteettitunnistuskykyä kielisiirtymästä riippumatta.
Tämä ei ole täydellinen ratkaisu — kielikohtainen hienosäätö saksankielisellä, ranskankielisellä ja muulla kielikoulutusdatalla tarjoaa lisätarkkuutta jokaiselle kielelle erikseen. Mutta ristikkäiskielinen perusmalli tarjoaa luotettavaa tunnistusta kielirajojen yli, joita monikieliset mallit käsittelevät epätasaisesti.
Sveitsiläisille, belgialaisille ja muille monikansallisille organisaatioille, joiden asiakirjat ylittävät säännöllisesti kielirajat, arkkitehtoninen ero monikielisten ja ristikkäiskielisten NER-mallien välillä kääntyy suoraan vaatimustenmukaisuuden tuloksiin: kielirajoilla monikielisissä työkaluissa jääneet entiteetit havaitaan ristikkäiskielisissä arkkitehtuureissa.
Lähteet: