By · Last updated 2026-03-15

Takaisin BlogiinOikeusteknologia

Pysyvä anonymisointi: todisteiden hävittämisriski

34,8 % ChatGPT:lle lähetetyistä syötteistä sisältää arkaluonteista dataa (Cyberhaven). Ratkaisu — pysyvä anonymisointi — luo oman oikeudellisen riskinsä: spoliation. GDPR:n 4(5) artikla ja Rule 37(e) edellyttävät palautettavuutta.

March 15, 202610 min lukuaika
reversible encryptionspoliation risklegal discovery complianceGDPR pseudonymizationAES-256-GCM

Ongelma: yhden vaatimustenmukaisuusriskin ratkaiseminen luomalla toinen

Organisaatiot, jotka ovat sisäistäneet tekoälytyökalujen tietovuotoriskin, toteuttavat usein loogiselta vaikuttavan korjauksen: anonymisoidaan arkaluonteinen sisältö ennen kuin se saavuttaa tekoälytarjoajat käyttämällä pysyvää tai yksisuuntaista anonymisointia, jota ei voi peruuttaa.

Logiikka on järkevä turvallisuuden näkökulmasta. Cyberhavenin Q4 2025 -analyysi havaitsi, että 34,8 % ChatGPT:lle lähetetystä sisällöstä sisältää arkaluonteisia tietoja. Ponemon Instituten vuoden 2024 tutkimus osoitti, että tekoälytietovuodon keskimääräinen kustannus on 2,1 miljoonaa dollaria. eSecurity Planet:n ja Cyberhavenin tutkimus osoitti, että 77 % työntekijöistä jakaa arkaluonteisia tietoja tekoälytyökaluille viikoittain. Riski on todellinen, toistuva ja kallis.

Mutta pysyvä anonymisointi — peruuttamaton yksisuuntainen hajautus, tuhoava peittäminen tai pseudonymisointi ilman avainten säilyttämistä — ratkaisee tekoälyturvallisuusongelman samalla luoden toisen: todisteiden hävittämisen (spoliation of evidence).

Organisaatioille, jotka ovat alttiita oikeudenkäynneille, sääntelyllisille tutkinnoille tai todistusten luovuttamisvelvoitteille, alkuperäisten tietojen palauttamiskyvyn pysyvä tuhoaminen anonymisoidusta esityksestä voi muodostaa todisteisiin puuttumisen liittovaltion ja osavaltion discovery-sääntöjen nojalla. Asiakirja, joka on pysyvästi anonymisoitu ja josta alkuperäisiä tietoja ei voi palauttaa, saatetaan käsitellä hävitettynä todisteena.

Tietojen jakamisen laajuus, joka tekee tästä kiireellisen

77 %:n viikoittainen jakamisaste määrittää laajuuden. Eri toimialojen — oikeudellinen, terveydenhuolto, rahoituspalvelut, teknologia — työntekijät lähettävät työtoiminnoissaan tekoälytyökaluille työtoimintaan liittyvää sisältöä rutiininomaisesti.

Tämä sisältö käsittää:

  • Asiakasviestinnän ja kirjeenvaihdon
  • Sopimusluonnokset ja neuvotellut ehdot
  • Sisäiset strategiakeskustelut ja liiketoimintasuunnitteluasiakirjat
  • Taloudelliset ennusteet ja mallinnusdata
  • Oikeudelliset tutkimusmemorandumet ja tapausstrategiamuistiinpanot
  • Potilastiedot ja kliininen dokumentaatio
  • Henkilöstötiedot ja HR-viestintä

Kun organisaatio toteuttaa pysyvän anonymisoinnin tekoälyturvallisuuden hallintamekanisminaan, jokainen asiakirja, joka kulkee kyseisen hallintamekanismin kautta normaalissa liiketoiminnassa, saatetaan muuttaa tavalla, joka tuhoaa sen todistusarvon. Jos mikään näistä asiakirjoista tulee myöhemmin oikeudenkäynnissä relevanteiksi — mikä on säännellyillä aloilla toimiville organisaatioille lähes varmuus useamman vuoden ajanjaksolla — organisaatio on mahdollisesti tuottanut hävitettyjä todisteita.

GDPR:n palautettavuusvaatimus

Euroopan unionin henkilötietosuojan sääntelykehys käsittelee nimenomaisesti palautettavuuskysymystä pseudonymisoinnin yhteydessä.

GDPR:n 4(5) artikla määrittelee pseudonymisoinnin "henkilötietojen käsittelyksi tavalla, jonka mukaisesti henkilötietoja ei enää voida yhdistää tiettyyn rekisteröityyn käyttämättä lisätietoja, jos tällaisia lisätietoja säilytetään erillään ja niihin sovelletaan teknisiä ja organisatorisia toimenpiteitä, joilla varmistetaan, että henkilötietoja ei yhdistetä tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön".

Määritelmä edellyttää "lisätietojen" — uudelleenyhdistämisen mahdollistavan avaimen — säilyttämistä. GDPR:n alainen pseudonymisoitu tieto on tietoa, jonka voi tunnistaa uudelleen erillään tallennettujen avainten avulla. Tietoa, jota ei voi tunnistaa uudelleen, ei pseudonymisoida GDPR:n mukaan — se anonymisoidaan, ja GDPR:n erottelu on merkityksellinen vaatimustenmukaisuuden kannalta.

Euroopan tietosuojaneuvoston ohjeet 05/2022 pseudonymisoinnin käytöstä vahvistavat, että palautettavuus on pseudonymisoinnin määritelmällinen vaatimus asetuksen nojalla. Organisaatiot, jotka toteuttavat pysyvän yksisuuntaisen anonymisoinnin, eivät toteuta pseudonymisointia GDPR:n määrittelemällä tavalla — ne toteuttavat anonymisoinnin.

Liittovaltion sääntöjen spoliation-kehys

Liittovaltion siviilioikeudenkäyntimenettelyjen sääntöjen nojalla oikeudenkäyntien osapuolilla on velvollisuus säilyttää asiakirjat ja sähköisesti tallennettu tieto, joka saattaa olla relevanttia ennakoituun tai todelliseen oikeudenkäyntiin. Tämä velvollisuus syntyy, kun oikeudenkäyntiä on järkevältä odotettavissa — ei kun se on nostettu.

Sääntö 37(e) antaa tuomioistuimille valtuudet asettaa sanktioita, kun osapuoli ei ole säilyttänyt sähköisesti tallennettua tietoa, joka olisi pitänyt säilyttää, ja epäonnistuminen aiheuttaa vahinkoa toiselle osapuolelle. Sanktioihin voi sisältyä:

  • Olettamukselliset haitalliset päätelmäohjeet (jurya ohjataan olettamaan, että hävitetty todiste olisi ollut epäedullinen hävittäjälle)
  • Todisteiden sulkeminen pois
  • Tapauksen ratkaistavia sanktioita räikeissä tapauksissa

Pysyvän anonymisoinnin yhteydessä spoliation-analyysi toimii seuraavasti: jos organisaatio käyttää tekoälyn työnkulkua, joka pysyvästi anonymisoi asiakirjat normaalissa liiketoiminnassa, ja nämä asiakirjat tulevat myöhemmin relevanteiksi oikeudenkäynnissä, organisaatio on muuttanut näitä asiakirjoja tavalla, joka estää alkuperäisen sisällön palauttamisen. Jos muutos tapahtui säilyttämisvelvollisuuden syntymisen jälkeen — tai jos organisaatio tiesi tai sen olisi pitänyt tietää, että anonymisoitavat asiakirjatyypit voisivat tulla relevanteiksi järkevältä odotettavissa olevaan oikeudenkäyntiin — organisaatio kohtaa spoliation-altistumisen.

Tämä ei ole hypoteettista. Jatkuvan sääntelyllisen tarkastelun, toistuvien oikeudenkäyntialtistumisten tai sopimusriidan historian omaavat organisaatiot ovat jatkuvassa järkevän oikeudenkäyntiodotuksen tilassa laajalle asiakirjakategorioille. Pysyvän anonymisoinnin käyttäminen asiakirjojen työnkuluissa ilman poikkeuksia mahdollisesti relevanteille materiaaleille on järjestelmällinen spoliation-riski.

Tekninen erottelu: palautettava vs. peruuttamaton

Palautettavan ja peruuttamattoman anonymisoinnin välinen tekninen erottelu on arkkitehtuurinen, ei asteittainen.

Peruuttamaton anonymisointi (hajautus, pysyvä korvaus, tuhoava peittäminen) muuntaa dataa tavalla, jota ei voi peruuttaa. SHA-256-hajautus asiakkaan nimestä tuottaa kiinteän pituisen hajautuksen, josta nimeä ei voi johtaa. Pysyvä peittäminen korvaa sisällön tavalla, joka tuhoaa taustalla olevan tekstin.

Palautettava pseudonymisointi (tokenin korvaus avainten säilyttämisellä, AES-256-GCM-salaus) muuntaa dataa tavalla, joka voidaan peruuttaa erillään säilytettyjen tietojen avulla. Asiakkaan nimi, joka on korvattu jäsennetyllä tokenilla, voidaan yhdistää uudelleen alkuperäiseen nimeen käyttämällä karttausta. AES-256-GCM-salattu sisältö voidaan purkaa vastaavalla avaimella. Alkuperäinen sisältö on palauttavissa.

Tekoälyturvallisuuden näkökulmasta — arkaluonteisen datan estäminen saavuttamasta tekoälytarjoajia käyttökelpoisessa muodossa — molemmat lähestymistavat saavuttavat saman tavoitteen. Tekoälymalli käsittelee tokeneita tai pseudonymisoitua sisältöä eikä koskaan näe alkuperäistä arkaluonteista dataa.

Oikeudellisen vaatimustenmukaisuuden näkökulmasta — palauttamiskyvyn säilyttäminen discoverya, sääntelyllistä vastausta tai laillisia liiketoimintatarkoituksia varten — vain palautettava pseudonymisointi on yhteensopiva. Peruuttamattomat lähestymistavat poistavat palautuskyvyn ja luovat edellä kuvatun spoliation-altistumisen.

Vaatimustenmukainen arkkitehtuuri

Arkkitehtuuri, joka käsittelee sekä tekoälyturvallisuuden että discovery-vaatimustenmukaisuuden, käyttää palautettavaa AES-256-GCM-pseudonymisointia:

  1. Asiakirjat käsitellään ennen tekoälytyökaluille lähettämistä
  2. Arkaluonteiset entiteetit — nimet, tilinumerot, tunnisteet, PHI, etuoikeutettu sisältö — korvataan jäsennetyillä tokeneilla
  3. Token-alkuperäinen-karttaus tallennetaan erillään pääsynhallinnoilla, jotka vastaavat datan arkaluonteisuutta
  4. Tekoälykäsittely tapahtuu tokenisoidulle versiolle — tekoälymalli ei koskaan vastaanota palautettavissa olevaa arkaluonteista sisältöä
  5. Tulokset detokenisoidaan tallennetun karttauksen avulla lailliseen liiketoimintakäyttöön
  6. Karttaus asetetaan oikeudelliseen talletukseen, kun discovery-velvoitteet syntyvät

Tässä arkkitehtuurissa alkuperäistä sisältöä ei hävitetä koskaan. Tekoälytarjoaja ei koskaan vastaanota sitä käyttökelpoisessa muodossa. Tokenkarttaus säilyttää mahdollisuuden palauttaa alkuperäinen sisältö, kun laki vaatii sen. Spoliation-riski eliminoidaan, koska todisteita ei hävitetä — ne vain väliaikaisesti pseudonymisoidaan palautettavalla tavalla.

GDPR:n pseudonymisointivaatimus 4(5) artiklan nojalla täyttyy: lisätiedot (tokenkarttaus) säilytetään erillään asianmukaisilla teknisillä ja organisatorisilla toimenpiteillä. Liittovaltion sääntöjen säilyttämisvaatimus täyttyy: alkuperäinen sisältö voidaan palauttaa, kun oikeudellinen talletusvelvoite soveltuu.

Tekoälyturvallisuuden hallintamekanismeja toteuttavat organisaatiot kohtaavat binaarisen valinnan: anonymisoida pysyvästi ja luoda discovery-riski, tai pseudonymisoida palautettavasti ja täyttää sekä turvallisuus- että vaatimustenmukaisuusvaatimukset samanaikaisesti. 2,1 miljoonan dollarin keskimääräinen tekoälyvuotokustannus, joka ohjaa turvallisuushallintamekanismipäätöstä, tulee suhteuttaa spoliation-sanktioiden potentiaalikustannuksiin — jotka merkittävien taloudellisten intressien sisältävissä tapauksissa voivat saavuttaa saman tai suuremman suuruusluokan.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.