By · Last updated 2026-03-03

Takaisin BlogiinTekninen

Ilmavälin PII-anonymisointi: offline-first puolustuskäyttöön

41 % yritysten tietoturvapolitiikoista kieltää pilvipalveluiden käytön luokiteltujen asiakirjojen käsittelyyn. Lue, miten offline-first-käsittely ratkaisee tämän haasteen.

March 3, 20268 min lukuaika
offlineair-gapdesktopITARGDPRgovernmentdefenselocal processing

Ongelma, jota pilvipalvelut eivät ratkaise

Puolustusalan alihankkijan datatieteilijällä on 3 000 henkilötietuetta. Hänen täytyy anonymisoida nimet, sosiaaliturvatunnukset ja turvallisuusselvitystasot ennen aineiston jakamista yliopiston tutkimuskumppanille CUI-sopimuksen (Controlled Unclassified Information) nojalla.

Heidän verkossaan ei ole internet-yhteyttä. Tarkoituksellisesti.

Jokainen web-pohjainen anonymisointityökalu, jota he arvioivat, vaatii datan lähettämistä ulkoiseen API:in. Jokainen yritystason SaaS-alusta vaatii tilinrekisteröinnin ja pilviyhteydeyden. Jopa "on-premises"-työkalut tarvitsevat usein lisenssipalvelimia, jotka tekevät ajoittaisia internet-kutsuja.

Tämä on ilmavälin käyttöönotto-ongelma – ja se koskee paljon useampia organisaatioita kuin kapea "luokiteltu hallitusjärjestö" -kehys antaa ymmärtää.

Ketkä tarvitsevat offline-first-käsittelyä?

Puolustusalan alihankkijat ja viranomaiset ovat ilmeisin kategoria. DISA:n FedRAMP-vaatimukset edellyttävät datan käsittelyä valtuutetuissa rajoissa. ITAR rajoittaa teknisen datan käsittelyä yhdysvaltalaisen infrastruktuurin piiriin. Tiedusteluyhteisön verkot (JWICS, SIPRNet) ovat fyysisesti eristettyjä tarkoituksellisesti.

Mutta offline-first-vaatimus ulottuu paljon luokiteltujen ympäristöjen ulkopuolelle:

Terveydenhuoltojärjestelmät verkon segmentoinnilla: Sairaalaverkot erottavat kliiniset järjestelmät yleisestä pääsyverkosta. PACS-järjestelmät (lääketieteellinen kuvantaminen), segmentoiduissa verkoissa toimivat EHR-järjestelmät ja kliiniset tutkimustietokannat saattavat olla yhteydettömiä politiikan nojalla.

Rahoituspalvelut kaupankäyntilattiaeristyksellä: Suoraan kaupankäynnin ympäristöt, tietyt kliraushuoneverkot ja SWIFT-kytketty infrastruktuuri toimivat tiukalla verkkoeristyksellä.

Teollisuuden ohjausjärjestelmät: SCADA-verkot, tuotannon ohjausjärjestelmät ja kriittinen infrastruktuuri toimivat ilmaväleillä tai lähes ilmaväleillä turvallisuustoimenpiteenä (Stuxnet-jälkeinen kovettuminen).

Eurooppalaiset tietosuvereniteettvaatimukset: Saksan tiukat Landesdatenschutzgesetze ja vastaavat kansalliset lait EU:ssa edellyttävät yhä useammin paikallista käsittelyä arkaluonteiselle hallituksen ja terveydenhuollon datalle. TikTokin 530 miljoonan euron sakko (toukokuu 2025) EU-datan siirroista Kiinaan on kiihdyttänyt tätä suuntausta.

Miksi pilvi-arkkitehtuuri epäonnistuu ilmavälin käyttöönotoissa?

Useimmat yritystason anonymisointityökalut on rakennettu SaaS-alustoiksi:

Käyttäjälaite → HTTPS → Toimittajan API → NLP-mallit → Vastaus → Käyttäjälaite

Tämä arkkitehtuuri vaatii:

  1. Internet-yhteyden käsittelylaitteelta
  2. Luottamuksen toimittajan API-infrastruktuuriin
  3. Hyväksynnän sille, että data kulkee ulkoisten verkkojen kautta
  4. Riippuvuuden toimittajan saatavuudesta ja hinnoittelumuutoksista

Ilmavälin ympäristöissä vaihe 1 on fyysinen mahdottomuus. Säännellyissä ympäristöissä vaiheet 2–4 voivat kukin edustaa vaatimustenmukaisuusrikkomuksia.

Self-hosted Presidio on yleinen vaihtoehto, mutta se vaatii:

  • Docker-osaamista käyttöönottoon
  • Python-ympäristön hallintaa
  • spaCy-mallien latauksia (internet tarvitaan)
  • Jatkuvaa ylläpitoa mallien ja riippuvuuksien päivittyessä
  • DevOps-resursseja, joita useimmilla tiimeillä ei ole

Tämä kuilu – SaaS:n mukavuuden ja self-hosted-kompleksisuuden välillä – on juuri se, mitä desktop-first offline-työkalut ratkaisevat.

Offline-first PII-anonymisoinnin tekninen arkkitehtuuri

Kunnolla rakennettu offline PII-anonymisointityökalu sisältää kaiken tarvittavan käsittelyyn:

1. Esipakatut NLP-mallit spaCy-kielimallit (keskimäärin 40–80 Mt kukin), transformer-mallit nimettyjä entiteettejä varten ja kielentunnistusmallit on sisällytetty sovelluksen asennuspakettiin. Käsittelyn aikana ei tarvita latausvaihetta.

2. Paikallinen käsittelyputki Koko regex + NLP + ML -tunnistusputki toimii paikallisella CPU:lla (ja valinnaisesti GPU:lla). anonym.legalin käyttämä Presidio-pohjainen tunnistusmoottori ei tee verkkokutsuja käsittelyn aikana.

3. Salattu paikallinen holvi Konfiguraatio, esiasetukset ja salausavaimet tallennetaan paikalliseen salattuun holviin (AES-256-GCM + Argon2id). Ei pilvisynkronointia. Ei etäavainvarmuuskopiota. Holvi on olemassa vain paikallisella laitteella.

4. Paikallinen tiedosto-I/O Syötetiedostot luetaan paikallisesta tallennuksesta; tulostiedostot kirjoitetaan paikalliseen tallennukseen. Data ei kulje minkään verkkokäyttöliittymän kautta.

5. Minimaalinen hyökkäyspinta Tauri 2.0 (Rust-pohjainen) tarjoaa merkittävästi pienemmän hyökkäyspinnan kuin Electron (Chromium-pohjainen) vaihtoehdot. Tauri-sovelluksilla on noin 10 kertaa pienempi binaarikoko ja oletuksena pääsy vähempiin käyttöjärjestelmän API:ihin.

Vaatimustenmukaisuuden käyttötapaukset

ITAR:n teknisen datan anonymisointi

Puolustusalan alihankkijan täytyy jakaa teknistä dokumentaatiota ulkomaiselle kumppanille lisenssipoikkeuksen nojalla. Asiakirjat sisältävät yhdysvaltalaisten henkilöiden nimiä ja henkilöstödataa, jotka täytyy anonymisoida ennen ITAR-lisenssipoikkeuksen soveltamista.

Vaatimukset:

  • Käsittely vain hyväksytyillä työasemilla (ei pilveä)
  • Ei datan siirtoa hyväksytyn ympäristön ulkopuolelle
  • Tilintarkastusketju, joka osoittaa anonymisoinnin käytön
  • Eräkäsittely yli 500 asiakirjalle

anonym.legal Desktop App käsittelee kaikki yli 500 DOCX-tiedostoa paikallisesti eräkäsittelytilassa. Käsittelyn aikana ei tehdä verkkokutsuja. Tilintarkastusketju ylläpidetään paikallisessa salatussa holvissa. Anonymisoidut asiakirjat täyttävät ITAR-lisenssipoikkeuksen vaatimukset.

Saksalaisen liittovaltion viraston datan jakaminen

Saksalainen liittovaltion virasto (Bundesbehörde) täytyy anonymisoida kansalaisten valitusdata ennen sen jakamista ulkoiselle tutkimuslaitokselle. BfDI:n ohjeet kieltävät käsittelyn muulla kuin hallituksen infrastruktuurilla.

Desktop App toimii viraston Windows 11 -työasemilla. Käsittely tapahtuu paikallisesti ilman ulkoisia verkkokutsuja. Viraston IT-tietoturvatiimi validoi tämän verkkoliikenteen seurannalla – käsittelyn aikana ei ulkoisia yhteyksiä.

Sairaalan kliininen tutkimusdata

Sairaalan tutkimusosasto tarvitsee potilastietojen de-identifioinnin monikeskuskliniikkatutkimusta varten. HIPAA Safe Harbor -de-identifiointi poistaa 18 tunnistekategoriaa. Kliinisellä verkolla ei ole internet-yhteyttä politiikan nojalla.

Desktop App hoitaa EHR-vientiensä eräkäsittelyn CSV- ja JSON-muodossa. Sairaalan tietosuojaviranomainen validoi tuloksen HIPAA Safe Harbor -vaatimuksia vasten ennen aineiston lähettämistä tutkimuskumppaneille.

Keskeiset ominaisuudet ilmavälin käyttöönottoon

Arvioidessasi offline PII-anonymisointityökaluja, priorisoi:

OminaisuusMiksi se on tärkeää
Täysin offline asennuksen jälkeenEi internet-riippuvuutta käsittelyn aikana
Esipakatut NLP-mallitEi latausvaihetta, joka vaatii verkkoyhteyttä
EräkäsittelyKäsittele volyymi ilman toistuvaa manuaalista vuorovaikutusta
Paikallinen salattu holviTurvallinen paikallinen konfiguraatioiden ja avainten tallentaminen
TilintarkastusketjuDokumentaatio vaatimustenmukaisuustarkastuksiin
Windows/macOS/Linux-tukiKattaa luokiteltujen työasemien ympäristöt
Ei telemetriavaihtoehtoaVarmista, ettei dataa siirretä telemetrian kautta
Tiedostomuodon kattavuusDOCX, PDF, TXT, CSV, JSON, Excel

Tietosuvereniteettiedun

TikTokin 530 miljoonan euron GDPR-sakko ja sitä seurannut täytäntöönpanonaalto ovat luoneet toissijaisen ajurin offline-first-työkaluille: tietosuvereniteetti.

EU-organisaatiot, jotka aiemmin käyttivät pilvipalveluja mukavuuden vuoksi, harkitsevat nyt uudelleen, täyttääkö ulkoisella toimittajan infrastruktuurilla tapahtuva käsittely GDPR:n luvun V (kansainväliset siirrot) ja kansalliset tietosuojalait.

Selkein vastaus kysymykseen "minne datasi menee käsittelyn aikana?" on "ei minnekään – se ei koskaan poistu laitteelta". Offline-first-käsittely poistaa GDPR-siirtokysymyksen kokonaan.

Saksalaisille organisaatioille erityisesti DSGVO:n tiukka tulkinta artikloista 44–46 ja viimeaikainen täytäntöönpanosuuntaus tekevät paikallisesta käsittelystä yhä houkuttelevampaa jopa organisaatioille, joilla ei ole tiukkoja yhteysvaatimuksia.

Käytännön käyttöönotto-näkökohtia

Asennus ilmavälin järjestelmissä: Asennuspaketti (Windows .exe/.msi, macOS .dmg, Linux .AppImage/.deb) siirretään ilmavälin ympäristöön USB:llä tai suojatulla tiedonsiirrolla. Asennuksen jälkeen ei tarvita internet-yhteyttä.

Kielimallien kattavuus: 24 kielikohtaista mallia on sisällytetty pakettiin. Ilmavälin ympäristöissä koko kielisetti on käytettävissä offline-tilassa ilman lisälatauksia.

Laitteistovaatimukset: NLP-putki toimii tehokkaasti moderneilla työasemilla ilman GPU-vaatimuksia. Eräkäsittely 1 000 asiakirjalle valmistuu tyypillisesti 5–15 minuutissa asiakirjan koon ja CPU-suorituskyvyn mukaan.

Lisensointi ilmavälin ympäristöissä: Offline-lisenssin aktivointi on käytettävissä ympäristöissä, joissa yhteys lisenssipalvelimeen ei ole mahdollinen.

Milloin ilmaväli ei ole oikea lähestymistapa?

Ilmaväli- ja offline-first-arkkitehtuurit ratkaisevat tiettyjä ongelmia, mutta tuovat merkittäviä operatiivisia haasteita:

Päivitysten kitka: AI-mallien, entiteettitunnistimien ja ohjelmiston pitäminen ajan tasalla ilmavälin ympäristössä vaatii manuaalisia prosesseja (USB-siirrot, manuaaliset lataukset erillisverkoissa). Organisaatiot, jotka eivät ylläpidä tiukkaa päivityskadenssia, saattavat käyttää vanhentuneita malleja, jotka jättävät huomaamatta uudet PII-kaavat.

Integraation monimutkaisuus: Ilmavälin järjestelmät eivät voi suoraan integroitua pilvipohjaisiin lokituspalveluihin, SIEM-alustoihin tai etätarkastuskojelautaan ilman mukautettuja data-diodi-ratkaisuja. Tämä kasvattaa infrastruktuurikustannuksia merkittävästi.

Tarkkuuden kompromissit: Pilvipohjaiset PII-tunnistusjärjestelmät voivat hyödyntää jatkuvasti päivitettyjä harjoitusdatoja ja ensemble-malleja useilta asiakkailta. Offline-mallit ovat tilannekuvia, jotka heikentyvät ajan myötä uusia kielimalleja vasten, erityisesti monikieliselle sisällölle.

Ei välttämätön kaikille uhkamalleille: Organisaatioille, joilla ei ole hallituksen, terveydenhuollon tai oikeudellisen sektorin mandaattia datan eristykselle, pilvipohjaiset ratkaisut vahvalla salauksella, SOC 2 Type II -tarkastuksilla ja datan käsittelysopimuksilla saattavat olla käytännöllisempiä. Ilmavälin ylimääräinen työ tuottaa arvoa vain, kun uhkamalli todella sisältää verkkopohjaisen exfiltroinnin määrätietoiselta hyökkääjältä.


anonym.legalin Desktop App (saatavilla Windowsille, macOS:lle ja Linuxille) käsittelee PII:n kokonaan paikallisesti esipakatuilla NLP-malleilla. Asennuksen jälkeen internet-yhteyttä ei tarvita. Eräkäsittely tukee 1–5 000 tiedostoa suunnitelmatasosta riippuen.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.