Ongelma, jota pilvipalvelut eivät ratkaise

Puolustusalan alihankkijan datatieteilijällä on 3 000 henkilötietuetta. Hänen täytyy anonymisoida nimet, sosiaaliturvatunnukset ja turvallisuusselvitystasot ennen aineiston jakamista yliopiston tutkimuskumppanille CUI-sopimuksen (Controlled Unclassified Information) nojalla.

Heidän verkossaan ei ole internet-yhteyttä. Tarkoituksellisesti.

Jokainen web-pohjainen anonymisointityökalu, jota he arvioivat, vaatii datan lähettämistä ulkoiseen API:in. Jokainen yritystason SaaS-alusta vaatii tilinrekisteröinnin ja pilviyhteydeyden. Jopa "on-premises"-työkalut tarvitsevat usein lisenssipalvelimia, jotka tekevät ajoittaisia internet-kutsuja.

Tämä on ilmavälin käyttöönotto-ongelma – ja se koskee paljon useampia organisaatioita kuin kapea "luokiteltu hallitusjärjestö" -kehys antaa ymmärtää.

Ketkä tarvitsevat offline-first-käsittelyä?

Puolustusalan alihankkijat ja viranomaiset ovat ilmeisin kategoria. DISA:n FedRAMP-vaatimukset edellyttävät datan käsittelyä valtuutetuissa rajoissa. ITAR rajoittaa teknisen datan käsittelyä yhdysvaltalaisen infrastruktuurin piiriin. Tiedusteluyhteisön verkot (JWICS, SIPRNet) ovat fyysisesti eristettyjä tarkoituksellisesti.

Mutta offline-first-vaatimus ulottuu paljon luokiteltujen ympäristöjen ulkopuolelle:

Terveydenhuoltojärjestelmät verkon segmentoinnilla: Sairaalaverkot erottavat kliiniset järjestelmät yleisestä pääsyverkosta. PACS-järjestelmät (lääketieteellinen kuvantaminen), segmentoiduissa verkoissa toimivat EHR-järjestelmät ja kliiniset tutkimustietokannat saattavat olla yhteydettömiä politiikan nojalla.

Rahoituspalvelut kaupankäyntilattiaeristyksellä: Suoraan kaupankäynnin ympäristöt, tietyt kliraushuoneverkot ja SWIFT-kytketty infrastruktuuri toimivat tiukalla verkkoeristyksellä.

Teollisuuden ohjausjärjestelmät: SCADA-verkot, tuotannon ohjausjärjestelmät ja kriittinen infrastruktuuri toimivat ilmaväleillä tai lähes ilmaväleillä turvallisuustoimenpiteenä (Stuxnet-jälkeinen kovettuminen).

Eurooppalaiset tietosuvereniteettvaatimukset: Saksan tiukat Landesdatenschutzgesetze ja vastaavat kansalliset lait EU:ssa edellyttävät yhä useammin paikallista käsittelyä arkaluonteiselle hallituksen ja terveydenhuollon datalle. TikTokin 530 miljoonan euron sakko (toukokuu 2025) EU-datan siirroista Kiinaan on kiihdyttänyt tätä suuntausta.

Miksi pilvi-arkkitehtuuri epäonnistuu ilmavälin käyttöönotoissa?

Useimmat yritystason anonymisointityökalut on rakennettu SaaS-alustoiksi:

Käyttäjälaite → HTTPS → Toimittajan API → NLP-mallit → Vastaus → Käyttäjälaite

Tämä arkkitehtuuri vaatii:

Internet-yhteyden käsittelylaitteelta
Luottamuksen toimittajan API-infrastruktuuriin
Hyväksynnän sille, että data kulkee ulkoisten verkkojen kautta
Riippuvuuden toimittajan saatavuudesta ja hinnoittelumuutoksista

Ilmavälin ympäristöissä vaihe 1 on fyysinen mahdottomuus. Säännellyissä ympäristöissä vaiheet 2–4 voivat kukin edustaa vaatimustenmukaisuusrikkomuksia.

Self-hosted Presidio on yleinen vaihtoehto, mutta se vaatii:

Docker-osaamista käyttöönottoon
Python-ympäristön hallintaa
spaCy-mallien latauksia (internet tarvitaan)
Jatkuvaa ylläpitoa mallien ja riippuvuuksien päivittyessä
DevOps-resursseja, joita useimmilla tiimeillä ei ole

Tämä kuilu – SaaS:n mukavuuden ja self-hosted-kompleksisuuden välillä – on juuri se, mitä desktop-first offline-työkalut ratkaisevat.

Offline-first PII-anonymisoinnin tekninen arkkitehtuuri

Kunnolla rakennettu offline PII-anonymisointityökalu sisältää kaiken tarvittavan käsittelyyn:

1. Esipakatut NLP-mallit spaCy-kielimallit (keskimäärin 40–80 Mt kukin), transformer-mallit nimettyjä entiteettejä varten ja kielentunnistusmallit on sisällytetty sovelluksen asennuspakettiin. Käsittelyn aikana ei tarvita latausvaihetta.

2. Paikallinen käsittelyputki Koko regex + NLP + ML -tunnistusputki toimii paikallisella CPU:lla (ja valinnaisesti GPU:lla). anonym.legalin käyttämä Presidio-pohjainen tunnistusmoottori ei tee verkkokutsuja käsittelyn aikana.

3. Salattu paikallinen holvi Konfiguraatio, esiasetukset ja salausavaimet tallennetaan paikalliseen salattuun holviin (AES-256-GCM + Argon2id). Ei pilvisynkronointia. Ei etäavainvarmuuskopiota. Holvi on olemassa vain paikallisella laitteella.

4. Paikallinen tiedosto-I/O Syötetiedostot luetaan paikallisesta tallennuksesta; tulostiedostot kirjoitetaan paikalliseen tallennukseen. Data ei kulje minkään verkkokäyttöliittymän kautta.

5. Minimaalinen hyökkäyspinta Tauri 2.0 (Rust-pohjainen) tarjoaa merkittävästi pienemmän hyökkäyspinnan kuin Electron (Chromium-pohjainen) vaihtoehdot. Tauri-sovelluksilla on noin 10 kertaa pienempi binaarikoko ja oletuksena pääsy vähempiin käyttöjärjestelmän API:ihin.

Vaatimustenmukaisuuden käyttötapaukset

ITAR:n teknisen datan anonymisointi

Puolustusalan alihankkijan täytyy jakaa teknistä dokumentaatiota ulkomaiselle kumppanille lisenssipoikkeuksen nojalla. Asiakirjat sisältävät yhdysvaltalaisten henkilöiden nimiä ja henkilöstödataa, jotka täytyy anonymisoida ennen ITAR-lisenssipoikkeuksen soveltamista.

Vaatimukset:

Käsittely vain hyväksytyillä työasemilla (ei pilveä)
Ei datan siirtoa hyväksytyn ympäristön ulkopuolelle
Tilintarkastusketju, joka osoittaa anonymisoinnin käytön
Eräkäsittely yli 500 asiakirjalle

anonym.legal Desktop App käsittelee kaikki yli 500 DOCX-tiedostoa paikallisesti eräkäsittelytilassa. Käsittelyn aikana ei tehdä verkkokutsuja. Tilintarkastusketju ylläpidetään paikallisessa salatussa holvissa. Anonymisoidut asiakirjat täyttävät ITAR-lisenssipoikkeuksen vaatimukset.

Saksalaisen liittovaltion viraston datan jakaminen

Saksalainen liittovaltion virasto (Bundesbehörde) täytyy anonymisoida kansalaisten valitusdata ennen sen jakamista ulkoiselle tutkimuslaitokselle. BfDI:n ohjeet kieltävät käsittelyn muulla kuin hallituksen infrastruktuurilla.

Desktop App toimii viraston Windows 11 -työasemilla. Käsittely tapahtuu paikallisesti ilman ulkoisia verkkokutsuja. Viraston IT-tietoturvatiimi validoi tämän verkkoliikenteen seurannalla – käsittelyn aikana ei ulkoisia yhteyksiä.

Sairaalan kliininen tutkimusdata

Sairaalan tutkimusosasto tarvitsee potilastietojen de-identifioinnin monikeskuskliniikkatutkimusta varten. HIPAA Safe Harbor -de-identifiointi poistaa 18 tunnistekategoriaa. Kliinisellä verkolla ei ole internet-yhteyttä politiikan nojalla.

Desktop App hoitaa EHR-vientiensä eräkäsittelyn CSV- ja JSON-muodossa. Sairaalan tietosuojaviranomainen validoi tuloksen HIPAA Safe Harbor -vaatimuksia vasten ennen aineiston lähettämistä tutkimuskumppaneille.

Keskeiset ominaisuudet ilmavälin käyttöönottoon

Arvioidessasi offline PII-anonymisointityökaluja, priorisoi:

Ominaisuus	Miksi se on tärkeää
Täysin offline asennuksen jälkeen	Ei internet-riippuvuutta käsittelyn aikana
Esipakatut NLP-mallit	Ei latausvaihetta, joka vaatii verkkoyhteyttä
Eräkäsittely	Käsittele volyymi ilman toistuvaa manuaalista vuorovaikutusta
Paikallinen salattu holvi	Turvallinen paikallinen konfiguraatioiden ja avainten tallentaminen
Tilintarkastusketju	Dokumentaatio vaatimustenmukaisuustarkastuksiin
Windows/macOS/Linux-tuki	Kattaa luokiteltujen työasemien ympäristöt
Ei telemetriavaihtoehtoa	Varmista, ettei dataa siirretä telemetrian kautta
Tiedostomuodon kattavuus	DOCX, PDF, TXT, CSV, JSON, Excel

Tietosuvereniteettiedun

TikTokin 530 miljoonan euron GDPR-sakko ja sitä seurannut täytäntöönpanonaalto ovat luoneet toissijaisen ajurin offline-first-työkaluille: tietosuvereniteetti.

EU-organisaatiot, jotka aiemmin käyttivät pilvipalveluja mukavuuden vuoksi, harkitsevat nyt uudelleen, täyttääkö ulkoisella toimittajan infrastruktuurilla tapahtuva käsittely GDPR:n luvun V (kansainväliset siirrot) ja kansalliset tietosuojalait.

Selkein vastaus kysymykseen "minne datasi menee käsittelyn aikana?" on "ei minnekään – se ei koskaan poistu laitteelta". Offline-first-käsittely poistaa GDPR-siirtokysymyksen kokonaan.

Saksalaisille organisaatioille erityisesti DSGVO:n tiukka tulkinta artikloista 44–46 ja viimeaikainen täytäntöönpanosuuntaus tekevät paikallisesta käsittelystä yhä houkuttelevampaa jopa organisaatioille, joilla ei ole tiukkoja yhteysvaatimuksia.

Käytännön käyttöönotto-näkökohtia

Asennus ilmavälin järjestelmissä: Asennuspaketti (Windows .exe/.msi, macOS .dmg, Linux .AppImage/.deb) siirretään ilmavälin ympäristöön USB:llä tai suojatulla tiedonsiirrolla. Asennuksen jälkeen ei tarvita internet-yhteyttä.

Kielimallien kattavuus: 24 kielikohtaista mallia on sisällytetty pakettiin. Ilmavälin ympäristöissä koko kielisetti on käytettävissä offline-tilassa ilman lisälatauksia.

Laitteistovaatimukset: NLP-putki toimii tehokkaasti moderneilla työasemilla ilman GPU-vaatimuksia. Eräkäsittely 1 000 asiakirjalle valmistuu tyypillisesti 5–15 minuutissa asiakirjan koon ja CPU-suorituskyvyn mukaan.

Lisensointi ilmavälin ympäristöissä: Offline-lisenssin aktivointi on käytettävissä ympäristöissä, joissa yhteys lisenssipalvelimeen ei ole mahdollinen.

Milloin ilmaväli ei ole oikea lähestymistapa?

Ilmaväli- ja offline-first-arkkitehtuurit ratkaisevat tiettyjä ongelmia, mutta tuovat merkittäviä operatiivisia haasteita:

Päivitysten kitka: AI-mallien, entiteettitunnistimien ja ohjelmiston pitäminen ajan tasalla ilmavälin ympäristössä vaatii manuaalisia prosesseja (USB-siirrot, manuaaliset lataukset erillisverkoissa). Organisaatiot, jotka eivät ylläpidä tiukkaa päivityskadenssia, saattavat käyttää vanhentuneita malleja, jotka jättävät huomaamatta uudet PII-kaavat.

Integraation monimutkaisuus: Ilmavälin järjestelmät eivät voi suoraan integroitua pilvipohjaisiin lokituspalveluihin, SIEM-alustoihin tai etätarkastuskojelautaan ilman mukautettuja data-diodi-ratkaisuja. Tämä kasvattaa infrastruktuurikustannuksia merkittävästi.

Tarkkuuden kompromissit: Pilvipohjaiset PII-tunnistusjärjestelmät voivat hyödyntää jatkuvasti päivitettyjä harjoitusdatoja ja ensemble-malleja useilta asiakkailta. Offline-mallit ovat tilannekuvia, jotka heikentyvät ajan myötä uusia kielimalleja vasten, erityisesti monikieliselle sisällölle.

Ei välttämätön kaikille uhkamalleille: Organisaatioille, joilla ei ole hallituksen, terveydenhuollon tai oikeudellisen sektorin mandaattia datan eristykselle, pilvipohjaiset ratkaisut vahvalla salauksella, SOC 2 Type II -tarkastuksilla ja datan käsittelysopimuksilla saattavat olla käytännöllisempiä. Ilmavälin ylimääräinen työ tuottaa arvoa vain, kun uhkamalli todella sisältää verkkopohjaisen exfiltroinnin määrätietoiselta hyökkääjältä.

anonym.legalin Desktop App (saatavilla Windowsille, macOS:lle ja Linuxille) käsittelee PII:n kokonaan paikallisesti esipakatuilla NLP-malleilla. Asennuksen jälkeen internet-yhteyttä ei tarvita. Eräkäsittely tukee 1–5 000 tiedostoa suunnitelmatasosta riippuen.

Lähteet:

Liittyvät Artikkelit

Tekninen

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

Ilmavälin PII-anonymisointi: offline-first puolustuskäyttöön

Ongelma, jota pilvipalvelut eivät ratkaise

Ketkä tarvitsevat offline-first-käsittelyä?

Miksi pilvi-arkkitehtuuri epäonnistuu ilmavälin käyttöönotoissa?

Offline-first PII-anonymisoinnin tekninen arkkitehtuuri

Vaatimustenmukaisuuden käyttötapaukset

ITAR:n teknisen datan anonymisointi

Saksalaisen liittovaltion viraston datan jakaminen

Sairaalan kliininen tutkimusdata

Keskeiset ominaisuudet ilmavälin käyttöönottoon

Tietosuvereniteettiedun

Käytännön käyttöönotto-näkökohtia

Milloin ilmaväli ei ole oikea lähestymistapa?

Liittyvät Artikkelit

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Valmiina suojaamaan tietojasi?

Ilmavälin PII-anonymisointi: offline-first puolustuskäyttöön

Ongelma, jota pilvipalvelut eivät ratkaise

Ketkä tarvitsevat offline-first-käsittelyä?

Miksi pilvi-arkkitehtuuri epäonnistuu ilmavälin käyttöönotoissa?

Offline-first PII-anonymisoinnin tekninen arkkitehtuuri

Vaatimustenmukaisuuden käyttötapaukset

ITAR:n teknisen datan anonymisointi

Saksalaisen liittovaltion viraston datan jakaminen

Sairaalan kliininen tutkimusdata

Keskeiset ominaisuudet ilmavälin käyttöönottoon

Tietosuvereniteettiedun

Käytännön käyttöönotto-näkökohtia

Milloin ilmaväli ei ole oikea lähestymistapa?

Liittyvät Artikkelit

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow