Il Requisito Air-Gap
I contraenti della difesa, le agenzie di intelligence governativa e gli operatori delle infrastrutture critiche gestiscono reti in cui la connettività internet esterna è fisicamente impossibile, non semplicemente vietata dalla politica. Un SCIF (Sensitive Compartmented Information Facility) è una stanza o una struttura progettata per prevenire l'intercettazione elettronica e la raccolta di segnali di intelligence — è schermata da Faraday, senza segnali wireless in entrata o in uscita. Una rete governativa classificata sotto il controllo dell'ITAR (International Traffic in Arms Regulations) non può trasmettere dati tecnici coperti a parti non approvate — una categoria che include i fornitori di servizi cloud non autorizzati secondo l'ITAR.
Per le organizzazioni in questi ambienti, "cloud SaaS" non è un rischio da gestire — è un'impossibilità tecnica. Qualsiasi strumento di anonimizzazione che richiede una connessione di rete attiva non può essere implementato. Qualsiasi strumento che chiama a casa per la verifica della licenza è un non-starter. Qualsiasi strumento i cui modelli di rilevamento richiedono chiamate API cloud per l'inferenza non può funzionare.
La comunità Ollama cita specificamente l'implementazione air-gapped come la principale giustificazione per gli strumenti AI locali: "Tutti i dati rimangono sul tuo dispositivo con Ollama, senza informazioni inviate a server esterni — particolarmente importante per lavori sensibili come medici che gestiscono note dei pazienti o avvocati che esaminano fascicoli." La stessa logica si applica a livello organizzativo per ambienti classificati e controllati dall'ITAR.
Il Caso d'Uso ITAR
Un data scientist di un contraente della difesa che elabora registri del personale secondo i requisiti ITAR deve de-identificare i file prima di condividerli con un giornalista che ha presentato una richiesta FOIA. La rete del contraente è air-gapped. L'elaborazione deve avvenire sulla macchina air-gapped e deve produrre output idonei per la pubblicazione.
Questo caso d'uso non ha soluzione cloud. L'unico percorso è uno strumento che funziona interamente sulla macchina locale, applica modelli di rilevamento memorizzati localmente e produce output anonimizzati senza alcuna comunicazione esterna. L'Applicazione Desktop basata su Tauri 2.0 funziona esattamente in questa configurazione: dopo il download e l'installazione, non vengono effettuate chiamate di rete durante l'elaborazione dei documenti. I modelli NER di spaCy, i modelli regex e l'inferenza del trasformatore vengono eseguiti localmente. L'output dell'elaborazione non lascia mai la macchina a meno che non venga esplicitamente esportato dall'utente.
Pseudonimizzazione Reversibile per Operazioni Classificate
Un requisito correlato nei contesti classificati e governativi: pseudonimizzazione reversibile che mantiene l'utilità analitica proteggendo le vere identità. L'Articolo 4(5) del GDPR riconosce formalmente la pseudonimizzazione come una misura di protezione dei dati che riduce il rischio di conformità — i dati pseudonimizzati sono soggetti a obblighi ridotti rispetto ai dati completamente identificabili, a condizione che le chiavi di pseudonimizzazione siano mantenute separate dal dataset pseudonimizzato.
La ricerca IAPP (2024) ha trovato che solo il 23% degli strumenti di anonimizzazione offre vera reversibilità — la capacità di decrittografare i dati pseudonimizzati ai valori originali utilizzando una chiave che è mantenuta separata dall'output. La maggior parte degli strumenti implementa una sostituzione permanente (i dati originali vengono sovrascritti e non possono essere recuperati) o mascheramento (visualizzazione parziale del valore originale).
Per le operazioni governative in cui i dataset pseudonimizzati devono essere condivisibili tra compartimenti — un team riceve il dataset pseudonimizzato per lavori analitici, un altro team detiene la chiave di decrittazione per la re-identificazione quando legalmente richiesto — la crittografia reversibile con separazione delle chiavi è l'unica architettura conforme.
L'approccio a zero conoscenza estende ulteriormente questo: la chiave di crittografia è generata lato client e non viene mai trasmessa. Anche se il fornitore dello strumento di anonimizzazione fosse citato in giudizio, non può produrre la chiave di decrittazione perché non l'ha mai ricevuta. Per ambienti classificati in cui la catena di custodia per le chiavi di crittografia è essa stessa un requisito di sicurezza, questa architettura fornisce l'assicurazione richiesta.
Conformità alle Linee Guida dell'EDPB
Le Linee Guida dell'EDPB 05/2022 sulla pseudonimizzazione richiedono la separazione delle chiavi: la chiave di pseudonimizzazione deve essere detenuta da una parte diversa da quella che riceve il dataset pseudonimizzato, o memorizzata con controlli tecnici che impediscono alla parte ricevente di accedere sia ai dati che alla chiave simultaneamente.
La combinazione di generazione di chiavi lato client (la chiave non lascia mai il dispositivo dell'utente), elaborazione locale (i dati non lasciano mai l'ambiente air-gapped) e esportazione separata degli output pseudonimizzati e delle chiavi di decrittazione soddisfa il requisito di separazione delle chiavi dell'EDPB pur rispettando il vincolo operativo air-gapped.
Fonti: