El Requisito de Air-Gap
Los contratistas de defensa, las agencias de inteligencia gubernamentales y los operadores de infraestructura crítica gestionan redes donde la conectividad a internet externa es físicamente imposible, no solo prohibida por política. Un SCIF (Instalación de Información Sensible Compartimentada) es una sala o instalación diseñada para prevenir la escucha electrónica y la recopilación de inteligencia de señales: está enjaulada en un Faraday, sin señales inalámbricas que entren o salgan. Una red gubernamental clasificada bajo el control de ITAR (Regulaciones de Tráfico Internacional de Armas) no puede transmitir datos técnicos cubiertos a partes no aprobadas, una categoría que incluye a los proveedores de servicios en la nube no autorizados bajo ITAR.
Para las organizaciones en estos entornos, "SaaS en la nube" no es un riesgo a gestionar: es una imposibilidad técnica. Cualquier herramienta de anonimización que requiera una conexión de red activa no puede ser implementada. Cualquier herramienta que llame a casa para la verificación de licencias es un no iniciador. Cualquier herramienta cuyos modelos de detección requieran llamadas a la API de la nube para la inferencia no puede funcionar.
La comunidad de Ollama cita específicamente la implementación air-gapped como la justificación principal para las herramientas de IA locales: "Todos los datos permanecen en su dispositivo con Ollama, sin información enviada a servidores externos, especialmente importante para trabajos sensibles como médicos que manejan notas de pacientes o abogados que revisan archivos de casos." La misma lógica se aplica a nivel organizacional para entornos clasificados y controlados por ITAR.
El Caso de Uso de ITAR
Un científico de datos en un contratista de defensa que procesa registros de personal bajo los requisitos de ITAR necesita desidentificar archivos antes de compartirlos con un periodista que solicita información bajo la FOIA. La red del contratista está air-gapped. El procesamiento debe ocurrir en la máquina air-gapped y debe producir salidas adecuadas para su liberación pública.
Este caso de uso no tiene solución en la nube. El único camino es una herramienta que funcione completamente en la máquina local, aplique modelos de detección almacenados localmente y produzca salidas anonimizadas sin ninguna comunicación externa. La Aplicación de Escritorio basada en Tauri 2.0 funciona exactamente en esta configuración: después de la descarga e instalación, no se realizan llamadas a la red durante el procesamiento de documentos. Los modelos NER de spaCy, los patrones regex y la inferencia del transformador se ejecutan localmente. La salida del procesamiento nunca sale de la máquina a menos que sea exportada explícitamente por el usuario.
Pseudonimización Reversible para Operaciones Clasificadas
Un requisito relacionado en contextos clasificados y gubernamentales: la pseudonimización reversible que mantiene la utilidad analítica mientras protege las identidades reales. El Artículo 4(5) del GDPR reconoce formalmente la pseudonimización como una medida de protección de datos que reduce el riesgo de cumplimiento: los datos pseudonimizados están sujetos a obligaciones reducidas en comparación con los datos completamente identificables, siempre que las claves de pseudonimización se mantengan separadas del conjunto de datos pseudonimizado.
La investigación de IAPP (2024) encontró que solo el 23% de las herramientas de anonimización ofrecen verdadera reversibilidad: la capacidad de descifrar datos pseudonimizados de vuelta a los valores originales utilizando una clave que se mantiene separada de la salida. La mayoría de las herramientas implementan reemplazo permanente (los datos originales se sobrescriben y no pueden recuperarse) o enmascaramiento (visualización parcial del valor original).
Para operaciones gubernamentales donde los conjuntos de datos pseudonimizados deben ser compartibles entre compartimentos: un equipo recibe el conjunto de datos pseudonimizado para trabajo analítico, otro equipo tiene la clave de descifrado para la reidentificación cuando se requiere legalmente, la encriptación reversible con separación de claves es la única arquitectura conforme.
El enfoque de cero conocimiento extiende esto aún más: la clave de encriptación se genera del lado del cliente y nunca se transmite. Incluso si al proveedor de la herramienta de anonimización se le emitiera una citación, no podrían producir la clave de descifrado porque nunca la recibieron. Para entornos clasificados donde la cadena de custodia de las claves de encriptación es en sí misma un requisito de seguridad, esta arquitectura proporciona la garantía requerida.
Cumplimiento de la Guía del EDPB
Las Directrices del EDPB 05/2022 sobre pseudonimización requieren separación de claves: la clave de pseudonimización debe ser mantenida por una parte diferente a la parte que recibe el conjunto de datos pseudonimizados, o almacenada con controles técnicos que eviten que la parte receptora acceda simultáneamente tanto a los datos como a la clave.
La combinación de generación de claves del lado del cliente (la clave nunca sale del dispositivo del usuario), procesamiento local (los datos nunca salen del entorno air-gapped) y exportación separada de salidas pseudonimizadas y claves de descifrado satisface el requisito de separación de claves del EDPB mientras cumple con la restricción operativa air-gapped.
Fuentes: