Lo que Presidio no incluye: Los 220+ tipos de entidades esenciales para la detección de PII conforme al GDPR
Microsoft Presidio incluye aproximadamente 40 reconocedores de entidades predeterminados. Para implementaciones en EE. UU. que manejan documentos centrados en EE. UU., esto cubre las categorías esenciales: SSNs, pasaportes de EE. UU., licencias de conducir de EE. UU., tarjetas de crédito, direcciones de correo electrónico, números de teléfono y nombres de personas.
Para implementaciones en la UE, la brecha de cobertura es significativa. El GDPR se aplica a todos los datos personales de la UE independientemente de la nacionalidad. Las organizaciones de la UE que procesan los datos de sus propios ciudadanos necesitan reconocedores que Presidio no proporciona de forma predeterminada.
La biblioteca de entidades predeterminada de Presidio
Los reconocedores predeterminados de Presidio incluyen:
Identificadores centrados en EE. UU.:
- Número de Seguro Social de EE. UU. (SSN)
- Número de Pasaporte de EE. UU.
- Número de Licencia de Conducir de EE. UU. (formatos de múltiples estados)
- Número de Cuenta Bancaria de EE. UU.
- ITIN de EE. UU. (Número de Identificación de Contribuyente Individual)
- Número de Licencia Médica de EE. UU.
Identificadores universales:
- Dirección de Correo Electrónico
- Número de Teléfono (prioridad de formato centrado en EE. UU.)
- Dirección IP
- Número de Tarjeta de Crédito (algoritmo de Luhn)
- Dirección de Billetera Cripto
- URL
Entidades de texto genéricas:
- PERSON (basado en NER)
- LOCATION (basado en NER)
- ORGANIZATION (basado en NER)
- DATE_TIME (basado en NER)
Cobertura internacional limitada:
- Número NHS del Reino Unido
- Número de Seguro Nacional del Reino Unido (NINO)
- Identificadores de Entidades Financieras (algunos)
Total: ~40 reconocedores
Lo que realmente necesitan las organizaciones de la UE
Identificadores financieros: El IBAN (Número de Cuenta Bancaria Internacional) aparece en prácticamente todos los documentos comerciales de la UE que involucran pagos, transferencias bancarias, facturación y nómina. Los formatos de IBAN varían según el país, pero siguen un estándar internacional (ISO 13616). Presidio no tiene un reconocedor de IBAN predeterminado.
Una fintech alemana que procesa registros de pagos de clientes maneja números de IBAN en cada documento de transacción. Sin el reconocimiento de IBAN, estos documentos se procesan con la detección de tarjetas de crédito activa (detectando números de tarjetas) pero los campos de IBAN (el identificador de pago principal de la UE) se ignoran por completo.
Identificadores fiscales nacionales:
- Steueridentifikationsnummer alemana: 11 dígitos numéricos
- NIR francés (Numéro d'Inscription au Répertoire): 13 caracteres alfanuméricos
- Codice Fiscale italiano: 16 caracteres alfanuméricos con validación estructural
- NIF/NIE español: 9 caracteres con sufijo/prefijo de letra
- BSN holandés: 9 dígitos con validación de 11
Ninguno de estos está en la biblioteca de entidades predeterminada de Presidio. Un procesador de nómina de la UE que maneja documentos de empleados de múltiples estados miembros está efectivamente ciego a sus identificadores financieros más sensibles.
Identificadores de salud nacionales:
- Número NHS del Reino Unido: 10 dígitos con verificación de módulo 11
- Número de Seguridad Social francés (NIR): También sirve como ID de salud
- Krankenkassennummer alemana: Alfanumérico, específico del asegurador
- Codice Fiscale italiano: También utilizado como ID de salud
- BSN de los Países Bajos: También utilizado para el seguro de salud
Las organizaciones de atención médica en toda la UE necesitan estos identificadores para la protección de datos de salud equivalente a HIPAA. Presidio proporciona el Número NHS del Reino Unido pero no incluye los ID de salud de Europa continental.
Formatos de licencia de conducir de la UE: Presidio tiene reconocedores de licencias de conducir de EE. UU. (específicos de estado). Los formatos de licencia de conducir de la UE están estandarizados bajo la Directiva 2006/126/CE, pero varían según el estado miembro en su estructura alfanumérica. No hay reconocedores de licencias de conducir de la UE en los predeterminados de Presidio.
Números de registro de IVA: Los números de IVA de la UE aparecen en cada transacción de negocio a negocio. Formato: código de país (2 letras) + 8-12 dígitos alfanuméricos. Presidio no tiene un reconocedor de números de IVA. Para las empresas de la UE que comparten facturas, contratos y documentos comerciales, los números de IVA son identificadores que vinculan a entidades comerciales registradas y sus directores.
Formatos de pasaporte de la UE: Reconocimiento de pasaporte de EE. UU. en Presidio, pero los formatos de pasaporte de la UE (especialmente el formato de Zona Legible por Máquina) no están cubiertos.
El costo de ingeniería del desarrollo de reconocedores personalizados
Cuando las organizaciones de la UE implementan Presidio y descubren la brecha de cobertura de entidades, la respuesta suele ser el desarrollo de reconocedores personalizados. El costo:
Tiempo de desarrollo por reconocedor:
- Investigar el formato del identificador: 1-2 horas
- Escribir la clase PatternRecognizer en Python: 2-4 horas
- Implementar regex con lógica de validación: 2-4 horas
- Configurar palabras de contexto para mejorar la precisión: 1-2 horas
- Escribir pruebas: 2-3 horas
- Integrar y probar en la implementación: 1-2 horas
Por reconocedor: 9-17 horas.
Para una fintech alemana que necesita IBAN + Steuer-ID + licencia de conducir de la UE + IVA alemán + IBAN:
- 4 reconocedores personalizados × 13 horas promedio = 52 horas de ingeniería
- A €100/hora: €5,200 en desarrollo de reconocedores personalizados
Además del mantenimiento continuo a medida que cambian los formatos, surgen nuevos casos de prueba y las actualizaciones de la API de Presidio requieren modificaciones en los reconocedores.
Costo total para la cobertura del GDPR de la UE sobre Presidio: €5,200+ inicial + mantenimiento continuo
La alternativa: bibliotecas de entidades gestionadas
anonym.legal extiende la base de Presidio con más de 285 tipos de entidades mantenidas por el equipo de desarrollo, incluidos los identificadores específicos de la UE que faltan en los predeterminados de Presidio:
Aspectos destacados de la cobertura más allá de los predeterminados de Presidio:
- IBAN (todos los formatos de los estados miembros de la UE)
- Identificadores fiscales de los estados miembros de la UE (incluyendo Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL y otros)
- Identificadores de salud nacionales de la UE
- Números de IVA (formato de la UE)
- Formatos de licencia de conducir de la UE
- Formatos de pasaporte europeos
- Todas las 48 variaciones de entidades de idiomas admitidos
Mantenimiento: Las actualizaciones de la biblioteca de entidades se envían como parte del servicio gestionado. Cuando Alemania introduce un nuevo formato de identificador fiscal, los usuarios obtienen el reconocedor sin presentar una solicitud de extracción.
Extensión personalizada: Para identificadores específicos de la organización que no están en la biblioteca, el constructor de entidades personalizadas permite agregar patrones sin código Python.
El ejemplo de la fintech alemana
Una fintech alemana necesita detectar IBAN, BIC, IDs fiscales alemanes (Steuer-ID) y números de registro comercial alemanes (Handelsregisternummer) en documentos de clientes.
Tasa de detección predeterminada de Presidio para estos 4 tipos de entidades: 0%
No baja precisión, no falsos positivos: cero detecciones. Ninguno de los 4 tipos de entidades aparece en la biblioteca de entidades predeterminada de Presidio.
Escribiendo reconocedores personalizados: 4 reconocedores × 13 horas = 52 horas = €5,200 a tarifas de ingeniería.
Usando la biblioteca de entidades gestionadas con los 4 cubiertos: €180/año (plan profesional).
Costo para lograr la detección conforme al GDPR de estos identificadores financieros alemanes:
- Ruta de Presidio: €5,200 en ingeniería + costos operativos de Presidio
- Ruta de servicio gestionado: €180/año, detectando los 4 de forma predeterminada
La brecha es 28x en el primer año. Por cada año de operación, el tiempo de ingeniería para el mantenimiento de reconocedores personalizados se suma al costo de Presidio, mientras que el costo del servicio gestionado permanece plano.
Conclusión
Los ~40 reconocedores predeterminados de Presidio sirven bien a los casos de uso centrados en EE. UU. Para implementaciones en la UE que requieren cumplimiento del GDPR en identificadores específicos de los estados miembros, la cobertura lista para usar es insuficiente. La brecha se llena ya sea a través del desarrollo de reconocedores personalizados (costoso, que consume tiempo) o un servicio gestionado que mantiene la cobertura de entidades de la UE como parte de la suscripción.
Para las organizaciones de la UE donde el cumplimiento es innegociable y los recursos de ingeniería son limitados, la biblioteca de entidades de la UE preconstruida del servicio gestionado elimina un proyecto de desarrollo personalizado de más de 50 horas antes de la anonimización del primer documento.
Fuentes: