La Autoritatea Națională de Supraveghere a Prelucrării Datelor cu Caracter Personal (ANSPDCP) de Rumania publicó una evaluación técnica de 2024 con un hallazgo sorprendente: el 78% de las herramientas de PII desplegadas en operaciones de subcontratación en Rumania no logran detectar el Cod Numeric Personal (CNP) con la validación adecuada de la suma de verificación. Para un país que procesa datos de ciudadanos de la UE a gran escala para clientes de Europa Occidental, esto crea una exposición sistémica a la conformidad.
CNP: El identificador personal más rico de Rumania
El CNP es un número de identificación nacional de 13 dígitos:
- Dígito 1: Código de género y siglo (1=masculino 1900-1999, 2=femenino 1900-1999, 5=masculino 2000+, 6=femenino 2000+, 7=masculino residente extranjero, 8=femenino residente extranjero, 9=otro residente)
- Dígitos 2-3: Últimos dos dígitos del año de nacimiento
- Dígitos 4-5: Mes de nacimiento (01-12)
- Dígitos 6-7: Día de nacimiento (01-31)
- Dígitos 8-9: Código del condado (01-52, correspondiente a los 41 condados de Rumania + sectores de Bucarest)
- Dígitos 10-12: Número de nacimiento secuencial dentro del día y el condado
- Dígito 13: Dígito de verificación (suma ponderada módulo 11)
El CNP codifica género, fecha de nacimiento (completa), condado de nacimiento y estado de ciudadanía, lo que lo convierte en uno de los identificadores nacionales más ricos en información de Europa. La codificación de género en el dígito 1 convierte al CNP en un indicador de categoría especial de facto bajo el Artículo 9 del GDPR (revelando el sexo biológico), lo que requiere una protección elevada.
Validación de suma de verificación: El algoritmo del dígito de verificación multiplica los primeros 12 dígitos por pesos (2,7,9,1,4,6,3,5,8,2,7,9), suma los productos y toma el módulo 11. Si el resultado es 10, el dígito de verificación es 1. Si el resultado es 11, el CNP es inválido. De lo contrario, el dígito de verificación es igual al resultado.
El 78% de las herramientas no detectan esta validación, generando tanto falsos positivos (cualquier número de 13 dígitos es marcado) como falsos negativos (números de CNP corruptos pasan la coincidencia de patrones pero fallan en las sumas de verificación y, por lo tanto, se pierden como datos potencialmente inválidos que requieren revisión).
NER en idioma rumano: La capa faltante
Más allá del CNP, el procesamiento en idioma rumano crea desafíos específicos de NER:
Diacríticos rumanos: El rumano utiliza caracteres ș (s-cedilla), ț (t-cedilla), ă, â e î. Las herramientas entrenadas en texto no rumano pueden no reconocer nombres rumanos que contienen estos caracteres. Los problemas de codificación (UTF-8 vs. Latin-2) en documentos rumanos heredados crean desafíos adicionales de detección.
Formatos de dirección rumanos: "Strada" (abreviado "Str."), "Bulevardul" (abreviado "Bd."), "Aleea" (abreviado "Al."), "Calea" (abreviado "Cal.") para tipos de calles. Las localidades rumanas incluyen tanto ciudades (municipii) como comunas (comune) con convenciones de nomenclatura diferentes de los formatos de dirección de Europa Occidental.
Patrones de nombres rumanos: Los nombres rumanos siguen convenciones patronímicas y gramaticales específicas. El mismo nombre aparece en diferentes casos gramaticales dependiendo de su función gramatical en la oración (nominativo, genitivo-dativo). Los modelos de NER deben manejar la variación de casos para identificar correctamente los nombres rumanos en diferentes contextos de documentos.
Patrón de aplicación de ANSPDCP
Los casos de aplicación de ANSPDCP siguen un patrón consistente que revela las fallas técnicas específicas que conducen a violaciones:
Casos de violación de datos de BPO: Las organizaciones de centros de llamadas o soporte de TI sufren una violación de datos. La investigación revela que los archivos compartidos que contienen números de CNP de empleados rumanos y datos personales de clientes de la UE se almacenaron sin la encriptación adecuada. La evaluación del alcance de la violación se ve obstaculizada por un registro inadecuado: la organización no puede determinar exactamente qué registros fueron accedidos.
Exposición de datos de salud: Los registros de pacientes que contienen números de CNP, números de tarjeta de salud e información de diagnóstico se comparten inadvertidamente con partes no autorizadas (enviados por correo electrónico al destinatario equivocado, publicados en una carpeta de nube incorrecta). Los números de CNP no fueron detectados o se pseudonimizaron antes de compartir porque la herramienta de PII de la organización no incluía soporte para identificadores rumanos.
Transferencia transfronteriza sin salvaguardias: La organización de BPO rumana transfiere datos de clientes de la UE (incluidos registros vinculados al CNP) a un subprocesador indio para entrada de datos o procesamiento, sin una Evaluación de Impacto de Transferencia adecuada y Cláusulas Contractuales Estándar. Los números de CNP en los archivos transferidos crean exposición de transferencia de categoría especial bajo el GDPR.
Para la conformidad con el GDPR en Rumania: la detección de CNP con validación de suma de verificación módulo-11, NER en idioma rumano con procesamiento consciente de diacríticos y detección de tarjetas de identificación nacionales rumanas son la base técnica que el registro de aplicación de ANSPDCP muestra que se requiere.
Fuentes: