Проблем: PII Изгледа Различито Секбачку Земљи
GDPR покрива 27 земље ЕУ. Свако има различито личне識別艦 форме:
| Земља | PII Име | Пример | Формат |
|---|---|---|---|
| Француска | NIR (National ID) | 1 75 12 75 000 128 | 15 цифре |
| Немачка | Steuer-ID | 12 345 678 901 | 11 цифре |
| Италија | Codice Fiscale | RSSMRA90S29A662 | 16 цифара/слова |
| Шведска | Personnummer | 199001011234 | 12 цифре |
| Холандија | BSN | 123456789 | 9 цифре |
| Пољска | PESEL | 12345678901 | 11 цифре |
| Чешка | Rodné číslo | 950215/1234 | 10 цифре |
Енглески детектори PII (као GPT-4o, Google Cloud DLP) препознају amerikanske форме (SSN 123-45-6789). Али немају информима за францківке NIR, Steuer-ID, или Personnummer.
Зашто То Проблема?
Хвала, ако имате французки клијент запис:
Name: Jean Dupont
NIR: 1 75 12 75 000 128
Email: jean@example.fr
Енглески Детектор (GPT-4o, Presidio en)
Name: [PERSON_NAME] ✓ Детектен
NIR: 1 75 12 75 000 128 ✗ Пропуштаж (делови као текст)
Email: [EMAIL_ADDRESS] ✓ Детектен
Французиј Детектор (Presidio fr, anonym.legal fr)
Name: [PERSON_NAME] ✓ Детектен
NIR: [FR_NIR] ✓ Детектен (15-цифрена шаблон препознат)
Email: [EMAIL_ADDRESS] ✓ Детектен
Решење 1: Президиоис Мултијезички Модели
Presidio сада подржава 24 језика са специјализирани детекцији:
from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.nlp_engine import NlpEngineProvider
# Deutsch
analyzer_de = AnalyzerEngine(language="de")
results_de = analyzer_de.analyze(
text="Meine Steuer-ID ist 12 345 678 901",
language="de"
)
# Output: [Entity(name='DE_TAX_ID', start=22, end=35)]
# Français
analyzer_fr = AnalyzerEngine(language="fr")
results_fr = analyzer_fr.analyze(
text="Mon NIR est 1 75 12 75 000 128",
language="fr"
)
# Output: [Entity(name='FR_NIR', start=14, end=29)]
Решење 2: Контекстна Детекција
Текста контекста помаже идентифицирати PII без језика-специфичне моделе:
Text: "Steuer-ID: 12 345 678 901"
И то знамо:
1. Реч "Steuer-ID" је Немачка
2. 11 цифрена вероватно је Steuer-ID
3. Стога замени са [DE_TAX_ID]
Решење 3: anonym.legal Глобална Поддршка
anonym.legal мултиларалском де-идентификација покрива 285+ ентитета преко 48 језика:
- ✓ Францивни NIR, Steuer-ID, Personnummer
- ✓ Здравствени Записи (PHI, SPR, NPI)
- ✓ Кредитне Картице, IBAN, BIC кодове
- ✓ Телефонски Број, IP адресе
- ✓ Профессионалне Лиценце