anonym.legal
Povratak na blogGDPR i usklađenost

Мултиларалска PII Детекција За GDPR

Немачки Steuer-ID, Францувски NIR, и Шведски Personnummer су сви различитих. Научите како да де-идентификујете глобалну PII преко језика и садржаја.

March 3, 202610 min čitanja
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Проблем: PII Изгледа Различито Секбачку Земљи

GDPR покрива 27 земље ЕУ. Свако има различито личне識別艦 форме:

ЗемљаPII ИмеПримерФормат
ФранцускаNIR (National ID)1 75 12 75 000 12815 цифре
НемачкаSteuer-ID12 345 678 90111 цифре
ИталијаCodice FiscaleRSSMRA90S29A66216 цифара/слова
ШведскаPersonnummer19900101123412 цифре
ХоландијаBSN1234567899 цифре
ПољскаPESEL1234567890111 цифре
ЧешкаRodné číslo950215/123410 цифре

Енглески детектори PII (као GPT-4o, Google Cloud DLP) препознају amerikanske форме (SSN 123-45-6789). Али немају информима за францківке NIR, Steuer-ID, или Personnummer.

Зашто То Проблема?

Хвала, ако имате французки клијент запис:

Name: Jean Dupont
NIR: 1 75 12 75 000 128
Email: jean@example.fr

Енглески Детектор (GPT-4o, Presidio en)

Name: [PERSON_NAME]  ✓ Детектен
NIR: 1 75 12 75 000 128  ✗ Пропуштаж (делови као текст)
Email: [EMAIL_ADDRESS]  ✓ Детектен

Французиј Детектор (Presidio fr, anonym.legal fr)

Name: [PERSON_NAME]  ✓ Детектен
NIR: [FR_NIR]  ✓ Детектен (15-цифрена шаблон препознат)
Email: [EMAIL_ADDRESS]  ✓ Детектен

Решење 1: Президиоис Мултијезички Модели

Presidio сада подржава 24 језика са специјализирани детекцији:

from presidio_analyzer import AnalyzerEngine
from presidio_analyzer.nlp_engine import NlpEngineProvider

# Deutsch
analyzer_de = AnalyzerEngine(language="de")
results_de = analyzer_de.analyze(
    text="Meine Steuer-ID ist 12 345 678 901",
    language="de"
)
# Output: [Entity(name='DE_TAX_ID', start=22, end=35)]

# Français
analyzer_fr = AnalyzerEngine(language="fr")
results_fr = analyzer_fr.analyze(
    text="Mon NIR est 1 75 12 75 000 128",
    language="fr"
)
# Output: [Entity(name='FR_NIR', start=14, end=29)]

Решење 2: Контекстна Детекција

Текста контекста помаже идентифицирати PII без језика-специфичне моделе:

Text: "Steuer-ID: 12 345 678 901"

И то знамо:
1. Реч "Steuer-ID" је Немачка
2. 11 цифрена вероватно је Steuer-ID
3. Стога замени са [DE_TAX_ID]

Решење 3: anonym.legal Глобална Поддршка

anonym.legal мултиларалском де-идентификација покрива 285+ ентитета преко 48 језика:

  • ✓ Францивни NIR, Steuer-ID, Personnummer
  • ✓ Здравствени Записи (PHI, SPR, NPI)
  • ✓ Кредитне Картице, IBAN, BIC кодове
  • ✓ Телефонски Број, IP адресе
  • ✓ Профессионалне Лиценце

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.