anonym.legal
กลับไปที่บล็อกเทคนิค

เอกสารภาษาผสม: ความท้าทายของ DACH (เยอรมนี ออสเตรีย...

เอกสารทางธุรกิจยุโรปมักเขียนหลายภาษา: English + Deutsch + Français + Italiano ตัวระบุประเทศแตกต่างกันต่อภาษา anonym.legal ตรวจจับลำดับ 45 ประเทศ ×...

March 26, 20267 อ่านประมาณ
mixed-language PII detectionSwiss GDPR compliancemultilingual document processingXLM-RoBERTaDACH data protection

ปัญหา DACH: Multilingual Documents

Scenario: Swiss Invoice

Document language: Mixed (EN + DE + FR + IT)

"Invoice from:
English: Name: John Smith
Deutsch: Name: John Smith
Français: Nom: John Smith
Italiano: Nome: John Smith

address:
EN: Helvetiastrasse 123, 8000 Zürich
DE: Helvetiastrasse 123, 8000 Zürich (same)
FR: Rue Helvetia 123, 8000 Zurich
IT: Via Helvetia 123, 8000 Zurigo

Tax IDs:
DE (Steuer-ID): 12 345 678 901
FR (SIREN): 123 456 789
IT (Codice Fiscale): ABCDEF12G34H567I

ความท้าทาย #1: Language Detection

Wrong approach:

from langdetect import detect_langs

text = "Name: John SmithAdresse: Helvetiastrasse 123"
detect_langs(text)
# Result: [en:0.37, de:0.63]  ← Ambiguous!

anonym.legal approach:

  • Per-sentence language detection
  • Context awareness
  • Named entity language hints

ความท้าทาย #2: Entity Type Varies by Language

CountryID TypeFormatLanguage
GermanySteuer-ID11 digitsDE
AustriaSV-Nummer10 digitsDE
SwitzerlandAHV13 digitsDE/FR/IT
FranceSIREN9 digitsFR
ItalyCodice Fiscale16 charsIT

anonym.legal Solution

Step 1: Segment by Language

Segment documents into language blocks, each processed independently

Step 2: Apply Language-Specific Detection

Use language-specific entity types and regex patterns

Coverage: 45 Countries, 48 Languages

DACH Region Full Coverage

Germany

  • Steuer-ID (11 digits, Luhn checksum)
  • Krankenversicherung
  • Personalausweis

Austria

  • SV-Nummer (10 digits, Luhn)
  • Personalausweis

Switzerland

  • AHV-Nummer (13 digits, modulo 97)
  • Business Identification Numbers
  • Trilingual support (DE/FR/IT)

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.