Rudi kwa BlogKitaalamu

NER Changamoto za Multilingual: Kwa nini Arabic na Chinese ni Ngumu

NER (Named Entity Recognition) ni rahisi kwa Kiingereza lakini ngumu kwa Arabic, Chinese, Thai. Funguo za kuleta: spaCy, Presidio, hybrid.

February 26, 20268 dakika kusoma
NERmultilingualArabic NLPChinese NLPPII detection

NER Nini?

NER (Named Entity Recognition) ni hekima ya kugamia jina, mahali, tarehe, na entities nyingine katika maandishi.

Ninaandika "ChatGPT inakumbatia Claude kwenye anonym.legal" — NER inapaswa kugamia:

  • jina: ChatGPT, Claude
  • mahali: anonym.legal (kwa kawaida)

Changamoto za Multilingual

Arabic (AR)

Changamoto:

  • Diacritics: Haraka inatoka na kwenye herufi za AR
  • RTL: Kuandika kutoka kulia kwenda kushoto
  • Segmentation: Maneno yanagwenywa na konektiva

Mfano:

القاهرة (Cairo) + ي (possessive) = القاهرة + ي
→ Normalizer lazima kugamia "ي" kama sehemu

Ujumbe: Presidio unatumia spaCy Arabic + custom Recognizers kwa lugha za Kiarabu.

Chinese (ZH)

Changamoto:

  • Segmentation: Hakuna nafasi kati ya maneno
  • Characters: 20,000+ herufi (vs 26 kwa Kiingereza)
  • Ambiguity: "北京" = Beijing (jiji) au "beĭ jīng" (kaskazini-mashariki)

Mfano:

张三在北京工作
Zhang San (jina) + zai (katika) + Beijing (mahali) + gongzuo (kazi)
→ Lazima kugamia ZH segmentation kwa Jieba/spaCy

Ujumbe: Presidio unatumia Jieba kwa ZH segmentation.

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.