NER Nini?
NER (Named Entity Recognition) ni hekima ya kugamia jina, mahali, tarehe, na entities nyingine katika maandishi.
Ninaandika "ChatGPT inakumbatia Claude kwenye anonym.legal" — NER inapaswa kugamia:
- jina: ChatGPT, Claude
- mahali: anonym.legal (kwa kawaida)
Changamoto za Multilingual
Arabic (AR)
Changamoto:
- Diacritics: Haraka inatoka na kwenye herufi za AR
- RTL: Kuandika kutoka kulia kwenda kushoto
- Segmentation: Maneno yanagwenywa na konektiva
Mfano:
القاهرة (Cairo) + ي (possessive) = القاهرة + ي
→ Normalizer lazima kugamia "ي" kama sehemu
Ujumbe: Presidio unatumia spaCy Arabic + custom Recognizers kwa lugha za Kiarabu.
Chinese (ZH)
Changamoto:
- Segmentation: Hakuna nafasi kati ya maneno
- Characters: 20,000+ herufi (vs 26 kwa Kiingereza)
- Ambiguity: "北京" = Beijing (jiji) au "beĭ jīng" (kaskazini-mashariki)
Mfano:
张三在北京工作
Zhang San (jina) + zai (katika) + Beijing (mahali) + gongzuo (kazi)
→ Lazima kugamia ZH segmentation kwa Jieba/spaCy
Ujumbe: Presidio unatumia Jieba kwa ZH segmentation.