استفاده از spaCy با مدلهای multi-lingual و anonym.legal برای شناسایی entities در فارسی و عربی و چینی بهترین نتیجه میدهد.
بازگشت به وبلاگفنی
چالشهای NER چند زبانی: عربی و چینی
بررسی مشکلات شناسایی entities در زبانهای غیر لاتین
NERmultilingualArabic NLPChinese NLPPII detection
مقالات مرتبط
فنی
Cross-Platform PII: Mac, Linux, and Windows
Privacy officers on Mac, legal on Windows, data engineers on Linux — all processing the same data with different tools. Here's why OS-agnostic detection.
فنیCross-Application PII: Word, Chrome, and AI
Customer data flows from browser research to Word drafts to Claude prompts. Each context switch is a potential leakage point.
فنیGDPR in App Logs: JSON PII Compliance
Application logs contain customer email addresses, IPs, and account numbers that GDPR Article 5(1)(e) requires be managed.
آمادهاید دادههای خود را محافظت کنید؟
شروع به ناشناسسازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.