ابزارهای PII انگلیسیمحور: شکاف GDPR
GDPR ترجیح زبانی ندارد
GDPR دادههای شخصی را در هر زبانی پوشش میدهد. آلمانی، فرانسوی، لهستانی، سوئدی — همه به یک اندازه پوشش داده میشوند. یک Steuer-ID از دست رفته همان ریسک قانونی یک شماره تأمین اجتماعی آمریکایی از دست رفته را ایجاد میکند. قانون به زبان اهمیت نمیدهد.
اکثر ابزارهای تشخیص PII اینگونه نیستند.
ابزارهای تجاری و متنباز پیشرو برای متن انگلیسی ساخته شدهاند. آشکارسازهای موجودیت آنها این را نشان میدهند. آنها شمارههای تأمین اجتماعی آمریکا، گواهینامه رانندگی آمریکا، و فرمتهای تلفن NANP را بهخوبی پوشش میدهند. آشکارسازها برای شناسههای ملی غیرانگلیسی دقیقتر نیستند. کمتر بهروز نگه داشته میشوند. بیشتر شناسههای واقعی را از دست میدهند.
برای شرکتها در سراسر کشورهای عضو اتحادیه اروپا، این یک شکاف پوشش ایجاد میکند. ابزار میگوید تشخیص کامل است. اما شناسههای غیرانگلیسی در داده باقی میمانند. اینها اغلب شناسههایی هستند که در کشورهای خاص بیشترین مواجهه GDPR را دارند.
مراجع داده این را میبینند. بازرسان به دنبال آن میگردند. یک ابزار ممکن است روی پروندههای انگلیسی خوب کار کند. اما اگر روی پروندههای آلمانی یا فرانسوی شکست بخورد، انطباق ندارد. یک گزارش تمیز این را تغییر نمیدهد.
شناسههای ملی از نظر ساختار متفاوتند
شکاف بین ابزارهای انگلیسیمحور و ابزارهای چندزبانه، درباره اضافه کردن الگوهای regex بیشتر نیست. شناسههای ملی اتحادیه اروپا از یکدیگر بسیار متفاوتند. برای تشخیص صحیح به منطق خاص هر کشور نیاز دارند.
Steuer-Identifikationsnummer آلمانی (Steuer-ID): ۱۱ رقم. از یک چکسام بر اساس یک نوع فرمول Luhn استفاده میکند. یک regex عمومی SSN آن را تشخیص نخواهد داد. یک regex برای هر عدد ۱۱ رقمی در اسناد آلمانی مثبت کاذب زیادی ایجاد میکند.
NIR فرانسوی (Numéro d'inscription au répertoire): ۱۵ رقم. فرمت جنسیت، سال تولد، ماه تولد، و استان تولد را کدگذاری میکند. همچنین شامل ترتیب تولد و یک کلید کنترل ۲ رقمی است. کلید کنترل باید برای تشخیص صحیح اعتبارسنجی شود.
Personnummer سوئدی: ۱۰ رقم با یک رقم بررسی Luhn. افرادی که قبل از ۱۹۹۰ متولد شدهاند از جداکننده + به جای - استفاده میکنند. این فرمتی را که باید تشخیص داده شود تغییر میدهد.
PESEL لهستانی: ۱۱ رقم. تاریخ تولد، جنسیت، و یک رقم بررسی بر اساس مجموع وزندار را کدگذاری میکند. تشخیص صحیح به هر دو تطابق فرمت و اعتبارسنجی چکسام نیاز دارد.
اینها گونههای یک الگوی مشترک نیستند. هر کدام طول متفاوتی دارند. هر کدام از روش بررسی متفاوتی استفاده میکنند. هر کدام داده را در یک طرح موقعیتی متفاوت کدگذاری میکنند. یک مدل NER آموزشدیده بر انگلیسی که یک NIR فرانسوی میبیند آن را به عنوان شناسه ملی تشخیص نخواهد داد. آن را نادیده میگیرد یا اشتباه طبقهبندی میکند.
ریسک انطباق عملی
یک مسئول انطباق در یک BPO اروپایی را در نظر بگیرید. آنها بهطور همزمان دادههایی از آلمان، فرانسه، لهستان، و هلند پردازش میکنند. ابزارشان گزارش ناشناسسازی موفق PII میدهد.
اما نتیجه کامل نیست. Steuer-IDها در پروندههای آلمانی باقی میمانند. شمارههای NIR در پروندههای فرانسوی باقی میمانند. شمارههای PESEL در پروندههای لهستانی باقی میمانند. آشکارسازهای ابزار برای این فرمتها غایب یا خیلی نادقیق هستند.
بعداً، مجموعه داده به تجزیهوتحلیل یا یک شریک تحقیقاتی میرود. داده هنوز حاوی شناسههای ملی قابل شناسایی مجدد است. مشکل GDPR در گزارشهای خروجی ابزار ظاهر نمیشود. وقتی درخواست دسترسی موضوع داده میرسد ظاهر میشود. ممکن است در طول بازرسی مرجع داده ظاهر شود. ممکن است بعد از نقض داده ظاهر شود.
تحقیقات مقایسه رویکردهای چندزبانه ترکیبی با ابزارهای انگلیسیمحور نتایج روشنی نشان داد. روشهای ترکیبی امتیازهای F1 از ۰.۶۰ تا ۰.۸۳ در مناطق اروپایی به دست میآورند. ابزارهای انگلیسیمحور برای فرمتهای شناسه ملی غیرانگلیسی امتیاز نزدیک به صفر میگیرند.
برای نحوه نگاشت این شکافها به تعهدات GDPR، مروری بر انطباق GDPR ما را ببینید.
آنچه پوشش کامل نیاز دارد
تشخیص واقعی PII چندزبانه برای انطباق GDPR اتحادیه اروپا به سه لایه نیاز دارد.
مدلهای spaCy بومیزبان درک معنایی در زبان متن را فراهم میکنند. یک مدل آموزشدیده روی متن آلمانی میداند که «Müller» یک نام خانوادگی آلمانی رایج است. مدلها برای ۲۵ زبان اروپایی با منابع بالا وجود دارند.
مدلهای Stanza NLP پوشش را به زبانهایی که در spaCy نیستند گسترش میدهند. این دسترسی را برای جوامع زبانی بیشتر اتحادیه اروپا اضافه میکند.
مدلهای ترانسفورمر چندزبانه (XLM-RoBERTa) موارد میانزبانی را مدیریت میکنند. یک نام در یک جمله فرانسوی به عنوان نام شخص تشخیص داده میشود. این حتی اگر موتور روی آن نام خاص آموزش ندیده باشد کار میکند.
Regex با اعتبارسنجی خاص هر کشور شناسههای ملی ساختارمند را پوشش میدهد. Steuer-ID، NIR، PESEL، و Personnummer هر کدام به منطق چکسام خود نیاز دارند. این مثبتهای کاذب را کاهش میدهد. دنبالههای ارقامی که قوانین اعتبارسنجی کشور را رد میکنند فیلتر میشوند.
شکاف ساختاری است. اضافه کردن لیستهای کلمه یا الگوهای regex بیشتر فقط بهبود جزئی ایجاد میکند. ساختن پوشش شناسه اتحادیه اروپا از ابتدا تنها رویکرد قابل اعتماد است.
ابزار فعلی خود را بررسی کنید
از فروشنده خود امتیازهای F1 روی پروندههای آلمانی، فرانسوی، لهستانی، و هلندی بخواهید. «پشتیبانی از چندین زبان» اغلب به این معنی است که ابزار ابتدا از ترجمه استفاده میکند. این اسکن بومی نیست. انطباق GDPR نیاز به اسکن بومی دارد.
با نمونههای شناسه ملی واقعی آزمایش کنید. یک مجموعه آزمایشی کوتاه با ۱۰ نمونه از هر نوع شناسه در عملیاتتان بسازید. Steuer-ID، NIR، PESEL، Personnummer. نرخهای تشخیص را بررسی کنید. این سریعتر از یک آزمون F1 کامل است و شکافها را سریع نشان میدهد.
برای نحوه برخورد anonym.legal با این الزامات، صفحه امنیت و انطباق ما را ببینید. برای تعریفهای نوع موجودیت، به مرجع موجودیتها مراجعه کنید.