Til baka á BloggGDPR & Samræmi

Flókalinga PIL-greining: GDPR-samhliðun fyrir 48 tungumál

GDPR-samhliðun er ekki endalaust ensku-miðuð. Kannaðu hvernig á að greina PIL á arabiska, kínversku, hindi og flórum tungumálum.

March 3, 202610 mín lestur
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Dulinn GDPR-samhliðun-bilið

GDPR-skilgreinir ekki tungumála-kjósun. Grein 4(1) skilgreinir "einkaupplýsingar" án vísunar til tungumálsins. Þýskt Steuer-ID er eins mikil PIL og Bandarísk Social Security Number.

En flestir PIL-greinin-tól virka einan með ensku.

Þýskir Steuer-ID? Alger tala sem er PIL. En PIL-greinin-leikmenn (samsett á enskum gögnum) vita ekki hvað það er.

Þetta er GDPR-endalaus hætta.

Tungumála-sérstakling PIL

Hvert tungumál hefur sín PIL-mál:

  • Enski: SSN = 9 tölur (123-45-6789)
  • Þýsku: Steuer-ID = 11 tölur + 1 stafur
  • Franska: Numero Sécu = 15 tölur
  • Kínverska: ID Card = 18 tölur
  • Arabiska: Margar gerðir
  • Hindi: Aadhaar = 12 tölur

Endalaus PIL-greining fyrir hvern tungumál

Einsk PIL-greining krefst:

  1. Tungumála-sérfræðir
  2. Tungumála-sérfræðilegt NER-leikmenn
  3. Tungumála-sérfræðilegum reglum (regex)
  4. Tungumála-sérfræðilegum gögnum

Flestir PIL-greinin-tól hafa einn af þessum—oft ekki endalaust.

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.