ANSPDCP Romania: CNP Detection at Mga Tseke ng GDPR
Na-update para sa 2026
Ang katawan ng datos ng Romania ay ANSPDCP. Ang kanyang 2024 na pagtatasa ay natuklasan na 78% ng mga PII tool ay nabibigo sa pag-detect ng Cod Numeric Personal (CNP). Karamihan ay nilalaktawan ang hakbang ng checksum. Lumilikha ang agwat na iyon ng tunay na panganib ng pagsunod. Nagpoproseso ang Romania ng datos ng EU para sa maraming kliyente sa Kanluran. Malawak ang pagkakalantad.
Ang Pinakamaraming Data-Rich na Pambansang ID ng Romania
Ang CNP ay isang 13-digit na pambansang pagkakakilanlan. Bawat grupo ng digit ay nagtataglay ng personal na datos:
- Digit 1: Code ng kasarian at siglo. Lalaking ipinanganak 1900–1999 = 1. Babaing ipinanganak 1900–1999 = 2. Lalaking ipinanganak 2000+ = 5. Babaing ipinanganak 2000+ = 6. Lalaking residenteng dayuhan = 7. Babaing residenteng dayuhan = 8. Iba pang residente = 9.
- Mga digit 2–3: Huling dalawang digit ng taon ng kapanganakan.
- Mga digit 4–5: Buwan ng kapanganakan (01–12).
- Mga digit 6–7: Araw ng kapanganakan (01–31).
- Mga digit 8–9: Code ng lalawigan. Sumasaklaw sa 41 lalawigan at anim na sektor ng Bucharest (mga code 01–52).
- Mga digit 10–12: Pagkakasunud-sunod ng kapanganakan sa loob ng araw at lalagyan.
- Digit 13: Check digit.
Ang digit 1 lamang ay nagpapahayag ng biyolohikal na kasarian. Sa ilalim ng GDPR Article 9, ginagawa nitong isang special-category na item ng datos ang numerong ito. Nangangailangan ito ng mas matibay na proteksyon kaysa sa ordinaryong personal na datos.
Paano gumagana ang check digit: Kunin ang unang 12 digit. I-multiply ang bawat isa sa pamamagitan ng timbang nito (2, 7, 9, 1, 4, 6, 3, 5, 8, 2, 7, 9). Idagdag ang mga resulta. Hatiin sa 11 at kunin ang natitira. Ang natitira na 10 ay nagbibigay ng check digit na 1. Ang natitira na 11 ay nangangahulugang ang code ay hindi wasto. Anumang iba pang natitira ay ang check digit.
Ang mga tool na nilalaktawan ang pagsubok na ito ay may dalawang paraan ng kabiguan. Una, anumang 13-digit na string ay nila-flag bilang isang tugma (false positives). Pangalawa, ang isang sirang numero ay pumapasa sa tseke ng pattern ngunit naglalaman ng masamang datos. Ang datos na iyon ay nangangailangan ng pagsusuri at napapansin nang hindi ito (false negatives).
Mga Problema sa NER sa Mga Dokumentong Romanian
Ang paghahanap ng mga pagkakakilanlan ay bahagi lamang ng trabaho. Ang Romanian na teksto ay nagdaragdag ng mas maraming hadlang sa pag-detect.
Mga diacritic: Gumagamit ang Romanian ng ș, ț, ă, â, at î. Ang mga tool na sinanay sa ibang mga wika ay madalas na nakalilikha ng pagkabigo sa mga pangalang may mga titik na ito. Ang mga lumang dokumento sa Latin-2 encoding ay nagdaragdag ng mas maraming kabiguan.
Mga format ng address: Gumagamit ang mga uri ng kalye ng maikling anyo — Str., Bd., Al., Cal. Sumusunod ang mga pangalan ng lungsod at komune sa mga lokal na panuntunan. Ang mga parser na itinayo para sa mga address na French o German ay hindi mahusay dito.
Inflection ng pangalan: Nagbabago ang mga pangalan ng anyo sa pamamagitan ng grammatical case sa Romanian. Ang pangalan ng parehong tao ay iba ang hitsura sa iba't ibang bahagi ng pangungusap. Ang mga modelo ng NER ay dapat hawakan ito upang maiugnay ang mga pangalan sa buong dokumento.
Tingnan ang aming gabay sa APAC PII detection para sa kung paano nakakaapekto ang mga agwat ng wika sa pag-detect sa mga non-Western script.
Paano Nag-uunlad ang mga Kaso ng ANSPDCP
Ang mga kaso ng ANSPDCP ay nagpapakita ng tatlong pattern.
Mga kaso ng breach ng BPO: Ang mga shared file ay nagtataglay ng mga numero ng ID ng empleyado at datos ng EU customer nang walang encryption. Ang mahinang mga log ay nangangahulugang hindi matukoy ng firm kung aling mga rekord ang na-access. Pinalawak nito ang imbestigasyon at pinagtaas ang multa.
Pagkakalantad sa healthcare: Ang mga file ng pasyente — ang pambansang ID, ID ng health card, at diagnosis — ay umaabot sa maling tao. Ang PII tool ay walang suporta para sa format na ito. Ang datos ay umalis nang walang masking.
Mga kabiguan sa cross-border na paglipat: Ang isang firm ng outsourcing ay nagpapadala ng mga rekord na naka-link sa identifier sa isang partido na wala sa EEA. Walang Transfer Impact Assessment. Walang Standard Contractual Clauses. Ang status na Article 9 ng datos ay nagbabago ng isang karaniwang agwat sa isang mas seryosong paglabag.
Tatlong Kontrol para sa Pagsunod sa ANSPDCP
Ang tatlong ito ay bumubuo ng minimum na teknikal na baseline:
- CNP detection na may modulo-11 na beripikasyon — ang pattern matching lamang ay hindi sapat.
- Diacritic-aware NER — sumasaklaw sa ș, ț, ă, â, at î sa parehong UTF-8 at Latin-2 na pinagkukunan.
- ID card detection — ang pambansang card ay lumalabas kasama ang CNP sa maraming uri ng dokumento.
Para sa mas malawak na pananaw kung paano nagdudulot ng panganib ng GDPR ang mga national ID, tingnan ang aming gabay sa EU national tax ID detection.