Zergatik PII Detekzio Binariak Betetzean Huts Egiten Duen
2026rako eguneratua
PII tresna guztiek arazo gogor bati aurre egiten diote. Kate berdinak datu pertsonalak izan daitezke leku batean eta ez beste batean.
"John" bezero-fitxategi batean datu-subjektu bat da. "John" John F. Kennedy-ri buruzko historia-paper batean ez da. Mediku-erregistroko bederatzi digituko zenbakia HIPAA kodea da. Bederatzi digitu berdinak produktu-kode batean ez dira.
Bai/ez banderak ezin du hori kudeatu. Bi aukera txar behartzen ditu: PII izan daitezkeen kate guztiak zurrupatu, edo soilik ziur segurua diren diren bat-etortzeetan zurrupatu. Biak huts egiten dute zuzenbidean, non erabaki guztia argi eta dokumentatuta egon behar den.
Entitate bakoitzeko 0 eta 100 arteko puntuazioak hirugarren bide bat eskaintzen du. Maila-arauak, giza berrikuste-ilareak eta ikuskaritza-erregistro osoak bideratzen ditu.
Bai/Ez Banderen Muga
Testuinguruak datuen esanahia aldatzen du. Bi fitxategiek kate berdina eduki dezakete. Batean, datu pertsonalak dira. Bestean, ez. Banderak ezin du hori erakutsi. Zenbaki batek egin dezake.
Soilik bandera batekin, bi aukerak txarrak dira. Gehiegi zurrupatzeak dokumentu-balioa suntsitzen du. Gutxiegi zurrupatzeak arrisku juridikoa sortzen du. Batak ere ez du auzitegian eusten.
Aurkikuntz Juridikoa: Zergatik Puntuazioak Beharrezkoak Diren
Aurkikuntz juridikoak puntuatutako detekzioa derrigorrezko egiten duten arauak ditu.
Gehiegi zurrupatzeko arazoa. Abokatu-izenak edo auzitegi-aipuak zurrupatzeak frogarri kalteak egiten ditu. Auzitegiek abokatu-gehiegi-zurrupatzeagatik isundu dituzte. Gutxiegi-zurrupatzeaz estaltzen duen jurisprudentzia berdinak hau ere estaltzen du.
Gutxiegi zurrupatzeko arazoa. Benetako PII galtzeak arriskua sortzen du. Horrek bezero-pribatutasun-urraketak, barren kexak eta leku batzuetan kargua penalak barne hartzen ditu.
Dei bakoitza azaltzeko beharra. Auzitegi batek galdetzen duenean zergatik elementu bat zurrupatu den, abokatuek azaldu behar dute. "Tresnak markatu du" ez da nahikoa. "Tresnak hau %94an puntuatu du Gizarte Segurantzako Zenbaki bezala. Gure arauak %85 gainetik auto-zurrupatzen ditu." Hori nahikoa da.
Bai/ez banderak ezin du erantzun hori eman. Arau ezarritako puntuatutako tresnak egin dezake. Ikusi ere: Zurrupatzearen Defentsa: AI Puntuazioak Auzitegian.
Hiru-Maila Berrikuste Sistema
Egingarriena hiru maila erabiltzen du entitate-puntuazioan oinarrituta.
1. Maila - Automatikoa (%85 gainetik):
- Ziurtasun altuko formatuak betetzen dituzten elementuak (SSN, IBAN, MRN)
- Auto-zurrupatua giza urrats gabe
- Erregistroak entitate-mota, puntuazioa, metodoa eta denbora jasotzen ditu
- Adibidea: "571-44-9283" %97an SSN bezala - auto-zurrupatua
2. Maila - Giza berrikuspena (%50-85):
- PII izatea zilegi baina epairen behar duten elementuak
- Berrikuspegile batek onartzeko, ukatzeko edo berrizifikatzeko ilarara bidalita
- Erregistroak entitate-mota, puntuazioa, berrikuspegile IDa, erabakia eta denbora jasotzen ditu
- Adibidea: "John Davis" teknologia-dokumentu batean %67an - berrikuspegileek izen bezala berresten du - zurrupatua
3. Maila - Iradokizun soilik (%50 azpitik):
- Iradokizun gisa erakutsitako ziurtasun baxuko elementuak
- Ez auto-zurrupatua; berrikuspegileek jardun edo saltu dezakete
- Erregistroak entitate-mota, puntuazioa eta berrikuspegilearen aukera jasotzen ditu
- Adibidea: "Smith" produktu-dokumentu batean %42an - berrikuspegileek enpresa-izen dela aurkitzen du - ez zurrupatua
Soilik 2. Mailak giza lana behar du. Hiru mailek ikuskaritza-erregistroak sortzen dituzte.
Nola Eraikitzen Diren Puntuazioak
PII tresnek seinale konbinatzen dituzte entitate bakoitzeko zenbaki bat sortzeko.
Regex ereduak. SSN-formatuko bat-etortze zehatzak oinarrizko puntuazio alta lortzen du. Bat-etortze partzialak baxuago bat lortzen du.
Modelo-irteera. Entitate izendatuen modeloek klase bakoitzeko probabilitate bat esleitzen dute. PERSON-erako 0,93ko puntuazioak ziurtasun altuko emaitza ematen du.
Testuinguru-seinaleak. Entitatearen inguruko testuak puntuazioa doitzen du. "Nire SSN 571-44-9283 da" igo egiten du. "Produktu-kodea 571-44-9283" jaitsi egiten du.
Ensemble arauak. Sistemak regex, modelo eta testuinguru-seinaleak pisu ezarritakoekin konbinatzen ditu. Azken zenbakiak froga guztiak islatzen ditu.
Zenbaki horrek zure lan-fluxuko atalase-erabaki guztiak bideratzen ditu. Bai/ez tresnetako positibo faltsuen gaineko informazio gehiagorako, ikusi: PII Tresnen Positibo Faltsuen Zerga.
Aseguru Erreklamazioak: Adibide Erreal Bat
Aseguru-fitxategiek PII argi bat nahasten dute - poliza-hartzaile izena, helbidea, SSN - testuinguru-mendeko datuekin: lekuko izenak, enpresa-izenak, doikuntza-sinadurak.
Bai/ez tresnak izen guztiak zurrupatzen ditu (enpresentzat okerra) edo lekuko izenak galtzen ditu (arrisku bat). Puntuatutako tresna elementu bakoitza bere kabuz kudeatzen du:
- SSN "aseguru-hartzaile SSN" etiketa %96an - auto-zurrupatua
- Poliza-hartzaile izena PERSON gisa markatuta %91an - auto-zurrupatua
- Kontratistak enpresa ORG gisa markatuta %78an - berrikusita - berrikuspegileek zurrupatzeari uko egin
- Lekuko izena PERSON gisa markatuta %82an - berrikusita - berrikuspegileek onartzen du
- Doikuntza izena PERSON gisa markatuta %71an - berrikusita - berrikuspegileek onartzen du (hirugarrenen datuak)
Dei bakoitzak oinarri zenbakiko bat du. Ikuskaritza-ibilbidea osoa da.
Betetze-Erregistroak Eraikitzea
GDPR 5(1)(f) Artikulua eta HIPAA Segurtasun Arauarentzat, puntuatutako tresnek erregistroak sortzen dituzte bere kabuz.
Entitate-mailako ikuskaritza-erregistroek entitate-mota, puntuazioa, erabaki-mota (automatikoa edo eskuzkoa), berrikuspegile IDa eta denbora jasotzen dituzte. CSV gisa esportatzen dira datu-agintaritzaren kontsultarako.
Atalase-erregistroek oraingo ezarpenak eta aldaketa guztiak dokumentatzen dituzte. Aldaketa bakoitzak nork egin duen, noiz eta zergatik barne hartzen du. Horrek kudeatutako, nahitako politika erakusten du.
Estatistika txostenek detekzio-tasak entitate-motaren arabera, 2. Maila berrikuste-tasak eta gainidazte-tasak estaltzen dituzte. Datu-agintaritza bati erantzuten diete "erakutsi iezazkiguzu zure kontrolak" esaten duenean.
HIPAA ikuskaritza-ibilbide gidaritzarako, ikusi: Zurrupatzea Azalpena: HIPAA Ikuskaritzak.
Bai/ez bandera asmatze bat da. Puntuazio bat froga da.