title: 'Miért nem felel meg a bináris személyes adat-észlelés a megfelelési követelményeknek' description: 'Az észlelt/nem észlelt jelölések nem tudnak megalapozni védhető szerkesztési döntéseket. A megbízhatósági pontozás átalakítja a személyes adat anonimizálását bináris találgatásból auditálható megfelelési ellenőrzéssé.' category: technical publishedAt: 2026-06-21 tags:
- megbízhatósági pontozás
- személyes adat-észlelés
- jogi feltárás
- megfelelőség
- GDPR-audit readingTime: 8
Miért nem felel meg a bináris személyes adat-észlelés a megfelelési követelményeknek
2026-ra frissítve
Minden személyes adat-eszköz szembesül egy nehéz problémával. Ugyanaz a karakterlánc egyik helyen személyes adat lehet, másik helyen nem.
Az „János” egy ügyfélaktában adatalany. A „János” egy John F. Kennedyről szóló történelmi papírban nem az. Egy kilencjegyű szám orvosi rekordban HIPAA-kód. Ugyanaz a kilenc jegy termékszámban nem az.
Egy igen/nem jelölés ezt nem tudja kezelni. Két rossz választásra kényszerít: kiszerkeszt minden karakterláncot, amely esetleg személyes adat lehet, vagy csak a biztos egyezéseket szerkeszti ki. Mindkettő megbukik a jogban, ahol minden döntésnek egyértelműnek és dokumentáltnak kell lennie.
Entitásonként 0-tól 100-ig terjedő pontszám harmadik utat kínál. Réteges szabályokat, emberi felülvizsgálati sorokat és teljes auditnaplókat vezérel.
Az igen/nem jelölés korlátai
A kontextus megváltoztatja az adat jelentését. Két fájl tartalmazza ugyanazt a karakterláncot. Az egyikben személyes adat. A másikban nem. Egy jelölés ezt nem mutatja meg. Egy szám megmutatja.
Csak jelöléssel a két lehetőség rossz. A túlzott kiszerkesztés tönkreteszi a dokumentum értékét. A nem elegendő kiszerkesztés jogi kockázatot jelent. Egyik sem állja meg a helyét bíróságon.
Jogi feltárás: Miért szükségesek a pontszámok
A jogi feltárásnak vannak szabályai, amelyek a pontozott észlelést kötelezővé teszik.
A túlzott kiszerkesztés problémája. Az ügyvédek neveinek vagy bírósági idézetek kiszerkesztése rontja a bizonyítékot. A bíróságok bírságolták az ügyvédeket a túlzott kiszerkesztésért. Ugyanaz az esetjog, amely az alul-kiszerkesztést fedi, ezt is lefedi.
Az alul-kiszerkesztés problémája. A valódi személyes adat kihagyása kockázatot teremt. Ebbe beletartoznak az ügyféladatvédelmi sértések, ügyvédi kamai panaszok és néhány helyen büntetőjogi vádak.
Az egyes döntések magyarázatának szükségessége. Amikor egy bíróság megkérdezi, miért lett egy elem kiszerkesztve, az ügyvédeknek meg kell magyarázniuk. „Az eszköz megjelölte” nem elegendő. „Az eszköz 94%-ra értékelte ezt társadalombiztosítási számként. A szabályunk 85% felett automatikusan szerkeszt ki.” Ez elegendő.
Egy igen/nem jelölés nem adhat ilyen választ. Egy beállított szabályokkal rendelkező pontozott eszköz igen. Lásd még: Kiszerkesztések védelme: AI-pontszámok bíróságon.
Háromszintű felülvizsgálati rendszer
A leghatékonyabb beállítás az entitás pontszáma alapján három szintet alkalmaz.
1. szint — Automatikus (85% felett):
- Magas bizonyossági formátumoknak megfelelő elemek (TAJ-szám, IBAN, MRN)
- Automatikusan kiszerkesztve emberi lépés nélkül
- A napló rögzíti az entitástípust, pontszámot, módszert és időt
- Példa: „571-44-9283” 97%-on TAJ-számként — automatikusan kiszerkesztve
2. szint — Emberi felülvizsgálat (50–85%):
- Személyes adat lehet, de ítélőképességre van szükség
- Felülvizsgálóhoz küldve elfogadásra, elutasításra vagy újraosztályozásra
- A napló rögzíti az entitástípust, pontszámot, felülvizsgáló azonosítóját, döntést és időt
- Példa: „John Davis” technikai dokumentumban 67%-on — felülvizsgáló megerősíti, hogy ez egy név — kiszerkesztve
3. szint — Csak javaslat (50% alatt):
- Alacsony bizonyossági elemek tippként megjelenítve
- Nem automatikusan kiszerkesztve; felülvizsgáló cselekedhet vagy kihagyhatja
- A napló rögzíti az entitástípust, pontszámot és felülvizsgáló döntését
- Példa: „Smith” termékdokumentumban 42%-on — felülvizsgáló megállapítja, hogy ez egy cégnév — nem szerkesztve ki
Csak a 2. szint igényel emberi munkát. Mindhárom szint auditnaplókat termel.
Hogyan épülnek fel a pontszámok
A személyes adat-eszközök jeleket kombinálnak, hogy entitásonként egy számot produkáljanak.
Regex-minták. Egy pontos TAJ-formátumú egyezés magas alappontszámot kap. Egy részleges egyezés alacsonyabbat.
Modellkimenet. Az elnevezett entitásmodellek osztályonként valószínűséget rendelnek. A PERSON 0,93-as pontszáma magas bizonyossági eredményt ad.
Kontextuális jelek. Az entitást körülvevő szöveg igazítja a pontszámot. „A TAJ-számom 571-44-9283” emeli. „Termékszám 571-44-9283” csökkenti.
Együttes szabályok. A rendszerek regex, modell és kontextuális jeleket kombinálnak beállított súlyokkal. A végső szám az összes bizonyítékot tükrözi.
Ez a szám vezérel minden küszöbértékes döntést a munkafolyamatban. A téves pozitívokról az igen/nem eszközöknél bővebben lásd: A téves pozitív adó a személyes adat-eszközökön.
Biztosítási igények: valódi példa
A biztosítási fájlok egyértelmű személyes adatot kevernek — kötvénytulajdonos neve, cím, TAJ-szám — kontextusfüggő adatokkal: tanúk nevei, cégnévek, kárrendező aláírások.
Egy igen/nem eszköz vagy az összes nevet kiszerkeszti (rossz a cégeknél) vagy kihagyja a tanúk neveit (kockázat). Egy pontozott eszköz minden elemet önmagában kezel:
- TAJ-szám „kötvénytulajdonos TAJ-száma” felirattal 96%-on — automatikusan kiszerkesztve
- Kötvénytulajdonos neve SZEMÉLY-ként 91%-on — automatikusan kiszerkesztve
- Vállalkozó cég SZERVEZET-ként 78%-on — felülvizsgált — felülvizsgáló elutasítja a kiszerkesztést
- Tanú neve SZEMÉLY-ként 82%-on — felülvizsgált — felülvizsgáló elfogadja
- Kárrendező neve SZEMÉLY-ként 71%-on — felülvizsgált — felülvizsgáló elfogadja (harmadik fél adata)
Minden döntésnek numerikus alapja van. Az auditnyomvonal teljes.
Megfelelési nyilvántartások felépítése
A GDPR 5. cikk (1)(f) bekezdéséhez és a HIPAA biztonsági szabályhoz a pontozott eszközök önállóan generálnak nyilvántartásokat.
Entitásszintű auditnaplók rögzítik az entitástípust, pontszámot, döntés típusát (automatikus vagy manuális), felülvizsgáló azonosítóját és időt. Ezek CSV-ként exportálhatók adathatósági megkeresésekhez.
Küszöbértékes nyilvántartások dokumentálják a jelenlegi beállításokat és minden változtatást. Minden változtatás tartalmazza, ki, mikor és miért tette. Ez megmutatja egy felügyelt, szándékos szabályzatot.
Statisztikai jelentések az entitástípusonkénti észlelési arányokat, a 2. szintű felülvizsgálati arányokat és a felülbírálati arányokat fedik le. Ezek megválaszolják az adathatóság „mutassa meg az ellenőrzéseit” kérését.
A HIPAA-auditnyomvonal útmutatójáért lásd: Magyarázható kiszerkesztés: HIPAA-auditok.
Egy igen/nem jelölés egy találgatás. Egy pontszám bizonyíték.