By · Last updated 2026-06-05

Vissza a BlograTechnikai

GDPR-naplóanonimizálás: A hibakeresési képesség megőrzése

Az alkalmazásnaplók csendesen gyűjtik a felhasználói e-maileket, IP-címeket és számlaszámokat. Így oszthat meg naplókat harmadik felekkel, alvállalkozókkal és megfigyelési platformokkal a GDPR megsértése nélkül.

June 5, 20267 perc olvasás
JSON logsGDPR complianceDevOps privacylog anonymizationdata minimization

A személyes adatok csendes felhalmozódásának problémája az alkalmazásnaplókban

Az alkalmazásnaplók a mérnöki szervezetek egyik legjobban figyelmen kívül hagyott GDPR-megfelelőségi felülete. Nem azért, mert a mérnökök nem ismerik a GDPR-t — hanem mert a naplók esetlegesen, nem mindig azonnal látható módon gyűjtenek személyes adatokat, amíg egy megfelelőségi audit fel nem tárja azokat.

Fontolja meg, mi jelenik meg egy tipikus JSON kérés-/válasznaplóban:

{
  "timestamp": "2025-11-14T09:22:13Z",
  "level": "ERROR",
  "endpoint": "/api/users/profile",
  "user_email": "kiss.janos@ceg.hu",
  "client_ip": "82.123.45.67",
  "user_agent": "Mozilla/5.0...",
  "error": "ValidationError: phone field requires format...",
  "input_value": "+36 30 123 4567"
}

Ez az egyetlen naplóbejegyzés négy személyes adatot tartalmaz: e-mail-cím, IP-cím és egy telefonszám (a hiba kontextusában). Napi milliókra megszorozva az API-hívások volumene, a naplómennyiség olyan lényeges személyes adatfeldolgozási tevékenységet képvisel, amely GDPR-jogalapot, megőrzési korlátokat és megfelelő technikai biztosítékokat igényel.

Miért teremt GDPR-kitettséget a harmadik felekkel való naplómegosztás?

A szervezetek folyamatosan osztanak meg alkalmazásnaplókat harmadik felekkel:

  • Penetrációtesztelő cégek produkciós naplókat kapnak az alkalmazás viselkedésének megértéséhez
  • Külső tanácsadók naplóminták segítségével hibakeresnek teljesítményproblémáknál
  • Megfigyelési platformok (Elastic, Datadog, Splunk) teljes naplófolyamokat kapnak
  • SRE-alvállalkozók hozzáférnek a naplókhoz incidenskezelés során
  • Fejlesztési csapatok különböző jogi személyeknél naplókat kapnak hibakereséshez

Ezek a megosztási forgatókönyvek mindegyike GDPR 28. cikkbeli kérdéseket vet fel: adatfeldolgozó-e a befogadó? Van-e adatfeldolgozói szerződés? Van-e a harmadik félnek jogalapja a naplókban lévő személyes adatok fogadásához?

A megfigyelési platformoknál különösen összetett a GDPR-elemzés. Valódi felhasználói e-mail-címeket és IP-címeket tartalmazó produkciós naplók küldése az Elastic Cloudra vagy a Datadog-ra olyan feldolgozási kapcsolatot teremt, amely DPA-t, megfelelő standard szerződési záradékokat és adattovábbítási mechanizmust igényel, ha a platform az EU-n kívül működik.

Az egyszerűbb megfelelőségi út: a naplók anonimizálása, mielőtt elhagyják az ellenőrzött környezetet.

JSON-naplók szerkezeti kihívásai

A JSON-naplók strukturálisan olyan változékonyak, hogy az általános szöveges keresés nem elegendő:

Beágyazási mélység: A személyes adatok bármilyen mélységben beágyazott JSON-ban megjelenhetnek. A request.headers.x-forwarded-for IP-címeket tartalmaz; a response.body.errors[0].field_value tartalmazhat felhasználó által beírt személyes adatokat az érvényesítési hibák kontextusából. A JSON-fájl lapos szöveges vizsgálata szöveges dokumentumként kezeli, és kihagyhat mélyen beágyazott elérési utakon lévő entitásokat.

Következetlen sémák: A különböző API-végpontok különböző naplósémákat állítanak elő. A felhasználói hitelesítési naplók különböznek a fizetésfeldolgozási naplóktól, amelyek különböznek a felhasználói profil frissítési naplóktól. A rögzített elérési utas megközelítés ("mindig anonimizálja a $.user.email-t") kihagyja a váratlan elérési utakon lévő személyes adatokat a hibakontextusokban.

Technikai értékek keverve személyes adatokkal: A vermesítési nyomvonalakat, hibakódokat, technikai azonosítókat, időbélyegeket és metrikaértékeket meg kell őrizni a hibakereséshez. A mindent megtisztító általános anonimizálás hasznavehetetlen naplót eredményez elsődleges céljához.

A megoldás a tartalombasált felismerés: a személyes adatok azonosítása azon alapján, hogy mik (e-mail-cím minta, IP-cím formátum, elnevezett entitás), nem pedig a JSON-szerkezeten belüli elhelyezkedésük alapján. A tartalombasált felismerés automatikusan kezeli a változó sémákat.

A hibakeresési hasznosság megőrzése következetes pszeudoanonimizálással

A hibakeresésre alkalmas naplóanonimizálás kulcsfontosságú követelménye a referenciális integritás: ha a kiss.janos@ceg.hu 47 különböző naplóbejegyzésben szerepel egyetlen kéréslánchoz kapcsolódóan, mind a 47 előfordulást ugyanazzal a pszeudoanonimizált értékkel kell helyettesíteni.

Helyettesítési megközelítés:

  • kiss.janos@ceg.huuser1@example.com (a naplófájlon belül következetes)
  • 82.123.45.67192.0.2.1 (RFC 5737 dokumentációs IP — egyértelműen nem valódi)
  • +36 30 123 4567+36 XXX XXX XXXX (maszkolva)

Követetes pszeudoanonimizálással a fejlesztő nyomon tudja követni a user1@example.com felhasználót 47 naplóbejegyzésen keresztül, rekonstruálni tudja a kérésszekvenciát és meg tudja keresni a hibát — anélkül, hogy valaha látná a valódi felhasználó e-mail-címét.

A technikai metaadatok változatlanul megőrződnek:

  • Időbélyegek (nem személyes adatok)
  • Hibakódok és -típusok (nem személyes adatok)
  • Vermesítési nyomvonalak (nem személyes adatok — tartalmazhatnak technikai azonosítókat, de nem személyes adatokat)
  • HTTP-metódusok, elérési utak, állapotkódok (nem személyes adatok)
  • Metrikaértékek, késleltetési mérések (nem személyes adatok)

Az anonimizált naplófájl teljes mértékben alkalmas hibakeresésre; nem tartalmaz valódi felhasználói személyes adatokat.

Felhasználási eset: SaaS vállalat penetrációtesztelési naplómegosztása

Egy SaaS vállalat negyedéves biztonsági értékelésre külső penetrációtesztelő céget bízott meg. A teszt hatóköre megkövetelte a 90 napos produkciós API-naplókhoz való hozzáférést az alkalmazás viselkedésének megértéséhez, a hitelesítési folyamatok azonosításához és a hibaminták elemzéséhez.

Nyers naplómennyiség: 180 MB JSON-napló. Entitásszám: 4 200 egyedi felhasználói e-mail-cím, 1 800 egyedi IP-cím, 340 részleges számlaszám a hibakontextusokban.

Anonimizálás nélkül ezen naplók megosztása a külső céggel DPA-t, GDPR 46. cikk szerinti adattovábbítási mechanizmust (EU-n kívüli cég) és érintetti értesítési elemzést igényelt volna.

Anonimizálással:

  • Feldolgozási idő: 25 perc 180 MB-hoz
  • Kimenet: 180 MB szerkezetileg azonos napló, az összes e-mail-cím, IP-cím és számlaszám következetes pszeudoanonimizált értékekkel helyettesítve
  • Eredmény: a penetrációtesztelő cég teljes naplókontextust kap a biztonsági elemzéshez; nulla valódi felhasználói adat van a birtokukban
  • GDPR-követelmény: DPA nem szükséges (az anonimizált adatok nem minősülnek személyes adatnak a GDPR szerint)

A naplóanonimizálás integrálása CI/CD-csatornákba

Azon szervezetek számára, amelyek rendszeresen végeznek folyamatos biztonsági tesztelést vagy osztanak meg naplókat külső felekkel, a kötegelt naplóanonimizálás automatizált csatornákba integrálható:

Naplórotáció integráció:

  • A naplórotáló szkript éjszaka fut
  • Archiválás vagy megfigyelési platformra küldés előtt: anonimizálási lépés
  • Anonimizált naplók küldése a külső rendszereknek
  • Az eredeti naplók belső megőrzése a teljes megőrzési idő alatt

Megosztás előtti szkript:

  • Mérnöknek naplómintát kell megosztania egy külső alvállalkozóval
  • Futtatja az anonimizálási szkriptet: bemenet=nyers-naplók/, kimenet=anonimizált-naplók/
  • Megosztja az anonimizált-naplók/ mappát az alvállalkozóval
  • Nincs szükség manuális személyesadat-felülvizsgálatra

Megfigyelési platform integráció:

  • Oldalkocsi-folyamat anonimizálja a naplófolyamot az Elastic/Datadog-ra való továbbítás előtt
  • A valós idejű anonimizálás megőrzi a napló megfigyelési hasznosságát
  • A megfigyelési platform nulla valódi felhasználói személyes adatot kap

A GDPR 5. cikk (1) bekezdés e) pontja szerinti tároláskorlátozás-megfelelőség érdekében a naplóanonimizálás a naplómegőrzési szabályzat részét is képezheti: nyers naplók 7 napig tárolva (operatív hibakereséshez), anonimizált verziók 90 napig tárolva (trendlelemzéshez), az anonimizálási lépés automatikusan futva a 7. napon.

Források:

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.