PII Bersembunyi dalam Log Aplikasi

Log aplikasi adalah salah satu permukaan GDPR yang paling diabaikan dalam kejuruteraan. Bukan kerana jurutera mengabaikan undang-undang. Kerana butiran pengguna memasuki fail log secara tidak sengaja.

Satu log permintaan JSON boleh memegang empat medan PII:

{
  "timestamp": "2025-11-14T09:22:13Z",
  "level": "ERROR",
  "endpoint": "/api/users/profile",
  "user_email": "sarah.johnson@company.com",
  "client_ip": "82.123.45.67",
  "user_agent": "Mozilla/5.0",
  "error": "ValidationError: phone format",
  "input_value": "+49 176 1234 5678"
}

Entri tunggal itu memegang e-mel, IP, dan nombor telefon. Darabkan itu merentasi berjuta-juta panggilan API harian. Hasilnya adalah aktiviti PII yang besar. Ia memerlukan asas undang-undang, had, dan kawalan.

Passukan berkongsi fail log dengan pihak luar sepanjang masa:

Firma ujian pen mendapat rekod untuk memetakan tingkah laku aplikasi
Perunding luar menggunakan sampel log untuk mencari titik perlahan
Platform log (Elastic, Datadog, Splunk) menerima aliran output penuh
Kontraktor SRE mengakses rekod semasa insiden
Pasukan pembangunan dalam entiti undang-undang lain menerima fail untuk debugging

Setiap perkongsian menimbulkan soalan Perkara 28 GDPR. Adakah penerima adalah pemproses? Adakah terdapat Perjanjian Pemprosesan Data? Adakah mereka mempunyai asas undang-undang untuk melihat butiran pengguna dalam fail tersebut?

Platform log adalah jurang biasa. Menghantar output dengan e-mel dan IP pengguna sebenar ke Elastic Cloud atau Datadog mewujudkan pautan pemprosesan. Pautan itu memerlukan DPA, klausa standard, dan alat pemindahan jika platform berada di luar EU. Setiap satu ini memerlukan masa dan semakan undang-undang.

Laluan yang lebih mudah: lucutkan butiran pengguna sebelum fail meninggalkan sistem anda. Baca gambaran keseluruhan pematuhan kami untuk peraturan Perkara 28 penuh.

Mengapa Struktur JSON Menjadikan Pengesanan Sukar

Fail log JSON berbeza-beza dalam struktur. Pengimbasan teks generik tidak mencukupi.

Kedalaman bersarang: Butiran pengguna muncul pada sebarang kedalaman. Medan request.headers.x-forwarded-for memegang alamat IP. Medan response.body.errors[0].field_value mungkin memegang input pengguna. Imbasan teks rata terlepas medan yang terkubur dalam laluan bersarang.

Skema tidak konsisten: Setiap titik akhir API menghasilkan bentuk outputnya sendiri. Fail auth tidak kelihatan seperti fail pembayaran. Fail kemas kini profil tidak kelihatan seperti kedua-duanya. Pendekatan laluan tetap terlepas butiran pengguna yang muncul pada laluan pelik dalam konteks ralat.

Nilai teknikal bercampur dengan PII: Jejak tindanan, kod ralat, dan cap masa mesti kekal utuh. Pelucutan menyeluruh memadam medan yang diperlukan dan menjadikan fail tidak berguna.

Pendekatan yang betul adalah pengesanan berasaskan kandungan. Cari butiran pengguna dengan apa yang mereka ada — corak e-mel, format IP, entiti bernama — bukan di mana mereka duduk dalam struktur. Ini mengendalikan skema variable tanpa persediaan setiap titik akhir yang diperlukan.

Penggantian Konsisten Mengekalkan Log Berguna

Keperluan utama adalah integriti rujukan. Jika sarah.johnson@company.com muncul dalam 47 entri merentasi rantai permintaan, kesemua 47 mesti dipetakan ke nilai yang sama.

Peraturan pemetaan:

sarah.johnson@company.com → user1@example.com (nilai yang sama sepanjang fail)
82.123.45.67 → 192.0.2.1 (IP dokumentasi RFC 5737 — jelas bukan sebenar)
+49 176 1234 5678 → +49 XXX XXX XXXX (bertopeng)

Dengan pemetaan itu, pembangun boleh menjejaki user1@example.com melalui 47 entri, membina semula rantai permintaan, dan membetulkan pepijat — tanpa melihat sebarang butiran pengguna sebenar.

Medan metadata ini kekal tidak berubah:

Cap masa (bukan data pengguna)
Kod dan jenis ralat (bukan data pengguna)
Jejak tindanan (mungkin mengandungi ID teknikal, bukan data pengguna)
Kaedah HTTP, laluan, kod status (bukan data pengguna)
Nilai metrik dan angka kependaman (bukan data pengguna)

Hasilnya adalah fail yang berfungsi untuk kerja debug. Ia tidak mengandungi butiran pengguna sebenar. Lihat glosari kami untuk perbezaan antara anonimisasi dan pseudonimisasi di bawah GDPR.

Kes Penggunaan: Perkongsian Log Ujian Pen

Firma SaaS menjalankan semakan keselamatan suku tahunan dengan pasukan ujian pen luar. Skop memerlukan 90 hari output API pengeluaran untuk memetakan aliran auth dan menganalisis corak ralat.

Volum mentah: 180 MB fail JSON. Kiraan PII: 4,200 e-mel pengguna unik, 1,800 IP unik, 340 nombor akaun separa dalam konteks ralat.

Tanpa melucutkan butiran pengguna terlebih dahulu, berkongsi fail tersebut akan memerlukan:

DPA dengan firma ujian pen
Alat pemindahan Perkara 46 GDPR (firma itu berada di luar EU)
Semakan notis subjek data

Setiap satu ini menambah kerja undang-undang dan masa.

Dengan pelucutan PII yang digunakan:

Masa pemprosesan: 25 minit untuk 180 MB
Output: 180 MB fail berstruktur sama, semua e-mel dan IP digantikan dengan nilai selamat
Keputusan: pasukan ujian pen menerima konteks penuh; sifar butiran pengguna sebenar sampai kepada mereka
Hasil GDPR: tiada DPA diperlukan — output yang dilucutkan bukan data pengguna di bawah GDPR

Lihat Soalan Lazim kami untuk soalan biasa tentang apa yang dianggap tanpa nama di bawah GDPR.

Mengintegrasikan Pelucutan PII ke dalam CI/CD

Untuk pasukan yang berkongsi output secara berkala, langkah ini boleh berjalan dalam saluran sedia ada.

Putaran log:

Skrip putaran berjalan setiap malam
Langkah pelucutan berjalan sebelum mengarkib atau menghantar ke mana-mana platform log
Fail yang dilucutkan pergi ke sistem luar
Fail asal kekal dalaman dengan pengekalan penuh

Skrip pra-perkongsian:

Jurutera perlu berkongsi sampel dengan kontraktor
Jalankan skrip: input=raw-logs/ output=clean-logs/
Kongsi folder clean-logs/
Tiada semakan PII manual diperlukan

Pendekatan sidecar:

Sidecar melucutkan aliran output sebelum meneruskan
Pelucutan masa nyata mengekalkan utiliti untuk analisis log
Platform menerima sifar butiran pengguna sebenar

Integrasi Dasar Pengekalan

Perkara 5(1)(e) GDPR memerlukan had penyimpanan. Pelucutan PII sesuai dengan sebarang dasar pengekalan.

Output mentah disimpan selama 7 hari (untuk kerja debug hari ke hari)
Versi yang dilucutkan disimpan selama 90 hari (untuk analisis trend dan semakan insiden)
Langkah pelucutan berjalan pada hari ke-7

Ini memenuhi had penyimpanan. Ia menghilangkan risiko menyimpan output mentah jangka panjang.

Sumber

Artikel Berkaitan

Teknikal

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

Mulakan Percubaan Percuma Lihat Ciri-ciri

Anonimisasi Log GDPR: Kekalkan Keupayaan Debugging

PII Bersembunyi dalam Log Aplikasi

Mengapa Struktur JSON Menjadikan Pengesanan Sukar

Penggantian Konsisten Mengekalkan Log Berguna

Kes Penggunaan: Perkongsian Log Ujian Pen

Mengintegrasikan Pelucutan PII ke dalam CI/CD

Integrasi Dasar Pengekalan

Sumber

Artikel Berkaitan

Presidio: Persediaan 3 Minggu vs PII Terurus

6 Minggu kepada 3 Hari: Persediaan PII Terurus

Pengesanan PII Percuma Kos €13K/Tahun

Sedia untuk melindungi data anda?

Anonimisasi Log GDPR: Kekalkan Keupayaan Debugging

PII Bersembunyi dalam Log Aplikasi

Perkongsian Log Pihak Ketiga Meningkatkan Risiko GDPR

Mengapa Struktur JSON Menjadikan Pengesanan Sukar

Penggantian Konsisten Mengekalkan Log Berguna

Kes Penggunaan: Perkongsian Log Ujian Pen

Mengintegrasikan Pelucutan PII ke dalam CI/CD

Integrasi Dasar Pengekalan

Sumber

Artikel Berkaitan

Presidio: Persediaan 3 Minggu vs PII Terurus

6 Minggu kepada 3 Hari: Persediaan PII Terurus

Pengesanan PII Percuma Kos €13K/Tahun

Sedia untuk melindungi data anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow