By · Last updated 2026-06-05

Atgal į BlogąGDPR ir Atitiktis

Excel asmens duomenys: šimtų stulpelių anonimizavimas

Excel yra vienas tankiausių asmens duomenų dokumentų tipų verslo operacijose. Kodėl standartinė teksto analizė nepavyksta skaičiuoklėse ir ką suteikia stulpelių konteksto metodas.

June 5, 20268 min skaityti
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Kodėl Excel yra jūsų didžiausios rizikos failų tipas

Excel failai yra viena didžiausių BDAR rizikų daugelyje įmonių. Medicinos įrašai gali turėti jautresnių duomenų vienoje eilutėje. Tačiau skaičiuoklės greitai kaupia asmens duomenis - ir atitikties komandos dažnai jų nepastebi.

Trys dalykai apsunkina Excel failų valdymą.

Apimtis: Vienas XLSX failas gali turėti 50 000 eilučių ir 100 stulpelių. Tai penkis milijonus ląstelių. Jokia rankinė peržiūra negali patikrinti visų jų.

Tinklelio išdėstymas: Tekstas teka viena kryptimi. Excel skleidžia duomenis per eilutes ir stulpelius. Asmens duomenys gali slėptis bet kur tame tinklelyje.

Mišrus turinys: Atlyginimų grupės, padalinių kodai ir pareigybių lygiai yra tame pačiame faile kaip SSN ir el. pašto adresai. Visko ištrynimas padaro failą nenaudingą.

Ilgas saugojimas: Darbuotojų sąrašai ir klientų įrašai išlieka Excel metų metus. BDAR 5 straipsnio 1 dalies e punktas sako, kad duomenys turi būti saugomi "ne ilgiau nei būtina". Failai, kurie "gali būti naudingi", dažnai išlieka daug ilgiau nei tas taškas.

Kodėl standartiniai teksto nuskaitymai nepavyksta skaičiuoklėse

Teksto analizės įrankiai buvo sukurti dokumentams. Jie žlunga skaičiuoklėse keliais įprastais būdais.

SSN kaip skaičiaus problema

Excel saugo socialinio draudimo numerius be brūkšnelių (123456789) kaip paprastus skaičius - ne tekstą. Skaitytuvas, sukurtas rasti ###-##-####, jų praleis. Geras įrankis turi žinoti, kad 9 skaitmenų skaičius stulpelyje "SSN" yra socialinio draudimo numeris.

Datos kaip skaičiaus problema

Excel saugo datas kaip eilučių numerius. 2024 m. vasario 6 d. saugoma kaip 45329. CSV eksportas rodys "45329" stulpelyje "Gimimo data". Skaitytuvas turi konvertuoti tą skaičių į tikrą datą prieš galėdamas pažymėti reikšmę.

Dalinio SSN problema

Kai kurios sistemos rodo tik paskutinį keturių SSN skaitmenų (*--1234). Pilnas numeris yra užrakintame stulpelyje. Dalinė reikšmė vis tiek turi būti anonimizuota - net jei neatrodo kaip pilnas SSN.

Formulės asmens duomenų problema

Kai kurios ląstelės konstruoja asmens duomenis iš kitų ląstelių. Ląstelė su =CONCATENATE(B2," ",C2) rodo pilną vardą. Jei išvalysite stulpelius B ir C, tas pilnas vardas vis tiek matomas formulės ląstelėje. Įrankis, skaitantis tik saugomas reikšmes - ne formulių ryšius - paliks asmens duomenis vietoje.

Kelių lapų problema

Dideliame darbaknygėje gali būti penki lapai: Klientų sąrašas, Užsakymai, Palaikymo bilietai, Atsiskaitymas ir Analizė. Klientų vardai pasirodo visuose penkiuose. "Jonas Jonaitis" viename lape turi tapti tuo pačiu prieketu - "PERSON_0047" - kiekviename kitame lape. Du skirtingi prieketai sulaužo įrašų ryšius.

Stulpelių antraštės kaip signalas

Geriausias patobulinimas skaičiuoklių asmens duomenų aptikimui yra stulpelių antraščių analizė.

Stulpelis, vadinamas "SSN", nurodo įrankiui, kad visos to stulpelio reikšmės yra socialinio draudimo numeriai. Tai veikia net jei reikšmės yra dalinės, neįprastu formatu ar saugomos kaip skaičiai.

Stulpelio antraštėKą ji signalizuoja
SSN / Socialinis draudimas / Mokesčių IDTraktuokite 9 skaitmenų skaičius kaip SSN
El. paštas / E-mail / El. pašto adresasPažymėkite net dalinius el. pašto šablonus
Telefonas / Telefono numeris / MobilusPriimkite bet kokį telefono formatą
Gimimo data / DataKonvertuokite eilučių numerius į datas
Vardas / Pavardė / Pilnas vardasSumažinkite vardo aptikimo ribą
Adresas / Gatvė / Miestas / Pašto kodasSujunkite gretimus vietos laukus
Paciento ID / MRN / Įrašo numerisTaikykite sveikatos priežiūros ID šablonus

Stulpelio kontekstas nepakeičia turinio nuskaitymo. Jis papildo jį. Stulpelis, vadinamas "SSN", su 100 reikšmių: turinio nuskaitymas sugauna 99 gerai suformatuotas. Stulpelio kontekstas sugauna tą, kuri atrodo neįprastai.

Išlaikykite struktūrą, pašalinkite vardus

Daugumoje Excel BDAR atvejų tikslas nėra sunaikinti failą. Tai - ištrinti asmens duomenis išlaikant dalis, kurios daro failą naudingą.

15 000 eilučių darbuotojų įrašų failui atitikties pareigūnui reikia:

Pašalinti:

  • Darbuotojų vardai - PERSON_XXXX prieketai
  • SSN - REDAGUOTA
  • El. pašto adresai - REDAGUOTA
  • Telefono numeriai - REDAGUOTA
  • Namų adresai - REDAGUOTA

Išlaikyti:

  • Padalinių kodai
  • Pareigybių pavadinimai (tik bendrieji vaidmenys)
  • Atlyginimų grupės (plačios kategorijos)
  • Veiklos rezultatų balai (grupės duomenys)
  • Pradžios datos (stažo statistikai)
  • Vadovų kodai (jei pseudonimizuoti)

Įrankis, žinantis skirtumą tarp "duomenų, kurie identifikuoja žmones" ir "duomenų, aprašančių darbus", suteikia failą, kuris vis dar veikia HR analizei - ir atitinka BDAR duomenų mažinimo taisykles.

Tikras atvejis: M&A HR duomenų perdavimas

Įsigyjanti įmonė gauna darbuotojų įrašus iš tikslinės firmos: 15 000 eilučių XLSX su 40 stulpelių. Failas turi būti perduotas išorinei HR firmai naudų planavimui. BDAR sako, kad gali būti bendrinti tik tai užduočiai reikalingi duomenys.

Prieš apdorojimą: 40 stulpelių su pilnais vardais, SSN, el. paštais, namų adresais, kontaktiniais asmenimis ir banko duomenimis.

Po stulpelių konteksto apdorojimo:

  • 12 stulpelių tiesiogiai identifikuoja žmones (vardai, SSN, el. paštai, telefonai, adresai, banko duomenys): pakeisti nuosekliais prieketais
  • 3 stulpeliai netiesiogiai identifikuoja žmones (darbuotojų ID, vadovo kodas, darbo kodas): pakeisti pseudoniminiais prieketais, atitinkančiais failo viduje
  • 25 stulpeliai yra suvestiniai duomenys (atlyginimų grupė, padalinys, stažas, lygis): palikti nepakeistu

Laikas: 8 minutės 600 000 ląstelių

Rezultatas: Tas pats XLSX išdėstymas, 40 stulpelių, 15 anonimizuotų, 25 nepakeitytų

Audito žurnalas: Ląstelių lygio kiekvieno veiksmo įrašas su objekto tipu, pasikliautinumo balu ir panaudotu stulpelio signalu

HR firma gauna pilną duomenų rinkinį savo darbui - be vardų ar ID. Atitikties įrašas gauna įrodymą, kad buvo bendrinti tik tinkami duomenys.

Šis iššūkis nėra unikalus Excel. Kiekvienas failų formatas žlunga savaip. Žiūrėkite kaip formatų fragmentacija veikia asmens duomenų aptikimą apžvalgai per failų tipus.

Trys BDAR 5 straipsnio taisyklės, vienas procesas

Struktūrizuotas skaičiuoklės anonimizavimas atitinka tris taisykles iš karto.

Duomenų mažinimas (5 str. 1 d. c p.): Tik gavėjui reikalingi stulpeliai. Identifikuojantys stulpeliai išvalomi.

Saugojimo apribojimas (5 str. 1 d. e p.): Originalus failas lieka dėl teisinio saugojimo. Bendrinimui sukuriama švari kopija - su trumpesniu ar be saugojimo poreikio.

Vientisumas ir konfidencialumas (5 str. 1 d. f p.): Jokie identifikuojantys duomenys nepalieka kontroliuojamos zonos. Bendrinamos tik švarios kopijos.

Audito žurnalas iš proceso yra ir jūsų 5 straipsnio 2 dalies įrodymas. Jis rodo, kaip kiekviena taisyklė buvo laikyta kiekvienam failui.

Jei jūsų komanda tvarko DSAR ar didelę duomenų eksportą, ta pati logika taikoma API lygiu. Žiūrėkite kaip BDAR duomenų mažinimas veikia realaus laiko API.

Komandoms, tvarkančioms didelius kiekius prie griežtų terminų, žiūrėkite BDAR DSAR paketinį apdorojimą plačiu mastu dėl čia taip pat taikomų darbo eigos modelių.

Šaltiniai

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.