By · Last updated 2026-06-05

Takaisin BlogiinGDPR & Vaatimustenmukaisuus

Excel ja henkilötiedot: Anonymisoi satoja sarakkeita

Excel on yksi henkilötietotiheimmistä asiakirjatyypeistä liiketoiminnassa. Tässä kerrotaan, miksi tavallinen tekstianalyysi epäonnistuu taulukkolaskentatiedostoissa ja miten sarakeontekstianalyysi auttaa.

June 5, 20268 min lukuaika
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Miksi Excel on korkeariskisin tiedostotyyppisi

Excel-tiedostot ovat yksi suurimmista GDPR-riskeistä useimmissa yrityksissä. Lääketieteellisissä tietueissa saattaa olla enemmän arkaluonteista dataa riviä kohden. Mutta taulukkolaskentatiedostot kerryttävät henkilötietoja nopeasti — ja vaatimustenmukaisuustiimit jättävät ne usein huomaamatta.

Kolme asiaa tekee Excel-tiedostoista vaikea hallita.

Volyymi: Yksi XLSX-tiedosto voi sisältää 50 000 riviä ja 100 saraketta. Se on viisi miljoonaa solua. Yksikään manuaalinen tarkistus ei voi tarkistaa niitä kaikkia.

Ruutukko-asettelu: Teksti virtaa yhteen suuntaan. Excel levittää datan riveille ja sarakkeille. Henkilötiedot voivat piiloutua mihin tahansa kohtaan tässä ruudukossa.

Sekainen sisältö: Palkkaluokat, osastokoodit ja työnimikkeet ovat samassa tiedostossa henkilötunnusten ja sähköpostiosoitteiden kanssa. Kaiken poistaminen tekee tiedostosta hyödyttömän.

Pitkä säilytysaika: Henkilöstölistat ja asiakastietueet jäävät Exceliin vuosiksi. GDPR:n artikla 5(1)(e) sanoo, että dataa tulee säilyttää "ei pidempään kuin on tarpeen." Tiedostot, jotka "saattavat olla hyödyllisiä", pysyvät usein kauan tämän rajan yli.

Miksi tavalliset tekstiskannaukset epäonnistuvat taulukkolaskentatiedostoissa

Tekstinkäsittelytyökalut on rakennettu asiakirjoja varten. Ne hajoavat taulukkolaskentatiedostoissa muutamilla yleisillä tavoilla.

Henkilötunnus-numerona-ongelma

Excel tallentaa henkilötunnukset ilman väliviivoja (123456789) tavallisina numeroina — ei tekstinä. Skanneri, joka etsii ###-##-####-kaavaa, ei löydä niitä. Hyvän työkalun on tiedettävä, että 9-numeroinen luku "SSN"-nimisessä sarakkeessa on henkilötunnus.

Päivämäärä-numerona-ongelma

Excel tallentaa päivämäärät sarjanumeroina. Helmikuu 6, 2024 on tallennettu numerona 45329. CSV-vienti näyttää "45329" "Syntymäaika"-sarakkeessa. Skannerin on muunnettava tämä luku todelliseksi päivämääräksi ennen kuin se voi merkitä arvon.

Osittainen-henkilötunnus-ongelma

Jotkin järjestelmät näyttävät vain henkilötunnuksen neljä viimeistä numeroa (*--1234). Koko numero on lukitussa sarakkeessa. Osittainen arvo on silti anonymisoitava — vaikka se ei näytä täydeltä henkilötunnukselta.

Kaava-henkilötieto-ongelma

Joissakin soluissa on henkilötieto rakennettu muista soluista. Solu, jossa on =CONCATENATE(B2," ",C2), näyttää koko nimen. Jos tyhjennät sarakkeet B ja C, tämä koko nimi on edelleen näkyvissä kaavan solussa. Työkalu, joka lukee vain tallennettuja arvoja — ei kaavalinkkejä — jättää henkilötiedot paikoilleen.

Monilehti-ongelma

Suuressa työkirjassa voi olla viisi välilehteä: Asiakasluettelo, Tilaukset, Tukipyynnöt, Laskutus ja Analytiikka. Asiakkaiden nimet esiintyvät kaikilla viidellä. "Matti Virtanen" yhdessä välilehdessä on muutettava samaksi tunnisteeksi — "PERSON_0047" — kaikissa muissa välilehdissä. Kaksi eri tunnistetta rikkoo tietueiden väliset linkit.

Sarakeotsikoiden käyttö signaalina

Paras parannus taulukkolaskentatiedostojen henkilötietojen tunnistuksessa on sarakeotsikoiden analyysi.

"SSN"-niminen sarake kertoo työkalulle, että kaikki kyseisen sarakkeen arvot ovat henkilötunnuksia. Tämä toimii, vaikka arvot ovat osittaisia, erikoisesti muotoiltuja tai tallennettu numeroina.

SarakeotsikoidenMitä se tarkoittaa
SSN / Henkilötunnus / VerotunnusKäsittele 9-numeroiset luvut henkilötunnuksina
Email / Sähköposti / E-mail AddressMerkitse jopa osittaiset sähköpostikaavat
Phone / Puhelin / Mobile / CellHyväksy mikä tahansa puhelinformaatti
DOB / Syntymäaika / BirthdayMuunna sarjanumerot päivämääriksi
Etunimi / Sukunimi / Koko nimiAlenna nimiä tunnistavan kynnystä
Osoite / Katu / Kaupunki / PostinumeroYhdistä läheiset sijaintikentät
Patient ID / MRN / Record NumberSovella terveydenhuollon tunnistekuvioita

Sarakkeen konteksti ei korvaa sisältöskannauksia. Se täydentää niitä. "SSN"-niminen sarake, jossa on 100 arvoa: sisältöskannaus havaitsee 99 hyvin muotoiltua arvoa. Sarakkeen konteksti havaitsee sen, joka näyttää oudolta.

Säilytä rakenne, poista nimet

Tavoite useimmissa Excel GDPR -tapauksissa ei ole tuhota tiedosto. Se on riisua pois henkilötieto ja pitää tiedoston hyödyllisenä osat.

Vaatimustenmukaisuusvastaava tarvitsee 15 000 rivin henkilöstötiedostolle:

Poista:

  • Työntekijöiden nimet → PERSON_XXXX-tunnisteet
  • Henkilötunnukset → REDACTED
  • Sähköpostiosoitteet → REDACTED
  • Puhelinnumerot → REDACTED
  • Kotiosoitteet → REDACTED

Säilytä:

  • Osastokoodit
  • Työnimikkeet (yleiset roolit vain)
  • Palkkaluokat (laajat kategoriat)
  • Suorituspisteet (ryhmädata)
  • Aloituspäivämäärät (työsuhteen pituustilastoja varten)
  • Esimieskoodit (jos pseudonymisoidut)

Työkalu, joka tietää eron "ihmisiä yksilöivän datan" ja "töitä kuvaavan datan" välillä, antaa sinulle tiedoston, joka toimii edelleen HR-analytiikassa — ja täyttää GDPR:n tietojen minimoinnin säännöt.

Todellinen tapaus: Yrityskaupan HR-tietojen siirto

Ostava yritys saa myytävän yrityksen henkilöstötietueet: 15 000 rivin XLSX-tiedoston, jossa on 40 saraketta. Tiedoston on mentävä ulkopuoliselle HR-yritykselle etuussuunnittelua varten. GDPR sanoo, että vain tehtävälle tarvittava data voidaan jakaa.

Ennen käsittelyä: 40 saraketta täynnä nimiä, henkilötunnuksia, sähköposteja, kotiosoitteita, hätäyhteystietoja ja pankkitietoja.

Sarakeontekstianalysoinnin jälkeen:

  • 12 saraketta tunnistaa suoraan ihmisiä (nimet, henkilötunnukset, sähköpostit, puhelimet, osoitteet, pankkitiedot): korvattu johdonmukaisilla tunnisteilla
  • 3 saraketta tunnistaa ihmisiä epäsuorasti (henkilöstötunnus, esimiestunnus, työnimike): korvattu pseudonyymisillä tunnisteilla, jotka täsmäävät tiedoston sisällä
  • 25 saraketta on aggregoitua dataa (palkkaluokka, osasto, työsuhteen pituus, taso): jätetty muuttumattomiksi

Aika: 8 minuuttia 600 000 solulle

Tuotos: Sama XLSX-asettelu, 40 saraketta, 15 anonymisoitu, 25 muuttamaton

Auditointiloki: Solutasoinen tietue kaikista toimenpiteistä yksikkötyypillä, luottamuspisteellä ja käytetyllä sarakkeen signaalilla

HR-yritys saa täydellisen tietosarjan työtään varten — ilman nimiä tai tunnistetietoja. Vaatimustenmukaisuustietue saa todisteen siitä, että vain oikea data jaettiin.

Tämä haaste ei ole yksinomaan Excelin ongelma. Jokainen tiedostoformaatti epäonnistuu omalla tavallaan. Katso miten formaattien hajanaisuus vaikuttaa henkilötietojen tunnistukseen eri tiedostotyyppien tarkastelua varten.

Kolme GDPR:n artikla 5:n sääntöä, yksi prosessi

Rakenteellinen taulukkolaskentatiedostojen anonymisointi täyttää kolme sääntöä kerralla.

Tietojen minimointi (art. 5(1)(c)): Vain tehtävälle tarvittavat sarakkeet menevät vastaanottajalle. Tunnistussarakkeet pyyhitään.

Tallennusrajoitus (art. 5(1)(e)): Alkuperäinen tiedosto pysyy lakisääteistä säilytystä varten. Puhdas kopio tehdään jakamista varten — lyhyemmällä tai ilman säilytystarvetta.

Eheys ja luottamuksellisuus (art. 5(1)(f)): Yksikään tunnistava tieto ei lähde valvonta-alueelta. Vain puhtaat kopiot jaetaan.

Prosessin auditointiloki on myös artiklan 5(2) mukainen todistusaineisto. Se osoittaa, miten kukin sääntö täytettiin kunkin tiedoston osalta.

Jos tiimisi käsittelee DSAR-pyyntöjä tai suuria datavientiä, sama logiikka soveltuu API-tasolla. Katso miten GDPR:n tietojen minimointi toimii reaaliaikaisissa API-rajapinnoissa.

Tiimeille, jotka käsittelevät suuria volyymeja tiukkojen määräaikojen kanssa, katso GDPR DSAR -eräkäsittely mittakaavassa myös tähän soveltuvista työnkulkumalleista.

Lähteet

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.