By · Last updated 2026-05-31

Takaisin BlogiinGDPR & Vaatimustenmukaisuus

SSN:ien ulkopuolella: Organisaatiokohtaisten tunnisteids anonymisointi

Jokaisella organisaatiolla on sisäisiä tunnisteita — työntekijätunnukset, tilinumerot, tilaus-ID:t — jotka ovat henkilökohtaisesti tunnistettavissa kontekstissa, mutta joita vakio-PII-työkalut eivät havaitse. Näin suljetaan aukko.

May 31, 20267 min lukuaika
custom PII detectionorganizational identifiersre-identification riskGDPR pseudonymizationcustom entity

SSN:ien ja sähköpostiosoitteiden ulkopuolella: Organisaatiokohtaisten tunnisteids anonymisointi

GDPR-anonymisointityökalusi havaitsee sähköpostiosoitteet. Se havaitsee puhelinnumerot. Se havaitsee nimet ja henkilötunnukset. Ajat tukipyyntöjen viennit sen läpi, lataat anonymisoidun tulosteen ja jaat sen analytiikkatiimiisi.

Asiakkaidesi tilinumerot (ACC-XXXXXXXX-XX-formaatti) ovat edelleen jokaisessa pynnössä. Tilaus-ID:t (ORD-XXXXXXX) ovat edelleen olemassa. Sisäiset käyttäjätunnuksesi ovat siellä.

Nämä tunnisteet ovat pseudonyymejä yksin — ne eivät suoraan tunnista henkilöä ilman hakutaulukkoa. Mutta analytiikkatiimelläsi on pääsy tuohon hakutaulukkoon. Tukitietokannassasi on se. CRM:ssäsi on se. "Anonymisoitu" vienti voidaan tunnistaa uudelleen sekunneissa kenellä tahansa, jolla on pääsy mihin tahansa näistä järjestelmistä.

Tämä on GDPR-epäonnistuminen — ei siksi, että työkalu ei havainnut vakio-PII:tä, vaan siksi, että sille ei kerrottu etsiä organisaatiollesi ominaisia tunnisteita.

Mitä vakio-PII-työkalut havaitsevat

Vakio-PII-havaitsemistyökalut — mukaan lukien Microsoft Presidion perusasetukset — on rakennettu universaalien tunnisteiden formaattien ympärille:

Mitä katetaan:

  • Sosiaaliturvatunnukset (US SSN:t, UK NINO:t, EU:n kansalliset tunnisteet)
  • Sähköpostiosoitteet (RFC 5322 -formaatti)
  • Puhelinnumerot (E.164 ja kansalliset formaatit)
  • Luottokorttinumerot (Luhn-algoritmin validointi)
  • Nimet (NER-mallipohjanen havaitseminen)
  • Passi/ajokorttinumerot (maakohtaiset formaatit)

Mitä ei kateta:

  • Työntekijätunnusformaattisi (EMP-XXXXX)
  • Asiakkaan tilinumeroformaattisi (ACC-XXXXXXXX-XX)
  • Tilaus-ID-formaattisi (ORD-XXXXXXX)
  • Sisäinen käyttäjätunnuksesi (UUID tai mukautettu formaatti)
  • Sisäiset viitekoodisi
  • Kumppanikohtaiset tunnisteet

Vakiotyökalut havaitsevat universaalit kuviot. Organisaatiokohtaiset tunnisteet eivät ole universaaleja. Ne vaativat mukautetun konfiguraation havaitakseen.

Uudelleentunnistamisriski käytännössä

Finanssipalveluyritys käsittelee asiakastukipyyntöjä laadun analyysiin. Vakio-PII-anonymisoinnin työnkulku poistaa:

  • Asiakasnimet ✓
  • Sähköpostiosoitteet ✓
  • Puhelinnumerot ✓
  • Tilinumerot (ACC-XXXXXXXX-XX-formaatti) ✗ — ei havaittu

Pyyntövienti menee analytiikkatiimille. Data-analyytikko liittää pyyntötaulun asiakastietokantaan tilinumeron perusteella. Uudelleentunnistaminen on välitöntä ja täydellistä.

Tämä ei vaadi hienostuneita hyökkäystekniikoita. Se on rutiini-SQL-liitos, jonka mikä tahansa analyytikko suorittaisi lisätäkseen asiakasdemografista kontekstia tukipyynnön analyysiin. "Anonymisoitu" vienti ei ollut anonyymi.

GDPR:n artikla 4(5) määrittelee pseudonymisoinnin "henkilötietojen käsittelyksi siten, että henkilötietoja ei voida enää liittää tiettyyn rekisteröityyn ilman lisätietojen käyttöä." Tilinumerot epäonnistuvat tässä testissä, kun lisätieto (asiakastietokanta) on helposti saatavilla.

Mukautettujen yksikkökuvioiden rakentaminen

Mukautettu yksikönluonti seuraa suoraviivaista työnkulkua ei-teknisille vaatimustenmukaisuustiimeille:

Vaihe 1: Tunnista tunnisteiden formaatit Dokumentoi organisaatiokohtaiset tunnisteet ja niiden formaatit:

  • Asiakastili: ACC-XXXXXXXX-XX (ACC-etuliite, 8-numeroinen, 2-merkkinen pääte)
  • Tilaus-ID: ORD-XXXXXXX (ORD-etuliite, 7-numeroinen)
  • Työntekijätunnus: EMP-XXXXX (EMP-etuliite, 5-numeroinen)
  • Sisäinen käyttäjätunnus: UUID-formaatti (8-4-4-4-12 heksadesimaali)

Vaihe 2: Luo havaitsemiskuvio Kuvaile formaatti selkokielellä: "Tilinumerot, jotka alkavat ACC:llä, sitten viivalla, sitten 8 numerolla, sitten viivalla, sitten 2 isolla kirjaimella."

Tekoälyavusteinen kuviogeneraatio tuottaa: ACC-\d{8}-[A-Z]{2}

Vaihe 3: Validoi näytedataa vastaan Lataa 20–30 asiakirjaa, jotka sisältävät tunnisteen. Varmista:

  • Kaikki esiintymät havaitaan (ei vääriä negatiivisia)
  • Ei vääriä positiivisia (ei-tunniste-teksti merkitty väärin)

Vaihe 4: Konfiguroi anonymisointimenetelmä Tunnisteille, joita käytetään liitosavaimina (tilaus-ID:t, jotka esiintyvät useissa järjestelmissä ja joiden on oltava johdonmukaisia analyysiin):

  • Pseudonymisoi: Korvaa ACC-00123456-AB johdonmukaisesti ACC-99876543-XY:llä kaikissa asiakirjoissa. Korvaus on johdonmukainen — sama syöte tuottaa aina saman tulosteen — joten analyyttisia liitoksia voidaan edelleen suorittaa. Alkuperäinen arvo ei ole palautettavissa ilman avainta.

Tunnisteille, joita ei tarvita analyysissa:

  • Redaktoi: Korvaa [REDACTED]:llä. Yksinkertaisempi, peruuttamaton.

Vaihe 5: Tallenna esiasetus Mukautettu yksikkö (tai useita mukautettuja yksiköitä) tallennettuna tiimin esiasetus soveltuu johdonmukaisesti kaikessa käsittelyssä — erälataukset, API-kutsut, selainliittymä. Uudet tiimin jäsenet saavat täydellisen konfiguraation heti.

Tapaustutkimus: 180 000 tukipyyntöä

Finanssipalveluyritys löysi asiakastilinumerot (ACC-XXXXXXXX-XX-formaatti) historiallisissa tukipyynnön vienneissä analytiikkatietovarastossaan. Vakio-PII-työkalut ohittivat ne kokonaan.

Aukon tunnistaminen: Vaatimustenmukaisuustarkistuksen jälkeen tiimi huomasi, että 180 000 historiallista tukipyyntöä analytiikkatietovarastossaan sisälsi redaktoimattomia tilinumeroita yhdessä (jo anonymisoitujen) nimien ja sähköpostien kanssa.

Ratkaisuaikajana:

  1. Vaatimustenmukaisuushenkilö määrittelee ACC-kuvion (15 minuuttia)
  2. Testaa 30 näytteen pyyntöä vastaan (20 minuuttia)
  3. Vahvistaa kuvion tarkkuuden (10 minuuttia)
  4. Käsittelee 180 000 pyyntöä yön yli -erässä
  5. Korvaa varaston taulut uudelleen anonymisoiduilla versioilla

Kokonaisaika vaatimustenmukaisuusaukon sulkemiseen: 45 minuuttia vaatimustenmukaisuushenkilön aikaa + yön yli -erä.

Mukautettujen tunnisteiden leviäminen

Sisäiset tunnisteet ilmestyvät useammissa paikoissa kuin useimmat vaatimustenmukaisuustiimit odottavat:

Sisäiset asiakirjat:

  • Kokousmuistiinpanot, joissa viitataan tilinumeroihin tai tilaus-ID:ihin
  • Sähköpostiketjut asiakastapausten yhteydessä
  • Esitykset tapaustutkimusdatalla

Jaettu kolmansille osapuolille:

  • Raportit valvontaviranomaisille tapausviittausnumeroilla
  • Tarkistajien kanssa jaettu data asiakasviitteillä
  • Toimittajan asiakirjat, jotka sisältävät asiakas-ID:itä

Tutkimus ja analytiikka:

  • Asiakasmatkan analyysitietojoukot
  • Tuen laadun tarkistamisen vientitiedot
  • Sisäisten ML-mallien koulutusdata

Jokainen konteksti vaatii saman mukautetun yksikkökonfiguraation todella anonyymin tulosteen tuottamiseksi.

GDPR-pseudonymisointi vs. anonymisointi

GDPR erottaa:

Pseudonymisointi: Data, joka voidaan tunnistaa uudelleen lisätietojen avulla. Pseudonymisoidut tiedot ovat edelleen henkilötietoja GDPR:n nojalla. Asetus kannustaa pseudonymisointiin riskinvähentämistoimenpiteenä, mutta se ei poista GDPR-velvollisuuksia.

Anonymisointi: Data, jota ei voida kohtuudella tunnistaa uudelleen. Anonyymi data ei ole henkilötietoja, eikä GDPR koske sitä.

Tilinumerot, tilaus-ID:t ja työntekijätunnukset ovat pseudonyymejä — eivät anonyymejä — kun hakutaulukot ovat olemassa. Niiden korvaaminen johdonmukaisilla pseudonyymeillä vähentää riskiä, mutta ei poista GDPR-velvollisuuksia. Niiden korvaaminen satunnaisilla tokeneilla eliminoi GDPR-velvollisuudet, mutta rikkoo liitoksia.

Jaettaessa kolmansille osapuolille, joilla ei ole pääsy hakutaulukoihisi: pseudonymisointi voi riittää. Sisäiseen analytiikkaan: täydellinen anonymisointi tai tiukat pääsynhallintakontrollit avaimelle ovat välttämättömiä.

Päätelmä

Vakio-PII-havaitsemisaukko ei ole tekninen rajoite havaitsemisalgoritmeissa — se on konfiguraatioaukko. Mikään havaitsemistyökalu ei voi tietää organisaatiosi tilinumeroformaattia, ellei sitä kerro.

Mukautettu yksikönluonti sulkee tämän aukon tunteissa viikkojen sijaan. Vaatimustenmukaisuustiimit — ilman suunnittelutukea — voivat määritellä organisaatiokohtaiset kuviot, validoida ne näytedataa vastaan ja soveltaa niitä johdonmukaisesti kaikissa käsittelymodeissa.

Tapaustutkimuksessa löydetyt 180 000 redaktoimatonta tilinumeroa eivät olleet siellä välinevirhe vuoksi. Ne olivat siellä, koska työkalulle ei koskaan kerrottu etsiä niitä.

Lähteet

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.