By · Last updated 2026-06-05

Powrót do blogaGDPR i zgodność

Presidio pomija ponad 220 encji GDPR: luka w pokryciu UE

Presidio dostarcza około 40 domyślnych rozpoznawaczy skupionych na identyfikatorach USA. Europejskie organizacje potrzebują IBAN, Codice Fiscale i innych.

June 5, 20267 min czytania
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Presidio pomija ponad 220 encji GDPR: luka w pokryciu UE

Zaktualizowano dla 2026.

Microsoft Presidio dostarcza około 40 domyślnych rozpoznawaczy encji. Dla wdrożeń w USA to wystarczy. Obejmuje SSN, paszporty USA, prawa jazdy, karty kredytowe i adresy e-mail.

Dla wdrożeń w UE luka jest duża. GDPR obejmuje wszystkie dane osobowe w UE, niezależnie od obywatelstwa podmiotu danych. Europejskie zespoły potrzebują rozpoznawaczy, których Presidio nie dostarcza.

Co zawiera Presidio

Domyślne ustawienia Presidio podzielone są na cztery grupy.

Identyfikatory skoncentrowane na USA:

  • US Social Security Number (SSN)
  • Numer paszportu USA
  • Prawo jazdy USA
  • Numer rachunku bankowego USA
  • US ITIN
  • Numer licencji medycznej USA

Identyfikatory uniwersalne:

  • Adres e-mail
  • Numer telefonu
  • Adres IP
  • Numer karty kredytowej
  • Adres portfela kryptowalutowego
  • URL

Encje tekstowe (oparte na NER):

  • OSOBA
  • LOKALIZACJA
  • ORGANIZACJA
  • DATA_CZAS

Ograniczone pokrycie międzynarodowe:

  • Numer NHS (Wielka Brytania)
  • Numer National Insurance (NINO, Wielka Brytania)
  • Niektóre identyfikatory finansowe

Łącznie: około 40 rozpoznawaczy.

Czego potrzebują europejskie zespoły

Identyfikatory finansowe

IBAN pojawia się w większości europejskich plików biznesowych. Figuruje w płatnościach, fakturach i listach płac. IBAN podlega normie ISO 13616. Presidio nie ma rozpoznawacza IBAN.

Weźmy przykład niemieckiej firmy fintech. Każdy plik płatności zawiera IBAN. Bez wykrywania IBAN narzędzie szuka jedynie numerów kart kredytowych. Główny europejski identyfikator płatniczy zostaje pominięty. To oznacza, że kluczowy element danych objętych GDPR nigdy nie zostaje wykryty.

Krajowe numery identyfikacji podatkowej

Żaden z poniższych nie jest ujęty w domyślnych ustawieniach Presidio:

  • Steueridentifikationsnummer (Niemcy): 11 cyfr
  • NIR (Francja): 15 cyfr z kluczem kontrolnym
  • Codice Fiscale (Włochy): 16 znaków z sumą kontrolną
  • NIF/NIE (Hiszpania): 9 znaków z literą
  • BSN (Holandia): 9 cyfr z walidacją elfproef

Europejski zespół ds. płac obsługuje pliki z wielu państw członkowskich. Bez tych rozpoznawaczy pomija najbardziej wrażliwe identyfikatory w tych dokumentach.

Krajowe identyfikatory zdrowotne

Numer NHS (UK) jest objęty. Te nie są:

  • NIR (Francja, pełni też rolę identyfikatora zdrowotnego)
  • Krankenkassennummer (Niemcy)
  • Codice Fiscale (Włochy, pełni też rolę identyfikatora zdrowotnego)
  • BSN (Holandia, używany przy ubezpieczeniu zdrowotnym)

Europejskie zespoły medyczne potrzebują tych rozpoznawaczy dla ochrony danych na poziomie GDPR.

Europejskie prawa jazdy

Europejskie prawa jazdy podlegają dyrektywie 2006/126/WE. Każde państwo członkowskie ma własny format. Struktura alfanumeryczna różni się w zależności od kraju. Presidio ma rozpoznawacze praw jazdy tylko dla USA. Nie obsługuje europejskich praw jazdy. Oznacza to, że dane z europejskich praw jazdy przechodzą przez system niewykryte.

Numery VAT

Numer VAT w UE pojawia się w każdej transakcji B2B. Format: 2-literowy kod kraju plus 8–12 cyfr. Presidio nie ma rozpoznawacza VAT. Numery VAT są powiązane z firmami i ich właścicielami. Są danymi osobowymi w rozumieniu GDPR.

Więcej na temat obowiązków GDPR znajdziesz w zasobach dotyczących zgodności z GDPR.

Koszt niestandardowych rozpoznawaczy

Gdy europejskie zespoły odkrywają tę lukę, budują własne rozpoznawacze. To wymaga rzeczywistego czasu.

Czas na rozpoznawacz (szacunkowo):

  • Badanie formatu: 1–2 godziny
  • Napisanie klasy Python: 2–4 godziny
  • Budowanie wyrażenia regularnego i walidacji: 2–4 godziny
  • Dodanie słów kontekstowych: 1–2 godziny
  • Pisanie testów: 2–3 godziny
  • Wdrożenie i weryfikacja: 1–2 godziny

To 9–17 godzin na rozpoznawacz. Są to jedynie przybliżone szacunki.

Przykład: niemiecka firma fintech potrzebuje czterech rozpoznawaczy.

IBAN, Steuer-ID, europejskie prawo jazdy, VAT w Niemczech.

  • 4 rozpoznawacze po 13 godzin każdy = 52 godziny pracy
  • Przy 100 EUR za godzinę: około 5 200 EUR

To obejmuje jedynie pierwszą budowę. Formaty zmieniają się w czasie. Pojawiają się nowe przypadki brzegowe. Aktualizacje API Presidio mogą coś popsuć. Każda zmiana wymaga przeglądu i naprawy przez dewelopera. Bieżąca praca powiększa koszty z roku na rok.

Zarządzana biblioteka

anonym.legal rozszerza Presidio o ponad 285 typów encji. Zespół aktualizuje bibliotekę na bieżąco. Identyfikatory europejskie są dostępne od pierwszego dnia.

Co wykracza poza domyślne ustawienia Presidio:

  • IBAN we wszystkich formatach państw członkowskich UE
  • Krajowe identyfikatory podatkowe: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL i inne
  • Krajowe identyfikatory zdrowotne UE
  • Numery VAT (format UE)
  • Europejskie formaty praw jazdy
  • Europejskie formaty paszportów
  • Warianty encji w 48 obsługiwanych językach

Gdy Niemcy aktualizują format numeru identyfikacji podatkowej, aktualizacja jest dostarczana razem z serwisem. Twój zespół nie musi tworzyć pull requesta.

Dla identyfikatorów, których nie ma w bibliotece, konstruktor encji niestandardowych pozwala dodawać wzorce. Nie jest wymagany kod Python.

Siehe szczegóły bezpieczeństwa i zgodności dotyczące aktualizacji i dzienników audytu.

Przykład: niemiecka firma fintech

Niemiecka firma fintech musi wykrywać IBAN, BIC, Steuer-ID i Handelsregisternummer w plikach klientów.

Domyślna skuteczność wykrywania Presidio dla tych czterech typów: 0%.

Żaden nie jest w domyślnej bibliotece. To nie jest słaba precyzja. To zero wykryć. Narzędzie nie pomija ich częściowo. W ogóle ich nie widzi.

Porównanie kosztów:

PodejścieKoszt w pierwszym roku
Niestandardowe rozpoznawacze (4 × 13 h przy 100 EUR/h)~5 200 EUR plus bieżąca konserwacja
Zarządzana biblioteka encji (plan Pro)180 EUR/rok, wszystkie cztery typy objęte

Różnica wynosi około 29-krotności w pierwszym roku. W każdym kolejnym roku niestandardowa konserwacja dodaje kolejne koszty. Cena usługi zarządzanej pozostaje stała.

Podsumowanie

Domyślne ustawienia Presidio dobrze obsługują przypadki użycia w USA. Dla wdrożeń w UE w ramach GDPR są niewystarczające. Luka wymaga albo pracy nad niestandardowymi rozpoznawaczami, albo skorzystania z usługi zarządzanej.

Dla europejskich zespołów, w których wymagana jest zgodność i czas pracy inżynierów jest ograniczony, wstępnie zbudowana biblioteka encji UE eliminuje projekt budowlany o wartości ponad 50 godzin. Pliki można przetwarzać od pierwszego dnia. Nie jest potrzebny żaden niestandardowy kod.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.