Presidio pomija ponad 220 encji GDPR: luka w pokryciu UE
Zaktualizowano dla 2026.
Microsoft Presidio dostarcza około 40 domyślnych rozpoznawaczy encji. Dla wdrożeń w USA to wystarczy. Obejmuje SSN, paszporty USA, prawa jazdy, karty kredytowe i adresy e-mail.
Dla wdrożeń w UE luka jest duża. GDPR obejmuje wszystkie dane osobowe w UE, niezależnie od obywatelstwa podmiotu danych. Europejskie zespoły potrzebują rozpoznawaczy, których Presidio nie dostarcza.
Co zawiera Presidio
Domyślne ustawienia Presidio podzielone są na cztery grupy.
Identyfikatory skoncentrowane na USA:
- US Social Security Number (SSN)
- Numer paszportu USA
- Prawo jazdy USA
- Numer rachunku bankowego USA
- US ITIN
- Numer licencji medycznej USA
Identyfikatory uniwersalne:
- Adres e-mail
- Numer telefonu
- Adres IP
- Numer karty kredytowej
- Adres portfela kryptowalutowego
- URL
Encje tekstowe (oparte na NER):
- OSOBA
- LOKALIZACJA
- ORGANIZACJA
- DATA_CZAS
Ograniczone pokrycie międzynarodowe:
- Numer NHS (Wielka Brytania)
- Numer National Insurance (NINO, Wielka Brytania)
- Niektóre identyfikatory finansowe
Łącznie: około 40 rozpoznawaczy.
Czego potrzebują europejskie zespoły
Identyfikatory finansowe
IBAN pojawia się w większości europejskich plików biznesowych. Figuruje w płatnościach, fakturach i listach płac. IBAN podlega normie ISO 13616. Presidio nie ma rozpoznawacza IBAN.
Weźmy przykład niemieckiej firmy fintech. Każdy plik płatności zawiera IBAN. Bez wykrywania IBAN narzędzie szuka jedynie numerów kart kredytowych. Główny europejski identyfikator płatniczy zostaje pominięty. To oznacza, że kluczowy element danych objętych GDPR nigdy nie zostaje wykryty.
Krajowe numery identyfikacji podatkowej
Żaden z poniższych nie jest ujęty w domyślnych ustawieniach Presidio:
- Steueridentifikationsnummer (Niemcy): 11 cyfr
- NIR (Francja): 15 cyfr z kluczem kontrolnym
- Codice Fiscale (Włochy): 16 znaków z sumą kontrolną
- NIF/NIE (Hiszpania): 9 znaków z literą
- BSN (Holandia): 9 cyfr z walidacją elfproef
Europejski zespół ds. płac obsługuje pliki z wielu państw członkowskich. Bez tych rozpoznawaczy pomija najbardziej wrażliwe identyfikatory w tych dokumentach.
Krajowe identyfikatory zdrowotne
Numer NHS (UK) jest objęty. Te nie są:
- NIR (Francja, pełni też rolę identyfikatora zdrowotnego)
- Krankenkassennummer (Niemcy)
- Codice Fiscale (Włochy, pełni też rolę identyfikatora zdrowotnego)
- BSN (Holandia, używany przy ubezpieczeniu zdrowotnym)
Europejskie zespoły medyczne potrzebują tych rozpoznawaczy dla ochrony danych na poziomie GDPR.
Europejskie prawa jazdy
Europejskie prawa jazdy podlegają dyrektywie 2006/126/WE. Każde państwo członkowskie ma własny format. Struktura alfanumeryczna różni się w zależności od kraju. Presidio ma rozpoznawacze praw jazdy tylko dla USA. Nie obsługuje europejskich praw jazdy. Oznacza to, że dane z europejskich praw jazdy przechodzą przez system niewykryte.
Numery VAT
Numer VAT w UE pojawia się w każdej transakcji B2B. Format: 2-literowy kod kraju plus 8–12 cyfr. Presidio nie ma rozpoznawacza VAT. Numery VAT są powiązane z firmami i ich właścicielami. Są danymi osobowymi w rozumieniu GDPR.
Więcej na temat obowiązków GDPR znajdziesz w zasobach dotyczących zgodności z GDPR.
Koszt niestandardowych rozpoznawaczy
Gdy europejskie zespoły odkrywają tę lukę, budują własne rozpoznawacze. To wymaga rzeczywistego czasu.
Czas na rozpoznawacz (szacunkowo):
- Badanie formatu: 1–2 godziny
- Napisanie klasy Python: 2–4 godziny
- Budowanie wyrażenia regularnego i walidacji: 2–4 godziny
- Dodanie słów kontekstowych: 1–2 godziny
- Pisanie testów: 2–3 godziny
- Wdrożenie i weryfikacja: 1–2 godziny
To 9–17 godzin na rozpoznawacz. Są to jedynie przybliżone szacunki.
Przykład: niemiecka firma fintech potrzebuje czterech rozpoznawaczy.
IBAN, Steuer-ID, europejskie prawo jazdy, VAT w Niemczech.
- 4 rozpoznawacze po 13 godzin każdy = 52 godziny pracy
- Przy 100 EUR za godzinę: około 5 200 EUR
To obejmuje jedynie pierwszą budowę. Formaty zmieniają się w czasie. Pojawiają się nowe przypadki brzegowe. Aktualizacje API Presidio mogą coś popsuć. Każda zmiana wymaga przeglądu i naprawy przez dewelopera. Bieżąca praca powiększa koszty z roku na rok.
Zarządzana biblioteka
anonym.legal rozszerza Presidio o ponad 285 typów encji. Zespół aktualizuje bibliotekę na bieżąco. Identyfikatory europejskie są dostępne od pierwszego dnia.
Co wykracza poza domyślne ustawienia Presidio:
- IBAN we wszystkich formatach państw członkowskich UE
- Krajowe identyfikatory podatkowe: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL i inne
- Krajowe identyfikatory zdrowotne UE
- Numery VAT (format UE)
- Europejskie formaty praw jazdy
- Europejskie formaty paszportów
- Warianty encji w 48 obsługiwanych językach
Gdy Niemcy aktualizują format numeru identyfikacji podatkowej, aktualizacja jest dostarczana razem z serwisem. Twój zespół nie musi tworzyć pull requesta.
Dla identyfikatorów, których nie ma w bibliotece, konstruktor encji niestandardowych pozwala dodawać wzorce. Nie jest wymagany kod Python.
Siehe szczegóły bezpieczeństwa i zgodności dotyczące aktualizacji i dzienników audytu.
Przykład: niemiecka firma fintech
Niemiecka firma fintech musi wykrywać IBAN, BIC, Steuer-ID i Handelsregisternummer w plikach klientów.
Domyślna skuteczność wykrywania Presidio dla tych czterech typów: 0%.
Żaden nie jest w domyślnej bibliotece. To nie jest słaba precyzja. To zero wykryć. Narzędzie nie pomija ich częściowo. W ogóle ich nie widzi.
Porównanie kosztów:
| Podejście | Koszt w pierwszym roku |
|---|---|
| Niestandardowe rozpoznawacze (4 × 13 h przy 100 EUR/h) | ~5 200 EUR plus bieżąca konserwacja |
| Zarządzana biblioteka encji (plan Pro) | 180 EUR/rok, wszystkie cztery typy objęte |
Różnica wynosi około 29-krotności w pierwszym roku. W każdym kolejnym roku niestandardowa konserwacja dodaje kolejne koszty. Cena usługi zarządzanej pozostaje stała.
Podsumowanie
Domyślne ustawienia Presidio dobrze obsługują przypadki użycia w USA. Dla wdrożeń w UE w ramach GDPR są niewystarczające. Luka wymaga albo pracy nad niestandardowymi rozpoznawaczami, albo skorzystania z usługi zarządzanej.
Dla europejskich zespołów, w których wymagana jest zgodność i czas pracy inżynierów jest ograniczony, wstępnie zbudowana biblioteka encji UE eliminuje projekt budowlany o wartości ponad 50 godzin. Pliki można przetwarzać od pierwszego dnia. Nie jest potrzebny żaden niestandardowy kod.