By · Last updated 2026-03-20

블로그로 돌아가기GDPR 및 준수

영어 전용 PII 도구: GDPR 격차

독일 Steuer-ID(체크섬이 있는 11자리)는 구조적으로 미국 주민번호와 다릅니다. 프랑스 NIR 번호는 15자리입니다. 폴란드 PESEL과 스웨덴 Personnummer. 영어 전용 도구가 어떻게 EU 컴플라이언스를 실패시키는지 알아보세요.

March 20, 20268 분 읽기
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

영어 전용 PII 도구: GDPR 격차

GDPR은 언어 선호도가 없습니다

GDPR은 모든 언어의 개인 데이터를 다룹니다. 독일어, 프랑스어, 폴란드어, 스웨덴어 — 모두 동등하게 적용됩니다. 놓친 Steuer-ID는 놓친 주민번호와 동일한 법적 위험을 만듭니다. 법은 언어에 신경 쓰지 않습니다.

대부분의 PII 탐지 도구는 신경 씁니다.

주요 상용 및 오픈소스 도구들은 영어 텍스트를 위해 구축됐습니다. 미국 주민번호, 미국 운전면허증, NANP 전화 형식을 잘 다룹니다. 비영어권 국가 ID의 탐지기는 덜 정확합니다. 덜 유지됩니다. 실제 식별자를 더 자주 놓칩니다.

EU 회원국의 기업에게 이것은 커버리지 격차를 만듭니다. 도구는 탐지가 완료됐다고 보고합니다. 그러나 비영어권 식별자가 데이터에 남아 있습니다.

국가 ID는 구조가 다릅니다

영어 중심 도구와 다국어 도구 사이의 격차는 단순히 더 많은 정규식 패턴을 추가하는 것이 아닙니다. EU 국가 식별자는 서로 매우 다릅니다.

독일 Steuer-Identifikationsnummer(Steuer-ID): 11자리. 루한 공식 변형에 기반한 체크섬을 사용합니다. 일반 주민번호 정규식은 이를 찾지 못합니다.

프랑스 NIR(Numéro d'inscription au répertoire): 15자리. 형식이 성별, 출생연도, 출생월, 출생도를 인코딩합니다. 또한 출생 순서와 2자리 제어 키를 포함합니다. 올바른 탐지를 위해 제어 키를 검증해야 합니다.

스웨덴 Personnummer: 루한 체크 자리가 있는 10자리. 1990년 이전 출생자는 - 대신 + 구분자를 사용합니다. 이것이 탐지해야 하는 형식을 바꿉니다.

폴란드 PESEL: 11자리. 출생 날짜, 성별, 가중합에 기반한 체크 자리를 인코딩합니다. 올바른 탐지는 형식 매칭과 체크섬 검증 모두 필요합니다.

이것들은 공통 패턴의 변형이 아닙니다. 각각 길이가 다릅니다. 각각 다른 체크 방법을 사용합니다. 각각 다른 위치 체계로 데이터를 인코딩합니다.

실질적 컴플라이언스 위험

유럽 BPO의 컴플라이언스 담당자를 생각해 보세요. 독일, 프랑스, 폴란드, 네덜란드에서 데이터를 동시에 처리합니다. 도구는 PII 익명화가 성공했다고 보고합니다.

그러나 결과는 완전하지 않습니다. 독일 기록의 Steuer-ID가 남아 있습니다. 프랑스 기록의 NIR 번호가 남아 있습니다. 폴란드 기록의 PESEL 번호가 남아 있습니다. 이 형식들에 대한 탐지기가 없거나 너무 부정확합니다.

나중에 데이터셋이 분석이나 연구 파트너에게 전달됩니다. 재식별 가능한 국가 식별자가 여전히 포함되어 있습니다. GDPR 문제는 도구의 출력 로그에 나타나지 않습니다. 데이터 주체 접근 요청이 도착할 때 표면화됩니다.

하이브리드 다국어 접근법과 영어 중심 도구를 비교한 연구: 하이브리드 방법은 유럽 로케일 전반에서 F1 점수 0.60~0.83을 달성합니다. 영어 전용 도구는 비영어권 국가 ID 형식에서 거의 0에 가까운 점수를 기록합니다.

완전한 커버리지 요구사항

EU GDPR 컴플라이언스를 위한 진정한 다국어 PII 탐지는 세 가지 레이어가 필요합니다.

언어 네이티브 spaCy 모델 — 텍스트 언어에 대한 의미론적 이해를 제공합니다. 25개 고자원 EU 언어를 위한 모델이 존재합니다.

Stanza NLP 모델 — spaCy에 없는 언어로 커버리지를 확장합니다.

교차 언어 트랜스포머 모델(XLM-RoBERTa) — 교차 언어 사례를 처리합니다.

국가별 검증을 포함한 정규식 — Steuer-ID, NIR, PESEL, Personnummer 각각은 자체 체크섬 로직이 필요합니다. 이것이 거짓 양성을 줄입니다.

격차는 구조적입니다. EU 식별자 커버리지를 처음부터 구축하는 것이 유일한 신뢰할 수 있는 방법입니다.

현재 도구 확인

벤더에게 독일어, 프랑스어, 폴란드어, 네덜란드어 기록에 대한 F1 점수를 요청하세요. "여러 언어를 지원합니다"는 종종 도구가 먼저 번역을 사용한다는 의미입니다. 그것은 네이티브 스캐닝이 아닙니다.

실제 국가 ID 샘플로 테스트하세요. 각 ID 유형의 10개 예시로 짧은 테스트 세트를 구축하세요: Steuer-ID, NIR, PESEL, Personnummer.

보안 및 컴플라이언스 페이지에서 anonym.legal이 이러한 요구사항을 처리하는 방법을 확인하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.