ÚOOÚ та rodné číslo: кодування статі в контексті GDPR
Оновлено для 2026 року
Чеський орган захисту даних — ÚOOÚ. Повна назва — Úřad pro ochranu osobních údajů. У 2024 році він виніс 58 рішень. Один висновок повторюється в багатьох справах. Rodné číslo (номер народження) оброблявся без виявлення. Використовуваний PII-інструмент був побудований для Німеччини або англомовних ринків. Він не мав логіки для цього ідентифікатора. Позиція ÚOOÚ однозначна: інструменти повинні виявляти rodné číslo з перевіркою контрольної суми та правильною обробкою зміщення статі.
Rodné číslo: дані спеціальної категорії за своєю структурою
Rodné číslo, або RČ, використовує формат RRMMDD/XXXX.
- RR — останні дві цифри року народження.
- MM — місяць народження. Для жінок додають 50. Місяць 01 стає 51. Місяць 12 стає 62.
- DD — день народження.
- XXXX — коротка послідовність із 3–4 цифр плюс контрольне значення (модуль 11).
Зміщення місяця для жінок робить цей номер маркером біологічної статі. Це зміщення не є випадковим. Система реєстрації актів цивільного стану використовує його для адміністративного пошуку. Стаття 9 GDPR поширюється на дані, що розкривають особисті характеристики. Стать — одна з них. Позиція ÚOOÚ: будь-який документ із rodné číslo несе дані, суміжні зі спеціальною категорією. Застосовується більш суворий захист.
Як працює контрольне значення: для 10-символьних номерів (виданих після 1954 року) повна 9-символьна база має ділитися на 11 без остачі. Для 9-символьних номерів (виданих до 1954 року) контрольне значення відсутнє. Інструменти повинні підтримувати обидва варіанти.
Що ÚOOÚ вважає належним виявленням
Технічне керівництво ÚOOÚ 2024 року для PII-інструментів встановлює три вимоги.
Обробка зміщення статі: номери зі значеннями місяця 51–62 є дійсними ідентифікаторами для жінок. Інструмент, що трактує їх як недійсні дати, пропускає приблизно половину жіночого дорослого населення за основним ідентифікатором.
Варіанти формату: народжені до 1954 року мають 9-символьні номери без контрольного значення. Народжені після 1954 року — 10-символьні з контрольним значенням. Обидва варіанти мають підтримуватися.
Контекстні сигнали: у документах рідною мовою ідентифікатор зустрічається поруч із мітками на кшталт «Rodné číslo:», «RČ:» або «r.č.:». NER із підтримкою мови допомагає знаходити ці сигнали навіть у вільному тексті.
Проблема материнської компанії з Німеччини
67% компаній у країні використовують PII-інструменти, налаштовані для Німеччини або англомовних ринків. ÚOOÚ встановив це в ході дослідження. Ланцюжок помилок у виробництві є передбачуваним.
Німецька материнська компанія розгортає інструмент сканування, налаштований на німецькі ідентифікатори. Кадрові дані — контракти, медичні записи, відомості про заробітну плату — містять номери народження. Інструмент не має логіки для цього типу ідентифікатора. Кожен номер народження пропускається. Медичні та платіжні дані працівників переміщуються без засобів контролю, яких вимагає ÚOOÚ. У разі аудиту або витоку місцева компанія не може довести «відповідні технічні заходи» за Статтею 32 GDPR.
ÚOOÚ покладає відповідальність на місцевого контролера. «Наша материнська компанія обрала інструмент» — не є дійсним захистом. Правило підзвітності GDPR не дозволяє цього.
Контрольний список відповідності для виробничих компаній
Ці заходи контролю застосовуються до промислових компаній з інструментарієм від німецьких материнських компаній.
- Виявлення номера народження: обидва варіанти — 9-символьний і 10-символьний. Обробка зміщення місяця для жінок (50+). Перевірка контрольного значення за модулем 11 для 10-символьних варіантів.
- NER рідною мовою: spaCy
cs_core_newsабо аналогічна модель. Загальні інструменти демонструють на 23% нижчу точність NER для цієї мови. Локальні моделі закривають цю прогалину. - Виявлення číslo OP: občanský průkaz (національне посвідчення особи) — 9-символьний номер. Він зустрічається поруч із номером народження в багатьох типах документів.
- IČO та DIČ: ідентифікатор підприємства та податковий номер зустрічаються в контрактах. Обидва потребують покриття.
- Багатомовний конвеєр: у змішаних середовищах документи бувають місцевою мовою, німецькою та англійською. Одномовний конвеєр пропускає збіги в різних мовах.
Виконання ÚOOÚ послідовне. Компанії, що надають технічні докази під час аудиту, стикаються з набагато нижчими штрафами. Компанії, що не можуть їх надати, мають вищий ризик.
Для ширшого погляду на те, як національні ідентифікатори створюють ризик за GDPR, дивіться наш посібник з виявлення EU national tax ID.
Для аналогічного скандинавського ідентифікатора дивіться наш технічний посібник Datatilsynet CPR.