Bumalik sa BlogGDPR & Pagsunod

EU AI Act Agosto 2026: Pag-anonymize ng Training Data upang Matugunan ang Article 10

Ang buong pagpapatupad ng EU AI Act ay magsisimula sa Agosto 2, 2026. Ang mga parusa ay hanggang €35M o 7% ng pandaigdigang kita. Nangangailangan ang Article 10 ng anonymization ng training data.

March 16, 20269 min basahin
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Nagsimula Na ang Countdown

Na-update para sa 2026

Totoo ang deadline ng EU AI Act. Ang mga panuntunan ng Article 10 ay naaangkop mula sa Agosto 2, 2026. Kung ang iyong koponan ay nagtatayo o nagpapatakbo ng isang high-risk na AI system, kumilos ngayon. Maikli ang oras.

Ang mga multa ay mas mataas kaysa sa GDPR. Ang maximum na multa ay €35 milyon o 7% ng taunang pandaigdigang kita. Ang GDPR ay may limitasyon sa €20 milyon o 4%. Walang ibang batas sa AI ang may mas mataas na multa.

Aling Mga AI System ang High-Risk?

Iniuuri ng AI Act ang mga sistema ayon sa panganib. Ang mga high-risk na sistema (Annex III) ay sumasaklaw sa AI na ginagamit sa:

  • Edukasyon — pag-access sa paaralan o pagmamarka ng estudyante
  • Trabaho — pag-screen ng CV, pagmamarka ng panayam, pagsubaybay sa manggagawa
  • Mga pangunahing serbisyo — pagmamarka ng credit, presyo ng insurance, emergency dispatch
  • Pagpapatupad ng batas — hula ng krimen, biometric na ID
  • Pangangalagang pangkalusugan — software ng medikal na device, triage ng pasyente
  • Imprastraktura — pamamahala ng enerhiya, tubig, o transportasyon
  • Katarungan — mga tool sa legal na pananaliksik, mga tool sa sentensya

Nagtatrabaho sa alinman sa mga ito? Naaangkop sa iyo ang Article 10.

Article 10: Apat na Pangunahing Panuntunan

Nagtatatag ang Article 10 ng mga panuntunan para sa mga dataset na ginagamit ng mga high-risk na AI system. Narito ang apat na pangunahing panuntunan.

1. Nakasulat na Pamamahala

Ang mga dataset ay dapat sumunod sa "angkop na mga gawi sa pamamahala at pamamahala ng datos." Kailangan mo ng mga nakasulat na hakbang para sa koleksyon, mga pagsusuri sa kalidad, at patuloy na pagsusuri.

2. Pagsusuri ng Bias

Ang mga rekord ay dapat suriin para sa "posibleng mga bias" na maaaring magdulot ng hindi makatarungang output. Kinakailangan ang aktibong pagsubok. Hindi sapat ang pag-iwas sa intensyonal na bias.

3. Katumpakan at Saklaw

Ang mga dataset ay dapat na "may kaugnayan, sapat na representatibo, at walang mga pagkakamali." Ang mga web crawl na nagpapalaktaw sa ilang grupo ay maaaring hindi makapasa sa pagsubok na ito.

4. Espesyal na Uri ng Rekord

Ang Article 10(5) ang pinaka-direktang panuntunan. Kapag gumagamit ang isang high-risk na sistema ng mga rekord ng espesyal na kategorya — kalusugan, lahi, relihiyon, pulitika, biometrika — maaari ka lamang nagpoproseso ng mga ito kapag "mahigpit na kinakailangan" para sa mga pagsusuri ng bias. Dapat ka ring mag-apply ng "angkop na mga safeguard." Ang paglilinis ng datos ay isa sa mga pinakamalakas na safeguard na maaari mong gamitin.

Ang buod: karamihan sa mga dataset ng AI model ay nagtataglay ng personal na rekord. Sinasabi ng Article 10 na gumamit ng pinakamaliit na kailangan, na may malakas na teknikal na mga safeguard.

Tingnan ang aming pahina ng legal na pagsunod at pangkalahatang-ideya ng seguridad para sa mga detalye.

Mga Antas ng Parusa

Ang EU AI Act ay may tatlong antas ng multa. Lahat ng ito ay lumagpas sa GDPR para sa parehong uri ng paglabag:

RegulasyonMax na MultaLimitasyon sa Kita
GDPR€20 milyon4% ng pandaigdigang kita
EU AI Act (high-risk)€15 milyon3% ng pandaigdigang kita
EU AI Act (ipinagbabawal)€35 milyon7% ng pandaigdigang kita

Ang mga paglabag sa dataset ay nahuhulog sa high-risk na antas (€15M / 3%). Kung mataklasan ng isang regulator na ang paggamit ng personal na rekord nang walang mga safeguard ay isang ipinagbabawal na gawa, naaangkop ang pinakamataas na antas.

Mga tunay na halimbawa: €500M na kita sa 3% = €15M na multa. €5B na kita sa 3% = €150M na multa. Mga tunay na numero ito, hindi teorya.

Bakit Nireresolta ng Data Scrubbing Ito

Ang mga maayos na na-scrub na rekord ay nasa labas ng saklaw ng GDPR. Nag-aalis ito ng karamihan sa pasanin ng Article 10.

Ang mga mahirap na panuntunan — paghawak ng espesyal na kategorya, mga pagsusuri ng bias, mga karapatan ng data subject — ay naaangkop lamang kapag ang isang dataset ay nagtataglay ng personal na rekord. Alisin muna ang mga rekord na iyon. Ang pasanin ay halos nawawala.

Ginawang malinaw ito ng CNIL (awtoridad ng datos ng Pransya) noong unang bahagi ng 2026. Ang gabay nito sa AI ay nagsasabing ito: ang paglilinis ng datos ng mga personal na rekord na hindi kailangan para sa pagganap ng modelo ang pangunahing teknikal na hakbain para sa Article 10.

Hindi ito isang fringe na pananaw. Ito ang mainstream na posisyon ng nangungunang AI regulator ng EU.

Ano ang Ibig Sabihin ng Data Scrubbing sa Praktiko

Ang pag-scrub ng mga dataset ng AI model ay hindi katulad ng pag-scrub ng mga live na rekord ng produksyon. Ang mga dataset ng modelo ay maaaring nagtataglay ng:

  • Mga dokumento na may PII — mga kontrata, email, ulat, support ticket
  • Mga istruktura na rekord — mga talahanayan ng customer na ginagamit upang bumuo ng mga predictive na modelo
  • Naka-label na nilalaman — mga imahe o teksto na may mga tala na may personal na datos
  • Mga synthetic na rekord — kung saan ang henerasyon ay maaaring nagpapanatili pa rin ng mga personal na pattern

Dapat mong matukoy ang PII sa lahat ng format na ito. Ang pagpapalaktaw sa isang uri ay naglalantad ng buong dataset. Ang isang kontrata na may mga pangalang inalis ngunit may mga kumpletong address na nananatili ay magtuturo pa rin sa isang modelo na iugnay ang lokasyon sa mga demographic na pattern.

Hinahawakan ng anonym.legal API ang batch processing para sa malalaking AI dataset. Nakikilala nito ang 285+ na uri ng entity sa 48 wika. Para sa mga kumpanyang European AI na may multilingual na dataset, kritikal ang saklaw sa iba't ibang wika. Ang isang agwat sa isang wika ay lumilikha ng panganib sa EU AI Act sa buong sistema.

Para sa higit pang impormasyon sa deteksyon ng entity, tingnan ang gabay sa token system at sanggunian ng mga uri ng entity.

Mga Praktikal na Hakbang: Pag-scrub ng Iyong Dataset

Hakbang 1: Mag-audit muna

Magpatakbo ng detection pass bago ka mag-scrub ng anuman. Sinasabi nito sa iyo kung anong PII ang naroroon:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Inilalista ng tugon ang bawat natukoy na entity na may uri, posisyon, at score. Patakbuhin ito sa lahat ng iyong file upang makita ang buong saklaw bago ka magsimula.

Hakbang 2: Batch scrub

Para sa malalaking dataset, gamitin ang batch endpoint upang iproseso ang maraming file nang sabay-sabay:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Tapos: {result['id']} - {len(result['items'])} entity ang naalis")

Hakbang 3: Panatilihin ang mga rekord

Nangangailangan ang Article 10 ng mga nakasulat na rekord ng ginawa mo. Para sa bawat dataset, panatilihin ang:

  • Ang modelo ng deteksyon at bersyon na ginamit
  • Aling mga uri ng entity ang natagpuan at kung paano pinalitan ang bawat isa
  • Mga bilang ng entity na naalis bawat dataset
  • Ang petsa ng pag-scrub at ang bersyon ng dataset na ginamit

Natutugunan nito ang kinakailangan na "mga gawi sa pamamahala at pamamahala ng datos" sa Article 10(2)(a).

Mga Karaniwang Tanong

Sinisira ba ng scrubbing ang kalidad ng modelo?

Sa karamihan ng kaso, hindi. Natututo ang modelo ng mga pattern mula sa istruktura ng teksto, hindi sa mga personal na detalye. Ang mga pangalan, numero ng telepono, at address ay maaaring palitan ng mga placeholder tulad ng [NAME] o [PHONE] at natututo pa rin ang modelo ng parehong mga pattern. Natuklasan ng maraming research team na ang mga na-scrub na dataset ay gumagawa ng mga modelong may katumbas na kalidad. Ang susi ay ang gumamit ng mga consistent na placeholder upang makita ng modelo ang malinaw na pattern.

Paano kung ang aking dataset ay napakalaki?

Gamitin ang batch API. Pinamamahalaan nito ang malalaking volume nang parallel. Ipinapakita ng pahina ng pagpepresyo ang mga plano para sa mga high-volume na kaso ng paggamit. Maraming koponan ang nagpoproseso ng milyun-milyong rekord bawat buwan.

Paano ang tungkol sa mga dataset na hindi Ingles?

Sinusuportahan ng API ang 48 wika. Bawat wika ay gumagamit ng detection model na sinanay sa wikang iyon. Nangangahulugan ito na ang Aleman, Pranses, Espanyol, Hapon, at iba pa ay lahat sinasaklaw. Tingnan ang FAQ para sa buong listahan ng wika. Ang mga mixed-language na dataset ay sinusuportahan din — maaari mong tukuyin ang wika bawat dokumento sa batch request.

Colorado AI Act: Dalawang Deadline

Ang AI Act ng Colorado ay magkakabisa sa Hunyo 30, 2026 — limang linggo bago ang deadline ng EU. Nagtatakda ito ng magkatulad na panuntunan para sa mga "high-risk na AI system" sa ilalim ng batas ng estado. Ang pangunahing pokus ay bias at diskriminasyon.

Ang mga koponan sa parehong EU at Colorado ay nahaharap sa dalawang deadline nang sabay. Ang pag-scrub ng iyong mga dataset ay tumutulong na matugunan ang parehong batas: Article 10 (EU) at mga anti-bias na panuntunan ng Colorado. Ang mga teknikal na hakbang ay magkapareho.

Kumilos Ngayon

Sapat ang limang buwan — kung magsisimula ka ngayon. Hindi sapat kung maghihintay ka hanggang Hunyo.

Isang praktikal na timeline:

  1. Mga Linggo 1-2: I-audit ang iyong mga dataset — alamin kung anong personal na rekord ang naroroon
  2. Mga Linggo 3-6: Bumuo at subukan ang iyong scrubbing pipeline
  3. Mga Linggo 7-10: Isulat ang iyong mga rekord ng pamamahala; makakuha ng legal na pagsusuri
  4. Mga Linggo 11-16: I-validate — kumpirmahin na ang mga na-scrub na dataset ay nakakatugon sa mga panuntunan ng kalidad ng Article 10
  5. Agosto 2: Petsa ng pagpapatupad — mga sumusunod na gawi sa lugar

Ang anonym.legal API ay nakadugtong sa iyong kasalukuyang pipeline nang walang malalaking pagbabago. Suriin ang pagpepresyo para sa mga plano ng volume. Sinasaklaw ng FAQ ang mga karaniwang tanong sa Article 10.

Gamitin ang checklist ng pagsunod sa GDPR para sa mga rekord na magkakapatong sa pagitan ng GDPR at Article 10.

Handa ang EU AI Act na ipatupad. Magiging handa ba ang iyong organisasyon sa Agosto 2?

Magsimula sa checklist ng pagsunod sa GDPR

Mga Limitasyon at Bukas na Tanong

Ang data scrubbing para sa mga panuntunan ng AI Act ay patuloy na nagbabago. Narito ang mga pangunahing agwat.

Hindi natutukoy ang mga threshold. Hindi sinasabi ng EU AI Act kung anong antas ng scrubbing ang "sapat." Hanggang maglabas ng gabay ang European AI Office, nahaharap ka sa legal na panganib. Maaaring hindi mo malaman kung ang iyong paraan ay makakasatisfy sa mga regulator.

Nananatili ang panganib ng muling pagkilala. Ipinakita ng mga pananaliksik na ang malalaking language model ay maaaring kabisahin at muling reprodukuhin ang nilalaman mula sa kanilang mga dataset. Ang mga rekord na pumasa sa mga pamantayan ng scrubbing bago ang pagbuo ng modelo ay maaari pa ring makuha. Ang pag-scrub bago ang pagbuo ay hindi ganap na nireresolta ito.

Ang mga synthetic na rekord ay may mga limitasyon. Pinapanatili ng synthetic na henerasyon ang mga istatistikal na pattern ngunit maaaring magdagdag ng mga banayad na bias o mapalaktaw ang mga bihirang edge case. Ang mga modelong itinayo lamang sa synthetic na nilalaman ay maaaring mahirap gamitin sa mga tunay na input.

Ang Article 10 ay isinasaling-wika pa rin. Ang pariralang "angkop na teknikal na mga hakbain" ay nangangailangan ng interpretasyon. Ang maagang gawain ng DPA sa mga miyembrong estado ng EU ay hindi pa nagtatatag ng malinaw na pamantayan. Bantayan ang gabay ng EDPB at mga desisyon ng miyembrong estado sa buong 2026.

Mga Pinagkukunan

  • EU AI Act, Regulasyon (EU) 2024/1689, Mga Artikulo 9-17 (mga obligasyon ng high-risk na AI), OJ L 2024/1689
  • EU AI Act, Article 10 — Datos at pamamahala ng datos
  • Gabay ng CNIL sa AI dataset, Enero 2026
  • Colorado AI Act, SB 205, epektibo Hunyo 30, 2026
  • Timeline ng EU AI Act: mga ipinagbabawal na gawi Pebrero 2, 2025; mga high-risk na sistema Agosto 2, 2026

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.