PAGPAPAHAYAG NG TAGAPAGTATAG
Bakit Ko Inilunsad ang Ecosystem na Ito — Isang Propesyonal na Paniniwala Pagkatapos ng 28 Taon
Iyong data. Iyong mga susi. Iyong mga patakaran.
Bawat produkto sa ecosystem na ito ay nakabatay sa isang solong pangako sa arkitektura: iyong data, iyong mga susi, iyong kontrol. Ang iyong password ay hindi kailanman umaalis sa iyong aparato. Ang iyong mga dokumento ay hindi kailanman nakaimbak. Ang iyong encryption key ay sa iyo lamang. Walang batas ng US cloud, walang subpoena ng vendor, walang data broker — ang mga ito ay hindi makararating sa hindi kailanman ibinabahagi.
Background
Sa loob ng 28 taon, ako ay nagtrabaho sa interseksyon ng teknolohiya, seguridad, at pagsunod sa organisasyon. Itinatag ko ang curta.solutions noong 1998. Mula noon, ako ay nagsilbi sa mga regulated na organisasyon sa 26 na bansa — sa mga serbisyong pinansyal, pangangalagang pangkalusugan, legal, gobyerno, pagmamanupaktura, at teknolohiya — bilang kanilang kasosyo sa IT architecture, seguridad, digital transformation, at pagsunod.
Ang aking napansin sa loob ng 28 taon ay hindi isang mabagal na ebolusyon. Ito ay isang krisis sa mabagal na paggalaw — isa na umabot sa isang punto ng pagkabasag sa pagdating ng generative AI at ang pandaigdigang paglaganap ng magkakapatong na regulasyon sa privacy.
Aking Paniniwala
Naniniwala ako na ang bawat tao, organisasyon, at institusyon ay may karapatan na magbahagi ng impormasyon nang pili — upang ibunyag sa isang regulator lamang kung ano ang karapat-dapat makita ng isang regulator, upang makipagtulungan sa isang kasosyo lamang sa data na tahasang pinahintulutan, upang makilahok sa komersyal at pampublikong buhay nang hindi isinusuko ang dapat manatiling pribado.
Naniniwala ako na ang karapatang ito ay dapat na praktikal na maisagawa ng lahat — hindi lamang ng mga organisasyon na may mga compliance department at enterprise software budgets. Ang privacy ay hindi maaaring maging pribilehiyo ng sukat.
Naniniwala ako na sa isang mundo kung saan ang batas ng US ay maaaring umabot sa anumang data na hawak ng anumang kumpanya ng US kahit saan sa mundo, at kung saan 77% ng mga empleyado ay naglalagay ng sensitibong data sa mga tool ng AI na hindi nila kontrolado, ang tanging arkitektura na makapagbibigay ng makabuluhang garantiya sa privacy ay isa kung saan ang data ay hindi kailanman umaalis sa kontrol ng gumagamit sa simula. Hindi mga kontraktwal na garantiya. Hindi mga patakaran sa privacy. Teknikal na arkitektura.
Zero-knowledge authentication. Local-first processing. Reversible encryption kung saan ang susi ay pag-aari ng gumagamit. Offline-capable na operasyon. EU jurisdiction, walang mga eksepsiyon. Ang mga ito ay hindi mga tampok ng produkto. Sila ang minimum na pamantayan para sa anumang tool na nag-aangking protektahan ang personal na data.
At naniniwala ako na ang 28 taon ng pagtatrabaho sa loob ng mga organisasyong humahawak ng pinaka-sensitibong impormasyon sa mundo — 28 taon ng pagmamasid sa puwang sa pagitan ng regulatory intent at teknikal na realidad na lumawak — ay nagbigay sa akin ng parehong pag-unawa at responsibilidad upang simulan ang kung ano ang kulang pa sa ecosystem. Upang tukuyin ang bisyon, buuin ang tamang koponan, at tiyakin na ito ay itinatayo sa pamantayang hinihingi ng problema.
Ang karapatan na i-anonymize ang personal na impormasyon ay hindi isang teknikal na tampok. Ito ay isang pangunahing karapatan. At ang isang karapatan na hindi maaaring praktikal na maisagawa ay hindi isang karapatan sa lahat.
Ang mga Problema na Aking Napansin
Regulatory Fragmentation: Napakaraming Batas, Walang Karaniwang Wika
Isang mid-sized na organisasyon na nag-ooperate sa pandaigdigang antas ay dapat sabay-sabay na mag-navigate sa 48+ pambansa at rehiyonal na mga batas sa privacy — GDPR, UK GDPR, CCPA, LGPD, PDPA, PIPL, DPDPA, APPI, PIPEDA at dose-dosenang iba pa. 24 pambansang DPAs sa EU lamang ang naglalabas ng binding guidance na pareho sa prinsipyo at magkakaiba sa praktika. Ang kung ano ang nakakapagpasaya sa German BfDI ay hindi awtomatikong nakakapagpasaya sa French CNIL, Irish DPC, o Dutch AP. Ang sector-specific layering — HIPAA, PCI-DSS, NIS2, ang AI Act — ay nagdadagdag ng mga kinakailangan na bihirang nagkakasundo sa isa't isa.
Ang resulta ay hindi isang compliance framework. Ito ay isang gumagalaw na target na may 48 iba't ibang bullseyes.
Ang Paper Monster: Mga Kasunduan na Walang Nagbabasa, Kontrol na Walang Nagtutukoy
Ang mga organisasyon ay nagpapanatili ng mga kasunduan sa pagproseso ng data sa daan-daang subprocessors, Standard Contractual Clauses na umaabot sa 30+ pahina bawat transfer relationship, Records of Processing Activities, DPIAs, TIAs, LIAs — bawat isa ay nangangailangan ng teknikal na input na hindi kayang independiyenteng suriin ng karamihan sa mga legal teams. Sa praktika: ang mga organisasyon ay pumipirma sa kung ano ang kailangan nilang pirmahan, nag-file ng kung ano ang kailangan nilang i-file, at umaasa na ang teknikal na katotohanan ay tumutugma sa kontraktwal na paglalarawan. Ang paper monster ay bumubuo ng anyo ng pagsunod. Bihira itong bumuo ng substansya nito.
Teknikal na Kakulangan: Ang mga Tool ay Hindi Tumutugma sa Obligasyon
Ang PII detection na batay sa generative AI ay hindi deterministic. Ang parehong dokumento na pinroseso ng dalawang beses ay nagbubunga ng iba't ibang resulta. Sa prinsipyo, hindi ito tugma sa pagsunod — kung saan kailangan mong ipakita, nang maulit at ma-verify, na ang tiyak na data ay natukoy at nahawakan nang tama.
Microsoft Presidio, spaCy, Stanza — mga engineering platform, hindi mga compliance tool. Ang pag-deploy sa produksyon ay nangangailangan ng pagsusulat ng mga custom recognizers para sa bawat uri ng entity at wika, pagbuo ng pre/post-processing pipelines, pagsasama sa mga format ng dokumento, pagpapanatili ng lahat habang umuusad ang mga regulasyon. Karaniwang 30–80 oras ng espesyalistang oras ng engineering bago maproseso ang isang solong dokumento. Karamihan sa mga organisasyon ay walang ganitong kadalubhasaan sa loob.
Isang personnummer sa isang Swedish employment contract, isang Steuer-ID sa isang German tax form, isang PESEL sa isang Polish insurance document, isang Codice Fiscale sa isang Italian invoice — bawat isa ay nangangailangan hindi lamang ng pagtukoy sa wika kundi pati na rin ng pagkilala sa entity na may kamalayan sa uri ng dokumento. Ang mga language model na pangunahing sinanay sa Ingles ay nagbubunga ng 69% PII miss rate sa non-English text. Ang batas ay walang pagkakaiba sa wika.
Microsoft Purview, AWS Macie, Google Cloud DLP — mahal, nangangailangan ng cloud connectivity, nagla-lock sa mga organisasyon. Mas kritikal: lahat ay nakabase sa US. Ang CLOUD Act ng 2018 ay nag-uutos sa kanila na ibunyag ang data kahit saan sa mundo sa isang wastong kahilingan ng gobyernong US. Ang FISA Section 702 ay nagpapahintulot ng koleksyon ng intelihensiya nang walang indibidwal na warrant. Ang Schrems II ay nagbawalang-bisa sa EU-US Privacy Shield para sa eksaktong dahilan na ito. Ang isang kontratang anim na numero na taun-taon sa isang US cloud provider ay hindi nagbubunga ng GDPR-compliant na pagproseso ng data.
Ang Uncontrolled AI Problem: Walang Sagot ang Merkado
77% ng mga empleyado ay nagbabahagi ng sensitibong impormasyon sa trabaho sa mga tool ng AI kahit isang beses sa isang linggo. 34.8% ng lahat ng input ng tool ng AI ay naglalaman ng impormasyon na kwalipikado bilang sensitibo sa ilalim ng hindi bababa sa isang privacy framework. Ang mga empleyado ay gumagamit ng ChatGPT, Copilot, Claude, Gemini upang bumuo ng mga kontrata, buod ng mga tala, suriin ang mga spreadsheet — patuloy, awtomatiko, nang walang kamalayan sa kung ano ang kanilang pinapaste sa isang prompt.
Ang mga tradisyunal na DLP system ay hindi makaintindi ng semantikong nilalaman ng isang natural-language prompt. Hindi nila maihiwalay ang isang developer na humihiling sa AI na ipaliwanag ang isang pattern ng code mula sa isang developer na nag-paste ng 50,000-record production database sa parehong bintana. Ang mga AI model ay pinoproseso ang lahat. Wala silang ibinibigay na proteksyon, walang babala, walang audit trail na maaasahan ng isang DPO.
Ang nawawala ay ang teknikal na layer na ginagawang maipatupad ang patakaran sa praktika. Ang layer na iyon ay hindi umiiral sa merkado sa anumang presyo na kayang bayaran ng isang mid-sized na organisasyon, sa anumang anyo na gumagana sa mga tool ng AI na talagang ginagamit ng mga empleyado. Ito ay isa sa mga puwang na itinayo ang ecosystem na ito upang isara.
Ang Accessibility Gap: Pagsunod bilang Pribilehiyo ng Sukat
Isang solo practitioner, isang organisasyong pangkomunidad, isang maliit na pampublikong awtoridad, isang institusyong pananaliksik — bawat isa ay napapailalim sa parehong GDPR, ang parehong karapatan sa pagbura, ang parehong obligasyon sa abiso sa paglabag tulad ng isang pandaigdigang bangko — ngunit walang legal na koponan, mga mapagkukunang engineering, o badyet ng enterprise software upang maipatupad ang mga ito nang maayos. Ang ecosystem ng pagsunod ay naglingkod sa malalaking organisasyon nang sapat, kahit na mahal. Naglingkod ito sa lahat ng iba pa na may mandato at walang praktikal na paraan upang masiyahan ito.
Ang Tugon ng Ecosystem — Isang Platform, Maramihang Ekspresyon
Ang umbrella platform at pangunahing access point. Hybrid dual-layer PII detection (260+ entities, 48 languages, 121 compliance presets) sa lahat ng modelo ng deployment — SaaS, managed private cloud, at self-managed. Lahat ng mga derived na produkto ay nagbabahagi ng parehong detection engine at parehong pangunahing prinsipyo: kapangyarihan sa mga kamay ng gumagamit.
Enterprise air-gapped edition. 390+ entities, 317 custom regex patterns, 100% offline processing, image OCR sa 37 wika. Zero cloud dependency — ang data ay hindi kailanman umaalis sa aparato.
Cloud-first PII platform na may pinakamalawak na access. Chrome Extension para sa real-time AI interception, MCP Server, Office Add-in, reversible encryption. Libre hanggang €29/buwan — pagsunod para sa bawat badyet.
Desktop-first, ganap na lokal. Presidio sidecar on-device, 7 document formats + OCR, batch processing, encrypted vault. Isang beses na perpetual license — walang subscriptions, walang cloud, ganap na offline pagkatapos ng activation.
Instant public demo platform. Walang kinakailangang account — i-paste ang teksto, agad na i-anonymize, tingnan ang engine sa aksyon. Ang pinakamabilis na paraan upang maranasan kung ano ang ginagawa ng ecosystem.
Umbrella Platform — SaaS · Managed Private · Self-Managed · 3 deployment models
- //Nagsus report ang mga organisasyon na 67% ng mga developer ay aksidenteng nailantad ang mga lihim sa code — deterministic regex ang nahuhuli sa hindi nakikita ng NLP at kabaligtaran
- //Ang general-purpose AI detection ay nagbubunga ng 69% miss rate sa non-English text — ang dual-layer na may spaCy + XLM-RoBERTa ay nagsasara ng puwang sa lahat ng 48 wika
- //Ang hindi pagkakapareho sa redaction sa mga koponan ang #1 na binanggit na natuklasan ng ICO at DPA audit — ang mga preset ay nagpapatupad ng magkaparehong detection behavior sa bawat gumagamit, bawat sesyon
- //95% ng 2024 data breaches ay nauugnay sa human error — ang mga shared presets ay nag-aalis ng mga desisyon sa configuration na nagiging sanhi ng pagkakaiba
- //Ang multi-vendor PII stacks ay lumilikha ng mga audit trail gaps — 60%+ ng mga organisasyon na gumagamit ng 3+ PII tools ay nag-uulat ng mga pagkabigo sa reconciliation sa pagitan ng mga tool
- //Format fragmentation: ang mga organisasyon ay sabay-sabay na nagpoproseso ng PDF, DOCX, XLSX, CSV, JSON — bawat format ay nangangailangan ng hiwalay na diskarte, hiwalay na tool, hiwalay na audit record
- //Ang mga enterprise PII tools ay nagkakahalaga ng $50,000–$500,000/bawat taon — ang mga organisasyon na may mga limitasyon sa gastos ay historically walang opsyon
- //Ang CLOUD Act + FISA Section 702 ay nangangahulugang ang US-hosted na "GDPR-compliant" na pagproseso ay isang kontraktwal na kathang-isip — ang EU-only hosting ay ganap na nag-aalis ng exposure na ito
Enterprise Air-Gapped — 390+ entities · 317 custom regex · 100% offline · Image OCR
- //Industry-specific PII — nuclear facility codes, military service numbers, proprietary internal IDs — hindi saklaw ng anumang commercial tool; ang mga custom recognizers ay nangangailangan ng linggong espesyalistang engineering sa raw Presidio
- //Ang kakulangan ng coverage ay ang ceiling ng detection: walang pangkalahatang tool na sumasaklaw sa lahat ng uri ng PII, lahat ng wika, lahat ng format — 317 curated patterns ang nagsasara sa mga puwang na hindi natutugunan ng out-of-the-box frameworks
- //Ang vendor paradox: upang protektahan ang PII kailangan mong ibahagi ito sa isang vendor. Ang cloud processing ay nangangailangan ng pagtitiwala sa processor — isang architectural contradiction para sa mga organisasyon na humahawak ng pinaka-sensitibong data
- //Ang mga air-gapped na kapaligiran (depensa, intelihensiya, kritikal na imprastruktura, mga laboratoryo ng pananaliksik) ay hindi makagamit ng mga cloud-dependent na tool sa anumang presyo — ang offline-first ay ganap na nag-aalis ng architectural barrier
- //Ang Microsoft Purview ay tahasang hindi makakapag-scan ng JPEG/PNG — ang teksto ng PII sa mga screenshot ay ganap na hindi nakikita sa enterprise DLP stack sa disenyo
- //Ang SparkCat malware (iOS/Android, Disyembre 2025) ay gumamit ng OCR upang nakawin ang mga crypto wallet recovery phrases mula sa mga screenshot — ang image-based text PII ay isang aktibong target ng atake, hindi isang teoretikal na panganib
- //300% pagtaas sa mga paglabag sa data na nakabase sa cloud sa pagitan ng 2022 at 2024 — ang zero-knowledge ay nangangahulugang ang paglabag sa aming mga server ay hindi naglalantad ng anuman, dahil walang nakaimbak
- //ISO 27001:2022 certified na may regular na full-stack pentesting — ang security posture na kinakailangan ng regulated procurement ay dokumentado, na-verify, at independiyenteng na-audit
Cloud PII Platform — Libre hanggang €29/buwan · Chrome Extension · MCP Server · Office Add-in
- //8.5% ng lahat ng LLM prompts ay naglalaman ng PII — ang real-time interception bago ang pagsusumite ay ang tanging pag-iwas na gumagana; ang post-hoc detection ay nawawalan ng tanging bintana na mahalaga
- //Ang tradisyunal na DLP ay nag-aapoy pagkatapos umalis ang data sa organisasyon — ang Chrome Extension ay humahadlang sa punto ng input, bago matanggap o maproseso ng anumang modelo ang sensitibong nilalaman
- //Ang generative AI detection ay hindi deterministic — ang parehong dokumento ay nagbubunga ng iba't ibang resulta sa iba't ibang runs; walang probabilistic system ang maaaring maging batayan ng isang regulatory defense
- //Ang Presidio lamang ay nawawalan ng context-dependent entities; ang XLM-RoBERTa lamang ay nagbubunga ng mga false positives sa pormal na legal na wika — isang pangatlong stance-classification layer ang nag-aalis ng mga false positives na nagiging sanhi ng kawalang tiwala ng mga compliance teams sa automated tools
- //Legal discovery, mga kahilingan sa pag-access ng medical record, regulatory audit — ang anonymized data ay minsang kailangang i-de-anonymize ng awtorisadong partido at tanging sila lamang; ang irreversible methods ay ginagawa itong imposibleng gawin
- //Ang session key ng gumagamit ay hindi kailanman umaalis sa kanilang aparato — hindi sa aming mga server, hindi sa anumang cloud, hindi sa anumang subprocessor. Ang karapatan na baligtarin ang anonymization ay pag-aari ng gumagamit, hindi sa amin.
- //Isang solo practitioner ang nahaharap sa parehong obligasyon sa karapatan sa pagbura ng GDPR tulad ng isang pandaigdigang bangko — ngunit walang compliance department o €500K/buwang badyet ng enterprise software
- //764 EU organizations ang sabay-sabay na nasa ilalim ng imbestigasyon para sa mga pagkukulang sa karapatan sa pagbura — hindi dahil nais nilang lumabag; dahil ang mga tool upang sumunod ay may presyo na lampas sa kanilang kakayahan
Desktop-First · 100% Local Processing · 7 Document Formats + OCR · One-Time License
- //300% pagtaas sa mga paglabag sa data na nakabase sa cloud sa pagitan ng 2022 at 2024 — ang data na hindi kailanman pumapasok sa cloud ay hindi maaaring ma-expose sa isang paglabag sa cloud
- //Ang CLOUD Act + FISA ay ginagawang legal na hindi tiyak ang US-hosted na pagproseso para sa mga EU organizations — ang lokal na pagproseso ay ganap na nag-aalis ng buong problema ng cross-border transfer sa pamamagitan ng pagtiyak na walang transfer na nagaganap
- //Ang fragmentation ng format ay pinipilit ang mga organisasyon na panatilihin ang maraming tool — bawat tool ay lumilikha ng hiwalay na detection policy, hiwalay na audit record, hiwalay na failure mode
- //Ang mga log files ay ang neglected PII surface — ang mga developer ay nakatuon sa mga database ngunit ang mga log ay naglalaman ng mga API keys, user IDs, IP addresses; ang CSV at JSON ay likas na sinusuportahan kasama ng mga structured documents
- //Ang mga air-gapped na production environments — manufacturing floors, government secure facilities, research labs — ay hindi makatiis ng isang license check na nangangailangan ng access sa network; isang beses na activation pagkatapos ay ganap na offline na operasyon ang tanging viable architecture
- //Perpetual licenses na walang recurring SaaS dependency: ang gumagamit ang nagmamay-ari ng kanilang installation; ang pagkansela ng subscription ng vendor ay hindi makakapag-disable ng tool sa isang kritikal na sandali ng pagproseso
- //Ang dbt pipeline rebuilds ay sumisira sa masking policies sa CSV/JSON data — nilinaw ng EDPB 2024 na ito ay lumalabag sa GDPR Art. 5(1)(a); ang vault storage na may encrypted history ay nangangahulugan na ang bawat na-prosesong file ay may auditable, recoverable record
- //Ang mga organisasyon na nagpoproseso ng libu-libong legacy documents para sa pagsunod sa karapatan sa pagbura ng GDPR ay nangangailangan ng batch capability — hindi isang 5-file-per-day na limitasyon ng SaaS na ginagawang imposibleng isagawa ang gawain
Ang Sukat ng Problema
Ito ay hindi mga outlier failures. Sila ay mga systemic outcomes ng isang compliance environment na lumampas sa sariling imprastruktura.