ĮKŪRĖJO PAREIŠKIMAS
Kodėl aš inicijavau šią ekosistemą — profesionali įsitikinimas po 28 metų
Jūsų duomenys. Jūsų raktai. Jūsų taisyklės.
Kiekvienas produktas šioje ekosistemoje sukurtas remiantis viena architektūrine įsipareigojimu: jūsų duomenys, jūsų raktai, jūsų kontrolė. Jūsų slaptažodis niekada nepalieka jūsų įrenginio. Jūsų dokumentai niekada nėra saugomi. Jūsų šifravimo raktas yra tik jūsų. Jokia JAV debesų teisė, jokia tiekėjo šaukimas, jokia duomenų brokeris — negali pasiekti to, kas niekada nebuvo bendrinama.
Fonas
Per 28 metus dirbau technologijų, saugumo ir organizacinės atitikties sankirtoje. 1998 m. įkūriau curta.solutions. Nuo to laiko dirbau su reguliuojamomis organizacijomis 26 šalyse — finansų paslaugų, sveikatos priežiūros, teisės, vyriausybes, gamybos ir technologijų srityse — kaip jų partneris IT architektūroje, saugume, skaitmeninėje transformacijoje ir atitikties užtikrinime.
Tai, ką pastebėjau per 28 metus, nėra lėtas vystymasis. Tai krizė lėtai judančiu tempu — viena, kuri pasiekė lūžio tašką su generatyviosios AI atėjimu ir pasauline privatumo reguliavimo proliferacija.
Mano įsitikinimas
Tikiu, kad kiekvienas asmuo, organizacija ir institucija turi teisę dalytis informacija selektyviai — atskleisti reguliuotojui tik tai, ką jis turi teisę matyti, bendradarbiauti su partneriu tik dėl duomenų, kurie buvo aiškiai įgalioti, dalyvauti komerciniame ir viešajame gyvenime, nesuteikiant to, kas turi likti privačiu.
Tikiu, kad ši teisė turi būti praktiškai įgyvendinama visiems — ne tik organizacijoms su atitikties departamentais ir įmonių programinės įrangos biudžetais. Privatumas negali būti masto privilegija.
Tikiu, kad pasaulyje, kur JAV teisė gali pasiekti bet kokius duomenis, kuriuos laiko bet kuri JAV įmonė bet kur pasaulyje, ir kur 77% darbuotojų įveda jautrius duomenis į AI įrankius, kurių jie nekontroliuoja, vienintelė architektūra, galinti suteikti prasmingą privatumo garantiją, yra ta, kur duomenys niekada nepalieka vartotojo kontrolės iš pat pradžių. Ne sutartinės garantijos. Ne privatumo politikos. Techninė architektūra.
Nulinio žinojimo autentifikacija. Pirmiausia vietinė apdorojimas. Atvirkštinis šifravimas, kurio raktas priklauso vartotojui. Galimybė dirbti be interneto. ES jurisdikcija, jokių išimčių. Tai nėra produktų savybės. Tai minimalus standartas bet kuriam įrankiui, kuris teigia, kad saugo asmens duomenis.
Ir tikiu, kad 28 metų dirbant organizacijose, kurios tvarko pasaulio jautriausią informaciją — 28 metų stebint, kaip plečiasi spraga tarp reguliavimo ketinimų ir techninės realybės — man suteikė tiek supratimą, tiek atsakomybę inicijuoti tai, ko ekosistemai dar trūksta. Apibrėžti viziją, suburti tinkamą komandą ir užtikrinti, kad tai būtų pastatyta pagal standartą, kurio reikalauja problema.
Teisė anonimizuoti asmens informaciją nėra techninė savybė. Tai yra pagrindinė teisė. Ir teisė, kuri negali būti praktiškai įgyvendinta, nėra teisė visai.
Problemos, kurias pastebėjau
Reguliavimo fragmentacija: per daug taisyklių, jokios bendros kalbos
Vidutinio dydžio organizacija, veikdama pasauliniu mastu, turi vienu metu naršyti 48+ nacionalinių ir regioninių privatumo įstatymų — GDPR, JK GDPR, CCPA, LGPD, PDPA, PIPL, DPDPA, APPI, PIPEDA ir dešimtis kitų. 24 nacionalinės DPAs ES vien tik išduoda privalomus nurodymus, kurie yra nuoseklūs principu ir skirtingi praktikoje. Tai, kas tenkina Vokietijos BfDI, automatiškai netenkina Prancūzijos CNIL, Airijos DPC ar Nyderlandų AP. Sektorių specifinė sluoksniavimas — HIPAA, PCI-DSS, NIS2, AI įstatymas — prideda reikalavimus, kurie retai suderinti tarpusavyje.
Rezultatas nėra atitikties sistema. Tai judantis taikinys su 48 skirtingais taikiniais.
Popieriaus monstras: sutartys, kurių niekas neskaito, kontrolės, kurių niekas nepatikrina
Organizacijos palaiko duomenų apdorojimo sutartis su šimtais subrangovų, standartinės sutartinės sąlygos, kurios siekia 30+ puslapių kiekvienam perdavimo santykiui, Apdorojimo veiklos įrašai, DPIA, TIA, LIA — kiekvienas reikalauja techninio indėlio, kurio dauguma teisininkų komandų negali nepriklausomai patikrinti. Praktikoje: organizacijos pasirašo tai, ką privalo pasirašyti, archyvuoja tai, ką privalo archyvuoti, ir tikisi, kad techninė realybė atitinka sutartinį aprašymą. Popieriaus monstras sukuria atitikties išvaizdą. Jis retai sukuria jos esmę.
Techninis nepakankamumas: įrankiai neatitinka įsipareigojimo
Generatyvinės AI pagrindu PII atpažinimas yra nedeterministinis. Tas pats dokumentas apdorotas du kartus duoda skirtingus rezultatus. Fundamentalus nesuderinamumas su atitiktimi — kur turite įrodyti, pakartotinai ir patikimai, kad konkretūs duomenys buvo atpažinti ir tvarkomi teisingai.
Microsoft Presidio, spaCy, Stanza — inžinerijos platformos, o ne atitikties įrankiai. Diegimas į gamybą reikalauja rašyti individualius atpažinimo įrankius kiekvienam subjektų tipui ir kalbai, kurti prieš/post apdorojimo pipelines, integruoti su dokumentų formatais, palaikyti viską, kai reguliavimai keičiasi. Paprastai 30–80 valandų specializuoto inžinerijos laiko prieš apdorojant vieną dokumentą. Dauguma organizacijų neturi tokios ekspertizės viduje.
Asmens numeris Švedijos darbo sutartyje, Steuer-ID Vokietijos mokesčių formoje, PESEL Lenkijos draudimo dokumente, Codice Fiscale Italijos sąskaitoje — kiekvienas reikalauja ne tik kalbos atpažinimo, bet ir dokumento tipo atpažinimo. Kalbos modeliai, daugiausia mokomi anglų kalba, sukuria 69% PII praleidimo rodiklį neangliškame tekste. Įstatymas nedaro skirtumo pagal kalbą.
Microsoft Purview, AWS Macie, Google Cloud DLP — brangūs, reikalauja debesų ryšio, užrakina organizacijas. Dar svarbiau: visi yra JAV įsikūrę. 2018 m. CLOUD Act įpareigoja juos atskleisti duomenis bet kur pasaulyje pagal galiojantį JAV vyriausybes prašymą. FISA 702 skyrius leidžia rinkti žvalgybos duomenis be individualių orderių. Schrems II panaikino ES-JAV privatumo skydą būtent dėl šios priežasties. Šešiaženklių metinių sutarčių su JAV debesų teikėjais nesukuria GDPR atitinkančio duomenų apdorojimo.
Nekontroliuojamos AI problemos: rinka neturi atsakymo
77% darbuotojų dalijasi jautria darbo informacija su AI įrankiais bent kartą per savaitę. 34.8% visų AI įrankių įvedimų turi informaciją, kuri atitinka jautrumo kriterijus pagal bent vieną privatumo sistemą. Darbuotojai naudoja ChatGPT, Copilot, Claude, Gemini, kad sudarytų sutartis, apibendrintų užrašus, analizuotų skaičiuokles — nuolat, automatiškai, nesuvokdami, ką jie įklijuoja į užklausą.
Tradiciškai DLP sistemos negali suprasti natūralios kalbos užklausos semantinio turinio. Jos negali atskirti programuotojo, prašančio AI paaiškinti kodo modelį, nuo programuotojo, kuris įklijuoja 50,000 įrašų gamybos duomenų bazę į tą pačią langą. AI modeliai apdoroja viską. Jie nesiūlo jokios apsaugos, jokio įspėjimo, jokio audito pėdsako, kuriuo DPO galėtų pasikliauti.
Trūksta techninio sluoksnio, kuris padarytų politiką praktiškai vykdomą. Toks sluoksnis neegzistuoja rinkoje už jokią kainą, kurią vidutinio dydžio organizacija gali sau leisti, jokioje formoje, kuri veiktų su AI įrankiais, kuriuos darbuotojai iš tikrųjų naudoja. Tai yra viena iš spragų, kurias ši ekosistema buvo sukurta užpildyti.
Prieinamumo spraga: atitiktis kaip masto privilegija
Vienas praktikas, bendruomenės organizacija, maža viešoji institucija, mokslinių tyrimų įstaiga — visi jie yra pavaldūs tam pačiam GDPR, tam pačiam teisės į ištrynimą, tam pačiam pranešimo apie pažeidimus įsipareigojimui kaip pasaulinis bankas — tačiau be teisininkų komandos, inžinerinių išteklių ar įmonių programinės įrangos biudžeto, kad juos tinkamai įgyvendintų. Atitikties ekosistema pakankamai aptarnavo dideles organizacijas, nors ir brangiai. Ji aptarnavo visus kitus su įpareigojimu ir be praktinių priemonių, kaip jį patenkinti.
Ekosistemos atsakas — viena platforma, daugybė išraiškų
Bendra platforma ir pagrindinis prieigos taškas. Hibridinė dviguba PII atpažinimo sistema (260+ subjektų, 48 kalbų, 121 atitikties nustatymas) visose diegimo modeliuose — SaaS, valdomas privatus debesys ir savarankiškai valdoma. Visi išvestiniai produktai dalijasi ta pačia atpažinimo varikliu ir ta pačia įkūrimo principu: galia vartotojo rankose.
Įmonių oro tarpo leidimas. 390+ subjektų, 317 individualių regex modelių, 100% offline apdorojimas, vaizdų OCR 37 kalbomis. Nėra debesų priklausomybės — duomenys niekada nepalieka įrenginio.
Debesų pirmos PII platforma su plačiausiu prieinamumu. „Chrome“ plėtinys realiuoju laiku AI pertraukimui, MCP serveris, „Office“ papildinys, atvirkštinis šifravimas. Nemokamai iki €29/mėn — atitiktis kiekvienam biudžetui.
Darbalaukio pirmas, visiškai vietinis. Presidio šoninis įrenginys, 7 dokumentų formatai + OCR, partijų apdorojimas, šifruotas seifas. Vienkartinė amžina licencija — jokių prenumeratų, jokių debesų, visiškai offline po aktyvavimo.
Momentinė vieša demonstracinė platforma. Nereikia paskyros — įklijuokite tekstą, anonimizuokite iš karto, pamatykite variklį veiksmuose. Greičiausias būdas patirti, ką daro ekosistema.
Bendra platforma — SaaS · Valdomas privatus · Savarankiškai valdoma · 3 diegimo modeliai
- //Organizacijos praneša, kad 67% programuotojų netyčia atskleidė paslaptis kode — deterministinis regex pagauna tai, ko NLP nepastebi, ir atvirkščiai
- //Bendrosios paskirties AI atpažinimas pasiekia 69% praleidimo rodiklį neangliškame tekste — dviguba sistema su spaCy + XLM-RoBERTa užpildo spragą visose 48 kalbose
- //Neatitinkantis redagavimas tarp komandų yra #1 cituojamas ICO ir DPA audito radinys — nustatymai užtikrina identišką atpažinimo elgesį kiekvienam vartotojui, kiekvienai sesijai
- //95% 2024 m. duomenų pažeidimų susiję su žmogaus klaida — bendri nustatymai pašalina sprendimus, kurie sukuria variacijas
- //Daugiatiekėjų PII rinkiniai sukuria audito takų spragas — 60%+ organizacijų, naudojančių 3+ PII įrankius, praneša apie suderinamumo nesėkmes tarp įrankių
- //Formatų fragmentacija: organizacijos apdoroja PDF, DOCX, XLSX, CSV, JSON tuo pačiu metu — kiekvienas formatas anksčiau reikalavo atskiro požiūrio, atskiro įrankio, atskiro audito įrašo
- //Įmonių PII įrankiai kainuoja 50,000–500,000 USD/metus — organizacijos su biudžeto apribojimais istoriniu požiūriu neturėjo jokios galimybės
- //CLOUD Act + FISA 702 skyrius reiškia, kad JAV prieglobos „GDPR atitinkamas“ apdorojimas yra sutartinė fikcija — tik ES priegloba visiškai pašalina šią riziką
Įmonių oro tarpas — 390+ subjektų · 317 individualių regex · 100% offline · Vaizdų OCR
- //Pramonės specifiniai PII — branduolinės įstaigos kodai, kariuomenės tarnybos numeriai, nuosavi vidiniai ID — nėra padengti jokiu komerciniu įrankiu; individualūs atpažinimo įrankiai reikalauja savaičių specializuoto inžinerijos bruto Presidio
- //Aprėpties nepakankamumas yra atpažinimo lubos: joks bendras įrankis neapima visų PII tipų, visų kalbų, visų formatų — 317 kuruotų modelių užpildo spragas, kurias praleidžia iš anksto paruošti rinkiniai
- //Tiekėjo paradoksas: norint apsaugoti PII, turite jį pasidalinti su tiekėju. Debesų apdorojimas reikalauja pasitikėjimo apdorotoju — architektūrinis prieštaravimas organizacijoms, tvarkančioms jautriausius duomenis
- //Oro tarpo aplinkos (gynyba, žvalgyba, kritinė infrastruktūra, tyrimų laboratorijos) negali naudoti debesų priklausomų įrankių už jokią kainą — offline pirmas pašalina architektūrinę kliūtį visiškai
- //Microsoft Purview aiškiai negali nuskaityti JPEG/PNG — teksto PII ekranuose yra visiškai nematomas įmonių DLP rinkinyje pagal dizainą
- //SparkCat kenkėjiška programa (iOS/Android, 2025 m. gruodžio mėn.) naudojo OCR, kad pavogtų kriptovaliutų piniginės atkūrimo frazes iš ekrano nuotraukų — vaizdų pagrindu esantis teksto PII yra aktyvus atakos taikinys, o ne teorinė rizika
- //300% padidėjimas debesų pagrindu veikiančių duomenų pažeidimų tarp 2022 ir 2024 — nulinio žinojimo reiškia, kad mūsų serverių pažeidimas neatskleidžia nieko, nes nieko nėra saugoma
- //ISO 27001:2022 sertifikuota su reguliariais pilno stack pentestais — saugumo pozicija, kurios reikalauja reguliuojamas pirkimas, yra dokumentuota, patikrinta ir nepriklausomai audituota
Debesų PII platforma — Nemokamai iki €29/mėn · Chrome plėtinys · MCP serveris · Office papildinys
- //8.5% visų LLM užklausų turi PII — realaus laiko pertrauka prieš pateikimą yra vienintelis prevencijos būdas, kuris veikia; post-hoc atpažinimas praleidžia vienintelį langą, kuris yra svarbus
- //Tradiciškai DLP veikia po to, kai duomenys paliko organizaciją — Chrome plėtinys pertraukia įvedimo taške, prieš bet kuris modelis gauna ar apdoroja jautrų turinį
- //Generatyvinio AI atpažinimas yra nedeterministinis — tas pats dokumentas duoda skirtingus rezultatus skirtinguose paleidimuose; jokia tikimybinė sistema negali būti reguliavimo gynybos pagrindas
- //Presidio vienas praleidžia konteksto priklausomus subjektus; XLM-RoBERTa vienas generuoja klaidingus teiginius formaliame teisiniame kalbėjime — trečias klasifikavimo sluoksnis pašalina klaidingus teiginius, kurie verčia atitikties komandas nepasitikėti automatizuotais įrankiais
- //Teisinis atrankos, medicininių įrašų prieigos prašymai, reguliavimo auditas — anonimizuoti duomenys kartais turi būti de-anonimizuoti įgalioto asmens ir tik juo; negrįžtami metodai to padaryti neleidžia
- //Vartotojo sesijos raktas niekada nepalieka jų įrenginio — ne mūsų serveriai, ne jokie debesys, ne jokie subrangovai. Teisė atkurti anonimizavimą priklauso vartotojui, o ne mums.
- //Vienas praktikas susiduria su ta pačia GDPR teisės į ištrynimą pareiga kaip pasaulinis bankas — tačiau be atitikties departamento ar €500K/metų įmonių programinės įrangos biudžeto
- //764 ES organizacijos tuo pačiu metu yra tiriamos dėl teisės į ištrynimą nesėkmių — ne todėl, kad jie ketino pažeisti; todėl, kad atitikties įrankiai buvo per brangūs
Darbalaukio pirmas · 100% vietinis apdorojimas · 7 dokumentų formatai + OCR · Vienkartinė licencija
- //300% padidėjimas debesų pagrindu veikiančių duomenų pažeidimų tarp 2022 ir 2024 — duomenys, kurie niekada nepatenka į debesį, negali būti atskleisti debesų pažeidimo metu
- //CLOUD Act + FISA daro JAV prieglobos apdorojimą teisiškai neaiškų ES organizacijoms — vietinis apdorojimas visiškai pašalina visą tarpvalstybinio perdavimo problemą, užtikrindamas, kad jokio perdavimo nevyksta
- //Formatų fragmentacija verčia organizacijas palaikyti kelis įrankius — kiekvienas įrankis sukuria atskirą atpažinimo politiką, atskirą audito įrašą, atskirą nesėkmės režimą
- //Žurnalo failai yra apleista PII paviršius — programuotojai koncentruojasi į duomenų bazes, tačiau žurnaluose yra API raktai, vartotojų ID, IP adresai; CSV ir JSON yra natūraliai palaikomi kartu su struktūriniais dokumentais
- //Oro tarpo gamybos aplinkos — gamybos grindys, vyriausybes saugios patalpos, tyrimų laboratorijos — negali toleruoti licencijos patikrinimo, kuris reikalauja tinklo prieigos; vienkartinis aktyvavimas, tada visiškai offline veikimas yra vienintelė įmanoma architektūra
- //Amžinos licencijos be pasikartojančių SaaS priklausomybių: vartotojas turi savo įdiegimą; tiekėjo prenumeratos nutraukimas negali išjungti įrankio kritiniu apdorojimo momentu
- //dbt pipeline atstatymai sunaikina maskavimo politiką CSV/JSON duomenims — EDPB 2024 patikslina, kad tai pažeidžia GDPR 5(1)(a); seifo saugojimas su šifruota istorija reiškia, kad kiekvienas apdorotas failas turi audituojamą, atkuriamą įrašą
- //Organizacijos, apdorojančios tūkstančius senų dokumentų dėl GDPR teisės į ištrynimą atitikties, reikia partijų galimybės — ne 5 failų per dieną SaaS riba, kuri padaro užduotį operatyviai neįmanoma
Problemos mastas
Tai nėra atskiri nesėkmės atvejai. Tai sisteminiai rezultatai atitikties aplinkoje, kuri pranoko savo pačios infrastruktūrą.