anonym.legal
Nazaj na blogTehnično

Presidio je zmogljiv. Je tudi projekt 3-tedenskega...

Microsoft Presidio ima tisoče GitHub zvezdic in stotine odprtih težav. Kompleksnost nastopa, obremenitev integracije PySpark in konflikti odvisnosti...

April 21, 20266 min branja
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio je zmogljiv. Je tudi projekt 3-tedenskega nastopa. Tukaj je upravljana alternativa.

Microsoft Presidio je dobro zasnovan, zmogljiv okvir za detekcijo in anonimizacijo PII. Je tudi, po soglasju skupnosti, pomembna obveza inženirstva za uvajanje v produkciji.

GitHub izdaja #237 (»Sintaksne napake pri uporabi analizatorja kot paket Python«) predstavlja kategorijo problemov, ki jih srečajo tudi izkušeni razvijalci Python: konflikti okolja, napake pri nalaganju modelov in težave pri konfiguraciji API, ki zahtevajo dni razhroščevanja pred prvim uspešnim anonimizacijo.

Dokazilo skupnosti

Repozitorij Presidio na GitHubu ima tisoče zvezdic – močan signal zanimanja in sprejetja. Seznam odprtih težav pripoveduje drugačno zgodbo o trenju pri uvajanju:

Težave s konfiguracijo okolja: Neusklađenosti verzije Python, konflikti verzije modela spaCy, napake ONNX runtime in nepravilnosti nameščanja, specifične za platformo. Te težave vplivajo na izkušene razvijalce, ki sledijo dokumentaciji točno.

Napake pri nalaganju modelov: Modeli spaCy so bili preneseni uspešno, vendar se ne naložijo v določenih okoljih (okoljeni okolji, omeljena konfiguracija pomnilnika, nekateri oblačni ponudniki). Razhroščevanje zahteva razumevanje notranjih delov upravljanja modelov spaCy.

Napake v produkcijskem API: API Presidio deluje v razvoju, vendar ne pod produktivno obremenitvijo, ker so težave s prepletitvijo, pritiskom pomnilnika iz modelov NLP ali razlikah v konfiguraciji med razvojnim in ...

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.