By · Last updated 2026-06-05

Bloga DönTeknik

Presidio: 3 Haftalık Kurulum ve Yönetilen KVVi Alternatifi

Microsoft Presidio'nun binlerce GitHub yıldızı ve yüzlerce açık sorunu var. Kurulum karmaşıklığı, PySpark entegrasyon ek yükü ve Python bağımlılıkları ekipleri yönetilen alternatiflere yönlendiriyor.

June 5, 20266 dk okuma
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio: Güçlü Araç, Uzun Kurulum

2026 için güncellendi.

Microsoft Presidio, KVVi tespiti ve anonimleştirme için sağlam bir araç. Ama büyük bir mühendislik projesi. Onu üretimde çalıştırmak gerçek çaba gerektiriyor. Topluluk bunda hemfikir.

GitHub Sorunu #237 iyi bir örnek. Deneyimli geliştiriciler bile ortam çakışmalarıyla karşılaşıyor. Model yükleme hatalarına ve API hatalarına takılıyorlar. İlk başarılı çalıştırmadan önce günler süren hata ayıklama geçebiliyor.

Topluluk Verileri Ne Gösteriyor

Presidio GitHub deposunun binlerce yıldızı var. Bu güçlü ilgiyi gösteriyor. Ama açık sorunlar listesi farklı bir hikaye anlatıyor.

Ortam sorunları: Python sürüm çakışmaları yaygın. spaCy model uyumsuzlukları ve ONNX çalışma zamanı hataları da öyle. Bu sorunlar belgeleri tam olarak izleyen geliştiricileri etkiliyor.

Model yükleme hataları: spaCy modelleri sorunsuz indiriliyor ama bazı kurulumlarda yükleme başarısız oluyor. Konteynerler ve düşük bellek yapılandırmaları yaygın sorun noktaları. Bunları düzeltmek spaCy iç yapısına dair derin bilgi gerektiriyor.

Üretim API hataları: Analizör geliştirmede sorunsuz çalışıyor. Üretim yükü altında bozuluyor. İş parçacığı sorunları ve NLP modellerinden kaynaklanan bellek baskısı ana nedenler.

Entegrasyon ek yükü: Bu çerçeve üzerindeki Ploomber bloğu tam tabloyu kapsıyor. Birden fazla servis kullanıyor — analizör, anonimleştirici ve isteğe bağlı bir görüntü düzenleyici. Bunları bağlamak iş ekliyor. Servisler arasında veri transferi daha fazla ekliyor.

Microsoft Fabric Örneği

Microsoft Fabric'in kendi belgelerindeki bu boşluğu «mevcut» ile «çalışıyor» arasındaki farkı gösteriyor.

PySpark üzerine bir Fabric blog yazısı bunu doğrudan belirtiyor: kurulum «harici bağımlılıkları yönetmeyi ve özel mantığı» gerektiriyor. Fabric kullanıcıları bu tür işten kaçınmak için yönetilen bir bulut platformu seçti. Ama harici araçlar eklemek karmaşıklığı geri getiriyor.

PySpark kurulumunun adımları:

  1. Fabric not defterlerine presidio-analyzer ve presidio-anonymizer yükleyin.
  2. spaCy modellerini Fabric ortamında indirin.
  3. Analizör ve anonimleştirici için PySpark UDF sarıcıları yazın.
  4. Spark çalışanları arasında kullanım için spaCy modeli paketlemesini yapın.
  5. Çok dilli veri kümeleri için dil tespiti ayarlayın.

Her adımın bilinen başarısızlık modları var. Bu yolda olan ekipler çoğunlukla ilk belgeyi işlemeden önce bir ila iki hafta harcıyor.

İki Yol: Kendi Barındırma ve Yönetilen

Yönetilen yaklaşım kurulum zorluğunu tersine çeviriyor.

Kendi barındırma yolu:

  1. Docker'ı kurun.
  2. docker-compose.yml'yi ayarlayın.
  3. spaCy modellerini indirin.
  4. Konteyner ağını hata ayıklayın.
  5. API uç noktalarını kurun.
  6. Varlık tespitini test edin.
  7. Yanlış pozitifleri ve negatifleri düzeltin.
  8. Standart dışı varlık türleri için özel tanımlayıcılar oluşturun.
  9. Denetim günlüğü ekleyin.
  10. Üretim yükü için ayarlayın.

İlk anonimleştirilmiş belgeye geçen süre: üç ila yirmi bir gün.

Yönetilen hizmet yolu:

  1. Hesap oluşturun.
  2. Bir belge yükleyin veya API'yi çağırın.

İlk anonimleştirilmiş belgeye geçen süre: on iki dakika.

Her iki yol da aynı tespit yaklaşımını kullanıyor. Yönetilen yol, başka birinin bakımını yaptığı donanımda çalışıyor.

Kendi Barındırmanın Daha Anlamlı Olduğu Durumlar

Yönetilen hizmet her duruma uymaz.

Özel model eğitimi: Bazı durumlar yeni NER modelleri gerektiriyor. Tescilli ilaç adları veya dahili ürün kodları buna örnek. Kendi barındırma eğitim araçlarını sağlıyor.

Spark'a özgü işleme: Bazı hatlarda Spark yürütücüsünün içinde KVVi tespiti gerekiyor. Harici API çağrısı bu modeli bozan gecikme ekliyor. Kendi barındırma burada tek uyumlu seçenek.

Tam kontrol: Bazı güvenlik politikaları bir veri hattındaki tüm harici API çağrılarını engelliyor. anonym.legal Masaüstü Uygulaması tamamen çevrimdışı çalışıyor. Kendi barındırma tamamen izole seçenek.

Çoğu durum için — belge işleme, API iş akışları ve uyumluluk araçları — yönetilen hizmet altyapı projesini tamamen ortadan kaldırıyor.

Her İki Yolu Aynı Anda Çalıştırma

Ücretsiz katman ayda 200 kredi sağlıyor. Bu, gerçek belgeleri test etmek için yeterli. Kredi kartı yok. Taahhüt yok.

İşte basit bir paralel yaklaşım.

1. hafta: Geliştirmede kendi barındırmalı analizörü kurun. Üretim yapılandırmasının ne kadar karmaşık olacağını görün.

1. gün, paralel olarak: Yönetilen hizmet hesabı oluşturun. Aynı test belgelerini yönetilen API üzerinden çalıştırın. Sonuçları karşılaştırın.

Temel sorular:

  • Yönetilen hizmet ihtiyaç duyduğunuz türleri tespit ediyor mu? 285'ten fazla varlık türü kapsıyor. Açık kaynak yapımı varsayılan olarak yaklaşık 40'ı kapsıyor.
  • Doğruluk yeterince iyi mi?
  • API modelinize uyuyor mu?
  • Planlar hacminize ve bütçenize uyuyor mu?

Hepsi evetse: yönetilen hizmet altyapı projesini ortadan kaldırıyor. Hayırsa: bulduğunuz boşluklar kendi barındırmada kalmak için gerçek nedenler.

Diğer ekiplerin bu kararı nasıl verdiğini vaka çalışmalarımızda görün. Güvenceleri ve koruma ayrıntılarını güvenlik ve uyumluluk sayfamızda kontrol edin. Sık sorulan sorulara SSS'de yanıt bulun.

Kısaca

Üç haftalık kurulum, belgelerin veya çerçevenin başarısızlığı değil. Üretim kalitesinde NLP altyapısının neye ihtiyaç duyduğunu gösteriyor. Zorluklar gerçek. Zaman ve beceri gerektiriyor.

Birçok ekip için KVVi anonimleştirme bir uyumluluk gerekliliği. Temel bir mühendislik görevi değil. Yönetilen hizmet aynı tespiti sunuyor. Bunu altyapı projesi olmadan yapıyor. Kayıt aşamasından ilk anonimleştirilmiş belgeye kadar on iki dakika, değerlendirme maliyetini çok düşük tutuyor.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.