By · Last updated 2026-03-23

Bloga DönTeknik

Yanlış Pozitifler: ML Redaksiyonu Neden Başarısız Olur

2024 kıyaslaması, Presidio'nun 4.434 örnekte 13.536 yanlış pozitif isim tespiti ürettiğini ortaya koydu; zamirleri, gemi adlarını ve ülkeleri kişi adı olarak işaretledi.

March 23, 20268 dk okuma
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

2026 için güncellendi

Yüzde 22,7'lik Hassasiyet Sorunu

2024 yılında Microsoft Presidio iş dosyaları üzerinde test edildi. Presidio açık kaynaklı bir KKB aracıdır. Hukuk ekipleri ve sağlık kuruluşları tarafından yaygın biçimde kullanılmaktadır.

Çalışma Presidio'nun ne kadar sıklıkla haklı olduğunu ölçtü. Kişi adı olarak işaretlediği kalemlerden kaçı gerçekten kişi adıydı?

Yanıt yüzde 22,7'ydi. Her 100 işaretlemeden yaklaşık 77'si yanlıştı. Çalışma 4.434 örnek dosyada 13.536 yanlış işaretleme saydı.

Hatalar rastgele değildi. Belirgin kalıplar izliyordu:

  • Cümle başındaki zamirler insan olarak işaretlendi ("I")
  • Gemi etiketleri insan olarak işaretlendi ("ASL Scorpio")
  • Şirket etiketleri insan olarak işaretlendi ("Deloitte & Touche")
  • Ülke terimleri insan olarak işaretlendi ("Arjantin", "Singapur")

Bunların hiçbiri nadir uç durumlar değildir. Genel bir NLP modeli alana özgü metinle karşılaştığında ortaya çıkarlar. Model bunları birbirinden ayırt etmek için tasarlanmamıştı.

Yanlış İşaretlemeler Neye Mal Olur

Hukuki ve tıbbi çalışmalarda her işaretleme bir yanıt gerektirir. Ekipler üç seçenekle karşı karşıya kalır. Her üçünün gerçek maliyetleri vardır.

Seçenek 1: Her işaretlemeyi insanlar kontrol eder. Avukat ve uzman zamanı saatte 200 ila 800 dolar tutar. Yüzde 22,7'lik doğrulukta hacim muazzamdır. Bu ölçekte uygulanabilir değildir. İnceleme maliyetlerinin hacimle nasıl büyüdüğü için E-Keşif KKB Otomasyonu ve Hukuki İnceleme Maliyeti Azaltımı yazısına bakın.

Seçenek 2: İncelemeyi atlayıp çıktıya güvenmek. Bu da risklidir. "Redakte edilmiş" kalemlerin yüzde 77'si hassas değilse hukuki risk yaratırsınız. Mahkemeler aşırı redaksiyon nedeniyle avukatlara para cezası vermiştir. Belgelenmiş davalar için E-Keşifde Aşırı Redaksiyon Yaptırımları yazısına bakın.

Seçenek 3: Puan eşiğini yükseltmek. Presidio kullanıcıların zayıf işaretlemeleri düşürmek için score_threshold ayarlamasına izin verir. 2024 DICOM çalışması bunu 0,7 — oldukça yüksek bir çıta — seviyesinde test etti. Sonuç: 39 DICOM görüntüsünden 38'inde yanlış işaretleme kaldı. Eşikler yardımcı olur. Temel nedeni gidermez.

Genel NLP Neden Burada Zorlanır

Presidio açığı, eğitim verisi ile gerçek dünya kullanımı arasındaki uyumsuzluktan kaynaklanır.

Hukuki dosyalar büyük harfli terimlerle doludur. Dava adları, yasa başlıkları ve sergi kodları genel bir modele kişisel veri gibi görünür. Model bunları işaretler. Çoğu kişisel veri değildir.

Sağlık dosyaları ilaç adları, cihaz kodları ve klinik kısaltmalar ekler. "Pt." Hasta anlamına gelir. "Dr." Doktor anlamına gelir. Bunlar öngörülmesi güç biçimlerde varlık tespitini yanıltır.

Finans dosyaları, yüzey kalıplarını kişisel kayıtlarla paylaşan ürün kodları, kurum dizileri ve hesap kimlikleri içerir.

Modeli alan verileri üzerinde ince ayar yapmak yardımcı olur. Ancak oluşturmak ve güncel tutmak zaman ve çaba gerektirir.

Hibrit Tespit Bunu Nasıl Giderir

Yanlış işaretleme sorununun açık bir çözümü vardır. Çalışmayı veri türüne göre bölün.

Yapılandırılmış veriler için kalıp kuralları. Sosyal güvenlik numaraları, telefon numaraları, e-posta adresleri ve kimlik formatları sabit kurallara uyar. Bir dize ya kalıbı karşılar ve kontrol basamağı testini geçer, ya da geçmez. Geçerli kural kümeleri için sıfır yanlış işaretleme.

Serbest metin için dil modelleri. Düz yazıdaki ad ve soyadlar, şirket etiketleri ve konumlar katı yapıdan yoksundur. NLP, kuralların yapamadığı yerde onları bulur. Güven puanları ve bağlam kontrolleri yanlış işaretleme oranını düşürür. Puan kademelerinin pratikte nasıl çalıştığı için İkili KKB Tespiti ve Uyumluluk için Güven Puanlaması yazısına bakın.

İnce kontrol için tür başına puan ayarları. Aşırı redaksiyon riskini göze alamayan hukuk ekipleri bulanık eşleşmeler için yüksek eşikler belirler. Yüksek hatırlama oranı isteyen araştırma ekipleri daha düşük eşikler belirler.

Sonuç, Presidio varsayılanlarından çok daha az hatadır. Kuralların tek başına çok fazla şeyi kaçıracağı yerlerde hatırlama oranı güçlü kalır.

Hukuki ve sağlık ekipleri için temel soru yanlış işaretlemelerin var olup olmadığı değildir. NLP sistemlerinde her zaman vardırlar. Soru, aracın bu dengeyi ayarlamanıza, ölçmenize ve belgelemenize izin verip vermediğidir.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.