anonym.legal
Înapoi la BlogTehnic

Problema Preciziei de 22,7% a Presidio...

Un studiu de benchmark din 2024 a constatat ca recunoscatorul de nume de persoane al Presidio obtine 22,7% precizie in documentele de afaceri...

April 21, 20267 min citire
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

De Ce Se Intampla Aceasta

Recunoscatorul implicit de nume de persoane al Presidio foloseste modelul spaCy en_core_web_lg pentru NER. Acest model a fost antrenat in principal pe text de stiri — unde cei mai multi substantivi proprii sunt de fapt oameni, organizatii sau locuri despre care vorbesc articolele de stiri.

Documentele de afaceri sunt diferite:

Numele de produse care arata ca persoane:

  • Documente de marketing: 'Max' (produs) detectat ca PERSON
  • Manuale tehnice: 'Alex', 'Nova', 'Luna' (nume de produse) detectate ca persoane
  • Terminologia software: 'Docker', 'Redis', 'Kafka' pot declansa NER PERSON

Entitatile de organizatii detectate ca persoane:

  • Unele companii au nume care suna ca persoane ('Brown & Associates', 'Johnson Controls')
  • Firme cu parteneri eponimi ('McKinsey', 'Deloitte') pot declansa false pozitive de persoane

Consecinta practica: O corectura de raport care inlocuieste toate 'persona' detectate cu [PERSON] transforma 'Contactati Microsoft Support' in 'Contactati [PERSON] Support'.

Solutia: Detectia Hibridă cu NER + Regex + Context

Detectia hibridă combina:

  1. NER (Recunoastere de Entitati Numite): Identifica candidatii pentru persoane
  2. Validarea contextului: Verifica daca candidatul apare in context personal (pronume: 'el/ea/ei', titluri de politete: 'Dl./Dna.')
  3. Filtrul listei negative: Excludeti lista de produse/marci cunoscute
  4. Scor de incredere: Marcati numai detectiile cu >85% incredere

Precizia creste de la 22,7% la 90%+ cu aceste straturi.

Surse: Studiul de Benchmark al Preciziei Presidio 2024; Ghidul Tehnic de Optimizare spaCy NER; Raportul Comunitatii Github Presidio privind False Pozitive

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.