De Ce Se Intampla Aceasta
Recunoscatorul implicit de nume de persoane al Presidio foloseste modelul spaCy en_core_web_lg pentru NER. Acest model a fost antrenat in principal pe text de stiri — unde cei mai multi substantivi proprii sunt de fapt oameni, organizatii sau locuri despre care vorbesc articolele de stiri.
Documentele de afaceri sunt diferite:
Numele de produse care arata ca persoane:
- Documente de marketing: 'Max' (produs) detectat ca PERSON
- Manuale tehnice: 'Alex', 'Nova', 'Luna' (nume de produse) detectate ca persoane
- Terminologia software: 'Docker', 'Redis', 'Kafka' pot declansa NER PERSON
Entitatile de organizatii detectate ca persoane:
- Unele companii au nume care suna ca persoane ('Brown & Associates', 'Johnson Controls')
- Firme cu parteneri eponimi ('McKinsey', 'Deloitte') pot declansa false pozitive de persoane
Consecinta practica:
O corectura de raport care inlocuieste toate 'persona' detectate cu [PERSON] transforma 'Contactati Microsoft Support' in 'Contactati [PERSON] Support'.
Solutia: Detectia Hibridă cu NER + Regex + Context
Detectia hibridă combina:
- NER (Recunoastere de Entitati Numite): Identifica candidatii pentru persoane
- Validarea contextului: Verifica daca candidatul apare in context personal (pronume: 'el/ea/ei', titluri de politete: 'Dl./Dna.')
- Filtrul listei negative: Excludeti lista de produse/marci cunoscute
- Scor de incredere: Marcati numai detectiile cu >85% incredere
Precizia creste de la 22,7% la 90%+ cu aceste straturi.
Surse: Studiul de Benchmark al Preciziei Presidio 2024; Ghidul Tehnic de Optimizare spaCy NER; Raportul Comunitatii Github Presidio privind False Pozitive