Το Πρόβλημα Συνέπειας Token
Στο customer service AI, ένα conversation thread μπορεί να περιέχει:
- Ticket 1: «Η Μαρία Παπαδοπούλου (email: maria.p@example.com) αντιμετωπίζει...»
- Ticket 2 (ίδιος πελάτης, διαφορετικός agent): «Η maria.p@example.com ζήτησε...»
- Ticket 3 (follow-up): «Η κ. Παπαδοπούλου αναμένει...»
Εάν κάθε ανωνυμοποίηση παράγει νέα tokens:
- Ticket 1: [ΟΝΟΜΑ_1], [EMAIL_1]
- Ticket 2: [EMAIL_2] (διαφορετικό από EMAIL_1!)
- Ticket 3: [ΟΝΟΜΑ_2] (διαφορετικό από ΟΝΟΜΑ_1!)
Ο AI agent δεν μπορεί να συσχετίσει ότι πρόκειται για τον ίδιο πελάτη.
Αρχιτεκτονική Token Mapping
Session-scoped tokens:
session_mapping = {}
def anonymize_with_mapping(text, session_id):
entities = detect_pii(text)
for entity in entities:
key = f"{entity.type}_{entity.value}"
if key not in session_mapping[session_id]:
# Δημιουργία νέου token μόνο εάν δεν υπάρχει
session_mapping[session_id][key] = f"[{entity.type}_{len(session_mapping[session_id])+1}]"
text = text.replace(entity.value, session_mapping[session_id][key])
return text
Αποτέλεσμα:
- Ticket 1: [ΟΝΟΜΑ_1], [EMAIL_1]
- Ticket 2: [EMAIL_1] (ίδιο token — ίδια αξία)
- Ticket 3: [ΟΝΟΜΑ_1] (ίδιο token — ίδια οντότητα)
GDPR Εκτιμήσεις Mapping
Τα session mappings αποθηκεύονται ως ευαίσθητα δεδομένα — θα πρέπει να:
- Κρυπτογραφούνται at rest
- Έχουν χρόνο ζωής (TTL: 24 ώρες ή λήξη session)
- Επιλέγονται βάσει GDPR retention policy
Πηγές: