Κατά τη διάρκεια του 2024, πολλές ομάδες ανάπτυξης δημοσίως αναφέρθηκαν ότι ακούσμα και δομές δεδομένων που περιέχουν δεδομένα παραγωγής πελατών αναθέθηκαν αυτόματα σε ChatGPT για ανάλυση ή δοκιμή.
Προκαλεί GDPR παραβίασης δεδομένων, ευθύνη δεδομένων πελατών και ιδιωτικότητας ζητήματα.
Γιατί τα Δεδομένα Παραγωγής Εντελώς σε Δεδομένα Δοκιμής
Δεδομένα που αντιγράφονται: Οι δεδομένοι συχνά αντιγράφουν δεδομένα παραγωγής μιας σχετικής δημιουργίας ή δοκιμής σύνολο, αποαναγνωρίζοντας δημοσιογραφών. Αλλα αποαναγνώριση δημιουργία λάθη:
- Το αρχείο email πελάτη παραμένει ορατό στο αρχείο δομής
- Ο αριθμός αποσυμπλέκεται στη χορδάνα ("mask_[original_ssn]") με αρχικό αριθμό
- Τα ημερολόγια σε δοκιμή περιέχουν ονόματα και τηλεφωνικούς αριθμούς πελατών
Χώρα κώδικα κατέστησε ενδιαφέρον: Η δοκιμή αποστέλλεται σε GPT χώρα ως εξαίρεση αίτησης ή για ανάλυση προσέγγησης.
Οτι συμβαίνει:
- Ο δεν κάνει τη δοκιμή
- Αντιγράφει και επικολλά τη δοκιμή ή ημερολόγιο σε ChatGPT
- Ποτέ δε διαπιστώσει ότι φράση περιέχει email, αρχείο κωδικό ή αριθμό κοινωνικής ασφάλισης
- Η OpenAI αποθηκεύει τη πληροφορία για αναφορά και κατάρτιση
Το Πρόβλημα GDPR και Δεδομένων
Άρθρο 32: Ασφάλεια Δεδομένων Κάθε προσωπικό δεδομένο πρέπει να διακινηθεί με "κατάλληλα τεχνικά μέτρα". Αποστολή δεδομένων παραγωγής σε ένα τρίτο AI χωρίς κρυπτογράφηση ή συναίνεση παραβιάζει αυτό.
Άρθρο 6: Νόμιμη Βάση Ο πελάτης δεν ξέρει ότι το δεδομένα τους αποστέλλονται σε ChatGPT. Δεν δόθηκε συναίνεση.
Άρθρο 5: Περιορισμός Σκοπού Δεδομένα συλλέχθησαν για αναπαράγωση διαδικασίας. Ανάθεση τρίτης AI δεν είναι δοχείο ή αναθέσεως γλωσσών.
Δύο Τρόποι Αποτροπής: Προ-Φιλτράρισμα και Λίστες Αποκλεισμού
Τρόπος 1: Αυτόματο Προ-Φιλτράρισμα PII
Προτού ένας δεδομένας αποστέλλει δεδομένα σε GPT:
- Εσωτερικό σάρωμα με εργαλείο PII (π.χ., Presidio ή λογικό εργαλείο) για αναγνώριση email, SSN, κ.λπ.
- Αποδοχής σημαία αν τυχόν PII ανιχνευθεί
- Κλείσιμο χώρα εάν η σημαία είναι θετική ή απαίτηση χειροτεχνίας εξέταση
const { analyzeText } = require('presidio');
async function filterBeforeAI(userInput) {
const results = await analyzeText(userInput);
const hasPII = results.some(r => r.type === 'PERSON' || r.type === 'EMAIL_ADDRESS');
if (hasPII) {
console.warn('PII detected - blocking AI submission');
return null;
}
return userInput; // Safe to send to ChatGPT
}
Τρόπος 2: Λίστες Αποκλεισμού Δεδομένων Δοκιμής
Δημιουργήστε ένα σύνολο δεδομένων μαύρη λίστα:
- Κύρια ρήματα: email, εταιρείες, αρχεία που δεν θα πρέπει ποτέ αποστείλεται
- Μοτίβα: Μοτίβα regex για SSNs, αρχεία κωδικών, κ.λπ.
- Αθροιστική σάρωση: Κάθε χώρα που αποστέλλεται αρχικά ελέγχεται για μαύρη λίστα
const BLOCKLIST = [
/@company\.com/, // Internal emails
/(?:\d{3}-){2}\d{4}/, // SSN pattern
/password/i,
/api_key/i,
];
function isBlocklisted(text) {
return BLOCKLIST.some(pattern => pattern.test(text));
}
Ενημέρωση Ομάδας Ανάπτυξης
Ενημέρωση πρέπει:
- Ποτέ μην αποστείλετε δεδομένα παραγωγής σε εργαλεία AI τρίτων χωρίς προ-φιλτράρισμα
- Χρησιμοποιήστε σίγουρα δεδομένα δοκιμής (fake) αντι για δεδομένα παραγωγής
- Δράσιμο εργαλείο: Τεχνικοί προορισμοί θα πρέπει να περιλαμβάνει PII ανίχνευση πριν από την ανάθεση
Πηγές: