anonym.legal
Πίσω στο BlogΑσφάλεια AI

Κώδικας, Δοκιμές και Δεδομένα Πελατών...

Οι δομές δεδομένων δοκιμής περιέχουν δεδομένα παραγωγής, ημερολόγια και ευαίσθητα αρχεία. Η ανάθεση βοηθών AI χωρίς προ-φιλτράρισμα αποκαλύπτει PII.

April 21, 20268 λεπτά ανάγνωσης
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

Κατά τη διάρκεια του 2024, πολλές ομάδες ανάπτυξης δημοσίως αναφέρθηκαν ότι ακούσμα και δομές δεδομένων που περιέχουν δεδομένα παραγωγής πελατών αναθέθηκαν αυτόματα σε ChatGPT για ανάλυση ή δοκιμή.

Προκαλεί GDPR παραβίασης δεδομένων, ευθύνη δεδομένων πελατών και ιδιωτικότητας ζητήματα.

Γιατί τα Δεδομένα Παραγωγής Εντελώς σε Δεδομένα Δοκιμής

Δεδομένα που αντιγράφονται: Οι δεδομένοι συχνά αντιγράφουν δεδομένα παραγωγής μιας σχετικής δημιουργίας ή δοκιμής σύνολο, αποαναγνωρίζοντας δημοσιογραφών. Αλλα αποαναγνώριση δημιουργία λάθη:

  • Το αρχείο email πελάτη παραμένει ορατό στο αρχείο δομής
  • Ο αριθμός αποσυμπλέκεται στη χορδάνα ("mask_[original_ssn]") με αρχικό αριθμό
  • Τα ημερολόγια σε δοκιμή περιέχουν ονόματα και τηλεφωνικούς αριθμούς πελατών

Χώρα κώδικα κατέστησε ενδιαφέρον: Η δοκιμή αποστέλλεται σε GPT χώρα ως εξαίρεση αίτησης ή για ανάλυση προσέγγησης.

Οτι συμβαίνει:

  1. Ο δεν κάνει τη δοκιμή
  2. Αντιγράφει και επικολλά τη δοκιμή ή ημερολόγιο σε ChatGPT
  3. Ποτέ δε διαπιστώσει ότι φράση περιέχει email, αρχείο κωδικό ή αριθμό κοινωνικής ασφάλισης
  4. Η OpenAI αποθηκεύει τη πληροφορία για αναφορά και κατάρτιση

Το Πρόβλημα GDPR και Δεδομένων

Άρθρο 32: Ασφάλεια Δεδομένων Κάθε προσωπικό δεδομένο πρέπει να διακινηθεί με "κατάλληλα τεχνικά μέτρα". Αποστολή δεδομένων παραγωγής σε ένα τρίτο AI χωρίς κρυπτογράφηση ή συναίνεση παραβιάζει αυτό.

Άρθρο 6: Νόμιμη Βάση Ο πελάτης δεν ξέρει ότι το δεδομένα τους αποστέλλονται σε ChatGPT. Δεν δόθηκε συναίνεση.

Άρθρο 5: Περιορισμός Σκοπού Δεδομένα συλλέχθησαν για αναπαράγωση διαδικασίας. Ανάθεση τρίτης AI δεν είναι δοχείο ή αναθέσεως γλωσσών.

Δύο Τρόποι Αποτροπής: Προ-Φιλτράρισμα και Λίστες Αποκλεισμού

Τρόπος 1: Αυτόματο Προ-Φιλτράρισμα PII

Προτού ένας δεδομένας αποστέλλει δεδομένα σε GPT:

  1. Εσωτερικό σάρωμα με εργαλείο PII (π.χ., Presidio ή λογικό εργαλείο) για αναγνώριση email, SSN, κ.λπ.
  2. Αποδοχής σημαία αν τυχόν PII ανιχνευθεί
  3. Κλείσιμο χώρα εάν η σημαία είναι θετική ή απαίτηση χειροτεχνίας εξέταση
const { analyzeText } = require('presidio');

async function filterBeforeAI(userInput) {
  const results = await analyzeText(userInput);
  const hasPII = results.some(r => r.type === 'PERSON' || r.type === 'EMAIL_ADDRESS');
  if (hasPII) {
    console.warn('PII detected - blocking AI submission');
    return null;
  }
  return userInput; // Safe to send to ChatGPT
}

Τρόπος 2: Λίστες Αποκλεισμού Δεδομένων Δοκιμής

Δημιουργήστε ένα σύνολο δεδομένων μαύρη λίστα:

  1. Κύρια ρήματα: email, εταιρείες, αρχεία που δεν θα πρέπει ποτέ αποστείλεται
  2. Μοτίβα: Μοτίβα regex για SSNs, αρχεία κωδικών, κ.λπ.
  3. Αθροιστική σάρωση: Κάθε χώρα που αποστέλλεται αρχικά ελέγχεται για μαύρη λίστα
const BLOCKLIST = [
  /@company\.com/, // Internal emails
  /(?:\d{3}-){2}\d{4}/, // SSN pattern
  /password/i,
  /api_key/i,
];

function isBlocklisted(text) {
  return BLOCKLIST.some(pattern => pattern.test(text));
}

Ενημέρωση Ομάδας Ανάπτυξης

Ενημέρωση πρέπει:

  1. Ποτέ μην αποστείλετε δεδομένα παραγωγής σε εργαλεία AI τρίτων χωρίς προ-φιλτράρισμα
  2. Χρησιμοποιήστε σίγουρα δεδομένα δοκιμής (fake) αντι για δεδομένα παραγωγής
  3. Δράσιμο εργαλείο: Τεχνικοί προορισμοί θα πρέπει να περιλαμβάνει PII ανίχνευση πριν από την ανάθεση

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.