Brezilya'nın Genel Veri Koruma Yasası (LGPD), kapsadığı nüfus açısından dünyanın üçüncü en büyük veri koruma çerçevesidir — 215 milyon Brezilyalı, Almanya, Fransa ve Birleşik Krallık'ın toplamından daha fazladır. Ulusal Veri Koruma Otoritesi (ANPD), 2024'te ilk büyük uygulama eylemlerini başlatarak, LGPD'nin 2020'de yürürlüğe girmesinin ardından gelen geçiş sürecinin sona erdiğini duyurdu.
Teknik uyum zorluğu belirgindir: Brezilya Portekizcesi, LGPD kapsamındaki belgelerin dilidir, ancak Brezilya ulusal kimlikleri, Avrupa Portekizcesi kimliklerinden ve dünyadaki diğer ulusal tanımlama sistemlerinden tamamen farklıdır.
Neden Brezilya Kişisel Verileri Teknik Olarak Farklıdır
Brezilya federal ve eyalet kimlik sistemleri, Avrupa dijital kimlik çerçevelerinden ayrı olarak evrimleşmiştir. Sonuç, genel NLP araçlarının — çoğunlukla İngilizce veya Avrupa dili verileri üzerinde eğitilmiş — tespit edemediği karmaşık bir kimlik setidir:
CPF (Cadastro de Pessoas Físicas): 11 haneli bireysel vergi mükellefi kaydı, Brezilya'nın evrensel vatandaş kimlik numarasıdır. Format: XXX.XXX.XXX-XX, iki kontrol haneli ile. CPF kontrol haneleri algoritması, iki ayrı modüler aritmetik hesaplama kullanır — her iki kontrol haneleri eşleşirse, CPF geçerlidir.
Teknik sorun: CPF, İngilizce eğitilmiş NLP araçları tarafından yalnızca %45 doğrulukla tespit edilmiştir (ANPD teknik değerlendirmesi 2024). Başarısızlıklar: 11 haneli numaraları iki aşamalı kontrol haneli doğrulama olmadan kalıp eşleştiren araçlar, geçerli CPF numaralarını rastgele dizilerden ayıramaz; ve CPF, bazı bağlamlarda standart XXX.XXX.XXX-XX formatında Brezilya belgelerinde görünür (OCR çıktısı, düz metin formları).
CNPJ (Cadastro Nacional da Pessoa Jurídica): 14 haneli şirket kayıt numarası. Format: XX.XXX.XXX/XXXX-XX, CPF ile benzer (ama aynı değil) algoritmalar kullanarak iki kontrol haneli ile.
RG (Registro Geral): Brezilya'nın eyalet tarafından verilen sivil kimlik belgesi. CPF'den (federal, tek tip) farklı olarak, RG formatı verildiği eyalete göre değişir:
- São Paulo: 2 harf + 5-9 rakam (örneğin, MG-12.345.678)
- Rio de Janeiro: 7-8 rakam ve tire
- Minas Gerais: 7-9 rakam
- Diğer eyaletler: çeşitli formatlar
Sadece bir eyaletin RG formatını tanıyan bir araç, Brezilya belgelerindeki RG numaralarının çoğunu kaçırır.
CNH (Carteira Nacional de Habilitação): Kontrol haneli 11 haneli sürücü belgesi numarası. CNH federal olarak verilir ancak format, kayıt bölgesi kodlamasını içerir.
Título de Eleitor (seçmen kaydı): 3 bileşenden oluşan 12 haneli numara — tanımlama kodu (8 rakam), eyalet kodu (2 rakam), kontrol haneleri (2 rakam).
SUS numarası (Cartão SUS): Her Brezilyalıya kamu sağlık hizmetine erişim için atanan 15 haneli birleşik sağlık sistemi numarası. Kamu hastanesi ve birinci basamak sağlık kayıtlarında görünür.
PIS/PASEP: Tüm istihdam kayıtlarında kullanılan 11 haneli sosyal entegrasyon program numarası.
LGPD'nin Anonimleştirme Standardı
LGPD Madde 12, anonim verileri "veri sahibinin kimliğinin belirlenemediği veriler" olarak tanımlar ve bu, işleme sırasında mevcut olan makul teknik araçların kullanımını dikkate alır. Bu, teknolojiye bağlı bir standarttır — bugün anonim olan bir veri, gelecekte yeniden tanımlama teknikleri geliştikçe anonim olmayabilir.
ANPD'nin rehberliği, anonimleştirmenin yalnızca açık tanımlayıcıların (CPF, isim) kaldırılmasından daha fazlasını gerektirdiğini netleştirir. Yaklaşık tanımlayıcı kombinasyonları (yaş aralığı, belediye, cinsiyet, meslek) yeniden tanımlamayı mümkün kılabilir ve genelleştirme veya gürültü ekleme yoluyla ele alınmalıdır.
AI eğitim verileri için ANPD, LLM'ler veya ML modelleri için kullanılan verilerin ya:
- Gerçekten anonimleştirilmiş (Madde 12'nin teknik standardını karşılayan), YA DA
- Her veri sahibinden belirli eğitim kullanımı için açık rıza almış, YA DA
- Belgelendirilmiş gerekçeyle meşru bir amaç altında nitelik kazanmış olması gerekir.
Brezilya Portekizcesi Dil Gereksinimleri
Brezilya Portekizcesi, Avrupa Portekizcesinden kelime dağarcığı, yazım ve belge gelenekleri açısından farklıdır. Avrupa Portekizcesi (Portekiz) üzerinde eğitilmiş NLP modelleri, özellikle Brezilya Portekizcesi metni üzerinde eğitilmiş modellere göre yaklaşık %71 doğrulukla performans gösterir (ANPD teknik değerlendirmesi).
Kişisel veri tespiti ile ilgili belirli farklılıklar:
- İsim gelenekleri: Brezilya isimleri, Portekiz isimlerinden farklı kalıplar izler. Yaygın Brezilya soyadları (Silva, Santos, Oliveira, Souza) aynıdır, ancak isimlendirme gelenekleri (çift soyadlar, sıralama tercihleri) farklıdır.
- Adres formatları: Brezilya adresleri, Portekiz ile benzer şekilde "Rua," "Avenida," "Alameda," "Travessa" kullanır, ancak CEP posta kodları (8 haneli format: XXXXX-XXX) Brezilya'ya özgüdür ve Brezilya posta kodu tanıma gerektirir.
- Belge terminolojisi: Brezilya belge türleri, Avrupa Portekizcesinden farklı terminoloji kullanır — ulusal kimlik için "Carteira de Identidade" vs. "Bilhete de Identidade", farklı hükümet ajansı isimleri boyunca.
LGPD uyumu için: İki aşamalı kontrol haneli doğrulama ile CPF ve CNPJ, çok eyaletli RG formatı tanıma, SUS numarası ve Título de Eleitor tespiti ve Brezilya Portekizcesi NLP modeli desteği, ANPD uyumu için teknik temel oluşturur.
Kaynaklar: