Ana Sayfa

K-Anonimlik ve Yeniden Kimlik Tespiti Riski: Veri Gizliliği ve Kullanılabilirliği Dengesi

1 dk okuma

Bu makale, veri anonimleştirme tekniklerinden k-anonimlik seviyesinin artırılmasının hem veri gizliliği (yeniden kimlik tespiti riski) hem de veri kullanılabilirliği üzerindeki etkilerini deneysel bir yaklaşımla inceliyor. Genellikle k-anonimlik ve differential privacy gibi kavramlara odaklanılırken, bu çalışma anonimleştirme gücü arttıkça bir veri setinde gerçekte neler olduğunu somut bir şekilde ortaya koyuyor. Araştırma, kısmi bilgiye sahip bir saldırganın bireyleri yeniden tanımlamaya çalıştığı bir senaryoyu simüle ederek, anonimleştirme seviyesi yükseldikçe veri kalitesinin nasıl düştüğünü ölçüyor. Amaç, veriyi kullanışlı tutmak ile bireylerin kimliğini gizli tutmak arasındaki hassas denge noktasını aydınlatmaktır.

Deney için 2000 bireyden oluşan sentetik bir veri seti oluşturulmuştur. Bu veri setinde yaş, 3 haneli posta kodu (ZIP3) ve cinsiyet "yarı tanımlayıcılar" (quasi-identifiers) olarak belirlenmiş ve anonimleştirme işlemine tabi tutulmuştur. K-anonimlik değeri 1'den 20'ye kadar değiştirilerek, her bir kaydın bu yarı tanımlayıcılar açısından en az k-1 diğer kayıttan ayırt edilemez olması sağlanmıştır. Bu durum, k değeri arttıkça algoritmanın yarı tanımlayıcılardaki detayları daha fazla genelleştirmesi veya bastırması gerektiği anlamına gelir. Çalışmada, yaş gruplama genişliği, yaşın üst sınırının belirlenmesi (top-coding) ve nadir posta kodu bölgelerinin bastırılması gibi genelleştirme parametreleri de incelenmiştir. Her bir k değeri ve genelleştirme ayarı kombinasyonu için veri setinin anonimleştirilmiş bir versiyonu üretilmiş ve bu süreçte ne kadar bilgi kaybı yaşandığı değerlendirilmiştir. Saldırgan modeli ise, bir veri sızıntısı veya kamu kayıtları gibi kaynaklardan bireyin yaşı, genel konumu (ZIP3 bölgesi) ve cinsiyeti hakkında kısmi bilgiye sahip olan bir tehdit aktörünü temsil etmektedir. Bu deneysel yaklaşım, veri gizliliği ve kullanılabilirliği arasındaki değiş tokuşu nicel olarak anlamak için değerli bir çerçeve sunmaktadır.

İçgörü

Veri anonimleştirme tekniklerinin, bireysel gizliliği korurken verinin analiz edilebilirliğini ne ölçüde etkilediğini deneysel olarak gösteriyor.

Kaynak