Ana Sayfa

Üretim Seviyesi Yapay Zeka Modellerinden Telifli Kitaplar Çıkarılabiliyor

1 dk okuma

Büyük Dil Modelleri (LLM'ler) ve telif hakları üzerindeki hukuki tartışmaların merkezinde, modellerin eğitim verilerini ne ölçüde ezberlediği ve bu ezberlenen verilerin model çıktılarından geri alınıp alınamayacağı sorusu yer almaktadır. Birçok kişi LLM'lerin eğitim verilerinin büyük bir kısmını ezberlemediğine inansa da, son çalışmalar açık ağırlıklı modellerden önemli miktarda telif hakkıyla korunan metnin çıkarılabileceğini göstermiştir. Ancak, üretim seviyesi LLM'lerin uyguladığı güvenlik önlemleri göz önüne alındığında, benzer bir çıkarımın bu modeller için de mümkün olup olmadığı belirsizliğini korumaktaydı.

Bu çalışma, üretim seviyesi dört LLM (Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro ve Grok 3) üzerinde iki aşamalı bir prosedür kullanarak bu soruyu araştırmıştır. İlk aşamada, çıkarım fizibilitesini test etmek için bir ön yoklama yapılmış, bazı durumlarda Best-of-N (BoN) "jailbreak" yöntemi kullanılmıştır. İkinci aşamada ise, kitabın tamamını çıkarmaya çalışmak için yinelemeli devam istemleri kullanılmıştır. Araştırmacılar, Gemini 2.5 Pro ve Grok 3 için metin çıkarmak amacıyla "jailbreak" yapmaya gerek kalmadığını (örneğin, "Harry Potter ve Felsefe Taşı" için sırasıyla %76.8 ve %70.3 nv-recall oranları), ancak Claude 3.7 Sonnet ve GPT-4.1 için bunun gerekli olduğunu bulmuşlardır.

Özellikle, "jailbreak" uygulanmış Claude 3.7 Sonnet'in neredeyse tüm kitapları birebir kopyalayabildiği (örneğin, %95.8 nv-recall) gözlemlenmiştir. GPT-4.1 ise önemli ölçüde daha fazla BoN denemesi gerektirmiş (örneğin 20 kat) ve sonunda devam etmeyi reddetmiştir (örneğin %4.0 nv-recall). Bu bulgular, model ve sistem düzeyindeki güvenlik önlemlerine rağmen, telif hakkıyla korunan eğitim verilerinin üretim seviyesi LLM'lerden çıkarılmasının hala bir risk oluşturduğunu açıkça ortaya koymaktadır. Bu durum, LLM geliştiricileri ve kullanıcıları için önemli yasal ve etik çıkarımlar taşımaktadır.

İçgörü

Üretim seviyesi yapay zeka modellerinin telif hakkıyla korunan verileri ezberleyip çıkarabilmesi, fikri mülkiyet hakları ve model güvenliği açısından ciddi endişeler yaratmaktadır.

Kaynak