Yapay zeka sistemleri geliştikçe, bu sistemlerin nasıl başarısız olabileceğini anlamak güvenlik açısından kritik hale geliyor. Yapay zeka hizalama (AI alignment) alanındaki temel endişelerden biri, süper zeki sistemlerin yanlış hedefleri tutarlı bir şekilde takip etmesi, yani klasik "ataç maksimizasyonu" senaryosu. Ancak Anthropic tarafından yapılan yeni bir araştırma, başka bir olasılığa işaret ediyor: Yapay zeka, sistematik bir uyumsuzluk yerine tutarsızlık (incoherence) nedeniyle başarısız olabilir. Bu, öngörülemeyen, kendi kendini baltalayan ve tutarlı bir hedefi optimize etmeyen davranışları ifade ediyor; tıpkı insanların sıklıkla yaptığı gibi, "karmaşık bir dağınıklık" (hot mess) hali.
Araştırma, yapay zeka hatalarını klasik bias-variance (önyargı-varyans) çerçevesini kullanarak ayrıştırıyor ve tutarsızlığı, hatanın varyansa atfedilebilen kısmı olarak tanımlıyor. Tutarsızlığın 0 olması tüm hataların sistematik (klasik uyumsuzluk riski) olduğunu, 1 olması ise tüm hataların rastgele (hot mess senaryosu) olduğunu gösteriyor. Bu metrik, genel performanstan bağımsız olarak bir modelin daha iyiye giderken bile daha tutarlı veya tutarsız hale gelebileceğini belirtiyor. Sınır yapay zeka modelleri üzerinde yapılan değerlendirmeler, modellerin akıl yürütmeye ve eylemde bulunmaya ne kadar uzun süre harcarsa, o kadar tutarsız hale geldiğini ortaya koyuyor. Bu durum, akıl yürütme belirteçleri, ajan eylemleri veya optimize edici adımlarla ölçüldüğünde de geçerliliğini koruyor.
Model ölçeği büyüdükçe tutarsızlığın nasıl değiştiği, görevin zorluğuna bağlı. Daha yetenekli modeller daha zorlu sorunlarla uğraştıkça, varyansın baskın olduğu başarısızlıklar devam ediyor veya kötüleşiyor. Bu, ölçeklemenin tek başına tutarsızlığı ortadan kaldırmayacağını gösteriyor. Modellerin bir sorun üzerinde kendiliğinden daha uzun süre akıl yürütmesi, tutarsızlığı önemli ölçüde artırırken, API ayarları aracılığıyla akıl yürütme bütçelerini kasıtlı olarak artırmak yalnızca mütevazı tutarlılık iyileştirmeleri sağlıyor. Bu bulgular, gelecekteki yapay zeka başarısızlıklarının, istenmeyen bir hedefi tutarlı bir şekilde takip etmekten ziyade, endüstriyel kazalara daha çok benzeyebileceğini düşündürüyor.
Yapay zeka sistemlerinin gelecekteki başarısızlıkları, öngörülemeyen ve tutarsız davranışlar sergileyen "endüstriyel kazalara" daha çok benzeyebilir.