LLM-Doğrulayıcı Sistemlerde Tahmin Edilebilirliği Sağlamak: 4/δ Sınırı

Büyük Dil Modellerinin (LLM'ler) resmi doğrulama araçlarıyla entegrasyonu, yazılım doğrulamasını manuel iş akışlarının ötesine taşıma potansiyeli sunuyor. Ancak, mevcut yöntemler güvenilirlikten uzak; sağlam bir teorik temel olmaksızın, iyileştirme süreçleri salınım yapabilen, döngüye girebilen veya sapabilen bir kara kutu gibi işliyor. Bu çalışma, çok aşamalı doğrulama süreçlerinde sonlanma için kanıtlanabilir garantiler sunan ilk resmi çerçeveyi sağlayan bir LLM-Doğrulayıcı Yakınsama Teoremi geliştirerek bu kritik boşluğu dolduruyor.

Araştırmacılar, LLM ve doğrulayıcı arasındaki etkileşimi genel bir döngü olarak değil, dört temel mühendislik aşamasından oluşan sıralı bir absorbe edici Markov Zinciri olarak modelliyorlar: CodeGen, Compilation, InvariantSynth ve SMTSolving. Çalışma, herhangi bir sıfır olmayan aşama başarı olasılığı (δ > 0) için sistemin neredeyse kesin olarak "Doğrulanmış" duruma ulaştığını kanıtlıyor. Ayrıca, ardışık yapısı nedeniyle, E[n] ≤ 4/δ şeklinde hassas bir gecikme sınırı türetiliyor. Bu tahmin, 90.000'den fazla deneme içeren kapsamlı bir deneysel kampanya ile test edildi. Sonuçlar, teoriyle çarpıcı bir tutarlılık göstererek, her çalışmanın doğrulamaya ulaştığını ve deneysel yakınsama faktörünün C_f ≈ 1.0 civarında yoğunlaştığını doğruladı. Bu, 4/δ sınırının sistem davranışını doğru bir şekilde yansıttığını ve gevşek bir tampon görevi görmediğini gösteriyor.

Elde edilen verilere dayanarak, marjinal, pratik ve yüksek performanslı olmak üzere üç farklı çalışma bölgesi tanımlanıyor ve gerçek dünya ortamlarındaki parametre kaymasını ele almak için dinamik bir kalibrasyon stratejisi öneriliyor. Bu katkılar, sezgisel tahminleri sağlam bir mimari temel ile değiştirerek, güvenlik açısından kritik yazılımlar için öngörülebilir kaynak planlaması ve performans bütçelemesi sağlıyor.

LLM-Doğrulayıcı Sistemlerde Tahmin Edilebilirliği Sağlamak: 4/δ Sınırı

X, Yapay Zeka Tartışması Nedeniyle İngiltere'de Yasaklanabilir

LLM'lerin Görevsiz Zeka Testi: 'Tap' Deneyleri

Sopro TTS: CPU'da Çalışan, 169M Parametreli ve Sıfır Atış Ses Klonlama Yeteneği

LLM-Doğrulayıcı Sistemlerde Tahmin Edilebilirliği Sağlamak: 4/δ Sınırı

X, Yapay Zeka Tartışması Nedeniyle İngiltere'de Yasaklanabilir

LLM'lerin Görevsiz Zeka Testi: 'Tap' Deneyleri

Sopro TTS: CPU'da Çalışan, 169M Parametreli ve Sıfır Atış Ses Klonlama Yeteneği

Benzer Haberler

X, Yapay Zeka Tartışması Nedeniyle İngiltere'de Yasaklanabilir

LLM'lerin Görevsiz Zeka Testi: 'Tap' Deneyleri

Sopro TTS: CPU'da Çalışan, 169M Parametreli ve Sıfır Atış Ses Klonlama Yeteneği

Benzer Haberler

X, Yapay Zeka Tartışması Nedeniyle İngiltere'de Yasaklanabilir

LLM'lerin Görevsiz Zeka Testi: 'Tap' Deneyleri

Sopro TTS: CPU'da Çalışan, 169M Parametreli ve Sıfır Atış Ses Klonlama Yeteneği