LLM Kodlama Performansını Artırmanın Sırrı: 'Harness' Değişikliği

Yapay zeka modellerinin kodlama yetenekleri üzerine yapılan tartışmalar genellikle hangi modelin (GPT-5.3, Opus, Gemini vb.) daha iyi olduğu sorusuna odaklanırken, bu makale farklı bir bakış açısı sunuyor. Yazar, Büyük Dil Modellerinin (LLM) kodlama performansındaki asıl darboğazın modelin kendisi değil, 'harness' adı verilen arayüz ve araç setleri olduğunu iddia ediyor. Makalede, sadece tek bir öğleden sonra, 15 farklı LLM'in kodlama performansının, yazarın kendi geliştirdiği 'oh-my-pi' adlı hobi harness'ındaki 'edit tool' (düzenleme aracı) değiştirilerek önemli ölçüde artırıldığı belirtiliyor. Bu durum, modelin sadece bir parametre olduğunu ve asıl kontrolün harness'ta olduğunu vurguluyor.

Yazar, mevcut 'edit tool' yaklaşımlarının eksikliklerini de ortaya koyuyor. Örneğin, Codex tarafından kullanılan apply_patch yöntemi, OpenAI'nin özel diff formatına bağımlı olduğundan, bu formata aşina olmayan diğer modellerde yüksek hata oranlarına yol açıyor (Grok 4'te %50.7, GLM-4.7'de %46.2). Claude Code ve diğer birçok modelin kullandığı str_replace ise, metni tam olarak eşleştirmeyi gerektiriyor; bu da boşluk ve girinti hatalarına, birden fazla eşleşme durumunda reddedilmeye ve sıkça karşılaşılan 'String to replace not found in file' hatalarına neden oluyor. Bu tür sorunlar, modellerin yeteneklerinden ziyade, arayüzün kısıtlamalarından kaynaklanıyor.

Makale, LLM'lerin kodlama görevlerindeki başarısının büyük ölçüde, modelin çıktısını çalışma alanına uygulayan ve model ile kullanıcı arasındaki etkileşimi yöneten harness'ın tasarımına bağlı olduğunu gösteriyor. Yazar, kendi harness'ında yaptığı küçük bir değişiklikle, alt-ajan çıktılarından sızan yapılandırılmamış JSONL verileri gibi sorunları çözerek, modellerin daha verimli çalışmasını sağladığını belirtiyor. Bu, geliştiricilerin LLM'leri entegre ederken sadece model seçimine değil, aynı zamanda kullanılan araç setlerinin kalitesine de odaklanmaları gerektiğinin altını çiziyor.

LLM Kodlama Performansını Artırmanın Sırrı: 'Harness' Değişikliği

Yapay Zeka Karşıtının LLM'lerle Kod Yazma Rehberi

Yapay Zeka Belgeleri Avukat-Müvekkil Ayrıcalığı Kapsamında Değil: Yargıçtan Karar

Spotify'ın Geliştiricileri Yapay Zeka ile Kod Yazmayı Bıraktı

LLM Kodlama Performansını Artırmanın Sırrı: 'Harness' Değişikliği

Yapay Zeka Karşıtının LLM'lerle Kod Yazma Rehberi

Yapay Zeka Belgeleri Avukat-Müvekkil Ayrıcalığı Kapsamında Değil: Yargıçtan Karar

Spotify'ın Geliştiricileri Yapay Zeka ile Kod Yazmayı Bıraktı

Benzer Haberler

Yapay Zeka Karşıtının LLM'lerle Kod Yazma Rehberi

Yapay Zeka Belgeleri Avukat-Müvekkil Ayrıcalığı Kapsamında Değil: Yargıçtan Karar

Spotify'ın Geliştiricileri Yapay Zeka ile Kod Yazmayı Bıraktı

Benzer Haberler

Yapay Zeka Karşıtının LLM'lerle Kod Yazma Rehberi

Yapay Zeka Belgeleri Avukat-Müvekkil Ayrıcalığı Kapsamında Değil: Yargıçtan Karar

Spotify'ın Geliştiricileri Yapay Zeka ile Kod Yazmayı Bıraktı