Ana Sayfa

LLM Kodlama Performansını Artırmanın Sırrı: 'Harness' Değişikliği

1 dk okuma

Yapay zeka modellerinin kodlama yetenekleri üzerine yapılan tartışmalar genellikle hangi modelin (GPT-5.3, Opus, Gemini vb.) daha iyi olduğu sorusuna odaklanırken, bu makale farklı bir bakış açısı sunuyor. Yazar, Büyük Dil Modellerinin (LLM) kodlama performansındaki asıl darboğazın modelin kendisi değil, 'harness' adı verilen arayüz ve araç setleri olduğunu iddia ediyor. Makalede, sadece tek bir öğleden sonra, 15 farklı LLM'in kodlama performansının, yazarın kendi geliştirdiği 'oh-my-pi' adlı hobi harness'ındaki 'edit tool' (düzenleme aracı) değiştirilerek önemli ölçüde artırıldığı belirtiliyor. Bu durum, modelin sadece bir parametre olduğunu ve asıl kontrolün harness'ta olduğunu vurguluyor.

Yazar, mevcut 'edit tool' yaklaşımlarının eksikliklerini de ortaya koyuyor. Örneğin, Codex tarafından kullanılan apply_patch yöntemi, OpenAI'nin özel diff formatına bağımlı olduğundan, bu formata aşina olmayan diğer modellerde yüksek hata oranlarına yol açıyor (Grok 4'te %50.7, GLM-4.7'de %46.2). Claude Code ve diğer birçok modelin kullandığı str_replace ise, metni tam olarak eşleştirmeyi gerektiriyor; bu da boşluk ve girinti hatalarına, birden fazla eşleşme durumunda reddedilmeye ve sıkça karşılaşılan 'String to replace not found in file' hatalarına neden oluyor. Bu tür sorunlar, modellerin yeteneklerinden ziyade, arayüzün kısıtlamalarından kaynaklanıyor.

Makale, LLM'lerin kodlama görevlerindeki başarısının büyük ölçüde, modelin çıktısını çalışma alanına uygulayan ve model ile kullanıcı arasındaki etkileşimi yöneten harness'ın tasarımına bağlı olduğunu gösteriyor. Yazar, kendi harness'ında yaptığı küçük bir değişiklikle, alt-ajan çıktılarından sızan yapılandırılmamış JSONL verileri gibi sorunları çözerek, modellerin daha verimli çalışmasını sağladığını belirtiyor. Bu, geliştiricilerin LLM'leri entegre ederken sadece model seçimine değil, aynı zamanda kullanılan araç setlerinin kalitesine de odaklanmaları gerektiğinin altını çiziyor.

İçgörü

LLM'lerin kodlama performansını artırmanın yolu, doğrudan modelleri geliştirmekten ziyade, onlarla etkileşim kuran arayüz ve araç setlerini ('harness') optimize etmekten geçiyor.

Kaynak