Geçtiğimiz ay, bir arkadaşının LLM API faturalarını %80 oranında düşürmesine yardımcı olan yazar, çoğu kişinin varsayılan olarak GPT-5 gibi popüler modelleri seçtiğini belirtiyor. Bu modellerin iyi kıyaslama sonuçları olsa da, kullanım arttıkça maliyetlerin de hızla yükseldiğini, örneğin ayda 1.500 dolara ulaşabildiğini vurguluyor. Yazar, genel kıyaslamaların (Artificial Analysis, LM Arena, GPQA gibi) belirli bir görevdeki performansı doğru bir şekilde tahmin etmediğini, çünkü bir modelin genel akıl yürütme testlerinde başarılı olsa bile, hasar maliyeti tahmini, müşteri desteği veya veri çıkarma gibi özel iş yüklerinde yetersiz kalabileceğini açıklıyor. Bu nedenle, modellerin kendi iş akışınızdaki gerçek performansını ve maliyetini anlamanın tek yolunun, kendi gerçek istemleriniz (prompt) üzerinde test yapmak olduğunu savunuyor.
Yazar, bu sorunu çözmek için kendi kıyaslama yöntemlerini nasıl oluşturduklarını detaylandırıyor. Müşteri desteği kullanım durumunu örnek vererek, ilk adımın gerçek müşteri sohbetlerini toplamak olduğunu belirtiyor. Her sohbetten konuşma geçmişi, müşterinin son mesajı ve arkadaşının gönderdiği gerçek yanıtlar ile kullanılan istemler elde ediliyor. Yaklaşık 50 sohbet seçilerek, hem sık sorulan soruları hem de belirli davranışlar beklenen uç durumları kapsayan bir veri seti oluşturuluyor. İkinci adımda, her örnek için beklenen çıktının tanımlandığını, genellikle arkadaşının gerçek yanıtının kullanıldığını ve belirli sıralama kriterlerinin belirlendiğini açıklıyor. Son olarak, istem (konuşma + talimatlar) ve beklenen yanıttan oluşan basit bir kıyaslama veri seti oluşturulduğunu belirtiyor. Bu jenerik formatın tüm kullanım durumları için uyarlanabileceğini ve böylece binlerce dolar tasarruf edilebileceğini vurguluyor.
LLM kullanımında maliyetleri düşürmek ve performansı optimize etmek için genel kıyaslamalar yerine kendi iş yükünüze özel testler yapmak hayati önem taşır.