Ana Sayfa

Kod Dünya Modeli (CWM): Açık Kaynak Kod Üretimi ve Akıl Yürütme LLM'i

1 dk okuma

Code World Model (CWM), kod üretimi ve kod hakkında akıl yürütme araştırmalarını ilerletmek amacıyla geliştirilmiş, 32 milyar parametreli, açık ağırlıklı bir büyük dil modelidir (LLM). Özellikle, kod ve komutların bir programın veya sistemin durumunu nasıl etkilediğini daha iyi temsil etmek ve bu konuda akıl yürütmek üzere eğitilmiştir. Bu model, Python yürütme izlerinden ve konteynerize edilmiş ortamlardaki ajan etkileşimlerinden elde edilen çok sayıda gözlem-eylem yörüngesi üzerinde orta düzeyde eğitilmiştir. Ardından, doğrulanabilir kodlama, matematik ve çok turlu yazılım mühendisliği ortamlarında kapsamlı çok görevli pekiştirmeli öğrenme (RL) ile sonradan eğitilmiştir.

CWM sürümü, önceden eğitilmiş, SFT (Supervised Fine-Tuning) ve talimat ayarlı model ağırlıklarını, teknik raporu, model kartını ve modelle çıkarım yapmak için başlangıç kodunu içermektedir. Bu sayede SWE-bench Verified, LiveCodeBench, AIME ve MATH gibi önemli kıyaslama testlerindeki bildirilen sayıların yeniden üretilmesi mümkündür. Model ağırlıkları Hugging Face platformunda vLLM ile kullanılmak üzere mevcuttur. Ayrıca, daha derinlemesine incelemek veya bu depoda yayınlanan kodu kullanmak isteyen geliştiriciler için PyTorch Distributed Checkpoint (DCP) formatında PyTorch kontrol noktaları da dağıtılmaktadır.

CWM'i çalıştırmak için belirli donanım gereksinimleri bulunmaktadır; örneğin, iki Nvidia H100 GPU gibi 160GB birleşik GPU VRAM ve RDMA (Mellanox 5 InfiniBand veya AWS EFA) gereklidir. Modelin çıkarım sırasında en iyi şekilde çalışması için özel bir sistem istemi (prompt) yapılandırması şarttır; aksi takdirde çıktı kalitesi önemli ölçüde düşebilir. Yerel çıkarım için basit bir sunum uç noktası da sağlanmıştır.

İçgörü

CWM, kod üretimi ve sistem durumu akıl yürütme yeteneklerini bir araya getirerek yazılım geliştirme süreçlerinde otomasyon ve verimlilik potansiyelini önemli ölçüde artırıyor.

Kaynak