Microsoft Research, 15 milyar parametreli açık kaynaklı çok modlu akıl yürütme modeli Phi-4-reasoning-vision-15B'yi duyurdu. Bu kompakt ve akıllı model, akıl yürütme gücü, verimlilik ve eğitim verisi ihtiyaçları arasında dengeli bir yaklaşım sunuyor. Görüntü açıklamadan belge okumaya, ödev yardımından kullanıcı arayüzlerini anlamaya kadar geniş bir yelpazede görme-dil görevleri için doğal etkileşim sağlıyor. Özellikle matematik ve bilim alanındaki akıl yürütme yetenekleri ve bilgisayar/mobil ekranlarındaki öğeleri anlama konusunda üstün performans sergiliyor. Model, Microsoft Foundry, HuggingFace ve GitHub üzerinden erişilebilir durumda.
Phi-4-reasoning-vision-15B, popüler açık kaynaklı modellere kıyasla doğruluk ve hesaplama maliyeti arasında cazip bir denge sunuyor. On kat veya daha fazla hesaplama süresi ve token gerektiren çok daha yavaş modellerle rekabetçi bir performans sergilerken, benzer hızdaki modellerden daha iyi doğruluk sağlıyor, özellikle matematik ve bilimsel akıl yürütme alanlarında. Bu başarı, dikkatli mimari seçimleri, titiz veri kürasyonu ve hem akıl yürütme hem de akıl yürütme dışı verilerin bir karışımını kullanmanın faydalarını gösteren derslerle destekleniyor.
Modelin geliştirilmesindeki temel motivasyon, daha küçük ve verimli çok modlu akıl yürütme modelleri oluşturmaktı. Birçok popüler görme-dil modelinin parametre sayısını ve tükettiği/ürettiği token miktarını artırma eğiliminin aksine, Phi-4-reasoning-vision-15B, Phi ailesi modellerinin öncülük ettiği verimlilik odaklı karşı eğilimi sürdürüyor. Bu yaklaşım, kaynak kısıtlı veya etkileşimli ortamlarda dağıtım için kritik olan eğitim ve çıkarım süresi maliyetlerini ve gecikmeyi azaltmayı hedefliyor. Microsoft, bu modelle topluluğa pratik bilgiler sunmayı ve genel görme-dil görevlerinde rekabetçi, bilimsel ve matematiksel çok modlu akıl yürütmede üstün bir açık kaynaklı model sağlamayı amaçlıyor.
Bu model, gelişmiş çok modlu akıl yürütme yeteneklerini daha düşük hesaplama maliyetleriyle erişilebilir kılarak, yapay zeka alanında verimlilik ve performans dengesinde önemli bir ilerleme kaydediyor.