Çinli yapay zeka girişimi DeepSeek, kurucusu Liang Wenfeng'in de ortak yazarı olduğu yeni bir teknik makale yayınlayarak temel yapay zeka modellerini eğitmek için kullanılan mimaride köklü bir değişikliği önerdi. "Manifold-Constrained Hyper-Connections (mHC)" adı verilen bu yöntem, Hangzhou merkezli firmanın modellerini daha uygun maliyetli hale getirme çabasının önemli bir parçası. DeepSeek, bu stratejik hamleyle, daha fazla bilgi işlem gücüne erişimi olan ve daha iyi finanse edilen ABD'li rakipleriyle rekabet etme kapasitesini artırmayı hedefliyor. Bu gelişme aynı zamanda, Çinli yapay zeka şirketleri arasında giderek artan açık ve işbirlikçi araştırma kültürünü de yansıtıyor; zira bu şirketler, bilimsel bulgularını ve teknik ilerlemelerini kamuoyuyla daha fazla paylaşma eğiliminde. Sektör gözlemcileri için DeepSeek'in yayınladığı teknik makaleler, genellikle şirketin bir sonraki büyük model sürümünü şekillendirecek mühendislik tercihlerinin ve stratejik yönelimlerinin önemli bir erken sinyalini veriyor.
Yayınlanan makalede, 19 DeepSeek araştırmacısından oluşan bir ekip, mHC yöntemini farklı boyutlardaki modeller üzerinde kapsamlı bir şekilde test ettiklerini belirtti. Bu modeller arasında 3 milyar, 9 milyar ve 27 milyar parametreli yapılar bulunuyordu. Test sonuçları, mHC'nin önemli bir ek hesaplama yükü getirmeden büyük ölçekte etkili bir şekilde ölçeklenebildiğini açıkça gösterdi. Araştırmacılar, Zhenda Xie, Yixuan Wei ve Huanqi Cao liderliğindeki ekip, "Ampirik sonuçlar, mHC'nin geleneksel HC'ye (hyper-connections) kıyasla üstün ölçeklenebilirlik ile istikrarlı büyük ölçekli eğitimi etkili bir şekilde sağladığını doğrulamaktadır" ifadelerini kullandı. Bu bulgular, DeepSeek'in daha az kaynakla daha büyük ve daha yetenekli yapay zeka modelleri geliştirme vizyonunu destekler nitelikte.
DeepSeek'in yeni mimari önerisi, yapay zeka modellerinin eğitim maliyetlerini düşürerek daha geniş çapta erişilebilir ve sürdürülebilir bir yapay zeka geliştirme yolunu açabilir.