DeepSeek, yapay zeka modellerini daha kolay ve istikrarlı bir şekilde ölçeklendirmek için "Manifold-Constrained Hyper-Connections" (mHC) adını verdiği yeni bir eğitim metodu yayınladı. Şirketin kurucusu Liang Wenfeng'in de ortak yazarı olduğu bu araştırma makalesi, büyük dil modellerinin (LLM) temel modellerin evrimini şekillendirebilecek bir yaklaşım sunuyor. Geleneksel olarak, dil modelleri büyüdükçe performanslarını artırmak için dahili bilgi paylaşımını artırma eğilimi, istikrarsızlık riskini de beraberinde getiriyordu. DeepSeek'in mHC metodu, modellerin zengin dahili iletişimi kısıtlı bir şekilde paylaşmasını sağlayarak, modeller ölçeklenirken bile eğitim istikrarını ve hesaplama verimliliğini koruyor.
Counterpoint Research'ten yapay zeka baş analisti Wei Sun, bu yaklaşımı "çığır açan bir gelişme" olarak nitelendirdi. Sun, DeepSeek'in çeşitli teknikleri birleştirerek model eğitiminin ek maliyetini en aza indirdiğini ve maliyetteki küçük bir artışa rağmen çok daha yüksek performans elde edilebileceğini belirtti. Bu makale, DeepSeek'in dahili yeteneklerinin ve alışılmadık araştırma fikirleriyle hızlı deneyler yapma kapasitesinin bir göstergesi olarak yorumlanıyor. Omdia'dan baş analist Lian Jye Su ise, bu araştırmanın sektör genelinde dalga etkisi yaratabileceğini ve rakip yapay zeka laboratuvarlarının benzer yaklaşımlar geliştirebileceğini ifade etti. Su, Çin yapay zeka endüstrisinin önemli bulguları paylaşma isteğinin, sektördeki yeni bir güvenin ve açıklığın stratejik bir avantaj olarak benimsenmesinin göstergesi olduğunu vurguladı.
Bu araştırma makalesi, DeepSeek'in daha önce ertelenen bir sonraki amiral gemisi modeli R2'nin piyasaya sürülmesi için çalıştığı bir dönemde geldi. Şirket, Ocak 2025'te R1 muhakeme modelini tanıttığında da teknoloji dünyasını sarsmış, R1'in ChatGPT'nin o1 gibi rakipleriyle maliyetin çok altında rekabet edebileceğini göstermişti. mHC metodu, DeepSeek'in R2 gibi gelecekteki modellerinde daha da gelişmiş yetenekler sunmasının önünü açabilir ve yapay zeka alanındaki rekabeti yeni bir seviyeye taşıyabilir.
DeepSeek'in yeni eğitim metodu, yapay zeka modellerinin ölçeklendirilmesinde istikrar ve verimlilik sorunlarını çözerek sektörde çığır açıcı bir etki yaratabilir.