Difüzyon Dil Modelleri (DLM'ler), tek seferde bir belirteç üreten otoregresif (AR) dil modellerine umut vadeden bir alternatif olarak öne çıkıyor. DLM'ler, kısmen maskelenmiş bir diziyi birden fazla örnekleme adımıyla yinelemeli olarak iyileştirerek, tamamen maskelenmiş bir diziyi temiz metne dönüştürür. Bu iyileştirme süreci, modelin her yinelemede birden fazla belirteci tamamlamasına olanak tanıyan paralel üretim imkanı sunar ve AR kod çözmeye göre daha yüksek verim potansiyeli taşır. Aynı zamanda, çift yönlü bağlamdan yararlanarak metin tamamlama ve iyileştirme gibi yeni yeteneklerin kilidini açar.
Ancak, standart DLM'ler pratikte iki temel verimsizlikten muzdariptir. Birincisi, tam çift yönlü dikkat mekanizması altında KV önbellekleme uyumsuzluğu yaşanır. Standart DLM'ler genellikle çift yönlü (nedensel olmayan) dikkat kullandığından, her gürültü giderme adımında tüm bağlam üzerinde dikkatin yeniden hesaplanmasını gerektirir, bu da çıkarımı pahalı hale getirir ve standart KV önbelleklemesini engeller. İkincisi, yüksek kaliteli üretim genellikle çok sayıda gürültü giderme/iyileştirme adımı gerektirir; bu adımların sayısı genellikle üretim uzunluğuna eşittir ve adım sayısını düşürmek kaliteyi keskin bir şekilde düşürme eğilimindedir.
Consistency Diffusion Language Models (CDLM) bu iki darboğazı hedef alır. CDLM, tutarlılık tabanlı çoklu belirteç tamamlama ile blok bazlı KV önbelleklemesini birleştirerek difüzyon dil modeli çıkarımını hızlandıran bir eğitim sonrası yöntem sunar. Bu yaklaşım, daha az adımla güvenilir çıkarım yapmayı mümkün kılarken, aynı zamanda tam blok bazlı KV önbellekleme olanağı sağlar. Sonuç olarak, CDLM matematik ve kodlama görevlerinde çıkarım gecikmesinde 14,5 kata kadar hızlanma sağlayarak kaliteden ödün vermeden önemli performans artışları sunar.
Yeni Consistency Diffusion Language Models (CDLM) yaklaşımı, difüzyon dil modellerinin çıkarım hızını önemli ölçüde artırırken kaliteden ödün vermeyerek yapay zeka uygulamalarında verimliliği ve erişilebilirliği yükseltiyor.