SoftMatcha 2, trilyonlarca kelimeden oluşan doğal dil veri kümelerinde, anlamsal varyasyonları (yerine koyma, ekleme ve silme) ele alarak 0.3 saniyenin altında ultra hızlı ve esnek arama yapmayı sağlayan yeni bir algoritmadır. Bu yaklaşım, veri kümesi boyutuyla iyi ölçeklenen, son ek dizilerine dayalı dize eşleştirme yöntemini kullanır. Sorguların anlamsal gevşetmesinden kaynaklanan kombinatoryal patlamayı hafifletmek için SoftMatcha 2, iki temel algoritmik fikir üzerine inşa edilmiştir: diske duyarlı bir tasarımla sağlanan hızlı tam eşleşme araması ve dinamik, veri kümesi farkındalığına sahip budama.
Makale, önerilen yöntemin doğal dilin istatistiksel özelliklerinden yararlanarak arama alanındaki üstel büyümeyi sorgu uzunluğuna göre bastırdığını teorik olarak göstermektedir. FineWeb-Edu (1.4 trilyon token) üzerindeki deneylerde, SoftMatcha 2'nin mevcut yöntemler olan infini-gram, infini-gram mini ve SoftMatcha'dan önemli ölçüde daha düşük arama gecikmesi elde ettiği kanıtlanmıştır.
Pratik bir uygulama olarak, bu yöntem mevcut yaklaşımlar tarafından tespit edilemeyen eğitim veri kümelerindeki kıyaslama kirliliğini (benchmark contamination) başarıyla belirleyebilmektedir. Ayrıca, yedi dildeki veri kümelerinde hızlı ve esnek arama yapabilen çevrimiçi bir demo da sunulmaktadır. Bu teknoloji, büyük dil modellerinin eğitimi ve değerlendirilmesi gibi alanlarda veri kalitesini artırma potansiyeline sahiptir.
Büyük ölçekli doğal dil veri kümelerinde anlamsal varyasyonlarla bile saniyeler içinde doğru ve hızlı arama yapmayı mümkün kılarak yapay zeka modellerinin veri kalitesini ve güvenilirliğini artırıyor.