Notre Dame Üniversitesi'nde mantık profesörü ve önde gelen bir matematikçi olan Joel David Hamkins, Lex Fridman podcast'inde büyük dil modellerinin (LLM'ler) matematik araştırmalarındaki mevcut durumu hakkında çarpıcı bir değerlendirme sundu. Hamkins'in deneyimleri, yapay zekanın bilimsel keşiflerdeki potansiyeline dair iyimser anlatılarla keskin bir tezat oluşturuyor. Mevcut yapay zeka sistemlerinin matematiksel doğruluk konusunda temel sorunlar yaşadığını ve araştırmacılar için neredeyse hiç faydalı olmadığını belirten Hamkins, "Şu anki sistemlerle denemeler yaptım ama hiç yardımcı bulmadım. Temelde sıfır faydası var," diyerek hayal kırıklığını dile getirdi.
Hamkins, yapay zeka ile matematiksel bir soru üzerine etkileşim kurduğunda genellikle "matematiksel olarak doğru olmayan çöp cevaplar" aldığını belirtiyor. Bu durum sadece yanlışlık değil, aynı zamanda etkileşimin doğası gereği de sorunlu. Yapay zeka, hataları işaret edildiğinde bile kendi argümanının "tamamen doğru" olduğunu iddia ederek eleştiriyi reddediyor. Hamkins, böyle bir deneyimi bir insanla yaşasa bir daha konuşmayı reddedeceğini ifade ediyor. Bu tür bir güvenli yanlışlık ve düzeltmeye direnç, matematiksel söylem için hayati önem taşıyan işbirliğine dayalı güveni zedeliyor. Matematikçi Terrance Tao da LLM'lerin kusursuz görünen ancak insanların fark edeceği ince hatalar içeren kanıtlar üretebildiğini belirtiyor.
Hamkins, mevcut sınırlamaların kalıcı olmayabileceğini kabul etmekle birlikte, şimdilik yapay zeka sistemlerinin matematiksel akıl yürütme açısından güvenilir olmadığını vurguluyor. Bu değerlendirme, bazı araştırmacıların yapay zeka destekli atılımlar bildirmesine rağmen, Hamkins gibi çalışan matematikçilerin mevcut sistemleri ciddi araştırmalar için temelde güvenilmez bulduğu kritik bir gerilimi ortaya koyuyor. Yapay zeka şirketleri akıl yürütme yeteneklerine yatırım yapmaya devam ederken, bu alandaki gerçek ilerleme için hala katedilmesi gereken uzun bir yol olduğunu gösteriyor.
Büyük dil modellerinin matematiksel araştırmalarda henüz güvenilir ve faydalı olmadığı, hatta hatalı ve düzeltmeye kapalı cevaplar verdiği ortaya çıktı.