Ana Sayfa

NVIDIA Açık Kaynak Sürücüsünde 66 Gün Sonra nvidia-smi Donması

1 dk okuma

NVIDIA'nın açık kaynaklı GPU çekirdek modüllerini kullanan sistemlerde, nvidia-smi komutunun yaklaşık 66 gün 12 saatlik kesintisiz çalışma süresinin ardından süresiz olarak takılı kalması sorunu tespit edildi. Bu hata, özellikle B200 GPU donanımına sahip ve openEuler 2.0 (LTS-SP2) işletim sistemi ile Linux 6.6.0-100 çekirdeği üzerinde çalışan sistemlerde gözlemlenmiştir. Kullanıcı tarafından yapılan testler, aynı sürücü sürümünün tescilli (kapalı kaynak) versiyonunda bu sorunun yaşanmadığını doğrulamıştır. Bu durum, hatanın açık kaynak sürücüye özgü olduğunu ve tescilli versiyonun daha uzun süreli stabilite sunduğunu açıkça göstermektedir.

Sorunun temelinde, sistemin dmesg çıktılarına yansıyan ve NVLink ile ilgili görünen hata mesajları yatmaktadır. "NVRM: knvlinkUpdatePostRxDetectLinkMask_IMPL: Failed to update Rx Detect Link mask!" ve "NVRM: knvlinkDiscoverPostRxDetLinks_GH100: Getting peer1's postRxDetLinkMask failed!" gibi tekrarlayan uyarılar, uzun süreli çalışma sonrası GPU'lar arası bağlantı veya algılama mekanizmalarında bir aksaklık olduğunu düşündürmektedir. Bu tür hatalar, özellikle yüksek performanslı bilgi işlem ortamlarında GPU'lar arası iletişimin kritik olduğu durumlarda ciddi performans ve güvenilirlik sorunlarına yol açabilir. Açık kaynak sürücünün, tescilli sürücüdeki stabiliteyi uzun çalışma sürelerinde henüz sağlayamadığı ve bu alanda daha fazla geliştirme ihtiyacı olduğu anlaşılmaktadır.

İçgörü

Açık kaynak NVIDIA GPU sürücülerinin uzun süreli kararlılık ve güvenilirlik açısından tescilli sürücülere kıyasla hala geliştirilmesi gereken yönleri olduğunu gösteriyor.

Kaynak