問題
最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候,沒有問題,過一會再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU的風(fēng)扇和電源報錯:
解決方案
自動風(fēng)扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風(fēng)扇轉(zhuǎn)速不足使GPU過熱導(dǎo)致的。
首先開啟GPU的persistent mode,再設(shè)置風(fēng)扇的功率,重啟即可生效。其中250代表的是風(fēng)扇的最大功率限制,可以將其設(shè)置為最大,這樣過熱的時候風(fēng)扇就會自動加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動風(fēng)扇控制
此外,還可以將GPU風(fēng)扇的手動風(fēng)速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有g(shù)pu在xserver中的設(shè)置(不使用sudo可能無權(quán)限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:
如果機器上有多塊gpu,在第一步命令執(zhí)行后,會在這個xorg.conf中出現(xiàn)多個DeviceSection,都依次執(zhí)行第三步操作
重啟機器后,命令行執(zhí)行nvidia-settings,會打開設(shè)置界面,在其中的會顯示所有GPU的設(shè)置選項,每個GPU控制選項下面都有一個Thermal settings,進入后打開enable GPU Fan Setting即可對風(fēng)扇進行手動風(fēng)速調(diào)整了。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106433 -
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131264
發(fā)布評論請先 登錄
風(fēng)扇燈PCBA方案開發(fā)原理及介紹

利用NVIDIA技術(shù)構(gòu)建從數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
NVIDIA GPU助力科研人員探索外星世界
0xmd公司通過NVIDIA GPU打造醫(yī)療AI解決方案
NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實時交互解決方案
NVIDIA推出GeForce RTX 50系列臺式機和筆記本電腦GPU
借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計算效率
《CST Studio Suite 2024 GPU加速計算指南》
Supermicro推出直接液冷優(yōu)化的NVIDIA Blackwell解決方案

AMD與NVIDIA GPU優(yōu)缺點

NVIDIA全面轉(zhuǎn)向開源GPU內(nèi)核模塊

評論