0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Nvidia GPU的风扇和电源报错解决方案

454398 来源:网络整理 作者:胡里糊涂 2020-10-05 07:36 次阅读

问题

最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:

解决方案

自动风扇控制

在nvidia论坛有人给出了解决方案,即问题的根源可能是风扇转速不足使GPU过热导致的。

首先开启GPU的persistent mode,再设置风扇的功率,重启即可生效。其中250代表的是风扇的最大功率限制,可以将其设置为最大,这样过热的时候风扇就会自动加大功率。

sudo nvidia-smi -pm 1

sudo nvidia-smi -pl 250

手动风扇控制

此外,还可以将GPU风扇的手动风速控制打开。方法为:

首先,使用sudo nvidia-xconfig --enable-all-gpus命令打开所有gpu在xserver中的设置(不使用sudo可能无权限写入新配置)

然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下图所示:

如果机器上有多块gpu,在第一步命令执行后,会在这个xorg.conf中出现多个DeviceSection,都依次执行第三步操作

重启机器后,命令行执行nvidia-settings,会打开设置界面,在其中的会显示所有GPU的设置选项,每个GPU控制选项下面都有一个Thermal settings,进入后打开enable GPU Fan Setting即可对风扇进行手动风速调整了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4987

    浏览量

    103069
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4740

    浏览量

    128951
收藏 人收藏

    评论

    相关推荐

    借助NVIDIA GPU提升鲁班系统CAE软件计算效率

    本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU,实现复杂产品的快速仿真,加速产品开发和设计迭代,缩短开发周期,提升产品竞争力。
    的头像 发表于 12-27 16:24 91次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA
    发表于 12-16 14:25

    Supermicro推出直接液冷优化的NVIDIA Blackwell解决方案

    ,宣布推出高性能的SuperCluster。这一端对端AI数据中心解决方案采用NVIDIA Blackwell平台,专为兆级参数规模的生成式AI时代所设计。全新SuperCluster将可大幅增加液冷
    发表于 11-25 10:39 348次阅读
    Supermicro推出直接液冷优化的<b class='flag-5'>NVIDIA</b> Blackwell<b class='flag-5'>解决方案</b>

    AMD与NVIDIA GPU优缺点

    在图形处理单元(GPU)市场,AMD和NVIDIA是两大主要的竞争者,它们各自推出的产品在性能、功耗、价格等方面都有着不同的特点和优势。 一、性能 GPU的性能是用户最关心的指标之一。在高端市场
    的头像 发表于 10-27 11:15 715次阅读

    暴涨预警!NVIDIA GPU供应大跳水

    gpu
    jf_02331860
    发布于 :2024年07月26日 09:41:42

    NVIDIA全面转向开源GPU内核模块

    借助 R515 驱动程序,NVIDIA 于 2022 年 5 月发布了一套开源的 Linux GPU 内核模块,该模块采用双许可证,即 GPL 和 MIT 许可。初始版本主要面向数据中心计算 GPU,而 GeForce 和工作站
    的头像 发表于 07-25 09:56 424次阅读
    <b class='flag-5'>NVIDIA</b>全面转向开源<b class='flag-5'>GPU</b>内核模块

    远程IO常见报错解决方案,轻松应对远程控制难题

    随着科技的发展,远程IO技术在工业、医疗、家居等领域得到了广泛应用。然而,在使用过程中,我们难免会遇到一些报错问题。本文将为您盘点远程IO常见报错解决方案,让您轻松应对远程控制难题。
    的头像 发表于 07-23 18:19 1583次阅读

    恒讯科技的GPU解决方案有什么特点和优势?

    GPU解决方案通常指的是云服务提供商提供的、基于图形处理单元(GPU)的计算服务。这些服务利用GPU的并行处理能力,为用户提供高性能的计算资源,特别适用于需要大量图形处理或并行计算的
    的头像 发表于 06-12 17:24 398次阅读

    英伟达考虑缩减RTX 5090 Founder版显卡尺寸,配备双槽双风扇设计

    目前的NVIDIA GeForce RTX 4090及RTX 4080 Founders Edition GPU均为三插槽双轴风扇设计,若此消息属实,那么GeForce RTX 5090 Founders Edition的具体设
    的头像 发表于 05-30 10:24 630次阅读

    使用OpenUSD和NVIDIA Omniverse开发虚拟工厂解决方案

    工业开发者正在借助 NVIDIA AI、NVIDIA Omniverse 和通用场景描述 (OpenUSD)生态系统的力量构建虚拟工厂解决方案,通过优化棕地和绿地开发流程加快产品上市时间、实现产能的最大化并降低成本。
    的头像 发表于 05-28 18:12 1297次阅读
    使用OpenUSD和<b class='flag-5'>NVIDIA</b> Omniverse开发虚拟工厂<b class='flag-5'>解决方案</b>

    是德网络分析仪常见报错总结

    是德网络分析仪常见的报错及其可能原因可以总结如下: 常见报错: 1.电源故障 现象:前面板电源指示灯不亮、风扇不转动、仪器无法正常启动或
    的头像 发表于 05-27 11:44 669次阅读

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 625次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 728次阅读

    NVIDIA的Maxwell GPU架构功耗不可思议

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架构,它有着极高的能效,出场方式也非常特别。
    的头像 发表于 02-19 16:39 1027次阅读
    <b class='flag-5'>NVIDIA</b>的Maxwell <b class='flag-5'>GPU</b>架构功耗不可思议

    如何选择NVIDIA GPU和虚拟化软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作
    的头像 发表于 01-12 09:26 1127次阅读
    如何选择<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虚拟化软件的组合<b class='flag-5'>方案</b>呢?