榆次网站建设做攻略的网站

张小明 2026/1/9 10:03:50
榆次网站建设,做攻略的网站,wordpress 插件 上传,龙华网站建设方案表Ubuntu触发硬件级系统重启1. 挂载系统服务2. 编写GPU状态监控3. 编写重启函数3.1 启用内核硬件重启许可3.2 执行硬重启函数4. 启用监控服务因为一些至今尚未搞明白的神奇原因#xff0c;RTX5090的显卡时不时就会在跑AI推理的时候挂掉#xff08;GPU lost#xff09;#xf…Ubuntu触发硬件级系统重启1. 挂载系统服务2. 编写GPU状态监控3. 编写重启函数3.1 启用内核硬件重启许可3.2 执行硬重启函数4. 启用监控服务因为一些至今尚未搞明白的神奇原因RTX5090的显卡时不时就会在跑AI推理的时候挂掉GPU lost导致整个操作系统都在短时间内跟着一起挂掉。在windows server上这会导致整个操作系统自动关机重启但是在Ubuntu上这会导致显示器画面卡死在:nvidia-modeset:ERROR:GPU:0:ERRORwhilewaitingforGPU progres使用的操作系统Ubuntu24.04.3Nvidia驱动Driver Version: 580.95.05到现在也不知道为什么会有这个显卡挂掉的问题【在同一台机器的windows server系统上同样会出现这个问题而且更换了多个版本的驱动都存在让我不得不怀疑硬件问题】如果有人能知道可能的原因请麻烦告知一下。但不论如何目前的目的是让Ubuntu系统在显卡挂掉的情况下能够全自动重启恢复。经过研究发现系统级的systemd服务在显示器画面已经爆炸的情况下其实还在正常工作而进一步的研究发现通过python的GPUtil.getGPUs()可以获取目前还在正常工作的显卡数量如果这个数量低于正常水平那么显而易见说明有显卡此时出现了故障掉线了。这样解决思路就有了基于在systemd服务中挂载一个root用户启动的python脚本如果检测到GPU目前的工作数量低于正常水平比如我的系统中应该是2张那么就发出指令触发系统重启。1. 挂载系统服务在系统服务路径/etc/systemd/system/下新建一个服务文件gpu_monitor.service[Unit]Descriptiongpu_monitorAfternetwork.target[Service]UserrootWorkingDirectory/你的工程路径/gpu_monitorExecStart/你的用户路径/anaconda3/envs/common/bin/python -u /你的工程路径/gpu_monitor.pyRestartalways[Install]WantedBymulti-user.target2. 编写GPU状态监控编写python代码gpu_monitor.py监控GPU状态importtimeimportGPUtilimportsubprocess# 正常情况下的GPU数量NORMAL_GPU_NUM2# 初始休眠防止显卡无法恢复的情况下无限重启INIT_SLEEP120# 检测间隔INTERVAL60defreboot_system():pass# 系统重启逻辑defmain():gpu_numlen(GPUtil.getGPUs())print(fDetect GPU num{gpu_num}, init sleep until start monitor...)# 初始休眠防止显卡无法恢复的情况下无限重启time.sleep(INIT_SLEEP)whileTrue:try:gpu_numlen(GPUtil.getGPUs())ifgpu_numNORMAL_GPU_NUM:print(fGPU lost! GPU num{gpu_num})reboot_system()# 重启命令执行后等待一段时间防止程序提前退出time.sleep(INTERVAL)else:print(GPU is ok!)exceptExceptionase:print(ferror:{e})finally:time.sleep(INTERVAL)if__name____main__:main()3. 编写重启函数对于如何重启恢复尝试了很多办法当然思路都是基于python和root用户去运行重启命令。但事实证明reboot和shutdown这种软重启在log中能够自动恢复操作系统但实际显示器上的画面依然停留在故障页面因此需要使用硬件层面的重启方式。最后实验证明需要使用基于sysrq-trigger的硬重启方式才能完全恢复系统状态。3.1 启用内核硬件重启许可运行命令查看当前内核许可执行的权限cat/proc/sys/kernel/sysrq发现默认输出为176Linux 内核中 kernel.sysrq 的值是二进制位掩码每一位对应一个 SysRq 功能十进制值是所有开启位的数值之和。把 176 转换成二进制对应的二进制10110000对应的权限中不包含重启十进制2二进制位序号1的权限。因此如果需要在原本的基础上添加重启权限则需要设置为1762178。保险起见不修改原文件选择覆盖配置文件的参数配置方式sudovim/etc/sysctl.d/99-sysrq-reboot.conf添加行kernel.sysrq178刷新配置sudosysctl --system查看当前配置sudovim/etc/sysctl.d/99-sysrq-reboot.conf发现在最下面已经多了kernel.sysrq 178这会覆盖前面相同名字的参数此时内核已经允许执行硬件级别重启操作。3.2 执行硬重启函数重启对应的命令是b即向/proc/sysrq-trigger写入b触发。因此对应的python函数代码为defreboot_system():try:# 同步磁盘避免数据丢失print(同步磁盘数据到硬盘...)subprocess.run([sync],timeout10,checkTrue)exceptsubprocess.CalledProcessErrorase:print(f磁盘同步失败{str(e)})exceptsubprocess.TimeoutExpired:print(磁盘同步超时仍尝试重启...)exceptExceptionase:print(fSync失败{str(e)})try:# 写入b触发重启硬件级withopen(/proc/sysrq-trigger,w)asf:f.write(b)print(SysRq-b 重启指令已发送系统即将重启...)exceptPermissionError:print(错误无 root 权限写入 SysRq 相关文件)exceptFileNotFoundError:print(错误内核不支持 SysRqCONFIG_MAGIC_SYSRQ 未开启)exceptExceptionase:print(fSysRq 重启失败{str(e)})4. 启用监控服务添加服务和开机自启动sudosystemctl daemon-reloadsudosystemctlenablegpu_monitor.servicesudosystemctl start gpu_monitor.service此时如果脚本检测到系统的GPU发生lost就会自动重启计算机了。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

常州城乡建设局网站首页长沙网页建站

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

张小明 2026/1/7 21:30:04 网站建设

在线教育网站用什么做免费的网站程序

还在为Beyond Compare 5的授权限制而烦恼吗?想要摆脱评估期的束缚,享受完整功能带来的便捷体验?今天,我将为您详细介绍一套简单易用的Beyond Compare 5功能解锁方案,让您轻松获得软件完整使用体验。 【免费下载链接】B…

张小明 2026/1/9 9:13:01 网站建设

买好域名后怎么做网站网页类网站

拓扑排序其实就是为了解决一个工程是否能够顺利解决的问题,但是我们在解决问题的时候往往需要考虑最短路径的问题,而最短路径在工程中往往不是费时最短时间所完成的路径,反而是最长时间的路线才是所需要的最短时间。就比如制造一辆汽车&#…

张小明 2025/12/24 11:24:44 网站建设

天助可以搜索别人网站上海seo顾问推推蛙

第一章:智谱AI宣布开源Open-AutoGLM项目 智谱AI正式宣布开源其自动化大语言模型工具链项目——Open-AutoGLM,该项目旨在降低开发者在复杂自然语言任务中使用大模型的门槛。Open-AutoGLM集成了自动提示工程、任务推理优化与多轮对话管理能力,支…

张小明 2025/12/24 11:23:43 网站建设

免费的舆情网站入口在哪免费的网站推广渠道

当机器人有了“鸿蒙大脑”:M-Robots OS如何重构产业生态?一、破局:机器人产业的 “生态之困”(一)全球机器人产业的双重枷锁在当今全球机器人产业蓬勃发展的浪潮下,繁荣的表象背后实则隐藏着诸多深层次的困…

张小明 2026/1/6 8:06:22 网站建设

设计视频网站在网站建设中要注意的问题

迁移到 Windows Small Business Server 2011 Essentials 全流程指南 1. 设置 DNS 地址 手动迁移的首要任务是在新的 SBS 2011 Essentials 服务器上设置固定 IP 地址,可按以下步骤操作: 1. 登录源 SBS 2003 服务器,从“开始”菜单打开命令提示符。 2. 输入 ipconfig 并按…

张小明 2026/1/6 18:52:34 网站建设