GPU烧了,责任到底在谁?缺的可能是一条冷风进气量曲线

博思发科技 20260626

  • MEMS传感器
  • 风速传感器
  • GPU散热监测

AI服务器的功率密度越来越高,GPU的散热问题也变得越来越难处理。


如果一块 GPU模组发生损坏,现场通常会检查:机房进风温度是否正常、服务器风扇转速是否拉升、GPU 温度曲线是否超过阈值、BMC日志中是否存在异常告警。

GPU风速监测.png

这些数据都很重要,但不能直接回答:在GPU出现异常之前,冷风是否真实、持续、足量地到达了 GPU 的散热器入口?

没有这项数据,各环节的责任边界就很模糊。机房侧认为冷通道温度正常,服务器整机侧认为风扇策略已经执行,GPU模组侧怀疑是外部供风不足,各方都有数据,各执一词,互不相让。

这也是博思发PAV3000系列 板卡级风速传感器越来越受到关注的原因:为 GPU热管理补上一项更靠近散热现场的过程数据,厘清各方责任。

01

为什么要看GPU入口风速


GPU散热本质就是一个连续的热量转移过程:芯片产生热量,热量传导到散热器,再由风道把冷空气送到散热器入口,最后通过气流把热量带走。没有足够的有效进风量,散热器就无法实现预期的换热效率。

而这个过程中,芯片、散热器、风扇、导风罩、滤网、服务器风道和机房环境都会影响最终的散热效果。

现有服务器和机房的监控体系也不是无效,只是各有边界:

机房环境温度

可以说明冷通道和空调系统是否处在设计范围内,但不能确保冷风在经过机柜前端、服务器面板、滤网、导风罩和内部风道之后,在到达GPU时还保持正常的环境温度。

风扇转速

可以说明温控策略是否触发,但风扇转得快,不等于目标位置一定有足够风量。滤网积灰、风道短路、线束遮挡、相邻板卡干扰,都可能改变导致风速可能在局部区域大幅衰减。

差压

适合判断滤网或风道阻力变化,在HVAC、CRAC/CRAH和大风道过滤段中应用成熟。但在紧凑的服务器机箱内,差压和GPU入口风量并不完全等价。风扇自动提速可能掩盖阻力变化,旁路漏风或局部遮挡也可能让某个GPU入口风速下降,而整体差压变化并不明显。

GPU温度

最直观,但这是结果指标,等到温度接近或触发阈值时,热量积累已经发生,系统大概率已经进入降频、保护或失效风险窗口,不能作为前置的散热缺陷诊断依据。

所以,要区分问题来自服务器供风不足、滤网积灰、风道装配偏差,还是GPU模组内部散热路径异常,仅靠温度、风扇转速和差压是不够的。

系统需要引入一个更靠近热源、可承受回流焊工艺且长期抗积灰的专用变量:即通过博思发专利的固态无膜MEMS技术, 在GPU冷风入口处测量实际风速。

image.png

02

博思发PAV3000 板卡级风速传感器


博思发PAV3000是一款面向紧凑空间热管理应用的空气流速传感器,可用于数据中心服务器、板卡风道、滤网监测等场景的气流状态检测,具有以下优势:

①专利固态无膜结构:天然抗粉尘沉积

传统热式风速传感器大多采用薄膜微腔结构,凹陷腔体容易积累穿过滤网的微小粉尘,长期运行会导致热阻改变,然后产生严重漂移。

PAV3000 采用博思发第三代专利的MEMS固态热式流量芯片,传感器表面为平整的固态热隔离结构,无活动部件和脆弱的表面微腔,颗粒物无法在表面堆积,实现了极低漂移,满足长期连续在线监测的寿命要求。


②125 ms 动态响应:同步风扇控制闭环

变频风机调速频率高、气流响应快,常规工业风速计的秒级响应无法跟上控制节奏。

PAV3000响应时间只有125 ms,能实时捕捉风扇转速瞬调或滤网突发受阻引起的气流波动,为基板管理控制器(BMC)提供实时反馈。


③标准SMD封装:兼容工业级一站式回流焊

GPU载板周边布线密度极高,无法容纳大体积、需人工线束连接的传统传感器。

PAV3000 采用SMD贴片式封装,工作电压仅3.3 VDC,可通过数字IIC 接口输出,其体积和形态兼容标准的贴片产线,可直接随板过回流焊贴装在服务器主板或GPU载板上,优化了加工制造工艺。


④量程与精度:

提供 0–7 m/s 和 0–15 m/s 两种测量范围,精度为 5% FS,重复性达 1% FS,既能精准捕捉设备低功耗时的微弱对流,也能在高密整机风扇拉满的高速风道中维持稳定的线性输出。


核心参数:

参数PAV3000系列
测量范围0-7 m/s 或 0-15 m/s
输出接口数字 I²C
工作电压3.3 VDC
响应时间125 ms 典型值
精度5% FS
重复性1% FS
工作温度5to 50℃
封装形式SMD

03

冷风进气量曲线的联动复盘


在热负载不变的情况下,有效进风量下降,散热器带走热量的能力也会下降。从物理反馈的顺序来看,温度上升通常发生在后面,风速变化更靠前。

如果一条带时间戳的入口风速曲线,能和GPU功耗/温度、风扇转速、进气温度放在同一时间轴上,热失效复盘就可以不再只依赖单点判断,责任划分会变得更明朗:

比如:

    如果GPU功耗和风扇转速同步升高,但GPU入口风速持续下降,随后温度也升高,可能指向滤网、风道或局部气流分配问题。

    如果GPU入口风速和进气温度都正常,但GPU温度仍然异常升高,就需要进一步检查GPU模组内部散热路径,比如散热器接触、TIM 材料、均热结构或功耗控制。

    如果入口风速正常,但进气温度偏高,问题来自上游冷通道供冷不足或发生了热回流的可能就更大。

04

建议布点方式


在实际设计中,PAV3000可根据系统复杂度选择灵活布点。

服务器滤网后端:判断滤网后的有效进风是否衰减。

GPU 散热器入口:(首选)最接近实际散热需求,可直接反映发热元器件获得的冷却供给,作为划分热失效原因与控制风机的核心依据。

导风罩关键截面:判断风道分配是否符合设计。

内存、VRM、SSD 等局部热区:判断板卡级气流盲区。

如果系统允许多点部署,可以将滤网后端、GPU 入口和导风罩关键截面组合起来,用于区分上游供风问题和服务器内部局部风道问题。

image.png

对高价值的GPU模组来说,博思发PAV3000风速传感器 提供的不仅只是一条冷风入口风速曲线,也是热管理系统中不可或缺的前置过程指标:

将无形的气流转化为有形的数据,让机房、服务器、模组三方在复盘热失效时,拥有统一的客观依据,精准定位事故根因,理清责任边界,保障算力中心高效稳定运行。

查看全文

点赞

博思发科技

作者最近更新

  • GPU烧了,责任到底在谁?缺的可能是一条冷风进气量曲线
    博思发科技
    2小时前
  • 为什么高流量氧疗(HFNC)设备显示100%吸氧,患者却仍“气饥”?
    博思发科技
    06-10 13:00
  • NO 治疗仪的“心脏”难题:如何在 1L 以下微流量段实现 1% 的极线性控制?
    博思发科技
    06-10 12:01

期刊订阅

相关推荐

  • 影响MEMS传感器精度的重要参数及提升精度的办法

    2019-03-28

  • 从MEMS专利数量分析我国MEMS传感器产业现状

    2019-03-28

  • 我国建首个地下云图网:借助新型传感器助力地震预报

    2018-12-04

  • 我国开发出世界首台流体壁面剪应力测试仪

    2019-03-22

评论0条评论

    ×
    私信给博思发科技

    点击打开传感搜小程序 - 速览海量产品,精准对接供需

    • 收藏

    • 评论

    • 点赞

    • 分享

    收藏文章×

    已选择0个收藏夹

    新建收藏夹
    完成
    创建收藏夹 ×
    取消 保存

    1.点击右上角

    2.分享到“朋友圈”或“发送给好友”

    ×

    微信扫一扫,分享到朋友圈

    推荐使用浏览器内置分享功能

    ×

    关注微信订阅号

    关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
    广告