多模态模型赋能智能终端,AI传感成关键硬件
作者:李宁远物联网智库 原创
Figure在与OpenAI分道扬镳后,并没有停止机器人和AI的结合,发布了Helix的特定模型。Helix是一种视觉语言动作,高频连续控制整个人形机器人的上半身(VLA)多模态模型。VLA模型不仅是机器人智能的关键技术,也是智能硬件发展到高级智能的核心功能。正如上一篇文章所提到的,VLA还需要在触觉相关的感知和处理能力成熟后,将VLA发展成一个完整的视觉-触觉-语言-动作VTLA模型。
智能汽车行业与机器人有许多共同的技术堆栈,具有多模态能力的VLA模型也在加速崛起。许多智能驾驶员认为VLA模型是继特斯拉端到端方案之后的端到端2.0版本,被称为“端到端和多模态模型集成更彻底的产品”。VLA模型从各种传感器数据中提取丰富的内部和外部信息,然后通过语言端模型理解指令最终转换为驾驶操作指令,促进智能驾驶向L3L4水平的发展。中国乘用车工业联盟秘书长最近还表示,VLA模型预计将成为未来大规模生产汽车市场的标准标准。
在VLA模型的推动下,具有多模态交互推理能力的多模态模型成为焦点。北京大学团队正在发布基于DeepSeek-R1更新的多模态版本-R——Align-DS-V还表示,“这种全模式的信息流对于大模型范式转向通用人工智能非常重要”。 随着DeepSeek正式开启“开源周”,每天开源一个项目再次引发人工智能模型的开源浪潮。与之前推理模型的开源不同,人工智能模型近年来在多模态领域“卷”。持续流行的DeepSeek本身有多模态框架,基于DeepSeek的改进多模态模型越来越多。
与此同时,结合智能硬件的多模式模型也开始在传感器端侧产生智能变化。如果没有先进的传感信息收集,整个模式的交互处理能力将是无用的。由多模式模型支持的终端设备正在推动传感器向人工智能传感器的转变。
然而,多模态模型的应用并非没有挑战。数据集成的复杂性需要高计算资源,集成后的终端侧模型参数变得更大,需要高效、实时和推理能力,这对芯片硬件有相当高的要求。同时,大量的感知信息收集需要支持先进的多模态感知基础,没有传感基本硬件的支持,一切都只是空中的城堡。
多模态模型与硬件计算能力相结合,点燃智能硬件着陆前景
从FigureHelix的角度来看,机器人轨道上有两个关键模块。第一个模块是一个具有70亿参数的开源端侧互联网预训练视觉语言模型,用于处理语音和视觉信息,即VLA中的VL。第二个模块是一个参数8000万的人工智能模型,负责将语言模型发出的指令转换为精确的机器人动作,即VLA中的A。该架构允许Helix实时处理复杂的场景,并提供高度准确的动作反馈。
在VL部分的感知链接中,它主要集中在视觉和语言信息的集成上,收集摄像头、用户语言和其他感知数据,然后将其转换为统一的代币 embedding用于后续处理。据Figure介绍,Helix可以在嵌入式低功耗GPU上完全运行。Helix 与英伟达GPU相结合的VLA模型再次加热了热门机器人轨道。 Nullmax和黑芝麻智能在智能驾驶领域走视觉路线,还发布了基于华山系列A2000的多模态模型智能驾驶方案,帮助汽车获得感官能力,通过摄像头、语音等多模态信息实现多种高级智能功能,而不依赖激光雷达系统。
在智能驾驶领域,纯视觉感知路线尚未确定,多传感器集成的方案也很多。毫米波雷达和激光雷达自然是多模式模型中重要的感知信息。华为智能驾驶3.0激光雷达 毫米波雷达 华为的硬件计算能力,视觉融合的多模态模型方案,也是自动驾驶行业融合的技术代表。
在人工智能模型方面,创建高质量的LLM和多模态模型正在为人工智能的商业应用和终端侧推理的实施做准备。对于机器人和其他具有执行功能的终端侧硬件,从多模式模型到VLA模型的过渡是高级智能的未来。
在智能终端硬件侧,多模式模型和硬件计算能力的适应是多模式能力的关键,也是促进终端着陆的关键。数据集成后的高复杂性需要适当的计算资源来运行整个智能系统。在多模式模型的技术周期中,人工智能模型培训成本的降低和开源合作的结合可以使更多的开发者开发高质量的多模式模型;硬件计算能力的适应将进一步促进终端侧多模式能力的部署和推广,提高终端侧的智能体验。
多模态模型与硬件计算能力的结合正在积极出现。基于MiniCPM系列端侧的多模态模型研发与安谋科技、爱心元智、紫光展锐、高通、瑞芯微、英特尔等计算能力硬件制造商进行了深入合作;深入思考人工智能最近发布的鸿蒙系统“TinyDongni”及“DeepSeek“超小端侧多模态大模型已与国内领先模块制造商广和通、深开鸿达成合作,推出适合国内计算能力的硬件解决方案。
通过模型层和计算层,结合多模态模型和硬件计算能力适应,是终端智能设备进入数千个行业的关键行动,点燃了智能硬件着陆的前景。
多模式模型催生了传感器端侧的智能变化,人工智能传感创建了感知底座
在多模式模型的全面发展下,智能硬件多模式模型中使用的所有数据源都是基于传感器带来的输入,用于感知各种信息的传感器也带来了智能变化的驱动力。智能硬件中不可或缺的人工智能传感在多模式模型技术周期中带来了新的发展机遇。
在终端侧,可以看到以汽车和机器人为代表的多模态感知集成+Figure的Helix体现了多模型决策能力的体现,也体现了多模态感知的融合+多模型决策+准确执行动作指令的潜力。目前,人工智能眼镜在消费领域依靠其多模态感知的硬件特性与多模态模型快速结合,在后续消费电子领域也会出现更多的案例。
在传感方面,视觉传感是许多智能设备的刚性需求,自然是本技术周期中最直接的受益者。CMOS是许多消费智能硬件的核心 图像传感器是视觉感知的基本设备。索尼的人工智能图像传感器IMX系列是具有代表性的传感器件,可以单独进行图像处理和高速边缘人工智能处理,可以将端侧模型写入嵌入式内存;国内高性能CMOS图像传感器芯片制造商思特威正在推广视觉应用场景中的人工智能 SoC Sensor系统级集成的端侧视觉组合;韦尔股份也对人工智能视觉市场的快速增长潜力持乐观态度+已在图像传感器上进行了深度布局。
雷达在直接传感技术中的应用提供了高精度的定位,特别是4D雷达在智能家居和智能驾驶领域发挥了关键作用,以及不断降低成本的激光雷达传感器。在传感器的智能变化中,雷达芯片和人工智能的结合也成为了一个关键的创新点。领先的TI、英飞凌开始在传感器芯片上配备人工智能处理单元,以运行传感器端侧的模型,并向人工智能传感进化。TI在最新的单芯片60GHz毫米波雷达上内置了片上加速器和DSP,以支持边缘模型的运行。
传感器与人工智能模型相结合的端侧传感方案越来越多地出现在终端设备上,传感器件也从单个数据收集器转变为智能决策节点,在促进感知决策分析和减少数据传输延迟方面发挥了积极作用。同时,人工智能传感器件可以通过端侧模型预分析数据,为多模型提供结构化信息,便于数据集成处理,分析完整的多模态参数,大大提高硬件设备的智能化,这也是VLA模型所需要的。
传感器正在发生的智能变化可以理解为智能驱动的感知底层逻辑的重塑。传统的感知范式传感器只需要完成数据收集,并将数据交给云进行处理和决策。传感器只需要关心精度是否足够。在这种变化中,新的范式是传感器在收集数据后在端侧进行处理和预分析。硬件层面的计算能力和本地感知数据处理完成闭环,这不仅提高了设备的安全性,而且提高了设备的安全性,就像在传感器上安装了“大脑”一样。
此外,多模态感知和多模态模型赋予了终端设备独立理解场景的能力,可以捕获和理解多模态信息,促进感知系统从“收集、传输、处理”的线性链进化为“感知、认知、行动”的闭环进化。
目前,大多数传感器制造商通过传感器硬件获得商业利润。在传感器智能变化的过程中,将人工智能传感器组合预测模型包装成“传感器即服务”的商业模式也就不足为奇了。在人工智能时代,硬件是身体,模型是灵魂,工业价值链也在不断发展。
写在最后在多模式模型的基础上,进一步的VLA模型为智能硬件带来了着陆支持,也促进了软硬件制造商对多模式能力的进一步挖掘。多模式模型的不断演变为端智能提供了更强大的信息处理框架,端传感更成熟的感知能力反馈了多模式模型着陆场景的扩展。人工智能传感基础推动终端设备向更高的智能攀登。 原文标题 : 多模式模型赋能智能终端,人工智能传感成关键硬件
查看全文
作者最近更新
-
多模态模型赋能智能终端,AI传感成关键硬件科技星球03-23 16:37
-
半导体式气体传感器:对电路板产生异味气体检测,避免发生火灾科技星球01-12 19:14
-
如何创新印刷电子技术提高制造智能传感器的性能和稳定性?科技星球2024-11-18
评论0条评论