高通AI全栈布局加速演进,覆盖芯片到数据中心
高通AI全栈布局加速演进,覆盖芯片到数据中心
在2026年3月27日举行的CFMS MemoryS 2026峰会上,高通公司AI产品技术中国区负责人万卫星分享了高通在人工智能领域的核心战略与全栈技术进展。他深入解读了AI在终端侧的发展趋势、部署挑战以及高通在多终端协同生态中的技术布局。

AI应用分阶段演进,端侧部署面临多重挑战
万卫星指出,AI在行业中的应用正逐步经历多个阶段的发展。从最初的感知AI,到生成式AI,再到智能体AI,最终将迈向物理AI阶段。每一阶段都代表AI能力的跃升,也推动了终端侧部署的需求。
感知AI主要聚焦于语音识别、图像分类、智能降噪等基础任务,适用于多媒体处理场景。生成式AI则基于大规模数据训练,能自主生成文本、图像等内容,如ChatGPT和文生图模型。而智能体AI具备更高级的自主决策能力,能够在无监督环境下理解用户意图并完成复杂任务。至于物理AI,它致力于理解物理世界的规律,实现更精准的反馈与控制,目前仍处于探索初期。
当前,第二和第三阶段AI正在加速发展,特别是在终端侧的部署。以手机为例,10亿至100亿参数的生成式AI模型已可在端侧运行。在PC端,高通支持的模型参数量可扩展至130亿到200亿。在车载场景中,模型规模甚至可达200亿至600亿参数。
对于AR眼镜、低功耗设备等轻量级终端,高通也实现了10亿至40亿参数级模型的本地部署。尽管相较于云端模型,终端模型的参数量仍有差距,但借助内存带宽提升、量化压缩等技术手段,端侧模型的表达力和适应性正不断增强。
特别值得关注的是,高通已经在终端侧成功部署具备推理能力的大模型。这些模型支持的上下文长度也呈上升趋势。2023年,端侧上下文长度普遍为1k~2k;2024年扩展至2k~4k;到2025年,已提升至4k~8k区间,部分应用场景甚至可达到32k~128k。
与此同时,端侧部署仍面临三大核心挑战:内存容量受限、内存带宽不足以及能效散热问题。尽管模型压缩技术不断进步,但终端设备的资源瓶颈仍限制了模型的规模和性能。此外,模型输出速度受带宽限制,可能影响用户体验。而大模型运行时的高功耗和发热风险,也需要在设计中予以平衡。
智能体演进趋势:从芯片到平台,AI全面覆盖多终端
万卫星指出,个人AI正从以手机为中心的单一设备模式,向以AI和用户为核心的多终端体验转变。终端侧智能体不仅具备更低延迟与个性化响应,还能持续感知用户状态,提供“无感”却“智能”的辅助。

当前,智能体的发展呈现出三大趋势:专业化、高度个性化和多模态融合。终端侧智能体不再局限于语音交互,而是能够全面理解用户意图、上下文语义与感知信息,成为真正“懂用户”的智能助手。
随着智能体能力的增强,个人AI不再局限于手机,而是扩展到耳机、眼镜、手表等更多设备,实现设备间的无缝协同。AI不再绑定单一硬件形态,而是以“用户为中心”运行于终端、边缘节点与云端之间,构建混合架构下的智能生态。

为了支撑这一演进趋势,高通近年来陆续推出了多款高算力平台,包括第五代骁龙8至尊版移动平台、骁龙X2 Elite计算平台等,为个人AI提供强大算力支撑。在数据中心领域,高通在MWC2026大会上发布了基于AI200和AI250芯片的加速卡与机架系统,为生成式AI推理提供高吞吐、低延迟的计算能力。
万卫星总结道:“高通的AI战略贯穿从消费电子到智能汽车、机器人乃至下一代数据中心的全场景。我们通过统一的AI架构,构建高性能、高能效的软硬一体化技术底座,实现从单芯片到多终端、多场景的平台级AI能力扩展。”
查看全文
感知论坛



评论0条评论