可灵AI一周连推多款核心产品，推动国产视频大模型迈向工业化生产

芯伴 20251216

本周，快手旗下可灵AI连续发布多项核心产品与能力升级，包括统一多模态创作引擎可灵O1、音画同出的生成模型可灵2.6、长内容能力全面升级的数字人2.0，以及主体库与对比模板能力。这些产品标志着生成式AI产业从参数竞赛到体验优化的阶段转折，关注点转向商业化能力、产品稳定性及可控度、工程化效率创新。

2025年12月初，随着Sora 2和Nano Banana等国际领先视频生成模型的陆续发布，国内视频大模型赛道也迎来爆发。快手旗下可灵AI在12月1日至5日期间连续推出五项重磅产品和能力升级，覆盖视频创作流程的多个关键环节。

此次发布的核心产品之一——可灵O1，标志着视频生成技术从“模型碎片化”走向“系统级整合”。过去，视频生成通常依赖多个独立模型分别完成文本转视频、图像转视频以及视频编辑任务，导致创作者在不同工具间频繁切换，影响创作效率。

可灵O1引入MVL（多模态视觉语言）技术理念，将图像、视频和文本统一为可输入的“语言”元素，实现视频理解、生成和编辑的一体化操作。用户只需简单指令，如“将天空改为黄昏”，即可完成主体稳定、光影重绘和风格迁移等复杂操作。

行业专家认为，这种“技能组合式生成”能力是视频生成从单点工具向系统化平台演进的关键。创作者可在一条指令中完成多任务叠加，例如同时添加角色、修改背景、引入风格参考等，大幅降低流程复杂度。

这一转变不仅提升了用户体验，也带来了生产效率的质变。特别是在影视制作、广告、电商等领域，一体化模型的价值远超过参数规模。有分析师指出，视频生成进入工业化阶段的重要标志，就是模型能够在极简交互下完成多任务处理。

可灵O1的发布也获得了国际投资圈关注。a16z合伙人Justine Moore在产品发布后评价其为“视频领域的Nano Banana”，意味着其在技术整合和实用性方面具有里程碑意义。

如果说O1解决了画面生成问题，那么可灵2.6则突破了视频创作中长期被忽视的“声音工程”。

传统视频制作流程中，画面和声音往往是两条独立的线程。创作者通常需要在视频生成后再使用配音工具和剪辑软件进行二次处理。而可灵2.6通过一次生成同步输出画面、对白、环境音和动作音效，实现音画同出。

从技术实现来看，该模型不仅同步生成画面和声音，还注重语义对齐。例如人物说话时嘴型精准匹配，脚步声与步态同步，环境音随场景变化，模拟真实视听逻辑。

这一功能不仅提升了用户体验，也加速了内容迭代速度。创作者无需额外购买配音服务，可快速完成从策划到剪辑的全过程。有创作者使用该模型生成配音动画视频后，单条视频点赞量创下近期新高，评论区也纷纷讨论“商业化”“落地”等关键词。

在前两项产品发布后，可灵AI继续完善其视频生成生态，推出了数字人2.0和主体库功能。

数字人2.0支持最长5分钟的连贯内容输出，不再局限于短视频口播场景，能够承载讲解、剧情、广告等复杂任务。这为教育、企业传播和知识类内容创作者提供了新的虚拟生产工具。

而主体库的发布，则解决了视频生成领域长期存在的“一致性”难题。用户上传多角度参考图后，模型可稳定复现人物、道具和场景，确保不同镜头间主体特征不发生漂移。

这项功能的落地，使得AI生成视频在影视、品牌广告等对细节连续性要求极高的场景中具备了可行性。

此外，对比模板功能的上线，使得创作者可以直观展示AI生成前后的内容变化。这一功能不仅推动了创作流程的标准化，也为平台从工具属性向生态属性的转型提供了基础。

从大一统生成引擎到音画同步，再到长内容数字人与一致性生成，可灵AI在短短一周内构建了一个涵盖视频创作全流程的生态体系。

目前，围绕可灵O1和2.6的实测案例、落地场景和教程内容已大量涌现。有观察人士指出，越来越多用户开始从“围观”转向“使用”和“传播”，这是AI视频工具走向大规模落地的重要信号。

随着生成式AI进入产业应用阶段，视频内容生产的重点正在从技术参数转向实际落地能力。而可灵AI的持续创新，正在为国产视频大模型行业树立新的标杆。

查看全文

作者最近更新