大年初五(2月18日),下午我基本没出门,连续把 Seedance 2、Sora 2 和 Google Veo 拉高强度跑了几轮,写了一篇 大年初五视频生成模型深度实测(当时也同步发在了 微信公众号)。那场测试的结论很明确:10 秒是一道隐形的分水岭,10 秒内非常能打,但 10 秒之外,长程一致性抖动和口播音画不同步的通病就会暴露无遗。
没想到,昨天(5 月 19 日)Google 突然扔出了一枚重磅炸弹:发布了新一代视频生成与编辑模型 —— Gemini Omni Flash。
作为 Google “Omni” 家族的首款视频模型,它的登场宣告了视频生成从单纯的“分镜拼图”进入了“实时编辑与口播交互”的新阶段。我第一时间拿到了测试权限,在 Google Labs / Flow 平台(labs.google/fx/tools/flow)上进行了一通高强度暴力测试。
实测下来,我的核心体感是:快得惊人,一致性极高,但对于简中创作者来说,它可能还欠一次真正的语音口播对齐。
一、惊艳的“闪电速度”与高稳定接触图
在之前的视频模型测试中,渲染时间是工作流变现的最大阻碍。在 普通人怎样用 AI 工作流变现 里我提过,商业交付追求的就是交付成本的边际递减。如果渲染一段 10 秒的视频要等 5 分钟,且一不小心就翻车,那这个工具在生产中就没法用。
而 Gemini Omni Flash 的渲染速度,无愧于其 “Flash” 的后缀。
在 Flow 平台上,生成一段高画质 10 秒视频的响应时间被压缩到了极短的级别。更让人感到意外的是它的接触图(Contact Sheet)时序一致性。
以前不管是 Sora 2 还是 Veo 3.1,拉到 10 秒中后段,人物的五官、背景的灯笼和手持的产品包装经常会出现“海报化”或“时序漂移”。但 Omni Flash 在多帧平移和转场编辑中,能够牢牢锁住图像主体的特征。
从实测体感看,它的时序稳定度相比前代有了极其显著的提升。尤其在多模态输入(图片 + 语音 + 文本)的混合驱动下,画面背景的物理规律(如重力、流体动力)也显得更为自然。
二、音画对齐实测:英文极其能打,简中一言难尽
这次测试最核心的部分,是它的口播与 Avatar 虚拟人对齐能力。Google 本次主打“通过语音和对话进行视频编辑”,我特意分别测试了英文口播与中文口播。
先看英文口播的测试样本: 👉 英文口播实测视频 (labs.google)
在英文口播场景下,Omni Flash 的表现堪称完美。 虚拟人的嘴型、面部微表情与配音高度合拍,牙齿与舌头的运动轨迹非常自然,没有那种AI特有的“橡胶感”。即便背景有镜头推拉,人物的一致性依然非常稳固。
但当我把语言换成简体中文后,画风开始有些跑偏了。 下面是我跑了几次中文口播的测试样本: 👉 中文口播实测视频(多次生成,仍存在口语不一致)(labs.google)
在这段中文视频里,你会非常清晰地感受到简体中文发音的不自然与前后口语不一致。虽然数字人的口型跟声音配合得很好,没有同步上的问题,但在具体的语音发音、声调与腔调流转上,依然容易出现明显的生硬感与发音偏差。生成了几次,这种简中发音上的口播不一致性依然固执地存在。
三、为什么油管中文视频这么多,AI 还是对不准简中?
这背后其实暴露了当前硅谷大模型厂在做多模态视频对齐时的一个核心技术细节。
从公开内容规模看,YouTube 上并不缺中文视频,中文音视频语料应该不是完全稀缺项。如果只是单纯增加数据,Omni Flash 的中文口播问题未必会自然消失。
我认为,这更像是语音生成泛化能力(Generalization Ability)在跨语言场景中的输出边界,而不是单纯的口型同步问题。它可能还缺少针对简中语音口播的 RLHF(人类反馈强化学习)或 DPO(直接偏好优化)对齐。
在多模态视频模型的训练流程中,模型先通过海量视频学到一个通用的物理世界特征与基础的音视频关联(即基座泛化)。但要想在发音腔调上达到地道、连贯的商业级效果,必须引入人工反馈对齐,去教模型:“怎样发出自然顺畅的中文语音和声调”。
我的推测是,Omni Flash 在英文口播场景上的优化更充分,中文口播更多依赖基座模型的跨语言语音泛化能力。泛化能生成可理解的声音,但未必能稳定贴近中文母语者的语感与语调细节,这可能就是为什么生成了多次,口播发音不一致的痛点依然存在。
四、2026年视频生成的工程落地建议
针对这个现状,做 commercial 落地的人该怎么办?
结合我之前在大年初五测试 Seedance 2 的工程化实践,在 AI 视频生成对简中口播真正优化好之前,千万不要幻想“用提示词一镜到底解决所有事”。我们要通过合理的工作流组装,把模型的局限性规避掉:
- 分段生成,控制时长:将视频卡在 8-10 秒的黄金区间。在这个区间内,不论是 Omni Flash 还是 Seedance 2,画面的一致性都是最高的。
- 后期轨道合成,解耦音画:不要强求模型在生成视频的同时完美对齐中文口播。最稳妥的方案是,先生成人物的表情与微动作,然后把口播音频与精准字幕放在剪辑软件(如 CapCut / Premiere)的后期轨道上进行合成与微调。
- 品牌与文字不要塞给模型:模型对中文字形的幻觉目前依然无法避免,品牌 Logo 和文字排版必须在后期以图层方式贴上去。
我在 FDE,AI 转型服务的必争蓝海 里分析过,AI 竞争的终局是把“能用”变成“在用”。而现阶段的工程技巧,就是为了把那条还没完全铺好的最后一公里路,一段一段地用流程把它垫平。
写在最后
从 Google 的 Veo 到昨天的 Omni Flash,多模态视频模型的演进速度比我们想象的要快得多。简中语音发音还欠一次更充分的口播对齐,但抛开这一点,它惊人的响应速度和特征保持能力,已经展示了新一代架构的统治力。
大厂在为超大型客户铺设基础设施,而我一直在走属于我自己的那条路。
我一个人打造的 Zaokit AI 产品 正在紧张地进行内测。目前它已经支持文字拆解、高效图文创作以及 PPT 场景的一键排版与生成。欢迎访问唯一官方网址 zaokit.app 了解最新内测进展,希望能用切实的效率工具,助力每一个普通创作者和 ToB 企业的高效内容输出。
最后,如果你认可 Zaokit AI 的产品理念,欢迎后台留言加入我们的社群。我们不卖课、不割韭菜,只聚焦 ToB 企业场景的 AI 落地实战。 希望在这里,能给你带来不一样的思维火花和真实的商业碰撞。