智东西
作者 | 陈骏达
编辑 | 李水青
智东西10月16日报道,今天,谷歌宣布推出全新的Veo 3.1视频生成模型,新版本提升了画面真实感与叙事控制能力,同时具备更强大的提示词理解力和音画同步生成能力。
依托Veo 3.1的能力,谷歌同步升级了旗下AI影视创作平台Flow。此次更新最大的变化,是在多项核心功能中首次引入了AI生成音频,实现“声画合一”的创作体验。
在Flow的素材生视频(Ingredients to Video)功能里,创作者可以上传多张参考图像,系统自动生成包含指定角色与场景风格的完整视频。首尾帧(Frames to Video)功能可根据用户上传的画面,生成自然衔接的过渡镜头。视频延展(Extend)则可以从已有片段延展出新的镜头,使短片可衔接成长视频,持续一分钟或更长时间。
音频生成系统会自动根据画面内容生成环境音、动作声及氛围配乐,让作品更加沉浸和具象。
不过,在生成视频后,创作者往往有进一步编辑、修改画面内容的需求。为此,Flow新增了多项编辑工具,让创作者能更精准地掌控画面。
现在,创作者可向现有视频中插入新元素(如人物、动物或道具),AI将自动调整光影与景深,使其自然融入场景。Flow中还即将上线一键移除功能,可去除不需要的对象或人物,系统自动重建背景,实现“无痕修复”。
Veo 3.1现已通过Flow、Gemini API、Vertex AI以及Gemini应用向开发者、企业与创作者全面开放,可免费试用。在Flow中,谷歌为买免费用户每月提供了100个AI点数,大约可用于5条视频的生成。
体验链接:https://labs.google/fx/zh/tools/flow
智东西第一时间体验了Veo 3.1的生成效果。可以看到,Veo 3.1提供两个版本,分别为Veo 3.1-Fast(快速版)与Veo 3.1-Quality(高质量)。实测中,快速生成大约需要30秒-1分钟。
Veo 3.1能够准确地根据提示词,还原涉及复杂光影的画面,表现出良好的光影层次与自然氛围。画面整体偏暖且柔和,符合清晨光线的真实色温。小溪的水流模拟平滑,反光细节恰到好处。其配音也符合画面内容与提示词要求。
不过,在“地狱级难度”的体操视频生成上,Veo 3.1彻底翻车了,输出的画面完全不符合人体规律,出现了明显的扭曲。
我们也尝试了素材生视频的功能。在上传咖啡杯、桌子和人像后,Veo 3.1可以参考提示词和素材,生成用户所需的广告短片。Veo 3.1对广告画面和广告词的呈现符合提示词中定义的调性,还赋予了广告词一定的旋律。
我们上传了OpenAI CEO Sam Altman的照片,但生成的画面中人物的年龄和外貌与他差异较大。这可能与Flow对名人肖像权的保护机制有关:在上传部分图像时,系统会提示不支持使用名人肖像。
结语:技术进步可喜,但仍需谨慎应用
从月初的Sora 2到今天的Veo 3.1,视频生成技术在短短几周内取得了显著进展。不过,与Veo 2到Veo 3的飞跃相比,Veo 3到Veo 3.1的提升并没有那么显著。
总体而言,Veo 3.1的发布为AI视频创作提供了更强大的工具,但在实际应用中,创作者可能仍需对其生成的画面进行调整,以克服当前的局限,实现更高质量的作品。