智能体视频剪辑时代已开启
本文信息来源:a16z
在开始之前:
a16z 汇聚了一群卓越的人才。今天,我们向其中几位表示祝贺,庆祝他们获得了实至名归的晋升与认可:
- 我们非常激动地宣布,Alex Immerman 已晋升为我们 Growth 基金的普通合伙人 。您可以在此阅读 Alex 在 a16z news 上发表的最新文章 ,内容关于自动驾驶汽车及其拯救生命的潜力。恭喜,AI!
- 同样,Matt Bornstein 已晋升为我们 Infra 基金的普通合伙人 。您可以在此阅读 Matt 精心策划的科幻书单 。恭喜,Matt!
- 由 Martin、Raghu、Jennifer 和 Matt 领导的整个基础架构基金在 《彭博社》上获得了一篇非常出色的报道 ,值得一读。
现在,正片开始。以下是 Justine 的分享:
2025 年是视频之年。AI 生成的广告进入主流。初创公司的种子轮发布视频获得了数百万次观看。视频播客和访谈节目呈现爆发式增长。
你没看到的是所有幕后工作。将 90 分钟的素材剪辑成 3 分钟的短片。因为拍摄时无法做到完美,而在后期制作中修正光影和音频。寻找合适的音乐和音效。
视频制作中有一个通用的经验法则:你会投入 80% 的时间和精力在剪辑上,而只有 20% 用于拍摄(或者现在的生成 )。制作引人入胜的视频通常是一个漫长而乏味的过程——而且很少有人具备将其做好的“审美”。这存在着极高的准入门槛。
我们现在拥有的技术可以将部分工作交给 AI 智能体(Agents),它们能帮助我们制作拍摄类和生成类内容。视觉模型可以观看并理解海量的视频素材。智能体可以代表你进行分析、规划并使用剪辑工具。而且我们拥有足够的训练数据,可以教会模型什么是优秀的视频。
视频智能体将彻底引爆优质视频的供给曲线——即目前需要专业视频剪辑师花费数天(或数周)才能完成的那类内容。正如 Cursor 对编程所做的贡献一样,这些智能体也将为视频制作带来同样的变革。
为什么是现在?
人们对能够赋予任何人专业视频剪辑师技能(和审美)的智能体有着巨大的需求。那么,为什么这些产品还没有出现呢?近期有几项进展为这一领域带来了突破:
- 视觉模型现在可以处理海量视频。 在剪辑视频之前,你必须先理解视频。这是一个非同小可的挑战——即使是一个短片段,也有大量信息需要处理。我们已经在最近的 LLMs(如 Gemini 3、GPT-5.2、Molmo 2 和 Vidi2)中看到了巨大进步,它们本质上是多模态的,并拥有更长的上下文窗口。Gemini 3 现在可以处理长达一小时的视频!你可以将其作为输入上传,并要求模型生成带时间戳的标签、寻找特定时刻,或者仅仅是总结发生了什么。
- 模型现在可以使用工具。AI 视频剪辑师需要能够采取行动——而不仅仅是描述发生了什么或建议修改。我们开始看到 LLMs 作为能够使用工具的真实智能体取得了实质性进展。我最喜欢的例子之一是 Claude 使用 Blender(这是一个众所周知非常棘手、许多人类都未能掌握的产品)。你可以想象,当你让智能体访问更多工具时,这将如何演变。
- 图像和视频生成模型已经得到提升。 我坚信许多视频制作流程将是混合的——即 AI 生成内容与实拍内容的结合。想象一下,为一部纪录片拍摄采访,但用 AI 生成空镜头或历史画面;或者使用动作迁移模型获取参考动画并将其应用到真实角色身上。要让这些设想成真,模型的质量和一致性必须达到具有实用价值的水平。现在,这终于实现了。
这些智能体(Agent)能做什么?
以下是它们能为我们处理的任务示例:
- 处理 —— 无论你是拍摄还是生成视频,最终得到的素材往往远超所需(有时甚至多出数百倍 —— 想象一下电影或电视剧的每个镜头有多少个“镜头”)。整理、组织并决定使用哪些素材通常是一项挑战。像 Eddie AI 这样的产品可以处理数小时的上传视频,完成诸如区分主镜头(A-roll)与辅助镜头(B-roll)、处理多个摄像机角度以及对比不同镜头等工作。
- 编排 —— 如果我们假设未来的许多视频都将包含 AI 元素,那么我们将需要能够编排所有模型的智能体。例如,想象一下你想为一段教学视频添加一段 AI 动画。你需要一个能够生成图像、将其发送给视频模型并将输出结果缝合在一起的智能体。像 Glif 这样的产品正在推出代表用户协调多个模型之间的智能体。
- 打磨 —— 处理好细节往往能让视频从优秀走向卓越。但如果你不是专业的视频剪辑师,可能会被润色视频所需的大量琐碎任务搞得晕头转向。例如,你可能需要调整不同剪辑片段间的光效、清除音频轨道的噪点,或者删掉采访中的赘词(如“嗯”、“啊”等)。像 Descript 的 Underlord 智能体这类产品可以接收视频,为你完成所有这些修改,并交付最终版本。
- 适配 – 当你制作出一段优质视频时,通常需要对其进行适配以扩大传播范围。例如,你可能希望将 YouTube 播客剪辑成具有不同长宽比的短视频,以便发布在 X、Instagram 和 TikTok 账号上。甚至可以将视频翻译成其他语言(并为演讲者重新配音)以触达国际观众。像 Overlap 这样的平台允许你为这些适配任务设置节点工作流。
- thoughtful philosophy behind the translation: – “Optimize” -> 优化 – “taste” -> 品味/审美 (taste in creative context usually means aesthetic judgment) – “hook” -> 吸引/钩住 (in content creation context, “hook” means grabbing attention) – “pacing” -> 节奏控制 – “micro-decisions” -> 微决策 – “vlog” -> vlog (keep as is or translate to 视频日志, but vlog is common in CN) Drafting: 优化 ——终极目标不仅仅是用人工智能取代手动任务,而是构建具有品味 、能让你的视频变得更好的智能体。人们雇佣专业视频剪辑师是有原因的:他们能让作品看起来很棒。他们花费数年时间学习从如何吸引观众到掌控故事情节节奏,以及利用音乐营造情感共鸣的一切技巧。这其中包含成千上万个微决策。知名 YouTuber Emma Chamberlain 曾说过,她过去常常要花 30 到 40 个小时来剪辑一段约 15 分钟的 vlog。
如果 AI 智能体能观看你的素材,询问你的目标,然后为你制作几个草稿版本供你迭代,会怎样?你负责评价和指导——“开局太慢了。”“剪掉中间部分。”“让结尾更有冲击力”——而智能体负责执行。
视频已经赢了。它是我们学习、营销和建立联系的方式。但剪辑的瓶颈却在不断扩大:拍摄的素材越来越多,需要发布的平台越来越多,要求的格式也越来越多。
好消息是,解决这一问题的技术已经存在。视觉模型、具备工具使用能力的智能体以及海量的训练数据在过去一年中都已趋于成熟。万事俱备。
这意味着 AI 剪辑智能体将在未来的几个月和几年里,显著提升我们所见到的所有视频的质量,同时大幅提高视频的创作速度。
2025年是视频之年。2026年,我们将让智能体来剪辑视频。
