返回首页
信息来源:a16z.news 2026.06.09 05:06 约 10 分钟 AI 8,663 阅读

视觉人工智能的下一个前沿是代码:视觉人工智能正从输出走向代码产物

过去几年里,视觉 AI 的评判标准大多围绕其像素表现 。最终生成的图像或视频看起来越好,模型似乎就越优秀。

这很合理。扩散模型先是把文本提示转化为精美图像,随后是视频,再到愈发逼真的世界。最直观的对比对象就是 Photoshop 或相机。

但对于许多与视觉相关的任务——如平面设计、UI 设计或 3D 建模——用户所追求的最终呈现形式,并不局限于终态像素。相反,他们需要的是能够基于反馈和新想法持续迭代的产物。设计师需要的不只是一个模型图;他们还需要图层、组件,以及交付能力。动画师需要的不只是一段视频;他们还需要时间曲线、关键帧和可编辑的运动效果。3D 艺术家需要的不只是一张渲染图;他们还需要几何体、材质、灯光、相机以及场景结构。

当下最有意思的视觉 AI 工具,已经不再试图生成最终成品。相反,它们开始生成其背后的源代码。这一转变正在释放出像素原生模型无法企及的可编辑性、迭代能力,以及反馈闭环。

视觉生成的两大技术栈

理解视觉生成,主要有两种路径。

第一种是原生像素生成 。这类系统通常在潜在空间中直接生成图像或视频。它们在纹理、氛围、光照和真实感方面表现出色。如果目标是生成电影感镜头、精美的情绪板,或逼真的照片级图像,扩散模型仍然是主导方法 。

第二种是原生代码生成  这类系统生成的是一种表示形式,随后由另一套引擎执行或渲染。 模型并不直接产出最终像素,而是产出用于生成像素的程序。

这个程序可能是一个 SVG 文件、一个 HTML/CSS 布局、一个 React 组件、一个 Lottie JSON 文件、一个 Blender 脚本、一个 USD 场景图、一段着色器,或是一个游戏引擎场景。视觉输出最终仍然是像素,但其真实来源是结构化表征。

这一区别之所以重要,是因为生产工作流非常在意生成之后会发生什么。 生成的图像作为输出很有用,但生成的视觉程序作为一种产物更有价值——它可以被编辑、复用、改进和版本化。它可以集成到软件栈的其他部分,并依据约束进行验证。它还可以在不同条件下反复渲染,或在设计师、工程师和智能体之间进行交接。

我认为,这正是已经在发生的重大转变:对于一部分视觉问题,我们将学会把视觉生成任务重新定义为编码任务,并通过解决一个定义明确且可验证的编码问题,获得极高效率的改进。

代码是视觉问题的良好载体

理解视觉代码生成价值的最简单方式,就是看它在初稿完成之后会发生什么。

假设一个模型生成了一个标志。如果输出的是位图图像,而其中一条曲线出了问题,用户就不得不对其进行蒙版处理、局部重绘、重新生成,或手动重新绘制。相比之下,如果输出的是 SVG,用户就可以编辑路径、基本图元、渐变、描边或文本元素。设计师如今已经在 设计标志时这样使用 Quiver 了。

在 UI 设计领域,如果输出的是一张截图,那大多只是灵感来源。如果输出的是 HTML/CSS 或 React,设计师就可以检查 DOM、替换为真实组件、测试响应式状态、检查可访问性,并将其接入应用程序。

视觉人工智能的下一个前沿是代码:视觉人工智能正从输出走向代码产物
来自《Paper》的截图(所有视觉内容都由代码呈现)

这也是为什么视觉代码生成对测试时计算尤为有趣 。在原生像素生成中,更多推理通常意味着采样更多输出:生成二十张图像,挑出最好的一张,也许再试一次。这很有用,但每一次尝试基本上都像是重新掷一次骰子。模型可以对反馈作出响应,但这些反馈通常是全局性的,而且不够精确。

从技术上讲,扩散模型也可以从测试时计算中受益。例如, 通过古典搜索实现扩散模型的推理时扩展表明,在推理时进行搜索可以提升扩散模型在规划、强化学习和图像生成等任务上的输出效果。但这里的循环不同。在扩散模型中,系统通常是在潜在轨迹或最终样本之上进行搜索。奖励可以告诉模型某个输出优于另一个输出,但它无法将反馈清晰地映射到某个特定的源级编辑上 

原生于代码的生成构建了一个更精准的循环:

代码 → 渲染 → 检查 → 修订。

模型生成制品,将其渲染出来,查看哪里出了问题,再修补源代码。如果间距不对,就修改 CSS;如果 logo 的曲线有偏差,就编辑 SVG 路径;如果动画节奏显得太慢,就调整时序。关键在于,每一次迭代改进的都是底层制品本身,而不只是渲染后的输出。这就是为什么视觉代码生成正处在一条能够直接受益于生成更多 token 和测试时计算的路径上。 模型是在一个闭环、可验证的环境中调试一个视觉程序,而不只是采样更多图像。

带代码的视觉生成技术栈

上述示例之下,是这样一套技术栈:

编码模型 + 符号表示 + 渲染器或引擎

视觉人工智能的下一个前沿是代码:视觉人工智能正从输出走向代码产物

编码模型是该制品的创作者和编辑者。它编写 HTML、SVG、Lottie JSON、Blender 脚本、USD 场景或定制的 3D 资产程序。

符号化表征是唯一可信的数据源。 这正是使产物具备可编辑性的关键。用户界面拥有 DOM 节点、布局规则和组件。Lottie 动画具有图层、矢量形状、时间曲线、关键帧和运动参数。3D 资产则包含几何结构、材质、关节、约束和层级结构。

渲染器或引擎将这种结构转化为像素。浏览器会渲染 HTML/CSS。SVG 渲染器会渲染矢量图形。Lottie 播放器会渲染动态效果。Blender 或游戏引擎会渲染 3D 场景。模拟器则会验证一个关节化资产是否真的能够移动或与环境交互。

OmniLottie 很好地说明了为什么符号化表示至关重要。Lottie 是一种轻量级、基于 JSON 的动画格式,它将运动表示为可编辑的矢量形状、图层、关键帧和时间参数,而不是一段扁平视频。OmniLottie 提出,将原始 Lottie JSON 转换为一种对模型更友好的命令序列,从而让模型能够更可靠地生成和编辑 Lottie 动画。该论文的重点并不在于构建一个完整的智能体循环。其关键创新在于让 Lottie 更贴近模型原生形式:它把原始 Lottie JSON 转化为由命令和参数构成的紧凑序列,供模型生成。这一点之所以重要,是因为 Lottie 本身已经是一种可编辑的动画格式。一旦运动被表示为形状、图层、时间安排和动画参数,反馈就能够映射为源级编辑。如果对象移动得太慢,就调整时间参数;如果路径有误,就编辑矢量;如果形变不对,就更新形状序列。

来自 OmniLottie 项目网站的视频

这一栈对应于编码代理为提升输出质量而运行的测试时计算循环:在每一次“代码 -> 渲染 -> 检查 -> 修订”的循环中,模型并不只是再生成一个样本;它是在利用渲染器作为反馈,来改进底层工件本身。它可以修改 CSS 规则、调整 SVG 路径、修正动画时序,或更新 3D 约束,然后再次渲染并持续改进。

这正是这一循环有机会收敛的原因。 在原生像素生成中,每次重试往往都会产生一个新的输出。而在原生代码生成中,每次重试都可以改进源工件本身。模型并不只是采样更多图像或视频;它是在一个闭环、可渲染的环境中调试一个视觉程序。

市场图谱:围绕运行时展开的楔形切入

视觉代码生成市场正开始围绕工件被渲染或执行的运行时进行组织。在原生代码的视觉生成中,模型产出的是一种符号化工件,并会在某处被执行:浏览器、SVG 渲染器、Lottie 播放器、Blender、游戏引擎或模拟器。

每个运行时都会形成不同的“挖起杆”,因为每个运行时都有其各自的源表示、反馈回路和生产工作流。

视觉人工智能的下一个前沿是代码:视觉人工智能正从输出走向代码产物

如今,最明显的应用在于二维设计,尤其是用户界面和图形设计。但视觉代码生成的范畴并不局限于设计工具。凡是视觉成品具有可生成、可渲染、可检查并可优化的底层表示,这项技术都能发挥作用。

为什么 3D 是下一个重要前沿

尽管产品设计和 2D 设计是当下最显而易见的应用场景,但如果将其一致性问题重新定义为编码问题,3D 制品或许才是最能从中受益的领域。

2D 设计有时只要看起来正确就可能有用。但 3D 资产不行。椅子的渲染图并不是椅子,它只是椅子的图片。要让这类资产在游戏、模拟或 3D 编辑工具中真正发挥作用,这一制品就必须具备一致的底层 3D 表示,包括正确的几何结构、材质、部件层级和场景上下文。

这正是为什么 3D 天然适合视觉代码生成。其价值不仅在于生成某个角度看起来像 3D 的内容,而在于生成一种一致的 3D 结构,使其在不同视角、编辑和交互下都经得起检验。这需要一个迭代循环:提出对象,渲染它,检查几何结构和各个部件是否合理,然后修正底层表示。 但只有在智能体具备合适的工具和上下文时,这个循环才能发挥作用, 因为仅仅不断运行 Blender 直到结果看起来更好是不够的。智能体需要能够切换相机视角、查询场景状态、隔离对象、与目标进行比对、记住先前的尝试,并将视觉上的差异转化为源级编辑。 这正是让测试时计算具备收敛路径的关键。

对于许多资产而言,视觉一致性只是基础。对象还需要具备正确的部件语义和功能约束:门应当能够打开,铰链应当能够转动,抽屉应当能够滑动,车轮应当能够旋转。换言之,输出不能只是一个看起来合理的形状,而必须像其所代表的事物那样运作。

这正是 VIGA 和 Articraft3D 等项目在这一领域脱颖而出的地方,我们预计今年还将看到更多相关成果问世——无论是商业产品还是开源项目。VIGA 将 Blender 用作渲染和反馈环境,把视觉重建变成“代码—渲染—检查”的循环;VIGA 并不是简单地在循环中直接暴露原始 Blender。它为智能体提供了用于观察和修改的语义工具,以及对过往尝试的记忆,因此能够从更优的视点进行检查,诊断问题所在,并进行有针对性的编辑。Articraft3D 则更直接地切入资产结构:它将可动 3D 生成表述为编写程序,以定义部件、几何结构、关节和测试。

视觉人工智能的下一个前沿是代码:视觉人工智能正从输出走向代码产物
由 VIGA 生成的 3D 场景重建示例

未来的影响与尚未解决的问题

如果视觉代码生成行得通,胜出的产品将不仅仅是生成更漂亮的输出。它们将掌控整个闭环:生成制品、将其渲染出来、检查哪里出了问题,然后修订源代码。

这带来了一些影响。首先,渲染器将成为反馈环境。浏览器、SVG 渲染器、Lottie 播放器、Blender、游戏引擎和模拟器,都将成为智能体测试并改进其成果的环境,就像如今编码智能体在利用沙盒和虚拟机一样。

其次,迭代上下文的质量将变得前所未有地重要。要让智能体进入视觉代码版本的“Ralph loop”,中间表示必须足够精确,才能为下一步提供指引。模型不仅需要知道哪里看起来不对,还必须知道应该修改源代码的哪个部分,以及为什么要这么改。结构、渲染或反馈中的细小错误,都可能在多轮迭代中迅速累积放大。

第三,未来很可能是混合式的。原生像素模型在真实感、纹理和探索方面仍将表现最佳。原生代码系统则将在结构、迭代和生产方面更胜一筹。最有价值的工作流程将把两者结合起来。

仍然存在一些悬而未决的问题。每个领域最终会由哪种表示方式胜出?我们是否需要重造引擎和渲染器,而不是继续沿用上一代留下来的系统?又有多少视觉品味能够被约束条件、测试和反馈循环所捕捉?

尽管如此,方向已经愈发清晰:视觉 AI 正在从输出结果转向代码化产物。第一波浪潮让图像生成变得更容易;下一波浪潮则将让可编辑、可测试、可交付并可持续改进的视觉产物生成变得更容易。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读