视觉人工智能的下一个前沿是代码：视觉人工智能正从输出走向代码产物

过去几年里，视觉 AI 的评判标准大多围绕其像素表现 。最终生成的图像或视频看起来越好，模型似乎就越优秀。

这很合理。扩散模型先是把文本提示转化为精美图像，随后是视频，再到愈发逼真的世界。最直观的对比对象就是 Photoshop 或相机。

但对于许多与视觉相关的任务——如平面设计、UI 设计或 3D 建模——用户所追求的最终呈现形式，并不局限于终态像素。相反，他们需要的是能够基于反馈和新想法持续迭代的产物。设计师需要的不只是一个模型图；他们还需要图层、组件，以及交付能力。动画师需要的不只是一段视频；他们还需要时间曲线、关键帧和可编辑的运动效果。3D 艺术家需要的不只是一张渲染图；他们还需要几何体、材质、灯光、相机以及场景结构。

当下最有意思的视觉 AI 工具，已经不再试图生成最终成品。相反，它们开始生成其背后的源代码。这一转变正在释放出像素原生模型无法企及的可编辑性、迭代能力，以及反馈闭环。

视觉生成的两大技术栈

理解视觉生成，主要有两种路径。

第一种是原生像素生成 。这类系统通常在潜在空间中直接生成图像或视频。它们在纹理、氛围、光照和真实感方面表现出色。如果目标是生成电影感镜头、精美的情绪板，或逼真的照片级图像，扩散模型仍然是主导方法。

第二种是原生代码生成 。 这类系统生成的是一种表示形式，随后由另一套引擎执行或渲染。 模型并不直接产出最终像素，而是产出用于生成像素的程序。

这个程序可能是一个 SVG 文件、一个 HTML/CSS 布局、一个 React 组件、一个 Lottie JSON 文件、一个 Blender 脚本、一个 USD 场景图、一段着色器，或是一个游戏引擎场景。视觉输出最终仍然是像素，但其真实来源是结构化表征。

这一区别之所以重要，是因为生产工作流非常在意生成之后会发生什么。 生成的图像作为输出很有用，但生成的视觉程序作为一种产物更有价值——它可以被编辑、复用、改进和版本化。它可以集成到软件栈的其他部分，并依据约束进行验证。它还可以在不同条件下反复渲染，或在设计师、工程师和智能体之间进行交接。

我认为，这正是已经在发生的重大转变：对于一部分视觉问题，我们将学会把视觉生成任务重新定义为编码任务，并通过解决一个定义明确且可验证的编码问题，获得极高效率的改进。

代码是视觉问题的良好载体

理解视觉代码生成价值的最简单方式，就是看它在初稿完成之后会发生什么。

假设一个模型生成了一个标志。如果输出的是位图图像，而其中一条曲线出了问题，用户就不得不对其进行蒙版处理、局部重绘、重新生成，或手动重新绘制。相比之下，如果输出的是 SVG，用户就可以编辑路径、基本图元、渐变、描边或文本元素。设计师如今已经在设计标志时这样使用 Quiver 了。

Sean Smith@seansmithbuilds

我早就想发帖聊聊如何使用 @QuiverAI。几周前，我需要为 Brukas 应用的 alpha 版发布快速做一个图标/标志。借助 Quiver 的 Arrow 1.0 模型和相当简单的提示词，我先得到了字母 B。有了这个 B，我又做出了完整的单词。我在 Figma 里稍微润色了一下，我敢肯定我可以

2026 年 5 月 13 日凌晨 4:25 · 677 次浏览

1条回复 · 1次转发 · 5次点赞

在 UI 设计领域，如果输出的是一张截图，那大多只是灵感来源。如果输出的是 HTML/CSS 或 React，设计师就可以检查 DOM、替换为真实组件、测试响应式状态、检查可访问性，并将其接入应用程序。

这也是为什么视觉代码生成对测试时计算尤为有趣 。在原生像素生成中，更多推理通常意味着采样更多输出：生成二十张图像，挑出最好的一张，也许再试一次。这很有用，但每一次尝试基本上都像是重新掷一次骰子。模型可以对反馈作出响应，但这些反馈通常是全局性的，而且不够精确。

从技术上讲，扩散模型也可以从测试时计算中受益。例如， 通过古典搜索实现扩散模型的推理时扩展表明，在推理时进行搜索可以提升扩散模型在规划、强化学习和图像生成等任务上的输出效果。但这里的循环不同。在扩散模型中，系统通常是在潜在轨迹或最终样本之上进行搜索。奖励可以告诉模型某个输出优于另一个输出，但它无法将反馈清晰地映射到某个特定的源级编辑上 。

原生于代码的生成构建了一个更精准的循环：

代码 → 渲染 → 检查 → 修订。

模型生成制品，将其渲染出来，查看哪里出了问题，再修补源代码。如果间距不对，就修改 CSS；如果 logo 的曲线有偏差，就编辑 SVG 路径；如果动画节奏显得太慢，就调整时序。关键在于，每一次迭代改进的都是底层制品本身，而不只是渲染后的输出。这就是为什么视觉代码生成正处在一条能够直接受益于生成更多 token 和测试时计算的路径上。 模型是在一个闭环、可验证的环境中调试一个视觉程序，而不只是采样更多图像。