2026 年预测
本文信息来源:anneliesgamble

随着 2025 年接近尾声,我一直在反思一个悖论:AI 从未如此强大,但大多数企业仍然难以以真正创造价值的方式将其部署落地。
过去一年揭示了让 AI 真正投入运行所隐藏的复杂性。企业发现,在受监管行业中,没有可审计性的准确性毫无价值;人在回路中的部署在规模化时会摧毁利润率;智能体可以出色地进行推理,却无法执行交易;通用基准忽略了那些定义整个垂直领域的边缘案例。
这些都是 AI 系统与现实世界交互方式中的结构性缺口;同时,它们也代表了为填补这些缺口的公司所蕴含的巨大机遇。我们正从一个原始模型能力是瓶颈的世界,迈向一个由编排、信任与领域专业知识决定胜负的世界。
以下是我对 2026 年这一趋势将如何展开的 10 条预测:
- 垂直领域专用基准将成为对准确性要求极高的行业中,AI 的核心信任机制。
与通用评估不同,垂直领域专用基准会编码机构级知识、边缘案例以及行业特有的细微差别,而这些正是外部人员反复忽视的。随着时间推移,这些垂直领域专用基准会不断积累:每一次失败、每一个异常和每个边界情况都会被编入基准本身。当它们逐渐成熟后,将成为团队内部构建时所对齐的标准,也会成为客户外部所依赖的关键成果物。拥有这些基准的公司,将越来越多地定义在其垂直领域中什么才算是“好”。
为垂直 AI 构建正确的基准
- 世界模型和生成式模拟将解锁物理世界 AI 的下一波重大浪潮。
当今 AI 的诸多进展在物理世界的边界处陷入停滞,在那里连续、高维数据占据主导地位。这正是诸如 Yann LeCun 的 JEPA 模型等方法的重要性所在,它们将学习从 Token 预测转向对世界的抽象建模。下一次飞跃是生成式 Simulation,模型不再只是重放现实,而是生成其合理的变体。这些 Simulation 并非只是扩充数据集,而是作为数据倍增器,通过扩展系统可推理的行动、环境和结果空间发挥作用。当模型同时从真实世界的反馈和模拟变化中学习时,它们会形成叠加式的学习回路,从而提升稳健性、规划能力和泛化能力——拓宽 AI 系统在物理世界中能够安全执行的范围。
设计合适的合成引擎 - 以 FDE 为主的部署模式将面临利润率清算,并催生新的工具。
前置部署工程师(FDE)在企业 AI 的早期采用中至关重要,但他们成本高昂且难以规模化。随着预算收紧,CFO 和 CTO 将审视这些模型所消耗的利润率。这种压力将催生一类专为已部署工程团队构建的新型软件。这些工具将捕捉产品信号、自动化顾客反馈闭环,并将当下存在于 Slack 线程和部落式知识中的经验系统化。实际上,这些工具将成为人类参与循环(human-in-the-loop)部署的运营层。目标在于杠杆:让一名 FDE 能够同时管理十个甚至二十个账户,而不再只是一个或两个。随着时间推移,这套基础设施将决定哪些 AI 公司能够规模化发展、超越定制化实施。部署效率将成为竞争护城河。
也许不应该是 FDE
- 基于人类劳动替代来定价 AI 的方式,将显著转向基于 AI 结果和上行空间的定价。
迄今为止,AI 定价主要依赖劳动套利,作为买方的一个便捷切入点。但随着智能体的普及,价值将不再以人力编制为基准。取而代之的是,买方会将一个智能体与另一个智能体进行比较,或与完全不进行自动化的机会成本进行比较。基于劳动力的定价模式十分脆弱,因为它限制了上行空间,并使差异化商品化。AI 的投入并不能简单地映射到工作时长;十分钟的深度规划和工具使用,并不等同于十分钟的简单分类。成本呈现出块状、非线性的特征,并由推理深度、检索和编排所驱动。因此,效率叙事将会触及平台期。终点正在从成本削减转向业务扩张。能够长期存在的定价模型,将锚定在结果、风险以及可以持续提升的收入上限之上。
像你的买家一样衡量世界
- 我们将看到批处理式 AI 系统在企业场景中的兴起。
尽管如今实时生成式 AI 备受关注,但许多最具价值的企业级用例在本质上是离线的。在批处理系统中,企业用延迟换取深度、上下文和准确性。一次作业可能需要数小时,但它可以调取海量数据集、丰富元数据、筛除噪声,并按顺序运行多个模型。低成本模型负责提取和结构化;更强大的模型则综合生成最终输出。由此产生的是具备高管级别质量的分析,而不是聊天级别的答案。这类系统在报告、调查、审计和战略规划方面尤为强大。随着企业逐渐意识到这一点,批处理工作流将会在关键职能中广泛扩散。
现代 AI 的检索骨干
- 编排的重要性将超过智能本身。
竞争优势正从模型规模转向系统设计。结果将取决于模型如何有效地被接入工具、上下文和反馈回路,而不是它们有多大或多昂贵。合成数据、可验证的奖励以及多轮目标正在重新定义系统如何从自身输出中学习。这显著降低了个性化的成本,并使系统能够直接与现实世界的绩效指标对齐。综合来看,这些转变将持续推动前沿走向更小、更便宜、更加专业化、并通过编排层进行协作的模型。
从模型到系统
- 设计最周到的 AI 产品,对用户而言几乎是“看不见的”。
成功的 AI 产品根本不会让人感觉它是“AI 产品”。最好的设计会悄然融入现有的工作流程,让工作变得更快、更干净、更可靠,而无需要求用户改变行为。信任是通过细微的安心机制建立的:置信度指示、与旧方式的对比,以及简单的绿-黄-红信号。这些线索来自于与用户并肩而坐,观察工作实际是如何发生的。编排层将比单一界面更为重要。只有在信任和依赖建立之后,产品才能将用户引导进更深层的平台。
以“隐形”为设计目标
- Agent 原生的交易基础设施将成为企业的核心底层管道。
如今,大多数代理已经能够进行推理、提出建议并触发工作流,但在经济行为的实际执行上仍然依赖人类。然而,在后台,企业已经开始向非人类参与者授予有范围限制的权限、自动化采购权,以及在财务、基础设施和采购系统中的可审计执行能力。到 2026 年,这些分散的能力将整合为专门构建的层,用于代理身份、认证、权限和支付。代理将使用专用钱包,具备可编程的支出上限、由政策驱动的审批机制,以及不可篡改的审计轨迹。代理只能在与业务上下文和合规要求绑定的预定义约束范围内进行购买、出售、预订、取消或谈判。这类基础设施中的很大一部分将深度嵌入企业工作流,与审批、合规和业务上下文紧密耦合。这将解锁一种全新的自动化形态。 - 诉讼将成为保险领域的主要压力点,因此将推动一批专注于 AI 原生保险理赔抗辩技术栈的新公司的崛起。
现代索赔正变得愈发数据密集,覆盖车联网数据、传感器、医疗记录、供应商信息以及监管披露。与此同时,决策周期正在不断压缩。原告律所正在使用 AI 来提前发现不一致之处、重构时间线,并在保险公司尚未反应之前识别可比判例。许多保险公司仍然依赖为人类工作节奏设计的手动流程。到 2026 年,我们将看到 AI 原生的保险索赔抗辩技术栈兴起,能够持续性地整合证据、生成叙事并建模风险敞口。在许多情况下,这一切发生在诉讼正式提起之前。结果将比今天提前数周(甚至更早)就被决定。
- 新一波 AI 原生合规将会出现。
一波新的合规公司将涌现,以应对由在现实世界中运行的 AI 系统所带来的根本性新风险类别。机器人、建筑和保险等行业尤其适合发生这一转变。传统的合规框架是为静态软件和人类决策者构建的;当自主或半自主系统持续运行、随时间自适应,并直接与物理环境或金融结果交互时,这些框架就会失效。因此,合规将从基于清单的控制转向持续的、系统级的保障,监控 AI 在生产环境中的实际行为,而不是其在纸面上被设计成什么样。这些公司将提供全天候的审计追踪、政策执行和实时护栏,本质上把法规转译为嵌入 AI 系统内部的可执行约束。
面向物理世界的 AI:对我们所构建之物进行建模、衡量与治理
合规正在成为建筑业的下一个数据难题
4000 亿美元的测试、检验与认证市场
我不断回想起 Andrej Karpathy 的 2025 LLM Year in Review 中的一句话:
LLM 实验室会捕获所有应用,还是 LLM 应用存在绿草如茵的牧场?我个人认为,LLM 实验室将趋向于培养通用能力的学院 学生,而 LLM 应用则会通过提供私有数据、传感器、执行器和反馈 回路,对它们进行组织、微调,并真正将其编排成在特定垂直领域中部署的专业团队。
这种框架与我对 2026 年的思考产生了深刻共鸣。机会不只在于更好的模型,而在于那些用于组织、约束并将其落地运营的垂直领域专用系统。下一代企业级 AI 将由那些既掌握模型之上的编排层、又拥有使这些系统能够被信任去执行任务的基础设施的公司来构建。准确性、可审计性、经济性以及治理是关键解锁点。而我也越来越乐观地认为,未来 12 个月内,这些要素中的许多将会汇聚到位。