三条论点

风险投资正涌向少数几家公司。但创新潜力比这一趋势所显示的更为广阔。

本文为软件下一阶段的发展提供了一种不同的框架，并提出了由此延伸出的三个创业构想：

A. 以单一智能层为核心重构的原生 AI 电子商务

B. 将产品品味转化为代码的开发工具

C. 物理人工智能的数据与风险层

如果你正在这些领域之一，或相关方向开展创业，我很乐意与你联系。

01 | AI 迷雾

我们正处于这一轮 AI 周期的第三或第四个年头，而资本正以前所未有的力度蜂拥而入。

在过去几十年里，美国每年排名前五的风险投资交易通常只占该资产类别总投资额的2%至10%。

到2025年，这一数字已攀升至总额的24%。

截至2026年目前为止——这一比例已接近70%（！）

换句话说……按实际美元金额计算，早期 AI 公司迄今筹集的权益融资总额，已经超过 Google、Facebook、Apple、Amazon、Microsoft、NVIDIA、Tesla 以及另外 21 家领先科技企业整个生命周期内筹集的权益资本总和。

人工智能的技术基础是否支持这些部署模式，仍是一个悬而未决的问题。

但这并不是缔造一代标志性公司的唯一方式。过去两个周期中，大多数具有定义性的公司所筹集的资金，仅为当今人工智能领军企业的一小部分，但它们创造了非凡的价值。

是的，时代已经变了。资本市场竞争更激烈，时间窗口被压缩，而人工智能的单位经济效益也未必能与过往周期做出直接可比的对照。

但数据中蕴含着一个启示：在打造公司这件事上，资金并不是稀缺投入。

资本只能放大优秀的产品，无法凭空创造一个。

进入 AI 时代三四年后，迷雾正开始散去。如今，我们对这项技术的构建方式、它在生产环境中能够可靠处理什么、如何实现扩展，以及如何被市场采用，都有了更多理解。可供创新的空间，远比资本迄今扎堆的领域要广阔得多。

AI 的故事远未写完。

02｜软件并未消亡

软件的演进，本质上是一项让人类更容易与电脑对话的长期项目。

计算机编程最初始于比特层面（1 和 0），随后发展到机器码，再到 FORTRAN 等基础语言，继而演进为 Python 和 TypeScript 等更高级的语言。

每一次转变都让我们沿着抽象阶梯更上一层，使编程更接近人类的思维方式，同时隐藏了下一层的技术摩擦。

AI 又将我们带上了一个新的层级——从代码走向意图。机器不再只是执行预先写好的指令，用户只需提出一个目标，其余工作由机器完成。

更具体地说，AI 正在从三个根本层面改变软件：

#1 确定性 → 概率性

软件如今将产出一系列结果分布，而非执行预先编程好的路径。

#2 人工操作 → 智能体操作

越来越多的软件交互将由机器发起，而人类则充当协调者。

#3 固定 → 可塑

软件将由终端用户按需直接生成并定制，而非由供应商提供。

如今，护城河必须来自原始智能无法自行复制的东西。 例如，积累的记忆与语境，将活动转化为一种新型数据资产的监测机制，或绕过 SEO 和应用商店等一对多渠道的新分发模式。

软件不会消失。它只是在像以往一样继续向上抽象。它正呈现出一种新形态，其底层也有了新的防御性来源。

如果人工智能让软件更容易交流，我预计我们会看到更多软件出现。

以下是由这一观点推导出的三个想法。

这篇文章在某种程度上也是一则“广播”，旨在寻找那些正在解决这些问题、志同道合的创业者。

但这也是一次创造性的思考练习。它让我们暂时放下“软件的终结”和“AI 将使一切商品化”这类叙事，去想象在这一新范式下，哪些产品能够创造长期价值。

论点 A：一个电子商务大脑

Shopify（纳斯达克代码：SHOP，企业价值 1560 亿美元）和 Amazon（纳斯达克代码：AMZN，企业价值 2.8 万亿美元）代表了在线商业中两种截然相反的战略。

Shopify 让商家对品牌、客户和数据拥有完全控制权。每家商店都独立运营，商家的数据彼此隔离，流量发现发生在平台外，通过 SEO 和付费获客实现。Shopify 从不汇总消费者需求，让商家彼此竞争。

Amazon 则反其道而行之。他们将买家体验标准化，对平台实施端到端控制，并利用商家数据来优化市场。商家只是库存供给方，对自身品牌和数据几乎没有控制权。

两家公司都已开始为 AI 进行改造。Shopify 现在允许店铺将产品分发到 ChatGPT 和 Gemini 中，并于近期推出了商家侧 AI 工具，以自动化店铺运营。Amazon 则推出了其用于产品发现的 AI 购物助手 Rufus。两家公司都已采用访问控制策略和 UCP1 等标准，以简化由智能体驱动的交易。

但两家都是把 AI 叠加到一种将买卖双方语境彼此分离的架构之上。

AI 的聪明程度取决于你呈现在它面前的信息质量。你可以在推理时将买家和卖家的数据拼接在一起。但当双方都处于同一生态系统中时，产品发现与匹配会更精准、成本也更低。

机会在于构建首个 AI 原生商业平台，让买家、产品和商家的上下文存在于同一个共享记忆图谱中。 这是一个由双方持续读取并写入的统一底层。

这将释放深度个性化与大规模自动化的潜力——为用户提供个人购物助手，为商家提供现代化操作系统：

商家。 一位新店主输入 “开设一家新的陶艺店铺来销售我的作品。” 系统随即运行结构化入驻流程来构建店铺，并为每项任务组装最合适的工具——例如，用 Lovable 进行店面设计；用 Gemini 生成创意素材；用定制智能体处理 BI、库存和顾客支持。店铺运营则通过自然语言指令完成——“把马克杯价格上调 10%，” 或 “总结一下本周的销售情况。” 商家专注于品牌、产品和策略，其余工作由系统处理。
买家。 每位用户都会被分配一名个人代理，随着时间推移逐步了解购物者——体型、版型偏好、品味、钟爱的品牌、退货记录及原因。购物者的个人资料会通过自然对话不断丰富——例如，“购买可持续品牌的商品，” 或 “给我看看这个配色方案的商品，” 并上传一张参考照片。这个生态系统将成为一个目的地，一个你前往并与数字礼宾建立连接的地方。
共享记忆。 购物者和商家的每一次互动——查询、点击、购买、退货、店铺改版——都会写入同一张上下文图谱，为生态系统中的每个实体捕捉丰富的语义上下文。随着数据和使用量的增加，这张图谱会不断累积，成为网络中最有价值的资产。
发现网络。 在消费者发起查询后，检索层会将商品目录缩小至一组更小的候选集。随后，LLM 读取买家与产品语境信息，并通过推理判断适配度。这样的匹配建立在为什么这款产品适合这个人之上，而非基于相似买家的行为表现。

这重新定义了网上购物的分销与商业模式。

如今规模达五千亿美元的数字广告行业，本质上只是对数据孤岛的一种权宜之计——一场分别理解买家和产品、再试图在查询时进行匹配的猜谜游戏。

当商品发现建立在真正契合以及对市场双方的深度语境理解之上时，平台网络就能将满意度和忠诚度变现，而不是依赖广告位或点击率。

论点 B：将产品品味自动化

五十年来，软件一直被构建来提供确定性 。

开发者用代码编写指令，精确规定应用程序应如何运行。同样的输入被设计为每次都产生同样的输出。

正因这种可预测性，我们将软件开发生命周期切分为离散、线性的阶段——规划、编写、测试、部署、监控。价值不断汇聚到那些掌控每一步所产生成果的公司手中。Jira 拥有工单。GitHub 拥有提交记录。Datadog 拥有日志。

AI 原生软件将这一点颠倒了过来。

不确定性是 LLMs 的核心属性。同一提示词输入同一模型，会产生一系列看似合理的回答。“好”的输出是一个不断变化的目标，会随着新的用户行为、语境和模型改进而发生转移。

如今，开发者试图通过为 AI 模型搭建脚手架来强加确定性，采用诸如提示词模板、硬编码护栏、手写评测集等技术。2 现有的 LLM 可观测性平台，如 Braintrust 和 LangSmith，通过为模型表现提供一个观察窗口来支持这项工作，但它们建立在一个错误的前提之上——人类仍应将评估作为工作流程中的一个独立步骤来起草并执行。

在一个模型差异显著、软件“行为”不断变化的世界里，这就成了瓶颈。

AI 系统真正需要的是一个自我编排的闭环——实时、自动的评估机制，使其表现始终与开发者意图保持一致。品味——即对“良好”产品表现应是什么样的判断——必须被编码进系统本身，而不是由人类从外部加以维系。

目标产品是位于应用程序与其模型提供商之间的网关代理。提示词、响应、工具调用和元数据都经由其流转。网关后端包含两个组件：

（1）自主评估。 系统会基于三项输入自行生成评分标准——应用程序设计、用户实时行为，以及每次模型调用的完整执行轨迹。生产环境中的每一次调用都会依据该评分标准进行打分，而随着系统学习哪些配置与成功结果相关联，这一标准也会自我优化。

自动评估很难构建。LLM 评判器在许多评估任务上已经可以媲美人类，但自动生成的评分标准仍然逊于人工撰写的标准。缩小这一差距，是核心的技术押注。

好消息是，这在过去 18 个月里已经变得更加可行。例如，关于可扩展评分标准生成的研究表明，未来流经此类产品的数据可以持续优化评分标准层。

（2）分层补救。 当行为偏离意图时，系统可以采取行动——重新路由、在不同语境下重试，或以自然语言解释向开发者发出警报。

这款产品并不把评估视为由开发者额外加装的监测工具，而是将其变成一种无形、自动且始终开启的能力。如果工程师始终不必亲自写出完整的评分标准，这款产品就算真正发挥了作用。

护城河在于数据模型。

在这款产品中，评分标准的每一项准则都是一个一等实体，与结果相连接，并会随着系统学习哪些准则能够预测成功而自动优化。随着时间推移，这套评分标准会与特定应用深度契合。最终形成的是一层定制化、可自我改进的评估层，难以被轻易替换。

要打造这样的产品，技术难度绝非小事。但如果有团队把这件事做对了，他们就能将产品品味编码进去，把它从工程师在软件之外磨炼的一门技艺，变成软件自身的原生属性。

论点 C：机器人领域的风险层

到2035年，自主系统预计将成为一个规模达数万亿美元的机遇市场，其中自动驾驶汽车和机器人将是最大的细分领域。

这些资产的商业化部署，要求人们从根本上重新思考如何分析和定价风险。

传统保险假定，风险是人类行为的函数。精算模型会分析历史理赔和人口统计数据，并假设行为模式会随着时间推移在统计上保持一致。

但当“驾驶员”是软件时，这一套就行不通了。风险需要根据软件版本、感知质量、决策策略，以及系统是否在其设计适用条件内运行等技术输入进行持续衡量。

现有巨头——Verisk（NASDAQ：VRSK，企业价值 260 亿美元）、Relx（NYSE：RELX，企业价值 720 亿美元）——其产品和顾客关系都是围绕间歇性索赔建立的。基于遥测数据流分析风险则完全是另一回事，并且将需要对其基础设施进行全面改造。

现在正是从零构建新事物的机会。

目标产品是一层以 API 为优先的中间件。安装在自主资产上的轻量级代理会接收实时遥测数据（传感器健康状况、感知日志、险些事故数据），并通过内部 AI/ML 模型进行处理，为承运商生成动态风险评分，并为车队运营方提供运营洞察。

凭借先发优势，这一平台可以建立整个类别据以定价的模式和精算基础，类似于 ISO 的损失成本 3 如今在财产索赔领域所发挥的作用。一旦积累起足够庞大的数据集，多条业务线便会随之展开——向运营方提供分析服务、从索赔取证中获取收入，以及向物理 AI 公司授权数据用于训练。

成功的产品能够释放数据网络效应。

例如，如果平台发现某种特定的 LiDAR4 遮挡模式会预示送货机器人发生碰撞，它就能立即对农用设备中的同类故障模式进行定价，而无需等待数年积累新的理赔数据。随着越来越多类型的车队贡献数据，承保能力将不断提升，采用速度将加快，数据优势也会持续累积。

没有保险，自主车队就无法实现大规模部署；而没有遥测数据，保险公司也无法进行承保。能够打破这一僵局的平台，有机会确立自身作为事实标准的地位——同时也让我们的仓库和工厂车间变得更加安全。

许多早期的 AI 巨头正在打造非凡的技术。流向它们的资本究竟体现了持久价值，还是仅仅反映了周期性波动，还有待时间检验。

但我确实相信，在它们之外，机会无比巨大。

毕竟，AI 本身并不是一种产品。它是一种先决条件，是原材料。而仍有大量塑造工作有待完成。

Agent Commerce Protocol（ACP） 是由 OpenAI 和 Stripe 共同开发的一项开放规范，允许 AI 代理代表买家完成交易。Universal Commerce Protocol（UCP） 是由 Google 和 Shopify 共同开发的一项开放标准，定义了 AI 代理如何在商家后端之间发现产品、管理购物车并完成结账。

提示词模板是可复用的框架，用于组织向模型发出任务请求的方式。护栏是对模型输出进行约束的规则（过滤语气、屏蔽话题、强制格式）。 评估集是经过策划的测试用例，用于检验对提示词或模型所做的改动是否提升了性能。若想了解评估的入门介绍，请点击这里。

ISO（Insurance Services Office，现为 Verisk 旗下机构）发布标准化的“损失成本”数据——即汇总自各家保险公司的历史理赔经验——大多数财产险和意外险公司都将其作为保单定价的精算基准。它已成为业内事实上的参考层。

LiDAR（光探测与测距） 是一种传感器，通过发射快速激光脉冲来测量距离，并构建环境的实时三维地图。它是大多数自动驾驶车辆和机器人的核心感知输入。

三条论点

01 | AI 迷雾

02｜软件并未消亡

论点 A：一个电子商务大脑

论点 B：将产品品味自动化

论点 C：机器人领域的风险层

推荐阅读

欢迎来到“拿结果给我看（Show Me）”时代

AI 如何重构药物开发技术栈

软件规模扩张了，风险没有

前沿不再？

IPO 窗口已经打开，但并非人人适用：理解 SpaceX IPO 的市场影响

盘点种子阶段

三条论点

01 | AI 迷雾

02｜软件并未消亡

论点 A：一个电子商务大脑

论点 B：将产品品味自动化

论点 C：机器人领域的风险层

推荐阅读

欢迎来到“拿结果给我看（Show Me）”时代

AI 如何重构药物开发技术栈

软件规模扩张了，风险没有

前沿不再？

IPO 窗口已经打开，但并非人人适用：理解 SpaceX IPO 的市场影响

盘点种子阶段

了解 RecodeX 的更多信息