今年的研究如何影响明年的创业趋势
哪些最近的人工智能研究进展最有可能影响到2024年的初创企业?
上周,全球人工智能领域的顶尖研究人员齐聚新奥尔良参加了一年一度的最大规模人工智能会议NeurIPS。尽管该会议主要面向学术研究,但也提供了一个窥探明年领先的人工智能研究人员最为兴奋的领域的机会。
尽管令人兴奋的研究趋势不一定能转化为良好的商业机会,但它们始终是有用的数据点,特别是在像人工智能这样仍然高度依赖研究突破推动业务进展的行业中。
在今年的会议上,LLM和生成式(例如基于扩散的)公司继续占据了大部分关注度。然而,一些新的类别吸引了研究人员最多的关注,包括:生成式视频/生成式3D资产,物理科学中的人工智能(尤其是生物学),人工智能代理,替代Transformer架构的方法,以及最引人注目的是“开放 vs. 封闭”人工智能之间的持续辩论。
根据我们在NeurIPS上看到的情况,我整理了一个我认为在2024年有望突破的五个类别/主题的列表
生成视频和生成的3D资产
在过去的一年里,稳定扩散、Dall-E 2、Midjourney等众多扩散模型已经生成了大量的2D内容。迄今为止,扩散模型一直难以生成3D资产或视频,尤其是那些能够展示物体移动而不扭曲物体本身的内容。
随着大量的研究人才涌入生成式3D和视频领域,我预计明年市场上会出现越来越好的输出结果,最终是由于远离扩散模型的推动。随着更好的模型上线,我预计商业推广也会迅速跟进:与单纯的图像相比,3D和视频内容更能吸引人们的兴趣,因此更容易实现商业化(例如用于动画、广告、社交媒体内容等)。
3D生成的“世界”/元宇宙的复兴
除了3D物体开发之外,对于整个生成世界的研究充满了越来越多的兴奋(无论是地球的1:1数字孪生,还是全新生成的世界)。在实践中,这些很可能会类似于前所未有的规模的模拟(引发模拟假说重新回到公众论坛)。
虽然这听起来越来越像元宇宙的重新定位,但人工智能技术的最新突破应该使3D世界比以往任何时候都更具吸引力。我预计最早的应用场景将首先出现在媒体和游戏领域,但这项技术最终可能在我们所做的几乎所有事情中普及。一个糟糕的现实世界再现从未是一个引人入胜的元宇宙叙事,但能够即时生成自己全新的网络世界可能是VR/AR一直在等待的“iPhone时刻”。
新模态的合成数据
数据长期以来被认为是现代人工智能的关键输入。我们在互联网上的免费文本方面很幸运,但在其他类型的数据集方面我们并没有那么幸运。今年在NeurIPS会议上,有几个有趣的早期项目开始涌现,涉及多模态数据生成,但一切仍然感觉非常初级。合成数据在过去一直难以真正成为一个类别,但我预计会有几家有趣的公司涌现出来,试图解决这个将很快成为现代人工智能核心瓶颈的问题。
AI代理
在2023年,“代理人”这个词成为了人工智能领域的热词,但很难给它一个具体的定义。广义上来说,我认为人工智能代理人是指能够在不需要人类干预的情况下,真正执行任务的模型(例如,现实中的Jarvis或Cortana)。不幸的是,目前市场上大多数“代理人”产品实际上仍然无法正常工作,尤其是在企业环境中。
今年在NeurIPS上,致力于解决这些问题的研究比以往任何时候都要多。具体而言,越来越多的可信研究开始涌现,涉及教授Agent使用软件工具、与外部API进行交互、阅读网页等。真正实现人类工作流程的自动化是一个极其困难的问题,但也代表了人工智能领域中最大的机遇之一。我预计在2024年,Agent的质量将有巨大的提升,并且一些非常垂直化的产品将首次达到“企业可用性”标准。
开源人工智能
如果没有其他的话,AI领域的“开放 vs 封闭”辩论是今年NeurIPS会议上最受关注的话题。虽然我认为“选择一方”的做法实际上是一种错误的二分法(对我来说,“开源”和“安全的AI”之间并没有明显的相关性),但毫无疑问,开源在AI领域的作用比以往任何时候都更加重要。
虽然我仍然预计2024年闭源模型提供商将远远领先于开源替代品,但我认为开源世界在开发数据集、框架、工具等方面有很多机会。开源人工智能社区的热情已经吸引了全球的人工智能研究人员,他们的贡献可能会降低未来几年内使用人工智能构建的难度。
随着使用人工智能的技术门槛越来越低,越来越多的人能够利用它,我们预计会看到人工智能解决方案在我们日常生活中大规模增长。如果没有其他的话,现在是从事人工智能建设最令人兴奋的时刻。