返回首页
2025.07.07 01:35 约 14 分钟 中国 AI 力量

印度争夺人工智能自主权的内幕

结构性挑战和全国众多语言使得开发基础性 AI 模型变得困难重重。但政府非常希望不要被落在后面。

本文信息来源:technologyreview

""

在印度班加罗尔,Adithya Kolavi 今年早些时候看到 DeepSeek 向世界推出其颠覆性语言模型时,感到既兴奋又备受鼓舞。这家中国科技公司在基准测试上可与西方最优秀的公司媲美,但其开发所用的资金和时间却少得多。

“我当时想:‘这就是我们如何用更少的资源实现颠覆,’”20 岁的印度 AI 创业公司 CognitiveLab 创始人 Kolavi 说。“如果 DeepSeek 能做到,为什么我们不能?”

但对 Soket AI Labs 创始人、印度最早开发基础模型之一的架构师 Abhishek Upperwal 来说,这一刻却有些苦乐参半。

Upperwal 的模型名为 Pragna-1B,在他看到全球同行筹集数百万资金的同时,却只能靠微薄的资助勉强维持。这款多语言模型拥有相对适中的 12.5 亿参数,旨在减少“语言税”——由于印度不像美国甚至中国那样,拥有多种需要支持的语言而产生的额外成本。他的团队已经完成了训练,但由于资源有限,模型无法扩展。因此,他说,这个项目最终成了一个概念验证,而不是一款产品。

“如果我们在两年前就获得了资金,很有可能现在正在开发的就是我们,而不是 DeepSeek,”他说。

Kolavi 的热情和 Upperwal 的沮丧反映了印度 AI 开发者们的各种情绪。尽管印度是全球科技中心之一,但在本土 AI 领域却远远落后于美国和中国等国家。这一差距主要是因为印度长期以来在研发、机构和创新方面投入不足。与此同时,由于没有一种本地语言是大多数人口的母语,训练语言模型在印度比其他地方要复杂得多。

印度历来被称为全球软件行业的后台办公室,其科技生态系统以服务为先的思维方式发展壮大。像 Infosys 和 TCS 这样的巨头凭借高效的软件交付取得了成功 ,但创新既不是优先事项,也没有得到奖励。与此同时,2024 年印度的研发支出仅占 GDP 的 0.65%(254 亿美元),远远落后于中国的 2.68%(4762 亿美元)和美国的 3.5%(9623 亿美元)。从算法到芯片,印度从未真正建立起发明和商业化深度科技的能力。

在政府机构如 DRDO(国防研究与发展组织)和 ISRO(印度空间研究组织)内部,确实存在一些世界级的孤立研究团队,但他们的突破很少应用到民用或商业领域。印度缺乏将高风险研究与商业路径连接起来的桥梁,就像美国的 DARPA 那样。与此同时,印度的大量顶尖人才流向海外,被那些更懂得、也更愿意为深度科技提供资金的生态系统所吸引。

因此,当开源基础模型 DeepSeek-R1 突然超越了许多全球同行时,这引发了强烈反响。这家中国初创企业的发布促使印度政策制定者不得不正视本国在 AI 基础设施方面的落后程度,以及必须紧急应对的现实。

印度的回应

2025 年 1 月,在 DeepSeek-R1 发布 10 天后,印度电子和信息技术部(MeitY)征集了印度自主基础模型的提案,这些基础模型是可以适应各种任务的大型 AI 模型。该部门的公开招标邀请私营云服务和数据中心公司为政府主导的 AI 研究预留 GPU 算力资源。

包括 Jio、Yotta、E2E Networks、Tata、AWS 合作伙伴和 CDAC 在内的服务提供商都作出了回应。通过这一安排,MeitY 突然以补贴价格获得了近 19,000 块 GPU,这些 GPU 从私有基础设施中重新分配,专门用于基础 AI 项目。这一举措引发了众多公司提交自建模型的提案热潮。

在两周内, 它已经收到了 67 份提案 。到三月中旬,这一数字增长了三倍。

今年四月,政府宣布计划在 2025 年底前开发六个大规模模型,并推出 18 个面向农业、教育和气候行动等领域的 AI 应用。最值得注意的是,政府指定 Sarvam AI 开发一个针对印度语言和需求优化的 700 亿参数模型。

对于一个长期受限于有限科研基础设施的国家来说,事情以创纪录的速度推进,展现了雄心、人才与政治意志罕见的汇聚。

“印度在人工智能领域也能像‘曼加里安’那样取得成就,”印度信息技术学院德里分校的 Gautam Shroff 说,他提到的是该国成本效益高且成功的火星探测器任务。

专注于教授人工智能素养的组织 AI&Beyond 联合创始人贾斯普里特·宾德拉(Jaspreet Bindra)表达了这种紧迫感:“DeepSeek 可能是印度发生过的最好的事情。它给了我们当头一棒,让我们停止空谈,开始付诸行动。”

语言难题

在为印度构建基础性 AI 模型时,最根本的挑战之一就是该国极其多样的语言环境。印度有 22 种官方语言、数百种方言,以及数以百万计的多语种人口,这给现有的 LLMs 带来了极少能应对的问题。

虽然英文有大量高质量的网络数据可用,但印度语言在网络内容中总共占比还不到 1%。像博杰普里语和卡纳达语这样的语言缺乏数字化、标注和清洗过的数据,这使得训练能够理解印度人实际说话或搜索方式的 LLMs 变得困难。

全球通用的分词器会将文本分解为模型可处理的单元,但在许多印度文字上表现不佳,常常误解字符或直接跳过某些字符。因此,即使多语种模型中包含了印度语言,这些语言通常也难以被准确理解和生成。

与 OpenAI 和 DeepSeek 利用结构化的英文数据实现规模化不同,印度团队往往从包含数十种印度语言的零散且质量较低的数据集起步。这使得基础模型训练的初期步骤变得更加复杂。

尽管如此,一小批坚定的印度建设者已经开始塑造该国的 AI 未来。

例如,Sarvam AI 创建了 OpenHathi-Hi-v0.1,这是一个开源的印地语语言模型, 展示了印度人工智能领域应对该国庞大语言多样性的日益增强的能力。该模型基于 Meta 的 Llama 2 架构,使用 400 亿个印地语及相关印度语言内容的标记进行训练,使其成为迄今为止最大的开源印地语模型之一。

Upperwal 推出的多语言模型 Pragna-1B,再次证明了印度有能力解决自身的语言复杂性问题。该模型以仅 25 万美元的成本,训练了 3000 亿个标记,并引入了一种名为“平衡标记化”的技术,以应对印度人工智能领域的独特挑战,使一个拥有 12.5 亿参数的模型能够表现得像一个更大规模的模型。

问题在于,印度语言使用复杂的文字和黏着语法,通过在词根前后添加前缀和后缀,将许多较小的意义单元串联起来形成单词。与用空格分隔单词、结构相对简单的英语不同,印地语、泰米尔语和卡纳达语等印度语言往往没有明确的词界,而且会在单个单词中包含大量信息。标准的分词器难以处理这样的输入,最终会把印度单词拆分成过多的词元,导致输入膨胀,使模型难以高效理解其含义或准确作出回应。

然而,Upperwal 表示,“采用这种新技术后,一个十亿参数的模型相当于像 Llama 2 这样的七十亿参数模型。”这种性能在印地语和古吉拉特语中尤为突出,因为全球模型由于多语言训练数据有限,往往表现不佳。这提醒人们,通过巧妙的工程设计,小团队依然可以突破极限。

Upperwal 最终将他的核心技术重新用于为 22 种印度语言构建语音 API,这是一种更为直接的解决方案,更适合那些经常被以英语为主的 AI 体验排除在外的农村用户。

“如果通往通用人工智能的道路是一个包含一百步的过程,那么训练一个语言模型只是第一步,”他说。

在另一端,是一些目标更为大胆的初创公司。例如,Krutrim-2 是一个拥有 120 亿参数的多语言语言模型 ,针对英语和 22 种印度语言进行了优化。

Krutrim-2 正在尝试解决印度特有的语言多样性、低质量数据和成本限制等问题。团队开发了定制的印度本地分词器,优化了训练基础设施,并从一开始就为多模态和语音优先的应用场景设计了模型,这在文本界面可能成为障碍的国家尤为重要。

Krutrim 的赌注在于,其方法不仅能够实现印度的 AI 主权,还能为全球南方国家提供一套可行的 AI 模型。

除了公共资金和算力基础设施,印度还需要人才的制度性支持、深厚的研究能力以及能够孕育全球竞争力科学的长期资本。

尽管风险投资仍然对研究持观望态度,但新的实验正在涌现。企业家 Paras Chopra 曾创办并出售了软件即服务公司 Wingify,如今他正亲自资助 Lossfunk——一个仿照贝尔实验室风格的 AI 驻留项目,旨在吸引热衷于开源科学的独立研究者。

Chopra 说:“我们在学术界或业界都没有榜样,所以我们正在创造一个空间,让顶尖研究者能够互相学习,并拥有类似初创企业的股权激励。”

政府支持的主权 AI 押注

印度人工智能雄心最明显的标志,是政府选择了 Sarvam AI 来开发专注于印度语言和语音流利度的模型。

这个想法不仅能帮助印度公司在全球人工智能竞赛中竞争,还能让更广泛的人群受益。宾德拉表示:“如果它成为印度数字基础设施的一部分,你可以通过对话界面为数亿人提供教育。”

Sarvam 获得了 4,096 块 Nvidia H100 GPU,用于在六个月内训练一个拥有 700 亿参数的印度语言模型。(该公司此前发布过一个在 10 种印度语言中训练的 20 亿参数模型,名为 Sarvam-1。)

Sarvam 的项目和其他类似项目是更大策略“IndiaAI 使命”的一部分。该国家级计划于 2024 年 3 月启动,投资 12.5 亿美元,旨在建设印度的核心 AI 基础设施,并让先进工具更广泛地可用。该使命由 MeitY 牵头,重点支持 AI 初创企业,尤其是那些开发印度语言基础模型并将 AI 应用于医疗、教育和农业等关键领域的企业。

在其算力计划下,政府正在向一批精选的印度初创企业部署超过 18,000 块 GPU,其中包括近 13,000 块高端 H100 芯片。目前这些企业包括 Sarvam、Upperwal 的 Soket Labs、Gnani AI 和 Gan AI

该计划还包括启动一个国家多语种数据集存储库、在较小城市建立人工智能实验室,并资助深度技术研发。更广泛的目标是为印度开发者提供建设具有全球竞争力人工智能所需的基础设施,并确保成果扎根于印度及全球南方的语言和文化现实。

据 IndiaAI 首席执行官兼印度电子与信息技术部(MeitY)官员 Abhishek Singh 介绍,印度在深度技术领域的更广泛推进,预计在未来五年内将带来约 120 亿美元的研发投资。

其中包括通过 IndiaAI Mission 提供的大约 1.62 亿美元资金,其中约 3200 万美元专门用于直接支持初创企业。国家量子任务(National Quantum Mission)还将投入 7.3 亿美元,以支持印度在量子研究方面的雄心。此外,2025-26 年度国家预算文件还宣布设立 12 亿美元的深度科技母基金,旨在推动私营部门的早期创新。

其余近99亿美元预计将来自私人和国际渠道,包括企业研发、风险投资公司、高净值个人、慈善家以及微软等全球科技巨头。

IndiaAI 目前已收到来自初创企业的 500 多个申请,这些企业提出了在医疗、治理和农业等领域的应用案例。

“我们已经宣布支持 Sarvam,并且还将为另外 10 到 12 家专注于基础模型的初创企业提供资金支持,”辛格表示。遴选标准包括获取训练数据的能力、人才深度、行业契合度以及可扩展性。

开放还是封闭?

然而,IndiaAI 项目并非没有争议。尽管 Sarvam 起源于公共技术,但它正在被打造为一个封闭模型,而非开源。这引发了关于私营企业与公共利益之间如何平衡的讨论。

“真正的主权应该植根于开放和透明,”人工智能政策专家 Amlan Mohanty 表示。他提到了 DeepSeek-R1,尽管其参数规模高达 2360 亿,但仍被免费开放用于商业用途。

它的发布让全球的开发者能够在低成本 GPU 上对其进行微调,创造出更快的变体,并将其能力扩展到非英语应用。

“发布一个具有高效推理能力的开源权重模型可以让 AI 更加民主化,”埃默里大学信息系统与运营管理助理教授曹涵成说,“这让没有庞大基础设施的开发者也能使用它。”

然而,IndiaAI 对于是否应将公共资金支持的模型开源持中立立场。

辛格表示:“我们不想规定商业模式。印度一直支持开放标准和开源,但这取决于各个团队。目标是打造强大的印度模型,无论采取哪种路径。”

还有其他挑战。今年五月底,Sarvam AI 推出了 Sarvam‑M,这是一款拥有 240 亿参数、针对 10 种印度语言微调的多语言 LLM,基于法国公司 Mistral AI 开发的高效模型 Mistral Small。Sarvam 的联合创始人 Vivek Raghavan 称该模型是“我们为印度打造主权 AI 道路上的重要一步”。但其下载量并不理想,前两天仅有 300 次。风险投资人 Deedy Das 称这次发布“令人尴尬”。

而且问题不仅仅在于初期反响平平。印度的许多开发者仍然难以轻松获得 GPU,印度语 AI 应用的更广泛生态系统也仍处于起步阶段。

算力问题

算力短缺正成为生成式人工智能领域最重要的瓶颈之一,这不仅发生在印度,也在全球范围内普遍存在。对于那些仍然严重依赖进口 GPU 且缺乏本土芯片制造能力的国家来说,构建和运行大型模型的成本往往高得令人望而却步。

印度目前仍然主要依赖进口芯片,而不是在本土生产芯片,训练大型模型的成本依然很高。这也是为什么初创公司和研究人员都在关注软件层面的效率提升,比如采用更小的模型、更高效的推理方式,以及能够在更少 GPU 上优化性能的微调框架。

曹说:“基础设施的缺乏并不意味着创新的缺失。支持优化科学是在有限条件下开展工作的明智方式。”

然而,IndiaAI 的辛格认为,得益于新的政府项目和公私合作伙伴关系,基础设施方面的挑战正在发生转变。“我相信,在接下来的三个月内,我们将不再面临去年那样的算力瓶颈,”他说。

印度还具备成本优势。

据古普塔介绍,在印度建设一个超大规模数据中心的成本约为500万美元,大约是美国、欧洲或新加坡等市场的一半。这得益于土地价格低廉、建设和劳动力成本较低,以及庞大的技术工程师人才库。

目前,印度的人工智能雄心似乎并不是要超越 OpenAI 或 DeepSeek,而是更注重战略自主。无论其路径是采用更小型的主权模型、开放生态系统,还是公私混合模式,这个国家都在押注自己能够开辟一条独特的发展道路。

尽管一些专家认为政府对 DeepSeek 的行动或反应只是一种表演,符合其民族主义议程,但许多初创企业创始人却因此充满动力。他们认为,国家与私营部门日益增长的合作,为印度克服长期存在的科技创新结构性难题带来了真正的机遇。

在去年于班加罗尔举行的一次 Meta 峰会上,Infosys 董事长南丹·尼勒卡尼呼吁印度不要盲目追随他人的人工智能梦想。

“让硅谷的大公司来做吧,”他说到构建 LLMs 时表示。“我们会用它来生成合成数据,快速构建小型语言模型,并用合适的数据来训练它们。”

他认为印度应该注重实力而非表面功夫,这一观点引发了分歧。但这反映出一个更广泛且日益增长的共识:印度是否应该完全参与另一场游戏。

“试图主导技术堆栈的每一层并不现实,即使是中国也做不到,”印度公共政策非营利机构 Takshashila Institution 的研究员 Shobhankita Reddy 说。“主导某一层,比如应用、服务或人才,这样你才能不可或缺。”

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读