受够了 ChatGPT,拉丁美洲要自己造一个
该地区数十家机构正联手开发一款能更好理解拉丁美洲文化与语言特色的大语言模型

- 智利已与拉丁美洲及加勒比地区的 30 家机构合作,共同开发 Latam-GPT。
- Latam-GPT 已从该地区收集了超过 8TB 的数据——接近 ChatGPT 3.5 数据规模的五分之一。
- 由于智利正经历持续多年的干旱,该项目可能造成的环境影响引发担忧。
五月的某个清晨,智利首都圣地亚哥的平面设计师胡安·帕尔玛向 ChatGPT 询问从家到附近地铁站的路线。几秒钟内,聊天机器人就给出了回复——却指引帕尔玛走向了完全相反的方向。
帕尔马意识到,作为全球最受欢迎的生成式人工智能模型之一,ChatGPT 在这个南美国家显得水土不服。”我对 ChatGPT 回答中的方向性错误感到惊讶,”他告诉《Rest of World》,”我对这个工具的准确性有着不同的期待。”
尽管包括 GPT 和 Meta 的 Llama 在内的大型语言模型都接受了多种非英语语言的广泛数据训练,但它们对这些语言的掌握仍然有限,尤其是在方言和地方习语方面。为了弥补这些导致错误答案和幻觉(即虚构内容)的缺陷,拉丁美洲 30 多家机构在过去两年里一直在开发 Latam-GPT。这个将于 9 月向公众开放的开源 LLM,正由当地人员负责训练,他们会充分考虑语言和文化上的细微差别。
智利主导的拉美 GPT 项目”正在为拉丁美洲打造属于拉丁美洲人的人工智能”,未参与该项目的智利 IT 公司 Sonda 颠覆性技术负责人埃克托·布拉沃告诉《Rest of World》,”这意味着重新定义成功标准——不仅是准确度或速度,还包括文化代表性、社会影响力和可及性”。
布拉沃表示,拉美 GPT 设计支持深度多语言能力,涵盖纳瓦特尔语、克丘亚语和马普切语等原住民语言,以及加勒比地区等地的方言变体。
拉美 GPT 项目正在为拉丁美洲打造属于拉丁美洲人的人工智能。
拉丁美洲正效仿其他地区的做法。东南亚的 Sea-Lion 是开源 LLMs 家族,除英语外还训练了十余种地区语言。非洲用户可使用至少五种不同语言 (包括科萨语和祖鲁语)与 UlizaLlama 交互。而印度的 BharatGPT 支持 14 种以上地区语言,政府近期还宣布正在构建自主 LLM。
拉丁美洲在采用人工智能方面进展缓慢。但根据联合国开发计划署 2025 年发布的《拉丁美洲和加勒比地区人工智能地图集》报告,该地区正迎头赶上,其中智利在监管和制度建设方面处于领先地位 。智利国家人工智能中心(CENIA)成立于 2021 年,不久后便提出了 Latam-GPT 的构想。
“考虑到该计划的规模,我们知道需要众多利益相关者的广泛协作,”CENIA 负责人阿尔瓦罗·索托告诉《Rest of World》。他的团队希望打造一个”具有开放精神”的项目,为此开始整合数据库并招募大学、政府机构和民间组织参与其中。
去年,CENIA 为 Latam-GPT 项目在拉美地区、美国和西班牙签署了 33 项战略联盟协议,最终整合了 500 亿参数——相当于 ChatGPT 3.5 的规模。
尽管 GPT 和 Llama 2 等 LLMs 支持包括西班牙语在内的多语言能力,但其训练数据集多来自西班牙或由英语原文翻译而来,限制了其对文化及语言细微差别的理解能力。Latam-GPT 技术预训练负责人奥马尔·弗洛雷斯向《Rest of World》表示,该项目采用来自学校、企业、图书馆及历史文本的数据进行训练,”有助于模型更好地理解拉美用户的语境和需求”。
该地区对生成式人工智能平台的需求日益增长。销售分析平台 DemandSage 数据显示,巴西已成为用户数量仅次于美国和印度的 ChatGPT 第三大使用国,Llama 模型下载量在拉美地区也呈现激增态势。教师与学生将其引入课堂场景,企业主则借助其提供客户服务。甚至政府机构也通过部署这类工具来缩短行政流程——例如布宜诺斯艾利斯的司法系统就运用 ChatGPT 起草法律裁决书。
显然,ChatGPT 背后的资源远超 Latam-GPT,后者在可预见的未来将仅支持文本处理。索托表示,该模型在通用问题和与拉丁美洲无关的议题上也会表现滞后。
智利人工智能公司 Orión 的首席执行官卡洛斯·奥诺拉托对 Rest of World 表示:”Latam-GPT 需要超高容量基础设施、专业人才和相关数据集——这三个领域在拉美地区仍存在差距。”
尽管如此,智利私立高等教育机构杜克大学信息与通信技术系副主任卡洛斯·冈萨雷斯向《Rest of World》表示,该项目”标志着缩小与北半球人工智能差距的战略开端”。
要取得成功,拉美 GPT 必须确保原住民、移民社群和其他历史上被边缘化的群体参与其中。
此外还有其他挑战。全球范围内,环境专家已对 LLMs 的长期影响发出警告,这类模型通常消耗大量能源和水资源。在许多国家(包括智利),当地居民抵制建设数据中心——这些设施承载着训练和构建人工智能模型所需的基础设施。
Latam-GPT 的计算基础设施位于智利北部的塔拉帕卡大学,该地区已遭受干旱侵袭数十年。但智利软件开发与云咨询公司 Wingsoft 的首席执行官达尼洛·纳拉霍向《Rest of World》表示:”即便训练这样一个模型 40 天所需的电力相当于数千户家庭的用电量”,这仍只占该国能源总消耗的极小部分。
CENIA 团队表示,他们采用了灵活可扩展的云端基础设施,能优化资源并降低能耗。同时利用太阳能供电,此举将大幅减少对环境的影响。
法律分析人士还担忧拉丁美洲数据隐私法规的拼凑性,这可能导致诉讼和制裁。例如,巴西拥有健全的立法,而邻国玻利维亚则缺乏全面的个人数据保护法。
“这类问题可能因个人信息处理不当而造成严重的负面声誉影响,”阿道夫·伊巴涅斯大学教授里卡多·利略告诉《Rest of World》。
尽管标榜代表性,部分专家仍担忧本土 LLM 能否准确呈现少数群体——以及这些群体如何获得使用权限。智利创新中心推广机构 Hub APTA 首席执行官瓦林卡·法伦向《Rest of World》表示,虽然其设计较全球模型有所进步,但数据可获得性仍是障碍。
法伦指出,Latam-GPT 要取得成功,必须确保”原住民、移民社群及其他历史上被边缘化的群体参与模型验证”。
CENIA 总经理罗德里戈·杜兰向《Rest of World》表示,这正是 Latam-GPT 的目标之一。他透露,虽然初期测试结果令人鼓舞,但实现这一目标很可能至少需要十年时间。
在他看来,拉美 GPT 的最大贡献”将证明我们——拉丁美洲和加勒比地区——拥有执行如此雄心勃勃项目的能力与人才”,杜兰说道。