Google 的 DataGemma AI 是统计向导
Google推出了DataGemma,一对开源的AI模型,旨在改善大型语言模型在处理统计数据查询时的“幻觉”现象。DataGemma模型依托Google的Data Commons平台,通过两种方法提高对统计数据查询的准确性——“检索交错生成”(RIG)和“检索增强生成”(RAG)。在早期测试中,这些模型在对数据准确性的处理上有显著改善,尤其在研究和决策制定相关的查询中表现良好。
关键点
- Google推出DataGemma以应对大型语言模型在处理统计数据时的幻觉问题。
- DataGemma模型使用Data Commons平台的大量真实数据保障回答的准确性。
- 模型采用“检索交错生成”(RIG)和“检索增强生成”(RAG)两种方法提升数据查询的准确性。
- 在101个查询测试中,RIG模型将准确性从基本模型的5-17%提高到约58%。
- RAG虽然效果稍逊,但仍优于基线模型,并能产生更详尽的回答。
- DataGemma在大多数查询中数字处理准确率达到99%,但有时难以正确推断。
- Google期望通过DataGemma的公开发布推动更深入的研究,从而开发出更強大的模型。