研究表明,即使是最好的人工智能模型也会产生许多幻觉
一项研究发现,即便是最先进的生成式AI模型(如OpenAI的GPT-4o和谷歌的Gemini)仍频繁出现“幻想”现象。研究表明,这些AI模型在生成无误信息的过程中仍存在众多问题,准确性仅为35%。尽管各种AI公司声称其模型的幻想问题有所消减,但实际测试显示并无显著改善。此外,研究指出,减轻幻想问题不仅需要技术改进,还需人类专家参与进行事实核查。
关键点
- 所有生成式AI模型会产生“幻想”现象,甚至是最好的模型。
- 不同模型生成虚假信息的概率不同,与其接触的信息源有关。
- 在涉及法律、健康等话题时,无模型在所有领域都有突出的表现。
- AI模型生成无幻想文本的准确率约为35%。
- 即使开放AI,如GPT-4o,在文本生成准确性上与旧型号相差不大。
- 人类专家的参与是减轻AI幻想的潜在解决方案。
- 科学合理的测试评估方法对于改善AI幻想问题至关重要。
Study suggests that even the best AI models hallucinate a bunch