ARC Prize Foundation分析称,OpenAI的GPT-5.5和Anthropic的Opus 4.7在ARC-AGI-3基准测试中系统性地犯三种推理错误,导致正确率低于1%,而人类可轻松解决。