本期推荐了UXBench、MemLens、RoadmapBench等多个新一代AI评测基准,它们从用户体验、多模态记忆、长周期编程、规划能力等维度评估模型在真实世界中的表现,标志着评测从’打分’转向’诊断’。