美团LongCat发布General 365推理基准:主流大模型及格率不足六成

首页 / AI资讯 / 大模型

General 365基准:大模型推理能力的"照妖镜"

2026年6月25日,美团LongCat团队正式发布了名为"General 365"的通用推理基准测试框架。这个被业界称为大模型推理能力"照妖镜"的基准测试,包含365道精心设计的推理题目,覆盖逻辑推理、数学推理、常识推理、多步规划和反事实推理五大维度。每个题目都经过严格的人工审核和交叉验证,确保不存在数据泄露和记忆化偏差。

General 365的设计理念与现有的推理基准有本质区别。大多数现有基准测试(如MMLU、HellaSwag、WinoGrande等)通过选择题或简单问答形式评估模型知识储备,容易被模型的记忆能力所欺骗。而General 365要求模型展示完整的推理链条,考察的是"如何得出答案"而非"答案是什么"。测试包括开放式证明题、需要多个推理步骤的复杂问题和对抗性场景分析等类型。

美团LongCat团队表示,开发General 365的初衷是解决当前大模型评测"分数虚高"的问题。"很多模型在现有基准上取得接近甚至超过人类的分数,但在实际应用中仍然表现不佳。这说明现有的评测体系存在系统性偏差。"美团LongCat团队负责人表示,"我们需要一个能够真正反映模型推理能力的'压力测试'。"

测试结果深度分析:顶尖模型在推理门槛前的集体失语

General 365的测试结果令人震惊。在参与测试的26个主流AI模型中,没有一款模型的准确率超过70%。表现最好的Google Gemini 3 Pro仅取得了62.8%的准确率,紧随其后的是Claude Opus 4.5(61.3%)和GPT-5.2(59.7%)。绝大多数模型的得分集中在45%-55%之间,也就是说,这些被广泛认为具有"强人工智能"潜力的模型,在General 365上的表现甚至不如随机猜测好多少。

具体到各维度的表现来看,模型在基础逻辑推理和简单数学运算方面的表现相对较好,准确率能够达到70%-80%。但一旦涉及需要多个步骤的复杂推理、需要创造性思维的开放式问题,以及需要理解隐含假设的反事实推理,模型的准确率就急剧下降至30%-40%。在"反事实推理"维度,所有模型的平均准确率仅为27.3%,成为最大的能力短板。

有趣的是,模型参数量与General 365得分之间并不呈现简单的正相关关系。一些参数量较小的专业推理模型(如专门优化的MoE架构模型)在测试中的表现反而优于参数量更大的通用模型。这表明,推理能力的提升不能仅仅依靠"堆参数",更需要架构创新和训练策略的优化。

推理能力瓶颈:大模型距离"真正理解"还有多远

General 365的测试结果引发了行业对大模型推理能力本质的深入思考。当前的主流大模型基于Transformer架构和自回归生成范式,其核心能力是"模式匹配"和"序列预测",而非人类式的"逻辑推理"和"概念理解"。当问题超出训练数据中常见模式的覆盖范围时,模型往往表现出所谓"幻觉"或"混淆"现象。

MIT的一项最新研究从神经科学角度揭示了这一问题:当人类进行推理时,大脑的前额叶皮层会产生特定的神经活动模式,支持抽象概念的激活和推理链条的构建。而大模型则完全依赖统计分布完成"看似推理"的输出——在General 365的对抗性测试中,当研究人员有意引入与训练数据中常见模式相矛盾的条件时,模型几乎毫无例外地选择了"走捷径"而不是"深入思考"。

这一发现并不意味着大模型没有价值,而是提醒行业需要更理性地看待AI能力的边界。美团LongCat团队的测试报告明确指出:"大模型在信息检索、模式识别、语言生成等任务上已经超越了人类水平,但在真正意义上的推理和理解方面,我们距离AGI还有很长的路要走。"

评测体系的革命:从"知识储备"到"认知能力"的范式转变

General 365的发布正在推动大模型评测体系从"知识储备评估"向"认知能力评估"的根本性转变。传统的评测方法关注的是模型"知道什么"——模型的参数中存储了多少知识和信息。而General 365关注的是模型"如何思考"——模型能否进行系统化的推理、能否处理新颖问题、能否识别并纠正自己的错误。

这一范式转变对AI产业的影响是多方面的。对于模型开发者而言,新的评测标准将引导研究方向从"扩大参数规模"转向"提升推理效率"和"增强思维链能力"。对于应用开发者而言,建立对模型能力的更准确认知,有助于设计更加合理的人机协作流程——知道模型在哪些场景下可靠,在哪些场景下需要人类介入。对于投资者而言,这一评测框架为评估不同AI公司的技术实力提供了新的视角。

美团LongCat团队已经将General 365基准完全开源,并计划每季度更新题库以防止数据污染。已有超过15个国际顶级AI实验室表达了合作意愿,共同完善这一评测体系。这种开放合作的姿态有望推动AI评测走向更科学、更透明的方向。

来源:美团LongCat技术博客、VentureBeat、机器之心、MIT Tech Review、ArXiv

发布时间:2026-06-26