美团LongCat发布General 365推理基准：主流大模型及格率不足六成-AI资讯-广州文趣文化传播有限公司

全部 AI大厂大模型 AI智能体 AI绘画 AI视频 AI音乐 AI硬件泛AI领域

General 365基准：大模型推理能力的"照妖镜"

2026年6月25日，美团LongCat团队正式发布了名为"General 365"的通用推理基准测试框架。这个被业界称为大模型推理能力"照妖镜"的基准测试，包含365道精心设计的推理题目，覆盖逻辑推理、数学推理、常识推理、多步规划和反事实推理五大维度。每个题目都经过严格的人工审核和交叉验证，确保不存在数据泄露和记忆化偏差。

General 365的设计理念与现有的推理基准有本质区别。大多数现有基准测试（如MMLU、HellaSwag、WinoGrande等）通过选择题或简单问答形式评估模型知识储备，容易被模型的记忆能力所欺骗。而General 365要求模型展示完整的推理链条，考察的是"如何得出答案"而非"答案是什么"。测试包括开放式证明题、需要多个推理步骤的复杂问题和对抗性场景分析等类型。

美团LongCat团队表示，开发General 365的初衷是解决当前大模型评测"分数虚高"的问题。"很多模型在现有基准上取得接近甚至超过人类的分数，但在实际应用中仍然表现不佳。这说明现有的评测体系存在系统性偏差。"美团LongCat团队负责人表示，"我们需要一个能够真正反映模型推理能力的'压力测试'。"

测试结果深度分析：顶尖模型在推理门槛前的集体失语

General 365的测试结果令人震惊。在参与测试的26个主流AI模型中，没有一款模型的准确率超过70%。表现最好的Google Gemini 3 Pro仅取得了62.8%的准确率，紧随其后的是Claude Opus 4.5（61.3%）和GPT-5.2（59.7%）。绝大多数模型的得分集中在45%-55%之间，也就是说，这些被广泛认为具有"强人工智能"潜力的模型，在General 365上的表现甚至不如随机猜测好多少。

具体到各维度的表现来看，模型在基础逻辑推理和简单数学运算方面的表现相对较好，准确率能够达到70%-80%。但一旦涉及需要多个步骤的复杂推理、需要创造性思维的开放式问题，以及需要理解隐含假设的反事实推理，模型的准确率就急剧下降至30%-40%。在"反事实推理"维度，所有模型的平均准确率仅为27.3%，成为最大的能力短板。

有趣的是，模型参数量与General 365得分之间并不呈现简单的正相关关系。一些参数量较小的专业推理模型（如专门优化的MoE架构模型）在测试中的表现反而优于参数量更大的通用模型。这表明，推理能力的提升不能仅仅依靠"堆参数"，更需要架构创新和训练策略的优化。

推理能力瓶颈：大模型距离"真正理解"还有多远

General 365的测试结果引发了行业对大模型推理能力本质的深入思考。当前的主流大模型基于Transformer架构和自回归生成范式，其核心能力是"模式匹配"和"序列预测"，而非人类式的"逻辑推理"和"概念理解"。当问题超出训练数据中常见模式的覆盖范围时，模型往往表现出所谓"幻觉"或"混淆"现象。

MIT的一项最新研究从神经科学角度揭示了这一问题：当人类进行推理时，大脑的前额叶皮层会产生特定的神经活动模式，支持抽象概念的激活和推理链条的构建。而大模型则完全依赖统计分布完成"看似推理"的输出——在General 365的对抗性测试中，当研究人员有意引入与训练数据中常见模式相矛盾的条件时，模型几乎毫无例外地选择了"走捷径"而不是"深入思考"。

这一发现并不意味着大模型没有价值，而是提醒行业需要更理性地看待AI能力的边界。美团LongCat团队的测试报告明确指出："大模型在信息检索、模式识别、语言生成等任务上已经超越了人类水平，但在真正意义上的推理和理解方面，我们距离AGI还有很长的路要走。"

评测体系的革命：从"知识储备"到"认知能力"的范式转变

General 365的发布正在推动大模型评测体系从"知识储备评估"向"认知能力评估"的根本性转变。传统的评测方法关注的是模型"知道什么"——模型的参数中存储了多少知识和信息。而General 365关注的是模型"如何思考"——模型能否进行系统化的推理、能否处理新颖问题、能否识别并纠正自己的错误。

这一范式转变对AI产业的影响是多方面的。对于模型开发者而言，新的评测标准将引导研究方向从"扩大参数规模"转向"提升推理效率"和"增强思维链能力"。对于应用开发者而言，建立对模型能力的更准确认知，有助于设计更加合理的人机协作流程——知道模型在哪些场景下可靠，在哪些场景下需要人类介入。对于投资者而言，这一评测框架为评估不同AI公司的技术实力提供了新的视角。

美团LongCat团队已经将General 365基准完全开源，并计划每季度更新题库以防止数据污染。已有超过15个国际顶级AI实验室表达了合作意愿，共同完善这一评测体系。这种开放合作的姿态有望推动AI评测走向更科学、更透明的方向。

来源：美团LongCat技术博客、VentureBeat、机器之心、MIT Tech Review、ArXiv

发布时间：2026-06-26

←OpenAI联手博通推出Jalapeño自研芯片：AI芯片市场格局迎来新变量

Google DeepMind将计算机使用能力原生集成到Gemini 3.5 Flash→