2026年7月,AI4S领域最引人注目的趋势之一,是"科学大模型"的全面崛起。所谓科学大模型,是指专门为科学发现——而不是通用的聊天对话或内容生成——而设计、训练和优化的大型AI基础模型。与通用大模型(如GPT、Claude)的"什么都会但什么都不专"不同,科学大模型在训练数据、模型架构和推理策略上都针对科学研究的特殊需求进行了深度定制。2026年上半年,DeepMind的GNoME 2、微软的MatterGen、华为云的盘古科学大模型和智谱的GLM-Science等科学大模型几乎同时发布了重大更新,标志着AI4S正在从"将通用AI工具应用于科学问题"的零散探索阶段,进入了"为科学量身打造专用AI基础设施"的系统化建设阶段。
DeepMind在2026年4月发布的GNoME 2(Graph Networks for Materials Exploration 2),是目前全球规模最大的科学大模型之一。GNoME 2是一个专门为材料科学设计的图神经网络基础模型,其参数量超过1000亿,在超过1亿个已知和预测的无机晶体结构数据上进行了预训练。GNoME 2能够同时完成多项材料科学的"核心任务":预测一种尚未合成的晶体材料的稳定性和合成可行性、计算新材料的热力学性质(如形成焓)和电子结构特征(如带隙和态密度)、以及预测材料在特定条件下的服役性能。
GNoME 2在发布时展示了其最令人印象深刻的能力——"材料属性的零样本预测"。传统上,预测一种新材料的性质需要针对该材料或同类材料的大量实验数据进行模型微调。GNoME 2通过其大规模的预训练,在"第一次"接触到一种全新的、从未在训练数据中出现过的晶体结构时,就可以对该结构的稳定性和电子性质做出可靠的预测。在测试中,GNoME 2对一个包含3800种全新晶体的测试集的稳定性预测准确率达到了89%,而其前代版本GNoME 1在同一测试集上的准确率仅为72%。GNoME 2还首次实现了"成分到性质"的端到端预测——给定一组化学元素组成和预期的晶体对称性约束,模型可以直接预测该材料在哪些合成条件下可能稳定存在以及其可能的性能范围。这种能力对于高通量材料筛选来说极其有价值——研究人员可以在虚拟环境中"筛选"数百亿种可能的材料成分,而不需要逐一进行复杂的计算模拟。
微软研究院在2026年5月发布的MatterGen则走出了一条与GNoME 2不同的技术路线。MatterGen的核心是一个基于扩散模型的"材料生成器"——类似于DALL-E或Stable Diffusion生成图像的方式,MatterGen可以从随机噪声中逐步"去噪"生成具有目标性能特征的晶体材料结构。传统材料发现的流程是"先确定材料体系,再测试性能是否满足需求";MatterGen的做法是"先描述你需要的性能,AI再生成满足该性能的材料结构"——这是一种真正的"逆向设计"能力。
华为云的盘古科学大模型则是中国科学大模型阵营中最具代表性的选手。盘古科学大模型在2026年6月的版本更新中,首次实现了"跨学科"的科学能力统一——一个模型可以在材料科学、气象科学、药物化学和分子生物学四个完全不同领域的科学任务中获得接近甚至超越领域专用模型的性能。这种"多学科泛化"能力的技术基础是一种被称为"科学知识蒸馏"的训练策略——盘古科学大模型首先在数十亿条跨学科的科学论文、专利、实验数据和专利文本上进行预训练,学习科学知识的"通用表示",然后再在具体学科的任务数据上进行轻量级微调。在实际测试中,盘古科学大模型在气象预测(与盘古气象大模型对比)、分子性质预测(与领域专用图神经网络对比)和蛋白质-配体结合预测(与结构和序列模型对比)三个跨学科任务上,均取得了相当于专精模型90%到95%的性能——而一个模型的维护成本远远低于维护三个独立的专用模型。
科学大模型的全面崛起,预示着一个更加深远的变革正在到来:科学研究的基础设施正在从"数据库+计算集群"升级为"科学大模型平台+自动化实验系统"。在这个新的科研范式下,科学家与"发现"之间的关系将被根本性地改变。在传统的科研范式中,科学家提出假设、设计实验、收集数据、分析结果——这是一个线性的、人力密集的过程。在"科学大模型驱动"的新范式中,AI可以自动完成假设生成、候选筛选、实验方案设计和结果预测等大部分"高重复性脑力劳动",科学家的核心角色从"提出和验证假设的人"转变为"定义科学问题和评估AI输出的人"。
以GLM-Science在药物研发中的应用为例。智谱AI在2026年5月与北京大学合作开展了一项"AI驱动的全新药物靶点发现"项目。GLM-Science模型在分析了超过100万篇生物医学论文和专利后,自主提出了一条全新的药物靶点假设——一种此前从未被与疾病关联的转运蛋白,可能是某种难治性肿瘤的潜在药物靶点。该假设与北大团队独立分析的结果高度吻合,后续的实验验证也证实了这一靶点的临床价值。如果这一工作由人类科学家来完成——从海量文献中系统性地搜索、整理和关联信息来提出新假说——可能需要一个由5名资深研究员组成的团队工作1到2年。而GLM-Science从"阅读"文献到"提出"假说只用了不到一周。科学大模型最重要的贡献可能不是"更快地预测材料性质"或"更准确地计算分子能量",而是在"更宽阔的知识视野中提出新的科学问题"——而这种提出新问题的能力,才是科学进步最本质的驱动力。