2026年6月17日,西湖大学郭天南教授团队联合上海交通大学医学院和哈尔滨医科大学等单位,在国际顶尖学术期刊《自然》上发表了一项具有里程碑意义的研究成果——人体蛋白质组高精地图。研究团队利用AI大模型技术,从超过10亿个质谱数据点中识别出了数千个此前未被发现的蛋白质亚型和修饰模式,首次以单细胞分辨率呈现了人体主要器官和组织的蛋白质表达全景图谱。这一成果被誉为"AI+生命科学"交叉领域的一次标志性突破,开创了生物医药科研的新范式。
蛋白质是生命活动的主要执行者——人体的几乎所有生理过程,从细胞内的信号传导到肌肉的运动收缩,都是由蛋白质驱动的。然而,人体中究竟有多少种蛋白质、每种蛋白质在哪些组织和细胞中表达、表达量随年龄和疾病状态如何变化——这些基础性问题长期以来因技术手段的限制而缺乏完整的答案。传统的蛋白质组学研究方法——如质谱分析——虽然能够识别蛋白质,但受限于数据处理的效率和精度,通常只能识别出蛋白质组中的"冰山一角"。
西湖大学团队联合多家机构绘制的人体蛋白质高精地图,是通过整合AI大模型和超高分辨率质谱技术实现的。研究团队使用AI驱动的数据解析引擎处理了来自人体20个主要器官和组织的超过5000份样本的质谱数据,总数据量超过10亿个数据点。AI模型在数据解析中扮演了核心角色——它不仅能够自动校正质谱数据的噪声和偏差,还能够从未被传统方法解读的"废弃数据"中识别出有价值的蛋白质信号,大幅提升了质谱数据的利用效率。
这项研究的另一个重要发现是——大量蛋白质的修饰形式和亚型在传统方法下被忽略了。研究发现同一个基因编码的蛋白质可能以数十种甚至上百种不同的修饰形式存在,这些修饰形式分别执行不同的生物学功能。传统研究方法通常只能检测到丰度最高的蛋白形式,忽略了大量低丰度但功能性重要的蛋白修饰。AI大模型的介入使得这些"隐藏的蛋白质"得以被系统性地识别和分类,为理解疾病的分子机制提供了全新的视角。
蛋白质组学研究面临的最大挑战之一是"数据沼泽"困境——现代质谱仪每小时可以产生数亿个数据点,但传统的数据分析方法只能从中提取出一小部分可解读的信息,大量数据因为信噪比低、模式复杂或超出预设的搜索范围而被忽略。AI大模型的出现改变了这一局面——通过在海量的质谱数据上进行无监督预训练和迁移学习,AI模型学会了从看似杂乱的噪声信号中识别出真实的蛋白质信号模式。
郭天南教授在论文中描述的AI数据处理流程代表了一种新的科研方法论——"AI先学再找"。传统方法是"先设定好搜索范围再执行匹配"——研究者预设可能存在的蛋白质类型和修饰形式,然后让算法去匹配。这种方法的问题是——你只能找到你已经知道要寻找的东西,无法发现真正的新蛋白或新修饰。AI大模型的方法则完全相反——模型先在大量无标注数据上自主学习蛋白质的质谱信号特征,然后再用学到的知识去未知数据中寻找异常和新的信号模式。这种"AI先学再找"的方法论,使研究团队找到了大量此前被传统方法遗漏的蛋白质信息。
人体蛋白质地图的绘制为疾病机理研究和药物靶点发现提供了前所未有的重要基础数据。有了这份"蛋白质地图",研究人员可以精确地知道某个蛋白质在哪个器官的哪种细胞类型中表达、随着年龄增长表达量如何变化、在疾病状态下是否发生异常修饰。这些信息对于理解疾病机制、识别药物靶点和预测药物副作用具有不可替代的价值。多个研究团队已经基于这份蛋白质地图开始了疾病相关蛋白的专项研究。
西湖大学的这项研究及其采用的方法论,代表了生命科学研究正在经历的一次"范式跃迁"——从"湿实验为主、干分析为辅"走向"干湿闭环、AI驱动"。传统的生物医药科研流程是"提出假说→设计实验→进行湿实验→分析数据→验证假说",AI主要在数据分析环节起作用。而"干湿闭环"新范式的核心特征是——AI不仅用于数据分析,还参与假说提出、实验设计和结果预测的全过程,形成"AI预测→湿实验验证→数据反馈→AI优化预测模型"的闭环飞轮。
郭天南团队在项目中的工作流程是这一新范式的典型案例:AI首先从已有的蛋白质数据和公开数据库中进行大规模的模式学习和知识图谱构建;然后基于学习到的模式预测哪些蛋白质修饰形式最可能与疾病相关并生成候选假说;实验团队根据AI的预测设计针对性的质谱实验进行验证;验证结果反馈回AI模型,用于优化和修正预测模型。经过多个"干-湿"循环迭代后,AI预测的准确率逐步提升,最终形成了可信度高的蛋白质组学全景图谱。
这种"干湿闭环"研究范式正在被越来越多的生命科学研究团队采纳。从AI辅助药物发现到AI驱动的基因编辑靶点设计,从AI预测蛋白质结构到AI解析单细胞测序数据,"AI+生命科学"正在成为生物医学领域最具活力的交叉研究方向。中国科技部已将"AI+生物医药"列入国家重点研发计划的优先支持方向,计划在2026~2030年间投入超过100亿元人民币用于支持相关研究。可以预见,AI与生命科学的深度融合将在未来几年内催生一系列突破性的科研成果和新的治疗方法。