DeepSeek联合北大发布DSpark推理加速框架,生成速度飙升高达85%

首页 / AI资讯 / 大模型

2026年6月27日,DeepSeek团队联合北京大学正式发布名为《DSpark》的研究论文,提出一种基于推测解码(Speculative Decoding)的推理加速新框架。该框架旨在解决大语言模型在高并发生产环境中的推理效率瓶颈,已在DeepSeek-V4-Flash与DeepSeek-V4-Pro的预览版服务引擎中部署。根据官方公布的数据,在同等吞吐量水平下,DSpark可将单用户生成速度提升60%至85%。

DSpark的核心技术突破

DSpark的核心创新在于采用半自回归(semi-autoregressive)架构,将并行主干网络与轻量串行模块巧妙结合。传统大模型在生成文本时,采用的是逐个token顺序生成的方式——模型必须等当前token生成完成后,才能开始生成下一个token。这种串行机制虽然在质量上表现优异,但在高并发场景下,推理效率成为显著的瓶颈。

DSpark的解决思路是对推测解码技术的一次创造性革新。推测解码的基本思想是:先用一个轻量级的"草稿模型"快速生成多个候选token,再用原始的目标模型对这些候选token进行批量验证。如果草稿模型足够准确,多数候选token可以通过验证,从而实现一次性生成多个有效token的效果。DSpark在这个方向上的突破是,它采用了一种称为"块内token依赖建模"的新方法,在并行确认结构中建立块内token之间的关联关系,有效缓解了传统推测解码中末尾内容通过率衰减的问题。

梁文锋署名的深意

值得注意的是,这篇论文的作者名单中包含了DeepSeek创始人梁文锋,而且论文由DeepSeek与北京大学联合发布。通常而言,大模型公司的创始人亲自署名学术论文并不常见——这意味着DSpark的技术在DeepSeek公司内部具有极高的战略重要性。

梁文锋的署名向外界传递了几个关键信号:第一,推理效率是DeepSeek当前最重要的技术攻坚方向,创始人亲自下场参与核心研发;第二,DSpark代表了DeepSeek在系统优化层面的核心技术优势,是公司区别于其他大模型厂商的关键竞争力;第三,DeepSeek高度重视产学研合作,与北京大学的联合研究已产出实质性的技术成果。

实际部署效果:从实验室到生产环境

DSpark并非停留在学术论文中的概念性方案,而是已经部署到实际生产环境的成熟技术。DeepSeek官方表示,DSpark框架已集成到DeepSeek-V4-Flash和DeepSeek-V4-Pro的预览版服务引擎中,用户可以通过API直接体验到推理加速的效果。

在内部测试中,DSpark将标准QA场景下的端到端响应延迟从平均1.8秒降低至0.7秒,降低了约61%。在长文本生成任务中,生成一篇3000字的技术文章所需的等待时间从约45秒缩短至约18秒,用户体验有了质的飞跃。同时,在实际高并发场景中,DSpark帮助DeepSeek的推理集群吞吐量提升了约55%,意味着在相同硬件投入下可以服务更多用户。

开源生态与行业影响

DeepSeek承诺将DSpark的相关论文、训练代码及模型检查点全部在GitHub平台的DeepSpec项目中开源。这延续了DeepSeek一贯的开源传统——该公司的大模型权重和训练框架一直对社区开放,在全球AI开源社区中享有极高的声誉。

DSpark的开源将产生深远的行业影响。首先,其他大模型厂商(如Qwen、GLM等)可以借鉴DSpark的技术思路来提升自家模型的推理效率,推动整个中国AI产业的技术水平提升。其次,DSpark的代码仓库DeepSpec为推测解码方向的研究提供了标准化的实验基准,有助于学术界在这一方向上的进一步探索。同时,DSpark的技术也可以无缝迁移到其他与DeepSeek同架构的大模型中,意味着Qwen、Gemma等模型都可以从中受益。

推理效率竞赛的白热化

DSpark的发布标志着大模型推理效率竞赛进入新阶段。过去,大模型厂商的竞争焦点主要集中在模型规模和基准分数上,但随着模型参数量增长进入收益递减区间,推理效率成为了新的决胜点。谁能用更低的成本提供更快的推理速度,谁就能在商业竞争中占据优势。

此前,Google DeepMind通过其最新的计算架构减少了训练和推理成本,Meta的Llama 4系列也在推理效率方面取得了显著进步。DSpark的发布意味着中国AI厂商在推理效率技术领域已经达到了国际先进水平,不再仅仅是"跟随者"的角色。可以预见,未来12个月内推理效率的竞争将比模型规模的竞争更加激烈。

知识产权纠纷成为AI行业新常态

这并非Anthropic第一次指控竞争对手"窃取"技术。事实上,随着全球AI竞争的加剧,AI公司之间的知识产权纠纷正在快速增加。据知识产权律师事务所Fish & Richardson统计,2026年上半年全球AI相关的专利侵权和商业秘密案件数量较去年同期增加了约45%。AI模型"黑盒"特性使得此类纠纷的取证尤为复杂——由于模型的训练过程和架构设计通常属于商业机密,外界很难确凿判断一个模型是否借鉴了另一个模型的技术。因此,这类纠纷可能越来越多地从技术争议演变为法律和外交层面的较量。

AWS Bedrock:Token处理量的惊人增长

来源:腾讯新闻、36氪、新浪科技 发布时间:2026-06-28