推理性能大幅提升！北大与DeepSeek联合开源大模型推理框架DSpark

倚天百科百科资讯 2026-06-28 15:10:30 2

6月28日消息，据媒体报道，北京大学与深度求索（DeepSeek）近日联合发布并开源了大模型推理加速框架DSpark，该框架直击大语言模型高并发推理场景下的效率瓶颈。

在同等吞吐量条件下，DSpark可使单用户文本生成速度提升60%至85%，相关论文及训练代码已同步上线GitHub开放共享。

当前大语言模型普遍采用自回归生成机制，每生成一个词元均需执行完整前向计算，致使对话响应延迟居高不下。推测解码已成为主流提速路线，但现有方案存在明显局限：串行草稿模型随生成长度增加耗时显著攀升，并行草稿模型则在长序列中候选接受率快速衰减，高并发下算力浪费严重，系统吞吐量受限。

针对上述两大核心痛点，DSpark构建了双重创新优化机制。在候选生成层面，采用半自回归架构：依托改良并行主干网络一次性输出候选基础特征，辅以轻量化顺序模块补充文本依赖关系。

仅两层Transformer结构即可超越五层传统并行模型性能，兼顾生成速度与候选质量。在验证调度层面，创新引入置信度调度验证机制，通过硬件感知前缀调度器，动态结合实时算力负载与候选存活概率分配算力资源，优先验证高可靠文本片段，显著减少无效计算损耗。

研究团队基于通义千问3、Gemma4等主流大模型，在数学推理、代码编写与日常对话三大任务中展开多场景测试。结果显示，DSpark单轮有效生成长度全面优于Eagle3、DFlash两种主流基线模型。

以Qwen3-4B为例，DSpark相比Eagle3提升30.9%，相比DFlash提升16.3%，既保留了并行架构的首位生成速度优势，又有效缓解了长序列候选有效率的衰减问题。

工程落地层面，研发团队完成了多项底层系统优化。训练阶段优化数据传输逻辑，采用序列打包策略降低算力与内存消耗；部署端设计异步调度模式，避免GPU流水线卡顿，并通过逻辑与物理计算解耦，灵活适配动态变长验证需求，同时兼容主流CUDA硬件生态。

DSpark已率先落地DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎。线上真实流量实测表明，在不同用户响应速度标准（SLA）下，系统整体吞吐量实现跨越式增长。

V4-Flash引擎在保证单用户80 token/s生成速度时，吞吐量较原有基线提升51%；要求120 token/s高速输出时，吞吐量优势高达661%。

V4-Pro引擎在35 token/s和50 token/s标准下吞吐量分别提升52%和406%。系统还能依据在线并发量自动调节验证文本长度，低负载时充分释放算力，高负载时平滑控制资源竞争，灵活适配多变业务流量。

据介绍，DSpark仍存在一定优化空间，尤其在复杂低适配查询场景下，完整候选块生成会产生固定算力开销。当前，深度求索已在GitHub DeepSpec项目中开源DSpark、DFlash、Eagle3全套训练代码、评估工具与模型权重，为行业低成本落地高性能大模型推理服务提供完整技术方案，助力人工智能产业降低线上部署成本、提升用户交互体验。

本文地址： http://www.yitian.cc/49170.html

文章来源：倚天百科