推理性能大幅提升!北大与DeepSeek联合开源大模型推理框架DSpark

倚天百科 百科资讯 2

6月28日消息,据媒体报道,北京大学与深度求索(DeepSeek)近日联合发布并开源了大模型推理加速框架DSpark,该框架直击大语言模型高并发推理场景下的效率瓶颈。

在同等吞吐量条件下,DSpark可使单用户文本生成速度提升60%至85%,相关论文及训练代码已同步上线GitHub开放共享。

当前大语言模型普遍采用自回归生成机制,每生成一个词元均需执行完整前向计算,致使对话响应延迟居高不下。推测解码已成为主流提速路线,但现有方案存在明显局限:串行草稿模型随生成长度增加耗时显著攀升,并行草稿模型则在长序列中候选接受率快速衰减,高并发下算力浪费严重,系统吞吐量受限。

针对上述两大核心痛点,DSpark构建了双重创新优化机制。在候选生成层面,采用半自回归架构:依托改良并行主干网络一次性输出候选基础特征,辅以轻量化顺序模块补充文本依赖关系。

仅两层Transformer结构即可超越五层传统并行模型性能,兼顾生成速度与候选质量。在验证调度层面,创新引入置信度调度验证机制,通过硬件感知前缀调度器,动态结合实时算力负载与候选存活概率分配算力资源,优先验证高可靠文本片段,显著减少无效计算损耗。

研究团队基于通义千问3、Gemma4等主流大模型,在数学推理、代码编写与日常对话三大任务中展开多场景测试。结果显示,DSpark单轮有效生成长度全面优于Eagle3、DFlash两种主流基线模型。

以Qwen3-4B为例,DSpark相比Eagle3提升30.9%,相比DFlash提升16.3%,既保留了并行架构的首位生成速度优势,又有效缓解了长序列候选有效率的衰减问题。

工程落地层面,研发团队完成了多项底层系统优化。训练阶段优化数据传输逻辑,采用序列打包策略降低算力与内存消耗;部署端设计异步调度模式,避免GPU流水线卡顿,并通过逻辑与物理计算解耦,灵活适配动态变长验证需求,同时兼容主流CUDA硬件生态。

DSpark已率先落地DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎。线上真实流量实测表明,在不同用户响应速度标准(SLA)下,系统整体吞吐量实现跨越式增长。

V4-Flash引擎在保证单用户80 token/s生成速度时,吞吐量较原有基线提升51%;要求120 token/s高速输出时,吞吐量优势高达661%。

V4-Pro引擎在35 token/s和50 token/s标准下吞吐量分别提升52%和406%。系统还能依据在线并发量自动调节验证文本长度,低负载时充分释放算力,高负载时平滑控制资源竞争,灵活适配多变业务流量。

据介绍,DSpark仍存在一定优化空间,尤其在复杂低适配查询场景下,完整候选块生成会产生固定算力开销。当前,深度求索已在GitHub DeepSpec项目中开源DSpark、DFlash、Eagle3全套训练代码、评估工具与模型权重,为行业低成本落地高性能大模型推理服务提供完整技术方案,助力人工智能产业降低线上部署成本、提升用户交互体验。