logo

提升超长上下文本推理吞吐,百度百舸 ESS 技术报告新鲜奉上

作者:xxinjiang2025.12.12 16:17浏览量:5

简介:提升超长上下文本推理吞吐,百度百舸 ESS 技术报告新鲜奉上

【问题】长文本推理被「显存墙」卡住在 32K 至 128K 超长上下文场景中,DeepSeek-V3.2-Exp 的 Decode 阶段需维护一个随序列长度线性增长的 Latent Cache。该 Cache 在 128K 下可占用数十 GB GPU 显存,迅速耗尽资源。
结果:

  • Batch Size 无法扩大
  • GPU 算力大量闲置
  • 吞吐上不去,成本下不来

【策略】ESS 以「卸载 + 预取」 为核心:

  • 将 Latent Cache 主体卸载到 CPU 内存
  • 仅在 GPU 动态保留小而精的热点子集
  • 在每步 Decode 前主动预取所需数据回 GPU
    完全无损精度,打破 Batch Size 对 GPU 显存的依赖。

【方案】三层协同实现高效「卸载 + 预取」:
1.高带宽传输,让数据「搬得快」🚀
挑战:Latent Cache 仅 656 字节、访问离散,传统拷贝带宽 <1 GB/s
方案:

  • 基于 UVA,GPU 直访 CPU pinned memory
  • 自研 FlashTrans 算子,聚合小请求、消除调度开销
    效果:H2D/D2H 带宽达 37–43 GB/s 📈

2.智能预取,让数据「搬得准」🎯
挑战:预取不准 → 无效搬运 → 性能反降
方案:

  • 利用 Latent Cache 的强时间局部性
  • GPU 用 LRU 管理 Sparse Memory Pool
  • Prefill 阶段末尾 Top-K 条目预热缓存(LRU-Warmup)
    效果:显著降低 Cache Miss

3.计算通信重叠,让搬运「不挡路」🔄
挑战:Decode 计算量小,难掩传输延迟
方案:

  • DA Overlap:用 Attention 前置计算掩盖 Latent Cache 预取延迟
  • DBA Overlap:长上下文下沿 Batch 拆 Indexer,扩大重叠窗口
    效果:数据搬运隐藏于计算流水线,关键路径无阻塞

【价值】吞吐显著提升 ✨
基于高精度模拟器测试结果,数据如下:

  • 32K 上下文:吞吐提升 69.4%
  • 128K 上下文:吞吐提升 123%
  • → 显著降低长文本推理成本💰

gusePicPrefetch1.jpg
更多详细内容,请阅读 ESS 技术报告全文:https://arxiv.org/abs/2512.10576。

相关文章推荐

发表评论