提升超长上下文本推理吞吐，百度百舸 ESS 技术报告新鲜奉上

作者：xxinjiang2025.12.12 16:17浏览量：101

简介：提升超长上下文本推理吞吐，百度百舸 ESS 技术报告新鲜奉上

【问题】长文本推理被「显存墙」卡住在 32K 至 128K 超长上下文场景中，DeepSeek-V3.2-Exp 的 Decode 阶段需维护一个随序列长度线性增长的 Latent Cache。该 Cache 在 128K 下可占用数十 GB GPU 显存，迅速耗尽资源。
结果：

【策略】ESS 以「卸载 + 预取」为核心：

【方案】三层协同实现高效「卸载 + 预取」：
1.高带宽传输，让数据「搬得快」🚀
挑战：Latent Cache 仅 656 字节、访问离散，传统拷贝带宽 <1 GB/s
方案：

2.智能预取，让数据「搬得准」🎯
挑战：预取不准 → 无效搬运 → 性能反降
方案：

3.计算通信重叠，让搬运「不挡路」🔄
挑战：Decode 计算量小，难掩传输延迟
方案：

【价值】吞吐显著提升 ✨
基于高精度模拟器测试结果，数据如下：

更多详细内容，请阅读 ESS 技术报告全文：https://arxiv.org/abs/2512.10576。

活动