IBM近日发布了一本新的技术白皮书《Context Without Limits: A High-Performance KV Cache Platform for Large-Scale AI Inference》,介绍如何利用IBM Storage Scale构建大规模KV Cache管理平台,以解决生成式AI和Agentic AI推理场景中的上下文KV Cache问题。
该方案由IBM、英伟达和超微(Supermicro)联合设计验证。
大模型推理正在遭遇KV Cache瓶颈
随着多轮对话助手、RAG应用以及AI Agent的普及,推理过程中会产生大量KV Cache数据。这些数据通常保存在GPU的HBM高带宽显存中,用于存储模型已经处理过的上下文信息。
如果KV Cache被驱逐出HBM,下次访问时就需要重新计算,不仅增加推理延迟,也会浪费昂贵的GPU算力。
IBM提出五层KV Cache架构
为了让KV Cache能够在不同存储介质之间灵活流转,IBM和英伟达Dynamo推理框架共同设计了一套分层缓存体系:
- G1:GPU HBM显存
- G2:CPU DRAM内存
- G3:本地SSD
- G3.5:Pod级共享闪存层(BlueField DPU加速)
- G4:外部共享存储层(IBM Storage Scale ECE)
其中,G4层由IBM Storage Scale Erasure Coding Edition(ECE)运行在Supermicro Petascale Storage Server上构建,主要用于保存对延迟不敏感但容量需求较大的KV Cache数据。
例如:
- 长时间未访问的多轮会话状态
- 多个Agent共享的上下文
- 历史查询结果
- 长上下文推理缓存数据
这些数据无需长期占用GPU显存,可以下沉到共享存储层。
长上下文推理性能提升56倍
根据IBM公布的测试结果:
在130K Token超长上下文场景下,相比没有外部KV Cache存储的GPU系统,采用Storage Scale KV Cache后:
- TTFT(首Token生成时间)几乎不再随着Prompt长度增加而增长
- 推理速度最高提升56倍
- 基本消除了长Prompt带来的延迟敏感性问题
并发吞吐提升22倍
在200个请求并发测试中:
- 系统吞吐量从0.19 RPS提升至4.26 RPS
- 提升约22倍
- 总处理时间减少95%
IBM认为,这意味着GPU利用率显著提高,同样数量的GPU能够服务更多推理请求。
网络干扰下仍保持高性能
即便在“噪声邻居”(Noisy Neighbor)测试中,4个客户端同时产生200GB/s网络流量干扰:
- 系统仍可维持3.6 RPS推理性能
- 200个请求在55.56秒内完成
- 相比重新计算KV Cache方案,吞吐量提升18倍
存储开始进入AI推理关键路径
过去AI基础设施主要关注GPU、CPU和网络,而随着上下文长度从几千Token增长到数十万甚至百万Token,KV Cache正在成为新的基础设施瓶颈。
IBM此次发布的参考架构表明,存储系统已经不再只是AI训练的数据仓库,而正在成为AI推理链路中的关键组成部分。通过将KV Cache扩展到共享存储层,可以在不增加GPU数量的情况下提升推理吞吐量和资源利用率,为企业部署大规模Agentic AI提供新的基础设施方案。


