数据存储产业服务平台

IBM发布Storage Scale KV Cache参考架构:大模型推理性能最高提升56倍

IBM近日发布了一本新的技术白皮书《Context Without Limits: A High-Performance KV Cache Platform for Large-Scale AI Inference》,介绍如何利用IBM Storage Scale构建大规模KV Cache管理平台,以解决生成式AI和Agentic AI推理场景中的上下文KV Cache问题。

该方案由IBM、英伟达和超微(Supermicro)联合设计验证。 

大模型推理正在遭遇KV Cache瓶颈

随着多轮对话助手、RAG应用以及AI Agent的普及,推理过程中会产生大量KV Cache数据。这些数据通常保存在GPU的HBM高带宽显存中,用于存储模型已经处理过的上下文信息。

如果KV Cache被驱逐出HBM,下次访问时就需要重新计算,不仅增加推理延迟,也会浪费昂贵的GPU算力。 

IBM提出五层KV Cache架构

为了让KV Cache能够在不同存储介质之间灵活流转,IBM和英伟达Dynamo推理框架共同设计了一套分层缓存体系:

  • G1:GPU HBM显存
  • G2:CPU DRAM内存
  • G3:本地SSD
  • G3.5:Pod级共享闪存层(BlueField DPU加速)
  • G4:外部共享存储层(IBM Storage Scale ECE) 

其中,G4层由IBM Storage Scale Erasure Coding Edition(ECE)运行在Supermicro Petascale Storage Server上构建,主要用于保存对延迟不敏感但容量需求较大的KV Cache数据。 

例如:

  • 长时间未访问的多轮会话状态
  • 多个Agent共享的上下文
  • 历史查询结果
  • 长上下文推理缓存数据

这些数据无需长期占用GPU显存,可以下沉到共享存储层。 

长上下文推理性能提升56倍

根据IBM公布的测试结果:

在130K Token超长上下文场景下,相比没有外部KV Cache存储的GPU系统,采用Storage Scale KV Cache后:

  • TTFT(首Token生成时间)几乎不再随着Prompt长度增加而增长
  • 推理速度最高提升56倍
  • 基本消除了长Prompt带来的延迟敏感性问题 

并发吞吐提升22倍

在200个请求并发测试中:

  • 系统吞吐量从0.19 RPS提升至4.26 RPS
  • 提升约22倍
  • 总处理时间减少95% 

IBM认为,这意味着GPU利用率显著提高,同样数量的GPU能够服务更多推理请求。 

网络干扰下仍保持高性能

即便在“噪声邻居”(Noisy Neighbor)测试中,4个客户端同时产生200GB/s网络流量干扰:

  • 系统仍可维持3.6 RPS推理性能
  • 200个请求在55.56秒内完成
  • 相比重新计算KV Cache方案,吞吐量提升18倍 

存储开始进入AI推理关键路径

过去AI基础设施主要关注GPU、CPU和网络,而随着上下文长度从几千Token增长到数十万甚至百万Token,KV Cache正在成为新的基础设施瓶颈。

IBM此次发布的参考架构表明,存储系统已经不再只是AI训练的数据仓库,而正在成为AI推理链路中的关键组成部分。通过将KV Cache扩展到共享存储层,可以在不增加GPU数量的情况下提升推理吞吐量和资源利用率,为企业部署大规模Agentic AI提供新的基础设施方案。 

未经允许不得转载:存储在线-存储专业媒体 » IBM发布Storage Scale KV Cache参考架构:大模型推理性能最高提升56倍