IBM发布Storage Scale KV Cache参考架构：大模型推理性能最高提升56倍-存储在线-存储专业媒体

IBM近日发布了一本新的技术白皮书《Context Without Limits: A High-Performance KV Cache Platform for Large-Scale AI Inference》，介绍如何利用IBM Storage Scale构建大规模KV Cache管理平台，以解决生成式AI和Agentic AI推理场景中的上下文KV Cache问题。

该方案由IBM、英伟达和超微（Supermicro）联合设计验证。

大模型推理正在遭遇KV Cache瓶颈

随着多轮对话助手、RAG应用以及AI Agent的普及，推理过程中会产生大量KV Cache数据。这些数据通常保存在GPU的HBM高带宽显存中，用于存储模型已经处理过的上下文信息。

如果KV Cache被驱逐出HBM，下次访问时就需要重新计算，不仅增加推理延迟，也会浪费昂贵的GPU算力。

IBM提出五层KV Cache架构

为了让KV Cache能够在不同存储介质之间灵活流转，IBM和英伟达Dynamo推理框架共同设计了一套分层缓存体系：

G1：GPU HBM显存
G2：CPU DRAM内存
G3：本地SSD
G3.5：Pod级共享闪存层（BlueField DPU加速）
G4：外部共享存储层（IBM Storage Scale ECE）

其中，G4层由IBM Storage Scale Erasure Coding Edition（ECE）运行在Supermicro Petascale Storage Server上构建，主要用于保存对延迟不敏感但容量需求较大的KV Cache数据。

例如：

长时间未访问的多轮会话状态
多个Agent共享的上下文
历史查询结果
长上下文推理缓存数据

这些数据无需长期占用GPU显存，可以下沉到共享存储层。

长上下文推理性能提升56倍

根据IBM公布的测试结果：

在130K Token超长上下文场景下，相比没有外部KV Cache存储的GPU系统，采用Storage Scale KV Cache后：

TTFT（首Token生成时间）几乎不再随着Prompt长度增加而增长
推理速度最高提升56倍
基本消除了长Prompt带来的延迟敏感性问题

并发吞吐提升22倍

在200个请求并发测试中：

系统吞吐量从0.19 RPS提升至4.26 RPS
提升约22倍
总处理时间减少95%

IBM认为，这意味着GPU利用率显著提高，同样数量的GPU能够服务更多推理请求。

网络干扰下仍保持高性能

即便在“噪声邻居”（Noisy Neighbor）测试中，4个客户端同时产生200GB/s网络流量干扰：

系统仍可维持3.6 RPS推理性能
200个请求在55.56秒内完成
相比重新计算KV Cache方案，吞吐量提升18倍

存储开始进入AI推理关键路径

过去AI基础设施主要关注GPU、CPU和网络，而随着上下文长度从几千Token增长到数十万甚至百万Token，KV Cache正在成为新的基础设施瓶颈。

IBM此次发布的参考架构表明，存储系统已经不再只是AI训练的数据仓库，而正在成为AI推理链路中的关键组成部分。通过将KV Cache扩展到共享存储层，可以在不增加GPU数量的情况下提升推理吞吐量和资源利用率，为企业部署大规模Agentic AI提供新的基础设施方案。

IBM发布Storage Scale KV Cache参考架构：大模型推理性能最高提升56倍

大模型推理正在遭遇KV Cache瓶颈

IBM提出五层KV Cache架构

长上下文推理性能提升56倍

并发吞吐提升22倍

网络干扰下仍保持高性能

存储开始进入AI推理关键路径

zhupb

相关推荐

近期文章