中国数据存储服务平台

用GPU支持虚拟化,这是狗拿耗子吗?

今年VMworld 2020期间,在多云领域,VMware有两个重要发布:与NVIDIA建立合作伙伴关系,以及Project Monterey的计划。其中,与NVIDIA的合作可以让NVIDIA NGC线上的AI软件能够被集成至VMware vSphere、VMware Cloud Foundation和VMware Tanzu。相比,Project Monterey计划,是把数据网络和存储I/O功能从CPU上卸载到了Smart NIC(智能网卡)上,在充分利用I/O带宽的同时,让CPU专注于处理工作负载,而不是来处理数据I/O。Project Monterey用于支持数据中心裸机基础架构,最大程度实现计算资源共享,满足特定应用的具体需求,此外,通过把一部分计算处理卸载到Smart NIC之上,也有助于实现更多隔离分区,在防火墙等安全设备上也可以实现进一步集成和部署。

目前,VMware正在聚合、构建生态系统,已经和英特尔、NVIDIA、Pensando Systems达成合作,提供Smart NIC解决方案,透过与戴尔、慧与、联想等服务器厂商的合作,将系统级解决方案交付到市场。

很显然,与NVIDIA的合作是近期单独发布的Project Monterey计划的一部分,两家公司将携手推出基于SmartNIC技术的混合云架构,VMware Cloud Foundation和NVIDIA BlueField-2相结合,将提供专为AI、机器学习、高通量和以数据为中心的应用需求方案,方便用户将企业工作负载扩展至AI以外的应用加速,并通过全新架构提供额外安全层,减少CPU到Smart NIC和可编程DPU的数据通信。

看上去很复杂,实际上也很简单,如今数据中心最主要的变化,就是以CPU计算为核心向数据为核心的变化发展,除了CPU之外,GPU、DPU在数据中心的占比大幅度增加。此次发布的Project Monterey计划是为了适应这种趋势变化。

从商业的角度上讲,除了CPU之外,加强对GPU、DPU的支持也是预料之中的事情,可以说VMware的动作并不足够快,甚至说有些缓慢。但是对用户来说,用GPU、DPU支持虚拟化,将EXSi部署到SmartNIC,从概念上似乎不太好理解。

数据中心虚拟化,最初的目的是充分利用CPU资源,提高CPU资源的利用率。相比,GPU、DPU在AI等相关应用场景并不存在所谓“利用率”不足问题,只有不够用,哪有使用不足的问题,对于GPU、DPU进行虚拟化,道理何在?

对于CPU来说,就像猫捉老鼠,虚拟化应属于本分工作,哪里有卸载的道理?用SmartNIC承担虚拟化,不是狗拿耗子吗?

其实以上的理解都来自对于Project Monterey的误读。在Smart NIC上部署ESXi,目的并不是为了在GPU、DPU或者网卡上运行应用,其目的还是对于网络协议、存储协议等开销进行卸载,因此,SmartNIC是对CPU虚拟化的补充,减少CPU处理I/O的开销。这也意味着CPU不再涉足RDMA等类型的数据操作,至于CPU还是需要承载虚拟机划分等基础性质的操作。

有所为,有所不为,这是Project Monterey的精髓。

以上对于Project Monterey的理解,在采访中,得到了VMware产品与云服务首席运营官Rajiv Ramaswami的认可!

VMware产品与云服务首席运营官Rajiv Ramaswami

Rajiv表示“Project Monterey最终愿景就是实现一个可以完全解耦的基础架构,可以让不同的应用自由地去消费它们所需的基础设施的资源,可以从不同的位置,包括物理服务器上去调取它所需要的内存和其他的资源。”

未经允许不得转载:存储在线 » 用GPU支持虚拟化,这是狗拿耗子吗?
分享到: 更多 (0)