中国数据存储服务平台

AI大模型+科教,曙光存储蓄势待发

在刚结束的2024重庆教育展上,教育大模型成为行业关注热点,大模型在教育科研领域的前景令人期待,似乎预示着一次科研和教育的新升级。

我们看到,大模型既可以帮助研究人员解析复杂的生物医学数据,加速新药的发现,也可以在物理学中模拟前所未见的实验环境。在教育领域,大模型可以通过精确分析学生的学习习惯和表现,提供个性化的教学资源和学习路径。

曙光存储公司副总裁  杨志雷

大模型应用正在打开教育和科研领域未来可能性的大门,其潜力广泛且深远。但大模型作为新的技术热点,也给数据存储带来了新的挑战。活动当天,中科曙光存储产品事业部副总经理,曙光存储公司副总裁 杨志雷发布科教存储解决方案,助力科教行业领跑AI。

助力科教行业领跑AI

曙光存储被业内人士称之为“最懂科教的头部存储厂商”,这是因为曙光存储与国内教育科研领域的合作素来紧密,深度参与了很多教育科研单位的信息化和科研系统相关工作,其中又以科研领域为重中之重。在深耕教科研领域的同时,其自身的产品技术架构在也得到了不断优化。

杨志雷表示,曙光存储的核心技术和人才大多来源于国内顶尖的高校和科研院所,因此与这些机构有着天然的亲和力和深入的合作关系。他强调,曙光存储对于科研领域的存储解决方案尤为关注,因为科研领域对性能和稳定性有极高的需求。

在杨志雷看来,科研领域非常关注时间和效率,因为科研成果的早晚直接影响学术地位和研究投资的回报。在这种背景下,科研人员需要依赖高效稳定的IT基础设施来加速研究过程,而曙光正是提供这种高性能和高稳定性解决方案的企业。

曙光存储通过与用户的互动和反馈,不断改进其产品,帮助科研工作者提高工作效率,效率提升甚至能够达到数十倍。这不仅增强了用户对曙光存储产品的信任和满意度,也提升了产品在市场上的竞争力。

眼下,生成式人工智能(GenAI)在科研领域的前景令人非常期待,在材料科学、生物医药、气候科学等领域都有诱人的前景,对于曙光来说,可以利用原有存储产品技术优势和客户资源积累方面的优势,帮助科研领域更快利用生成式AI技术带来的价值。

面向AI大模型进行了大量优化

始于2022年年底的AI技术浪潮在2024年仍旧热度不减,对于普通人来说,AI大模型是不折不扣的新生事物,而对于IT技术领域的一些专家而言,这些都并不陌生。

杨志雷介绍称,大模型相关的一些技术已经发展了很长时间,此前受制于硬件、网络和数据质量等因素,导致发展受限,但IT行业的共同努力已显著推动了大模型技术的实用化。

大模型需要大量的算力,也需要大量的数据,而作为数据支撑的存储系统要做些什么呢?对此,杨志雷表示,针对AI和AIGC场景,曙光存储,特别是ParaStor在存储系统的稳定性和性能方面做了很多优化工作。

曙光的分布式存储ParaStor是国内存储市场的重量级产品,它能灵活地满足不同需求。作为高性能的AI存储系统,它可以通过单个集群支持完整的大模型应用的开发生命周期,其最大的特点是,支持千亿级文件存储和智能管理技术。

存储系统的稳定性对生成式AI应用体验至关重要。特别是在实时数据生成方面,更高的稳定性可以避免造成用户体验上的问题。从技术方面来讲,ParaStor通过优化硬件设备来减少系统延迟和卡顿,确保所有数据通路在接收到前端数据请求时保持稳定。

为了提高存储系统的稳定性,曙光采用了定制的机型,这些机型针对散热、电源质量和内部电信号等进行了优化,以确保它可以提供高于一般硬件的可靠性。这些对于存储系统的正常使用至关重要,对于未来面对规模更大的数据,更大的模型也都非常必要。

性能是另外一个重要的方面。针对当前火热的大模型技术,曙光ParaStor展现了其高性能存储解决方案,已实现超过1TB每秒的带宽和超过3000万的IOPS,性能参数上足以满足大模型训练和落地的需求。

为了提高实际使用体验。曙光存储在硬件架构和软件层面都针对性能做了很多优化。比如,实施基于目录的预读取和缓存管理,存储系统会识别并对热点数据进行管理,进行预读、缓存,以优化数据访问和处理速度,快速响应前端的重复查询。

实际应用场景中,用户可能不只有AIGC场景,ParaStor分布式存储可以将存储池中的一部分节点用在其他场景。针对对于性能更敏感的AIGC的部分,通过提供最优的网络路径和数据访问速度,提高其数据的读写性能,从而保障服务质量(QoS)。

杨志雷在介绍中还提到了XDS数据直通加速技术。它允许存储系统直接把数据传给AI加速器,减少了CPU和缓存之间的数据调动,显著提高了数据处理速度。这种存算协同的优化,可显著减少AI训练时间,有效提升了整体的运算效率和资源利用率。

从曙光存储在性能、稳定性上的优化,以及在安全性上的布局,看得出,曙光存储已经为生成式AI大模型做好了充分的准备。

存力基础设施面对生成式AI会碰到的问题

在采访中,杨志雷也谈到了以存储系统为代表的存力基础设施,在面对大模型火热发展中遇到的几个挑战。

首先是存力与算力需求不均衡的问题。杨志雷指出,许多用户在积极快速地购买大量算力设备,但在如何有效利用这些设备上缺乏清晰规划。他认为,存储系统(存力)是算力的重要补充,还需要与高速网络等其他基础设施同步考虑。

对存储系统性能重要性认识有所欠缺。他提到,许多用户在购买存储设备时缺乏对所需性能的了解。对于有几百张高性能显卡组成的集群,到底需要存储提供多大的存储带宽,很多用户其实并没有清楚的概念。

对于这类问题,曙光存储做了非常多调研和实践工作。杨志雷表示,曙光存储会给用户非常明确的数字,可以具体指导用户,多少张显卡,什么样类型的显卡,应该配套多大的带宽,多少IOPS。

另外一个关于存储系统需要具备的一些关键功能,比如关于多租户和数据安全的功能。

杨志雷认为,在提供算力服务时,多租户的需求和安全隔离都非常重要。完备的多租户功能允许多个用户共享同一个存储系统,而且能保障数据隔离和安全性,防止数据泄露和未授权访问。

未经允许不得转载:存储在线 » AI大模型+科教,曙光存储蓄势待发
分享到: 更多 (0)