IDC此前的数据显示,2018年,全球数据量为33ZB,而在2025年,全球数据量将达到175ZB,这其中有80%都是非结构化数据。
宏观的数据趋势令人惊叹,存储厂商的反应更真实。
过去十年以来,国内的存储厂商陆续浮出水面,大部分都是瞄准非结构化数据的市场机遇,以应对互联网、大数据、物联网、机器学习等技术带来的数据浪潮。
从竞争的维度看,传统经典的SAN块存储可以创新的空间越来越少,市场也被几家老牌存储厂商牢牢占据,而以对象存储和文件存储为代表的非结构化数据存储,可创新的空间更大。
本文将结合青云存储QingStor的产品线调整,了解国内市场在非结构化数据存储技术和应用方面的创新。
对象存储与文件存储融合
青云在成立之初主要提供公有云服务,在存储方面,主打的就是云上的对象存储。伴随 2014 年进军私有云市场,青云同步布局本地存储。
青云在2017年推出了QingStor NeonSAN块存储,2018年,青云又推出了文件存储。至此,三大存储类型一应俱全,青云凭借QingStor产品线成为了企业级存储市场的专业玩家。
熟悉存储市场的人都知道,Gartner有个分布式文件和对象存储魔力象限,它是将文件和对象存储摆在一起说的,这是因为,文件存储和对象存储的数据有一些相似之处,都属于非结构化数据,用法相似,以至于很多人分不清楚两者有什么根本性区别。
2022年,青云将对象存储和文件存储两大产品线在产品层面上进行了一次融合,推出了一个叫QingStor U10000的非结构化存储产品,光是看见这样的名字就知道,它“很能存”!
青云科技存储产品总监冯相东表示,此次融合后,将不再单独售卖QingStor对象存储或者QingStor文件存储,而是只提供QingStor U10000。但用户可以单独购买QingStor U10000的对象存储或者文件存储服务的授权,可以只选其中一个,也可以同时选两个。
从实际应用的角度看,这种调整似乎更符合用户的实际需求,不仅能降低产品选型的难度,还能降低IT架构管理的复杂度。
如果企业想选购用于数据库、虚拟化场景的存储,对于性能有很高要求,那就选QingStor NeonSAN 块存储。NeonSAN的I/O时延可以控制在50微秒左右,3台NeonSAN的节点能稳定输出100 万的 IOPS,QingStor NeonSAN支撑多家金融企业稳定运行Oracle RAC集群。
除此之外的存储需求,包括影像数据、音视频数据、数据湖、大数据、物联网等场景都可以由U10000来满足。
U10000并不是为了融合而融合,得益于坚持自研的策略,青云将对象存储和文件存储在产品层次上深度融合后,开发出了一些新特性,特别是多协议无损互通这一特性。有了它,U10000可以更好地满足一些新兴场景的需求。
U10000的融合带来了什么?
QingStor U10000同时提供对象存储(S3)、文件存储(NFS/SMB)、大数据(HDFS)存储接口,与一些方案不同的是,U10000能在不同协议之间实现数据无损访问互通,而大部分存储产品不支持这一点。
并且U10000通过统一的索引架构实现多协议无损互通,这点非常重要。
冯相东表示,多协议无损互通指的是,不需要通过格式转化就能让对象存储存进来的数据,通过文件存储方式来访问,或者文件存储存进来的数据可以通过对象存储来访问。存储和读取数据之间不需要经过格式转化,这样就避免了性能和语义的损失。
除此之外,多协议无损互通还可以提高数据分析的效率。
冯相东解释称,一份数据在一个业务场景下可能需要多次利用,如果没有协议互通的话,就需要多次Copy数据。比如,在A业务空间处理完后,再拷贝到B存储空间,用另一种存储协议来访问,不仅需要进行数据迁移,还会额外占用存储空间。
据介绍,这种一份数据需要经过多个环节处理的场景越来越多,比如自动驾驶、基因测序等场景。
自动驾驶场景中,几十辆路测车每天产生差不多1PB的路测数据,这些数据通常需要四个处理环节。
第一个环节是上传和导入,通常需要用S3和NFS协议;第二个环节是数据预处理,主要用HDFS大数据分析相关技术;第三个环节是AI训练,以NFS协议为主;第四个环节涉及仿真测试,主要以NFS和SMB协议为主。
自动驾驶的完整数据链的处理环节,需要一份数据通过不同的数据访问协议来访问,对接不同的计算框架,而协议互通明显能提升数据分析的效率。
QingStor U10000作为一款分布式存储,它具有所有分布式存储必备的特征。比如:支持线性扩展。U10000最低3节点起步,随着节点数量的增长,存储容量和存储集群的性能都会线性增长。
U10000的存储效率比较高。通过可灵活配置的EC纠删码,能让整个集群的物理磁盘可用空间达到90%以上,存储效率对于U10000这种超大容量存储来说,经济意义特别大。
U10000的性能表现也不错,在支持线性扩展和EC纠删码技术的基础上,能为海量小文件提供高性能读写,单桶单目录能支持百亿级小文件存储,并且能做到性能不衰减。
海量小文件的性能表现受到越来越多关注,比如,在机器学习场景中,就需要大量小文件,一些训练需要几亿甚至十几亿的文件,存储性能问题会严重影响训练效率。
冯相东表示,U10000基于Rust语言编写,在性能和安全性上有较大提升。
在数据安全性机制方面,数据层面采用的是多副本技术,而元数据则进行了强一致性处理,元数据和存储数据进行了分层设计。此外,U10000还有多重访问安全机制、智能预警机制。
在运维管理方面,提供了友好的可视化管理界面,可以更好地对存储集群进行各种配置、操作和监控。
非结构数据存储创新实践
U10000 其实已经在非结构数据存储场景上有不少创新实践。
慈铭体检医疗集团的体检服务从预约阶段到报告获取都转到了线上,体检报告除了可以查看体检数据,还可以查看健康态势,背后依靠的是一套数据分析平台。
青云帮助该医疗集团构建了业务承载平台,使用了青云云易捷超融合平台,存储部分则是将数据与U10000对象存储做对接后,实现了对PACS系统的影像数据进行实时调取和长期存储,其中就用到了U10000协议互通的特性,实现了对象和文件互通,为AI医疗相关的创新应用提供了便利。
某智能驾驶科技公司,其自动驾驶研究业务的开展离不开高精度地图,高精度地图需要采集大量图片和视频数据,采集而来的数据需要经过多重处理,需要与各种数据分析和数据存储平台交互,在这种场景下,U10000协议互通的优势也能得到充分发挥。
在早期,其所有业务都运行在公有云上,处于安全方面的考虑,开始构建私有化的集群,由于该公司的规模比较大,对于服务提供商的能力要求也很高,青云的方案基本解决其高精度地图从数据采集、生产、训练整个生命周期的存储和算力需求。
苏州华兴源创是一家工业自动测试设备与整线系统解决方案提供商,主要测试产品用于LCD、柔性OLED、半导体、新能源汽车电子等行业的生产厂家,以及为行业提供定制化的数据融合软件平台。
华兴源创的数据挑战来自自有数据中心的中台、上层工厂流程再造、供应链优化以及安全保障四个方面,涉及到上百套业务系统,有各种各样类型的数据,业务平台对存储的需求也各不相同。
比如,关键业务数据需要有更多副本的存储,对性能要求高的应用需要全闪存的存储配置,数据增长快的应用需要扩展能力更强的存储,而这些需求,绝大部分都由QingStor U10000来满足,其余需求由NeonSAN块存储系统来满足。
清华大学天津电子信息研究院是清华大学电子信息学科的 “产学研一体化”的成果转化基地,其中的高端光电子芯片创新中心,从事芯片设计和开发方面工作,有许多EDA(电子设计自动化)设计需求,需要反复运算、验证,所以,他们对于数据存储系统的要求也很高。
EDA的前端设计阶段会出现大量的随机读写操作,后端设计阶段需要大量顺序读写操作,这对存储系统的综合能力要求很高,非常考验分布式存储架构的设计能力,实际上,U10000也能很好地满足其需求。
结束语
当然,青云不纯粹是一家存储公司,它还有公有云、私有云、容器平台、边缘计算等各种方案,这些都决定了青云的存储平台不只是存储,而是能对接各种算力平台的,是一款经过验证的存储平台。
正如青云产品技术解决方案总监张忠华所言,不能孤立地谈存储场景,而是要和多元化算力一起谈,因为,如今的企业用户越来越倾向于一个整体的方案,而不是组装的方案。
换句话说,用户可能并不关心存储,而更关心一套方案能为自己带来什么。而这,正是青云作为不纯粹的存储公司的优势。