本文作者Noemi Greyzdorf是IDC的研究经理。
必须在长时间内保留的数据量仍在继续增加,这不仅是因为受监管和合规要求的推动,而且也是因为商业最佳实践的要求。2014年前非结构化数据整体的增长率预计将达到60%。由于一些行业(比如医疗卫生、媒体娱乐和政府部门)内容的数字化,以及对这些内容的保留要求,比如要保存更长时间并保存在多个副本上,需要长期保留的数据量的增长正在加快。IT组织也在试图寻找更加具有成本经济性的方式来保留长期信息,同时还要保证这些信息可以得到方便的检索和定位。
当归档达到100TB和数据必须在无限制的时间内得到保留的时候,对架构的要求将更加复杂,同时如果仅仅使用旋转式存储媒介的话,那么存储的效率和经济性将很差。各个行业都需要高效地存储数据,同时还要保持数据的完整性,这不仅是监管上的要求也是商业上的要求。对于拥有大型归档的组织而言,他们的需求包括:
持续性。即能够在系统内持续地存储数据,不会因为系统升级或数据迁移而受到影响。
成本经济性。尽管内容可能是静态的,但是内容的价值不会减少,因此我们必须确保数据的完整性和可靠性,同时确保不会因为性能的过量配置而带来不必要的成本。
环境管理的简单性,自动化任务,系统设计的灵活性和敏捷性。
可扩展性。归档应该要可以扩展到PB级以上。
一个开放的环境。这个环境应该要可以方便地利用下一代技术并充分利用这些新上市技术的好处,无论是更高的存储密度、新的存储接口还是新的存储媒介。
面向上述这些要求的技术在不断发展。今天,许多寻求构建大型非结构化文件目录或归档的组织可以选择如下的一些方法和解决方案。每种方案都有自己的优缺点:
向外扩展且基于文件的存储系统采用的是标准组件、高密度机箱和同一个命名空间下的驱动器。这些系统经常使用分层方法,随着数据访问频率发生变化,将数据从快速的存储媒介迁移到更密集但更慢速的存储媒介或反过来。这些环境可以扩展到PB级容量,并且它们还有一个优势,即数据始终存储在旋转式媒介上,因此应用程序或用户一直都可以直接访问这些数据。智能存储阵列支持下的底层存储可确保数据的冗余性和系统的可用性。使用这种系统的缺点在于对物理环境的潜在挑战(数据中心空间面积和能耗)和成本。
可扩展归档系统使用磁盘和移动媒介(比如磁带)来创建大型内容目录。这些系统的接口通常是标准的网络协议,比如CIFS(通用互联网文件系统)或NFS(网络文件系统)。数据在刚开始的时候存储在磁盘上,随着时间推移,逐渐迁移到磁带上。这种系统可以在磁带库里面或在架上跟踪磁带上的数据,因此数据的位置对用户或应用程序来说都是透明的。磁带的使用可以带来低成本的归档,同时对数据中心空间使用或能耗的影响也很小。使用磁带–尤其是在库外磁带–的问题是,如果环境没有得到定期调整和维护,那么它容易随着时间推移而发生故障。如果要处理大量磁带,那么其中所花费的人工成本从人力角度来看可能会比较高。
最近公布的面向LTO(线性开放协议)-5磁带的开源LTFS(线性磁带文件系统)允许LTO-5驱动器直接连接到计算机,这样数据可以直接复制或迁移到磁带匣中进行存储。磁带匣可以进行分区,一个分区存储索引和磁带匣中所有数据的位置,另一个分区存储所有实际数据。对于小型组织来说,这是一种高成本经济性的方式,可以利用原始文件格式创建数据归档。在原始格式下,在带数据迁移引擎的第三方软件对数据的访问或恢复过程中,数据拥有更高的独立性。这种解决方案的缺点在于可扩展性和管理性。每次只有一个磁带驱动器可以连接到计算机。在大型环境中,从操作上来说,这种做法显得很没有效率。数据可以复制或迁移到使用LTFS插件的磁带驱动器。没有集中化的管理框架来跟踪所有数据的位置或启动磁盘检索。LTFS这次也没有解决我们此前所看到的在磁带上存储长期数据的缺点。
许多组织创建备份磁带然后将它送去站外来作为归档。这种做法如今还在继续,不过有了一些小变动。一些组织开始利用云存储服务来创建主数据中心以外的内容归档。两种方式都可行,不过在成本、操作效率和存储媒介可用性上仍然存在一些问题。
在所有这些解决方案中,新的自动化管理和减少数据占用的技术将帮助用户应对在更长时期内存储更多数据的挑战。平台的标准化和裸设备的智能管理将进一步帮助用户创建和维护可扩展的和持续的内容归档。
智能化和自动化的管理以及数据分类和索引可以协助用户的商业政策来迁移、存储、保护和删除数据。
数据压缩和重复数据删除等技术可以减少大型文件目录中的数据占用,减少冗余性和白空间,从而带来更高的数据密度,使存储系统可以在维持数据完整性的前提下实现更高的存储效率。
用户也可以使用弹性的架构,即利用多种不同的目标媒介,包括云服务。这样可以实现数据存储的高效性,同时还不损失系统的简便性、管理性或控制性。这种架构将得到更多用户接受并得到更大的发展。