您现在的位置是：首页 > 头条新闻 >

换个角度思考大数据存储问题

2013-09-27 15:23:08作者：来源：

摘要一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一项则是大数据分析，关注在最短时间内处理大量不同类型的数据集。...

　　关于大数据的定义，IDC给出了权威评判标准：满足4V(Variety,Velocity,Volume,Value，即种类多、流量大、容量大、价值高)指标的数据称为大数据。IDC对大数据技术的定位为：通过高速捕捉、发现和/或分析，从大容量数据中获取价值的一种新的技术架构。大数据主要涉及两个不同的技术领域：一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一项则是大数据分析，关注在最短时间内处理大量不同类型的数据集。这两个论题已经被充分讨论，这里不准备再作讨论，而是换个角度思考一下大数据，事实上可能与大数据存储平台更相关一点。这些需求或者思考，或源自用户模糊的需求，或源自存储同行的交流讨论，还有一些源自存储实践中的感悟。

　　统一存储

　　大数据种类多，涵盖了结构化数据、非结构化数据以及对象数据，分别采用数据块接口、文件接口和对象接口进行访问。目前的大多数企业还没有将三者统一起来，采用不同的存储系统来管理这三类数据，在大数据快速增长的压力下，带来存储利用效率低、管理复杂性高、成本不断提升、资源整合程度低等一系列问题。在这些因素驱动下，统一存储概念得到复兴，SAN/NAS统一存储得到各大存储厂商推崇并相继推出产品，对象存储也有望被一同整合到统一存储中。

　　磁带存储

　　一直都有人在预测磁带已死，不过可惜的是，直到目前这个预测还没有成真。相比磁盘，磁带具有成本、寿命、能耗等特性和优势，另外磁带技术本身也在不断发展。关于磁带在大数据中的使用，最为典型是做数据归档，比如上面谈到的长期存储和绿色归档，这里面的数据基本不会被访问。另外还有一种形式是分级存储HSM，磁带、磁盘、SSD固态硬盘、内存形成四级存储，数据按照活跃程度在不同级别存储介质之间流动，以实现较高的性价比。HSM中位于磁带的数据会被访问，只是频率和概率非常低。由于磁带自身的优势以及不断发展，它可能不但不会消亡，反而会在大数据时代重获新生。

　　存储介质寿命管理

　　大数据存储系统具有成千上万块磁盘很常见，可能包括FC、SAS、SATA磁盘，还有可能包括SSD固态硬盘和磁带等存储介质。这么大数量的存储介质，每天坏上一两块盘的概率是非常的，不可控制的故障发生会影响前端大数据应用。存储介质的使用年限都有标准，可以基于此进行存储介质寿命管理，结合实际环境进行适当调整，并根据存储介质运行状态进行分析和故障预测。当存储介质使用寿命即将到达，或者预测到故障即将发生，则主动通知管理员对存储介质进行更换，之后有系统自动进行数据重建。如此，可以有效降低存储介质发生故障的随机性，增强故障的可管理性，再结合人为的调度，就可降低或者避免故障发生对大数据应用的影响。

　　绿色归档

　　由于法规遵从或长期存储的需要，数据根据生命周期管理需要进行归档处理，采用方法有磁带归档、磁盘归档、光盘归档、CAS系统归档等。大数据数据量大，如果采用磁盘介质进行归档，磁盘数量会很多，正常工作下能耗也是相当可观。为了降低能耗实现绿色归档，同时有效延长磁盘使用寿命，需要考虑相关高效存储技术，包括MAID、SemiRAID、数据压缩、重复数据删除、自动精简配置等。这些技术主要从两个方面着手，一是精减数据量以减少磁盘介质达到降低能耗的目标，如数据压缩、重复数据删除、自动精简配置，二是控制磁盘介质状态或减少活动磁盘数量来实现降低能耗和延长寿命，如MAID和SemiRAID。SNIA相关组织专门研究绿色存储技术，包括提到的上述各种技术。

　　数据备份

　　信息作为现代企业的核心资产，一旦发生数据损坏或丢失，小则带来不同程度的经济损失，大则关系企业生存。因此，现在企业对重要数据备份都不得不高度重视。在大数据之前，企业需要备份的数据量通常在GB级-数十TB级之间，上百TB的数据量的企业非常之少。从备份技术角度看，全备份/增量备份/差异备份的备份窗口会很大，CDP的并发I/O捕获和处理能力要超强，否则大量数据都来不及备份。从备份数据量看，备份所需要的存储空间至少生产数据量的一倍以上，这个成本是巨大的。还有重点的一点是，大数据通常都是分布式采集、存储和处理的，实现统一的数据备份对备份系统是个技术挑战。或许，大数据天然不合适采用备份技术，而需要由存储系统本身的机制来解决。

　　长期存储

　　信息有生命周期，金融/商业/财务/通信/法律等很多数据都需要遵从法规保存相应年限，一些重要的科学实验数据和历史资料甚至要永久保存。大数据作为现代企业有重要价的资产，长期保存基本都是必要的，比如10-20年甚至永久。长期存储，看似很简单的事情，实际上有很多问题需要解决。几百个TB或者PB级的大数据，假设是非活动的历史数据，采用什么介质进行存储?磁盘，磁带，还是光盘?采用离线还是近线方式?如何监控巨大数量存储硬件设备的状态?采用什么方法来保证海量数据的完整性?如何发现长期存储中的问题并修复?需要的时候如何简便快速地查询和获取数据?另外，还需要考虑存储所占用空间和能耗问题。面对这些问题，我们就会发现大数据长期存储也是一个很大的挑战，一方面需要提高存储介质的持久性、智能性、可靠性等，另一方面需要信息生命周期管理系统进行完善的管理和监控。

　　数据查询

　　数据访问是存储系统最基本的功能之一。传统的数据访问方式，都是根据文件名来定位和访问数据。文件名标识具有一定的表意性，但非常不足，很难通过文件名对数据本身的内容和特征进行理解。这种查询访问语义非常差，需要用户给出准确的文件名，否则就无法进行定位和访问。随着文件数量的不断增加，它将给用户对数据的访问带来很大的困难。现实世界中，人们主要根据事物的特征记忆和区分不同的事物，而非简单的名字。在实际应用中，如果能够提供基于文件属性和内容的数据访问方式，丰富的语义将会极大地增加数据的表意性，从而大大方便用户的使用，提高数据访问效率。

　　Internet中，用户在Web搜索引擎中输入内容关键字就可以查询到自己想要的数据。数据库系统中，使用SQL语言查询记录，可以指定相关条件对查询记录进行筛选。由此可见，与传统的数据访问方式相比，基于数据内容和属性的数据访问方式具有很强的语义，能有效提高数据定位和访问效率，可以很大程度上降低用户的使用复杂性，适合于各种数据存储系统，尤其是分布式存储系统。目前，自然语言处理和WEB语义网络都有了长足的发展，大数据管理中如何能实现基于语义的数据访问方式，不仅可以提高了查询效率，而且符合人们的思维模式，能够提供更加友好的数据访问界面。

(本文不涉密)
责任编辑：

上一篇：美团网王兴：摔倒也要往前摔

下一篇：李健：OA升级提高杜康管理时效