您现在的位置是：首页 > IT基础架构 > 计算存储 >

云存储服务中可证明数据持有及恢复技术研究

2012-07-06 15:27:00作者：陈兰香许力来源：

摘要本文综述了可证明数据持有及恢复技术在国内外的研究现状，讨论了云存储服务的安全性与可靠性需求，并研究云存储服务对可证明数据持有及恢复方案的特殊要求，从而明确在云存储环境下可证明数据持有及恢复技术的研究方向。 ...

　1. 引言

　　图灵奖获得者吉姆·格雷(Jim Gray)在其获奖演说[1]中指出：由于互联网的发展，未来每十八个月新产生的数据量将是有史以来数据量之和。人类社会产生的数据信息一方面来自于互联网，一方面来自于日常生产及各种科学试验，例如科学计算和仿真、飞行动力学、核爆炸仿真、太空探测及医疗影像数据等每天所产生的数据信息更是大到了惊人的程度[2]。

　　信息存储系统朝无限的带宽、无限的容量和无限的处理能力(Infinite Bandwidth, Infinite Capacity, Infinite Processing Capability)，即“3i”方向发展，提出“Anytime, Anywhere, Anything”的目标，即要求数据在任意时间、任意地点实现任意数据访问。存储产品不再是附属于服务器的辅助设备，而成为互联网中最主要的花费所在。信息技术正从以计算为核心的计算时代进入到以存储为核心的存储时代，网络化存储将成为未来存储市场的热点。甚至有人说：网络存储已成为继计算机浪潮和互联网浪潮之后的第三次浪潮。而目前的云存储服务是网络存储发展的必然趋势。

　　首先介绍云存储服务的意义与重要性，然后介绍国内外目前在可证明数据持有和恢复技术方面的研究现状，在第四部分讨论了云存储服务的安全性与可靠性需求，并研究云存储服务对可证明数据持有及恢复方案的特殊要求，最后进行总结。

　2. 云存储服务

　　目前对云存储（Cloud Storage）的定义众说纷纭，还没有一个统一的定义，但是云存储的特点可概括为：

　　高德纳（Gartner）咨询公司预测到2012年，20%的公司将不再拥有自己的IT资产而转向云。在日立数据系统公司公布的《2010年十大存储投资方向》报告[4]中，云存储位列第二。该公司声称：“2010年，人们对云的认识将继续提升，私有云的构建者和公共云服务提供商也将持续关注弹性、可靠性、多租户和安全性等问题。我们预计，随着安全性、多租户和付费模式等关键功能的不断演进，未来用户将会越来越多地采用云存储。”存储市场具有无限的潜力，而云存储是信息存储的一种趋势，它可为用户带来如下好处：

　　云存储的主要特色是容量规模大，使用多少，支付多少，上不封顶，下不设限。有了云存储，永远也不会出现存储空间不足的情况。对存储需求不可预测、需要廉价存储阵列或低成本长期存档的用户来说，按需购买存储容量的云存储与一次性购买整套存储系统相比显然会带来更多的方便和效益。并且，云存储在为用户节省初始投资的同时也节约了社会资源与能源。

　　云存储具有众多优点，但是因为用户对云存储服务的安全性、可靠性及可用性等问题有所怀疑，所以目前还没有得到人们的广泛认可与使用。特别地，在微软弄丢了Sidekick用户的数据，SwissDisk的文件管理器出现崩溃故障，Amazon S3宕机频繁，曾经一次持续了8个小时，哪个用户还敢将数据托付给云存储服务呢？即便是著名品牌服务商也没有担保其云存储服务的安全性与可靠性。

　　引用美国前总统罗纳德·里根的一句名言，“要我相信你，请你先证明给我看(Trust but verify)”。所以在云存储中，让用户可以验证服务提供者正确地持有其数据，且如果检测发生错误时可以恢复其数据是一件很有意义的研究工作。

　　如果用户都信任云存储服务提供者，或者是服务提供者确实做到了安全可靠地存储用户的数据，那么云存储将具有无限的潜力，它在为用户带来方便和效益的同时，也为社会节约了大量的资源与能源。

　　3. 可证明数据持有与恢复技术

　　可证明数据持有和恢复技术是验证不可信的存储服务器是否正确地持有(保存)数据，避免存储服务提供者删除、篡改数据，并确保存储数据的可恢复性。目前的研究工作主要集中在可证明数据持有（Provable Data Possession, PDP）方案和可恢复证明（Proof Of Retrievability, POR）方案。PDP和POR方案的主要区别是：PDP方案可检测到存储数据是否完整，但无法确保数据可恢复性；POR方案保证了存储数据的可恢复性。通常，考核数据持有性证明方案优劣的指标有：

　　(1)计算复杂度，包括用户预处理文件、服务器生成证据及用户验证等开销；

　　(2)通信复杂性，指用户与服务器之间的数据传输量；

　　(3)存储需求，指用户与服务器需要的额外的存储空间；

　　(4)允许的数据更新，包括数据修改、插入、添加、删除；如果不支持更新，就只能用于静态数据，一旦存储就不再改变，比如归档存储；

　　(5)允许验证的次数，是否支持公开验证；

　　(6)检测到错误后是否可恢复，比如是否使用纠删码/纠错码等；

　　(7)安全性证明，确保方案的安全性；

　　(8)是否需要访问数据块以及需要访问多少数据块等。

　　下面将根据评价指标综述PDP方案和POR方案及其相关工作在国内外的研究现状。

　　3.1 PDP方案

　　文献[5]最早提出远程数据的完整性检查，使用基于RSA的Hash函数对整个文件计算Hash值。其原理为：令N为RSA模数，F为代表文件的大整数，g∈ZN*，检查者保存a = gF mod N；在挑战中，检查者生成任意元素r并发送gr到服务器，服务器返回s = (gr)F mod N，检查者计算ar，并验证等式s = ar mod N是否成立。因为该方法基于公钥密码技术，所以方案的计算开销很大；特别当存储文件大的时候，该方案的计算开销更大。文献[6]的原理与此相同，但其目的是阻止数据传输中的欺骗。

　　约翰·霍普金斯大学（Johns Hopkins University）的Ateniese等人在这方面做了一些研究工作，他们在文献[7]中第一次正式定义PDP方案，文中提出的两个PDP方案都是使用　　同态可验证标签（Homomorphic Verifiable Tags），用户为每个数据块生成一个Tag，将此Tag连同数据存放在服务器上。验证时，用户随机选择一些块向服务器发出挑战，要求服务器返回持有这些块的证据。服务器利用请求块及相应的标签生成持有证据，因为同态性，多个文件块的标签可以聚合成一个值，因此极大地节省了响应带宽。用户通过验证响应信息确认数据拥有，而不需要检索数据。提出的方案只需要用户维护常量的元数据信息，服务器的开销也近似为一个常量，挑战应答只要1Kbit左右，实验表明方案的性能受限于磁盘I/O而不是密码计算。文中作者第一次提出公开验证的方法。但是该方案在生成证据时使用基于RSA的模指运算，也没有考虑数据更新问题。并且该方案的多个服务器可以共谋(collusion attacks)，所以不适用于多复本协议。

　　他们在文献[8]中提出在随机预言模型（Random Oracle Model）下使用任何具有同态属性的鉴定协议（Identification Protocol）构造公钥同态线性认证器（Homomorphic Linear Authenticator，HLA)的通用机制，并表明怎样将任何公钥HLA转化为公开可验证的存储证明方案（Proofs of storage, PoS），使通信复杂度与文件长度无关，并且支持无限次验证。但是该方案也是基于公钥密码技术，所以计算开销比较大。在文献[9]中，他们提出基于对称密码技术构造PDP方案。该方案在初始化的时候，由用户设定要挑战的次数和内容，将响应作为元数据存放在用户端，因此，更新次数和挑战次数都是有限的。而且只支持append-类型的插入，也不支持公开验证。同时，他们所在的研究小组第一次提出多复本PDP（multiple-replica PDP, MR-PDP）方案[10]，允许用户通过挑战应答协议验证服务器存储文件t个复本：（1）每个复本是可用的；（2）使用t倍的存储空间存储数据的t个复本。MR-PDP扩展了文献[7]的单拷贝的情况，还可以增加新的复本，而不需要对文件进行预处理。该方案首先将数据加密，然后将加密数据与t个不同的随机掩码异或，当数据量大时会带来较大的计算开销，而且每个服务器要分别响应挑战，其开销也很大。该方案仍然基于RSA，也没有考虑数据更新问题。

(本文不涉密)
责任编辑：

上一篇：大道至简华为统一存储欲复制在网络领域的成功

下一篇：大数据时代,我们怎么办？