您现在的位置是:首页 > IT基础架构 > 计算存储 >
企业云存储数据的加密与密文全文检索研究
2013-06-25 13:35:45作者:李文成 赵逢禹来源:
摘要将密文规则的基于属性加密技术同Lucene全文索引技术相结合,提出适合云存储中密文数据全文检索的方法;针对云存储的特点改进了密文规则的基于属性加密技术,给出了设置在企业端的私有安全模型...
1 简介
云计算提供了各式各样的服务和接口,云服务供应商通过这些部署于自己物理机器上的服务和接口,为用户提供各种服务,用户可以用低廉的费用使用服务和接口,而不需要投人大量的资金创建并维护IT基础设施,因此云计算被认为是一种合作共赢的模式。
云存储用户通过支付一定的费用,可以将数据信息与数据文档存储到云平台上,由专业的大容量的云存储系统负责管理与提供信息读取服务,从而节省建立和维护私有存储设施的成本,由于云存储服务由专业的公司提供,且在服务水平协议SLA(service level agreement)中明确规定了不低于99,9%的可用时间,数据同时在多个数据中心进行备份,因而,云存储服务为企业提供了一个开销费用低,数据的可用性和可靠性高的服务机制。
虽然使用云存储服务可以为企业节约开销,提高可用性及可靠性,但是,企业对其存储于云端数据的机密性与完整性却心存疑虑,如果要将许多机密信息,比如医院病人医疗数据、银行与金融机构中账户信息存储于云存储平台上,必须保证第三方平台可信、数据传输安全以及访问权限控制,事实上,企业使用云存储最大的障碍是对数据机密性和完整性的考虑,如果不能解决机密性和完整性的问题,即使云存储有巨大的潜力,很多潜在的用户还是不愿意把数据向云平台进行转移。
为了解决这些问题,使得企业用户能够安全地使用云存储平台,需要提供一个适用于云存储的安全架构,该安全架构应能实现以下目标:
1)机密性:除了企业用户本身以及用户所授权的信任的合作伙伴,其他任何人是无法得知其数据的;
2)完整性:任何未经授权的数据改动都必须记录下来,告知用户;
3)有效加密检索:企业用户的数据量往往是相当大的,所以如何在加密的情况下快速地搜索到相关数据是极其重要的;
4)数据共享:用户之间可以共享数据。
本文在分析了企业用户在云上的机密性、有效的检索以及数据共享等需求的基础上,采用密文规则的基于属性加密技术(ciphertext policy attribute based encryption ,CP-ABE)对企业机密数据加密并存储于云端;针对数据共享与机密数据检索问题,提出了索引关键词加密的密文检索技术,在此基础上设计了一套设置在企业端的私有安全架构,基于Linux平台与Eucalyptus云,开发设计了该安全架构的大部分服务模块,该安全架构较好地解决了企业数据云存储的机密性、提供了基于属性策略的数据访问控制和基于加密关键词的检索方法。
2 相关工作
云存储的安全性涉及密文访问控制、密文检索,围绕这两个问题很多公司和研究机构都进行了广泛的研究,并取得了一定的进展。
2.1 密文访问控制
最初的密文访问控制,数据属主以不同的密钥逐个加密数据文件,并通过特定的管道将密钥分发给用户,为了减小分发的代价,Goh等人提出以各用户公钥加密数据密钥,并将加密后的密钥存储于服务器端,用户访问服务器并用自己的私钥解密后,获取数据密钥,该方法存在问题是,服务器需要维护大量的数据密钥信息。
Damiani等人提出的层次访问的控制方法(HAC),减少了服务器维护的数据密钥数量,用户可以通过私人密钥以及公开的信息表(token)推导出需要的数据密钥,但是,token表的数据结构复杂,且需要由数据属主维护,因此并不适用于云存储。
Vimercati SDC等人提出的代理重加密技术认为云存储服务器是部分可信(honest but curious)的,只要不将明文数据暴露给服务器端,则认为服务器行为都是可信的,数据属主需根据用户信息生成一个代理重加密密钥,随后将密钥上传给服务器,最终服务器使用该密钥对密文数据进行二次加密,生成只有指定用户才能解密的密文数据,但是云存储服务器部分可信这一前提仍然值得怀疑,如果服务商和第三方串通,数据机密性还是难以保证。
2. 2密文检索
密文检索包括基于安全索引与基于密文扫描两种典型的方法,基于安全索引的方法首先为密文关键词建立安全索引,接着在安全索引中检索索引关键词是否存在;基于密文扫描的方法是通过对密文中每个单词进行比对,确认关键词是否存在。
IBM研究员Gentry提出全同态加密(fully homomorphicencryption)算法,基于全同态加密的检索方法,首先采用全同态方法对文档进行加密并建立索引,然后评估检索出的信息与待查信息之间的相关度,并对检索词词频和倒排文档频率进行统计,最后将加密文档与索引项密文一起上传到服务器端,找到相关结果,通过全同态加密算法加密的明文数据可以在不恢复明文信息的情况下检索出来,这样既隐藏了用户的数据,又提高了检索性能,虽然该方法在理论上取得了一定突破,但因为算法复杂度较高而导致效率低下,目前离实用化仍有很长的距离。
(本文不涉密)
责任编辑: