浅谈数据隐私保护技术

减小字体 增大字体 作者:王艳  来源:www.zhonghualunwen.com  发布时间:2012-09-12 11:02:14

1、数据挖掘与隐私保护

1.1 数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取其中隐含的、人们事先不知道但是又潜在于事务中的有用信息和知识的过程。数据挖掘的结果是发现知识,并将其表示为概念、规则、规律、模式等。数据挖掘要处理的问题,就是在庞大的数据源中寻找有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,以供决策参考。

1.2 隐私保护

一般认为,隐私保护包含两个目的:符合隐私要求和提供有效的数据挖掘结果。因此,这个定义强调了平衡隐私保护和知识发现之间的两难局面。数据挖掘的目的是发现隐藏在大型数据集中有趣的知识,所以在挖掘有效的结果时,必须保证符合隐私要求。同时,在使得数据符合隐私要求的同时,必须保证数据不会影响数据挖掘的结果。

1.3 数据挖掘与隐私保护的冲突

数据挖掘与知识发现在各个领域都扮演着非常重要的角色,然而传统的数据挖掘技术在发现知识的同时,也给数据的隐私带来了威胁。通过近年来很多隐私暴露的案例来看,尤其是网络隐私的暴露,数据挖掘与隐私保护在一定程度上产生了很大的冲突。在科技日益发达的今天,人们在不时承受个人隐私被泄露和生活受到骚扰的苦恼。我们如何既能在数据挖掘中从大量的数据中抽取出潜在的、有价值的知识(模型或规则),又能保证数据应用过程中不泄露隐私,这是一个两难的问题,也是数据挖掘与隐私保护的冲突。这个冲突也激发了人们对数据隐私保护技术的研究。

2、数据隐私保护技术

2.1 国内外研究现状

目前我们国内关于隐私保护技术的研究处于刚起步阶段,主要集中于基于数据失真或数据加密技术方面;在国外,由于对隐私问题的重视,从九十年代初开始,研究人员就已经对挖掘中触犯隐私的问题进行了研究, 一些相关的论文相继得到发表。

2.2 数据隐私保护技术的分类

(1) 基于数据失真的隐私保护技术

数据失真技术通过扰动(Perturbation)原始数据来实现隐私保护。它要使扰动后的数据同时满足:①攻击者不能发现真实的原始数据。也就是说,攻击者通过发布的失真数据不能重构出真实的原始数据。②失真后的数据仍然保持某些性质不变,即利用失真数据得出的某些信息等同于从原始数据上得出的信息。这就保证了基于失真数据的某些应用的可行性。

(2) 基于数据加密的隐私保护技术

实现隐私保护要解决的首要问题是通讯的安全性,而加密技术正好满足了这一需求,因此基于数据加密的隐私保护技术多用于分布式应用中,如分布式数据挖掘、分布式安全查询、几何计算、科学计算等。在分布式下,具体应用通常会依赖于数据的存储模式和站点的可信度及其行为。

分布式应用采用两种模式存储数据:垂直划分的数据模式和水平划分的数据模式。垂直划分数据是指分布式环境中每个站点只存储部分属性的数据,所有站点存储的数据不重复;水平划分数据是将数据记录存储到分布式环境中的多个站点,所有站点存储的数据不重复。

对分布式环境下的站点(参与者),根据其行为,可分为:准诚信攻击者(Semi- honest Adversary)和恶意攻击者(Malicious Adversary):准诚信攻击者是遵守相关计算协议但仍试图进行攻击的站点;恶意攻击者是不遵守协议且试图披露隐私的站点。一般地,假设所有站点为准诚信攻击者。

(3)基于限制发布的隐私保护技术

限制发布即是有选择的发布原始数据、不发布或者发布精度较低的敏感数据,以实现隐私保护。当前此类技术的研究集中于“数据匿名化”:即在隐私披露风险和数据精度间进行折中,有选择地发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。数据匿名化研究主要集中在两个方面:一是研究设计更好的匿名化原则,使遵循此原则发布的数据既能很好地保护隐私,又具有较大的利用价值。另一方面是针对特定匿名化原则设计更“高效”的匿名化算法。

3、数据隐私保护技术的发展

对于未来隐私保护技术的发展,从技术开发层面讲可以从这几点入手:(1)隐私保护程度的度量标准的一致性;(2)隐私保护的准确性;(3)部分加密和未加密数据的隐私保护技术;(4)数据挖掘的隐私保护技术应当形成具有适应多种数据集、统一的隐私保护程度度量标准、适用于分类、关联规则、聚类等数据分析技术和挖掘技术的整体模型。

从应用环境来讲:(1)分布式和Web 环境下的隐私保护研究;(2)特定应用背景下专有隐私保护技术的研究;(3)基于动态数据的隐私保护技术研究。

4、总结

随着信息不断膨胀、信息获取渠道越来越多样化,数据库的应用无处不在,不论是在理论研究还是实际应用领域,对隐私保护技术进行研究都具有非常重要的意义。

【参考文献】

[1]周志纯.隐私保护数据挖掘研究.2008:5-19.

[2]张斌.隐私保护的分布式关联规则挖掘算法研究.2007:4-21.

[3]仲波.基于关联规则的隐私保护算法研究.2007:6-27.

[4]王智慧. 信息共享中隐私保护若干问题研究.2007:5-15.

[5]臧铖.个性化搜索中隐私保护的关键问题研究.2008:12-30.

[6]葛伟平.隐私保护的数据挖掘,复旦大学出版社,2005.

Tags:技术

作者:王艳
  • 好的评价 如果您觉得此文章好,就请您
      0%(0)
  • 差的评价 如果您觉得此文章差,就请您
      0%(0)

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论