(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 110134719 A (43)申请公布日 2019.08.16 | ||
(21)申请号 CN201910412420.3
(22)申请日 2019.05.17
(71)申请人 贵州大学
地址 550025 贵州省贵阳市花溪区贵州大学花溪北校区科技处
(72)发明人 彭长根 何文竹 王毛妮 丁兴 樊玫玫 丁红发
(74)专利代理机构 贵阳中新专利商标事务所
代理人 刘艳
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种结构化数据敏感属性的识别与分类分级方法 | |
(57)摘要
本发明公开了结构化数据敏感属性的识别与分类分级方法,该方法包括步骤,首先根据用户需求输入待处理的结构化数据表;然后利用信息熵及最大熵计算属性的隐私敏感度;利用k‑means聚类算法对属性的敏感度进行聚类,将属性初始划分为敏感属性集和疑似敏感属性集两个簇;进一步利用Apriori算法挖掘疑似敏感属性集与敏感属性集间关联关系,将任意结构化数据的敏感属性进最终识别为敏感属性集与非敏感属性集;最后,仅仅针对敏感属性集来操作,通过对敏感属性集中属性间的互信息相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性组的平均敏感度量化,实现敏感属性的分类分级。该方法面向隐私保护能同时达到敏感属性的识别与分级效果,不需要预知结构化数据集的属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2023-04-28 | 授权 | 发明专利权授予 |
权 利 要 求 说 明 书
1.一种结构化数据的敏感属性识别与分类分级方法,其特征在于:包括以下步骤:步骤1:首先用户通过数据输入模块导入结构化数据表;步骤2:接收到用户请求识别的结构化数据表后,针对结构化数据集,采用熵的相关定义来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,将属性识别为敏感属性集和疑似敏感属性集两个簇;步骤3:进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则,通过比较两者之间能够建立关联规则的数目,以此作为准确划分疑似敏感属性的依据,最终将数据集的属性识别为敏感属性集和非敏感属性集;步骤4:输出识别模块中的敏感属性集,导入敏感属性分类分级模块,通过对敏感属性集中属性间的相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性类的平均敏感度进行
量化来定义各属性类的敏感级别,从而实现敏感属性的分类分级;步骤5:输出敏感属性的分类分级结果。
2.根据权利要求1所述的一种结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤2中采用了信息论中信息熵和最大离散熵来定义属性的敏感度,属性划分的方法采用了聚类分析,聚类是将数据中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。
3.根据权利要求1所述的一种结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤3中通过建立关联规则来挖掘属性之间潜在的关联关系,关联分析是一种在大规模数据集中寻有趣关系的非监督学习算法。
4.根据权利要求1所述的一种结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤4中对敏感属性间的相关性分析采用了互信息的方式,互信息在测度两个变量之间的相关性方面,对大数据集具有优势。
说 明 书
<p>技术领域
本发明涉及一种结构化数据敏感属性的识别与分类分级方法,属于信息安全领域。
背景技术
在数据分析预处理阶段,面向结构化数据表,数据集中包含未标记的属性样本及其相对应的属性值,未标记的属性样本中包括敏感属性和非敏感属性,数据预处理的目的是准确地完成未标记的属性样本的分类,并且一定程度上减少人工分类的成本消耗。其中敏感属性是用户不愿意公布的重要信息,与个人隐私相关,为了避免隐私披露,此类属性需要在数据预处理阶段筛选出来进行标识,并使用相应地隐私保护手段进行处理后才可发布。
医疗、人社和社交网络等各类数据平台和信息系统中汇聚越来越多与个人隐私信息相关的敏感数据,个人隐私面临巨大风险。面临海量且持续增长的数据,应用差分、匿名等算法保护隐私已成为共识,但数据间的关系愈发复杂,对数据集中的敏感属性进行识别、分类分级变得愈困难,不能精确地对敏感数据进行恰当的隐私保护,故出现了链接攻击、背景知识攻击、聚合攻击等隐私攻击,致使隐私保护难以达到预期效果。如何对海量数据集中的敏感数据进行自动化识别,标识出数据集中和个人隐私相关的属性后进行分类分级,成为隐私保护领域亟待解决的问题。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论