(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 114218602 A
(43)申请公布日 2022.03.22
(21)申请号 CN202111508267.8
(22)申请日 2021.12.10
(71)申请人 南京航空航天大学
    地址 210016 江苏省南京市秦淮区御道街29号
(72)发明人 黄志球 张小玉
(74)专利代理机构 32204 南京苏高专利商标事务所(普通合伙)
    代理人 柏尚春
(51)Int.CI
      G06F21/62(20130101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于垂直分割的差分隐私异构多属性数据发布方法
(57)摘要
      本发明公开了一种基于垂直分割的差分隐私异构多属性数据发布方法,数据拥有者Pi根据局部数据集Di的数据敏感性和隐私属性暴露概率计算隐私预算εi;数据拥有者Pi利用隐树模型学习算法构建隐树结构,使构建的Τi满足εi1‑差分隐私,同时基于Τi计算的Θi满足εi2‑差分隐私;Pi将Τi和Θi发送给第三方,第三方通过隐树模型学习算法构建整合数据集的隐树结构Τ,同时更新参数Θ;根据隐树结构Τ和加噪Θ,采样每个属性的条件分布,生成扰动数据集D',并对外发布。本发明能以较低的通信和计算成本提供理想的数据效用。
法律状态
法律状态公告日
法律状态信息
法律状态
2022-03-22
公开
发明专利申请公布
2022-04-08
实质审查的生效IPC(主分类):G06F21/62专利申请号:2021115082678申请日:20211210
实质审查的生效

权 利 要 求 说 明 书
1.一种基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,包括以下步骤:

(1)自适应隐私预算分配:数据拥有者P
i
根据局部数据集D
i
的数据敏感性和隐私属性暴露概率计算隐私预算ε
i
;

(2)提出隐树模型参数和结构学习相统一的满足差分隐私的隐树模型学习:数据拥有者P
i
利用隐树模型学习算法构建隐树结构,使构建的Τ
i
满足ε
i1
-差分隐私,同时基于Τ
正则化参数的自适应估计
i
计算的Θ
i
满足ε
i2
-差分隐私;P
i
将Τ
i
和Θ
i
发送给第三方,第三方通过隐树模型学习算法构建整合数据集的隐树结构Τ,同时更新参数Θ;

(3)合成数据发布:根据隐树结构Τ和加噪Θ,采样每个属性的条件分布,生成扰动数据集D',并对外发布。



2.根据权利要求1所述的基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,所述步骤(1)实现过程如下:

自适应隐私预算分配参数由数据敏感性SD和隐私属性暴露概率L
pb
两部分组成;







其中,Sen
attr
表示敏感属性,Sen
val
表示敏感属性的值,η和σ分别为数据敏感度和隐私泄露概率的权重,η+σ=1,权重的分配由数据拥有者根据具体数据隐私保护要求确定,对不同的隐私保护需求可以调节数据敏感度和隐私泄露概率的权重来进行自适应隐私预算分配,实现不同的隐私保护强度。


3.根据权利要求1所述的基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,步骤(2)所述的隐树模型参数学习实现过程如下:

基于双向推理算法计算隐属性Y的联合条件分布,当Y
j
的孩子节点不是显属性时,β
j
的计算需要从叶节点开始向上传递,计算每个隐属性节点Y
j
∈Y的β
j
,具体公式如下:




其中,{Y
c
}是Y
j
的孩子节点集合;

从根节点开始自上而下推理,计算每个隐属性节点Y
j
∈Y的α
j
:




其中,{Y
s
:Y
P(s)
=Y
P(j)
,Y
s
≠Y
j
}是Y
j
的兄弟节点集合;

对于任意隐属性节点Y
j
∈Y,计算边缘条件分布Pr(Y
j
,Y
P(i)
|X
(n)
)
:




其中,{Y
s
:Y
P(s)
=Y
P(j)
,Y
s
≠Y
j
}是Y
j
的兄弟节点集合;

当Y
j
的孩子节点为显属性或者Y
j
为根节点Y
r
时,β
j
和α
j
计算为β
j
=Pr(X
in
(j)|Y
j
),α
j
=Pr(Y
j
|X
out
(j)),可以得到条件分布


4.根据权利要求1所述的基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,步骤(
2)所述的隐树模型结构学习实现过程如下:

首先初始化隐树结构
隐属性集合
初始化模型参数
将未加入Τ
i
的显属性X
j
∈XΤ和隐属性集合Y加入候选集合Ω,使用指数机制从候选集合Ω中选取使模型参数Θ
i
的对数似然增量最大的属性对(A
j1
,A
j2
)
加入隐树结构Τ
i
,若有生成隐属性,同时将隐属性加入集合Y;基于更新的隐树结构Τ
i
,计算联合条件分布,更新隐树参数Θ
i
;重复执行上述隐树结构Τ
i
和隐树参数Θ
i
的更新操作,直到将初始的平凡树森林合并为一棵隐树。


5.根据权利要求1所述的基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,所述步骤(3)实现过程如下:


数据拥有者P
i
根据自适应隐私预算分配参数A
i
计算隐私预算大小ε
i
=A
i
×ε,并保证隐树参数学习的计算过程满足ε
i
-差分隐私保护要求;在本地学习得到隐树结构之后,数据拥有者将隐树结构Τ
i
和参数Θ
i
发送给第三方;第三方根据接收到隐树森林,学习新的隐树结构Τ,同时更新隐树参数Θ;利用学习到的隐树的结构Τ和参数Θ,第三方可以估算原始整合数据的联合分布;根据该联合分布,第三方生成一组新的整合数据;

为了保证Θ
i
的隐私性,为每个属性在给定其父节点的条件下的概率分布添加拉普拉斯噪声Lap((2(d+m))/(|D
i
|·ε
2
)),其中概率分布的全局敏感度△f=2/|D
i
|。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。