数据脱敏
用户使用手册
前言
欢迎使用 BYIT的软件产品 PowerCenter,它是一个开放式、可扩展的数据集成解决方案,可以为包括数据仓库、数据集市、数据迁移、数据同步和信息集线器在内的所有数据集成项目提供贯穿整个生命周期的解决方案。PowerCenter 集合了最新的改进技术,可以可靠管理数据资料库,并能及时、适用和有效地传递信息资源。
PowerCenter 元数据资料库可调整和驱动多种核心函数,包括提取、转换、载入和管理数据的函数。PowerCenter Server 可从多个平台提取大量数据、处理复杂的数据转换并支持高速载入。PowerCenter 可简化和加快将数据仓库从开发移到测试再到生产的进程。
数据屏蔽转换
本章包括以下主题:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
数据屏蔽转换概览, 113
屏蔽属性, 114
键屏蔽, 115
置换屏蔽, 117
相关屏蔽, 120
随机屏蔽, 121
应用屏蔽规则, 122
表达式屏蔽, 126
特殊屏蔽格式, 128
社会保障号屏蔽, 128
信用卡号屏蔽, 129
电话号码屏蔽, 129
地址屏蔽, 130
社会保险号屏蔽, 131
IP 地址屏蔽, 131
URL 地址屏蔽, 132
默认值文件, 132
数据屏蔽转换会话属性, 132
数据屏蔽转换的规则和准则, 133
数据屏蔽转换概览
使用数据屏蔽转换将敏感的生产数据更改为非生产环境的现实测试数据。数据屏蔽转换将基于为每一列配置的屏
蔽规则来修改源数据。可针对软件开发、测试、培训和数据挖掘创建屏蔽的数据。可以维护
屏蔽数据中的数据关
系,并维护数据库表之间的引用完整性。数据屏蔽转换是被动转换。
数据屏蔽转换根据为端口配置的源数据类型和屏蔽类型提供屏蔽规则。对于字符串,可以限制字符串中要替换的
字符以及要在屏蔽中应用的字符。对于数值和日期,可以为屏蔽的数据提供一个数字范围。可以根据原始数字的
113
相关主题:
•
•
•
“端口的默认值” 页面上 35
“应用屏蔽规则” 页面上 122
“默认值文件” 页面上 132
屏蔽属性
在“属性”选项卡上定义输入端口并为每个端口配置屏蔽属性。您可以选择的屏蔽类型基于端口数据类型。选择
屏蔽类型时,Designer 会显示屏蔽类型的屏蔽规则。
区域设置
区域设置可确定数据中字符的语言和地区。从列表中选择区域设置。数据屏蔽转换可通过所选区域设置中的字符
屏蔽字符数据。源数据必须包含与所选区域设置兼容的字符。
如果区域设置不在列表中,请选择具有相似或匹配的代码页的区域设置。不能为区域设置选择 Unicode。
屏蔽类型
屏蔽类型是应用到所选列的数据屏蔽类型。选择以下屏蔽类型之一:
•
•
•
•
•
•
键屏蔽。为相同的源数据、屏蔽规则和种子值生成确定性的结果。
置换屏蔽。将数据列替换为字典中相似却无关的数据。
相关屏蔽。根据其他源列的值替换某个源列的值。
随机屏蔽。为相同的源数据和屏蔽规则生成随机结果。
表达式屏蔽。将表达式应用到端口以更改数据或创建数据。
特殊屏蔽格式。将特殊屏蔽格式应用到常见类型的敏感数据。可以屏蔽社会保障号、社会保险号、信用卡号、
电话号码、URL 地址、地址或 IP 地址。
置换。将数据列替换为字典中相似却无关的数据。
无屏蔽。数据屏蔽转换不会更改源数据。
•
•
默认设置为“无屏蔽”。
可重复的输出
可重复的输出是数据屏蔽转换返回的一组连续的值。
可重复输出会返回确定性的值。例如,为一个名字列配置可重复输出。每次在工作流中包含数据屏蔽转换时,该
转换都会返回相同的屏蔽值。
可以为所有数据屏蔽类型配置可重复屏蔽。要配置可重复屏蔽,请单击可重复的输出并选择种子值。
种子
种子值是生成屏蔽值的起点。
数据屏蔽转换将创建一个默认种子值,它是一个介于 1 与 1,000 之间的随机数。可以输入不同的种子值,或者
应用映射参数值。将同一种子值应用于某一列,可在不同源数据中返回相同的屏蔽数据值。例如,如果您的四个
表中都有相同的 Cust_ID 列,并且您想要所有这些列都输出相同的屏蔽值,请将全部四列设置为同一种子值。
114
数据屏蔽转换
映射参数
可以使用映射参数定义种子值。为您要添加到转换的每个种子值创建映射参数。映射参数值是介于 1 和 1000 之
间的数字。
为某个列配置数据屏蔽时,为种子选择“映射参数”。Designer 会显示一个映射参数列表。从列表中选择一个映
射参数。在运行会话之前,可以在会话的参数文件中更改映射参数值。
在创建数据屏蔽转换之前创建映射参数。如果选择参数化种子值且映射没有映射参数,则会显示错误。如果选择
的端口具有引用已删除映射参数的屏蔽规则,则 Designer 会为该端口生成新的随机种子值。种子值不是映射参
数。系统会显示消息指明映射参数已删除,并且 Designer 会创建新的种子值。
集成服务会在以下情况下应用默认种子值:
•
•
•
为列选择了映射参数选项,但是会话没有参数文件。
删除映射参数。
映射参数种子值并非介于 1 和 种子哈希转换链接1,000 之间。
集成服务将应用默认值文件中的屏蔽值。可以编辑默认值文件以更改默认值。
默认值文件是位于以下位置的 XML 文件:
<PowerCenter Installation Directory>\infa_shared\l
种子的名称值对为
default_seed = "500".
如果默认值文件中的种子值并非介于 1 和 1,000 之间,则集成服务会为种子分配值 725,并在会话日志中写入
一条消息。
相关主题:
•
“默认值文件” 页面上 132
关联 O/P
关联的 O/P 是输入端口的关联输出端口。数据屏蔽转换会为每个输入端口创建输出端口。命名约定为
out_<port name>。关联的输出端口为只读端口。
键屏蔽
每当源值和种子值相同时,配置了键屏蔽的列将返回确定性的屏蔽数据。 数据屏蔽转换将为该列返回唯一值。
为列配置键屏蔽时,数据屏蔽转换将为该列创建种子值。 可以更改种子值,以便在不同的数据屏蔽转换之间生成
可重复的数据。 例如,配置键屏蔽以强制执行引用完整性。 使用相同的种子值屏蔽表中的主键和另一表中的外
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论