数据脱敏技术有哪些

wen IT资讯 2026-06-15 4

本文目录导读：

数据脱敏技术有哪些

按脱敏方式分类（核心算法）
按应用场景分类
如何选择？—— 技术选型参考
重要注意事项（边界与风险）

数据脱敏技术是保护敏感信息（如个人身份信息、财务数据、商业机密等）的重要手段，它通过在不改变数据业务含义的前提下，对原始数据进行变形、替换或遮蔽，使其在非生产环境（如开发、测试、分析）中无法被识别或还原。

以下是主流的几种数据脱敏技术,通常按脱敏方式和应用场景进行分类：

按脱敏方式分类（核心算法）

替换（Substitution）

用虚构但格式类似的数据替换真实数据,这是最常用、效果最好、且关系型数据库中最稳妥的方法。

示例： 将姓名“张三”替换为“赵四”，将手机号“13812345678”替换为“13900001111”。
优点： 数据格式不变，保持业务逻辑完整，不可逆。
缺点： 需要维护一个“替换字典”或映射规则。

遮蔽（Masking / Shielding）

对数据的一部分进行遮挡或隐藏,常用于展示场景（如前端界面、日志显示）。

示例： 身份证号显示为 110101******1234，信用卡号显示为 **** **** **** 5678。
优点： 简单高效，实时性好，常用于客服、查询等场景。
缺点： 数据不完整，无法用于需要完整数据的计算。

泛化（Generalization / Blurring）

降低数据的精度,使其在一个更大的范围内有效，从而隐藏个体特征。

示例： 将具体年龄“28岁”泛化为“20-30岁”；将具体地址“北京市海淀区中关村大街1号”泛化为“北京市海淀区”。
优点： 保留了数据的统计意义，适合数据分析。
缺点： 精度降低，细粒度查询失效。

扰动（Perturbation / Noise Addition）

对原始数据添加随机噪声或进行微小的数学变换,使数据在整体统计特征上保持正确，但个体值失真。

示例： 原始薪资10000元，加上随机噪声后变为10032元或9987元。
优点： 适合统计分析和数据挖掘，能抵御某些差分攻击。
缺点： 对精确数值要求高的场景（如财务对账）不适用。

加密（Encryption）

使用密码学算法对数据进行变换,数据变得完全不可读，但可以解密还原。

示例： 使用AES算法加密邮箱 user@example.com 变成 U2FsdGVkX1...。
优点： 安全性极高，是“可逆脱敏”的唯一方案（用于需还原的场景，如医保报销）。
缺点： 计算开销大，加密后的数据无法直接查询排序，且占用空间可能变大。

令牌化（Tokenization）

用随机生成的令牌（Token）替代敏感数据，令牌本身没有业务含义，令牌与原始数据之间的映射关系存储在安全的“令牌库（Vault）”中。

示例： 将信用卡号 1234567890123456 映射为 TKN-abc-9876。
优点： 与加密不同，令牌长度和格式与原始数据一致，不对性能产生太大影响，是目前金融行业较推荐的做法。
缺点： 依赖令牌库（单点故障风险），需要维护映射关系。

假名化（Pseudonymization）

用统一生成的假名（如UUID、哈希值）替换所有个人标识符（姓名、ID号），这是GDPR（通用数据保护条例）中推荐的技术。

示例： 将所有用户的“姓名”替换为随机的“用户ID”（如 dgh45-5dfg）。
优点： 可以跨多个表关联同一个用户（通过假名），但不能直接追溯到具体个人。
缺点： 如果假名生成算法被破解，仍有重识别的风险。

洗牌（Shuffling / Permutation）

对数据列内的值进行随机排序（打乱），它保留了数据的原始值范围和分布，但切断了行与行之间的关联。

示例： 将A用户的薪资与B用户的薪资互换。
优点： 保持了数据的真实分布（最大值、最小值、平均值不变），适合机器学习训练。
缺点： 如果表结构复杂（外键关联），可能会破坏表之间的联系，导致数据不一致。

空值化/删除（Nulling / Deletion）

直接将敏感字段置为NULL或删除,这是最简单的脱敏方式。

示例： 删除手机号字段，或将其设为空字符串。
优点： 极致的保护。
缺点： 数据完全丢失，可能影响业务逻辑（如NOT NULL约束导致报错）。

按应用场景分类

静态脱敏（Static Data Masking， SDM）： 针对数据副本（如从生产库复制到测试库），一次性处理，通常使用替换、泛化、洗牌，优点是效率高，缺点是生成的数据是静态的。
动态脱敏（Dynamic Data Masking， DDM）： 对实时数据查询进行拦截和修改，在数据流出数据库之前动态变换，通常使用遮蔽，优点是无需修改底层数据，缺点是会增加查询延迟。

如何选择？—— 技术选型参考

需要保留完整数据格式用于开发测试？ ➡️ 替换（Substitution） 或 令牌化（Tokenization）。
仅需显示给客服/后台管理员（如中间4位打星）？ ➡️ 遮蔽（Masking）。
用于统计分析或机器学习，且希望保持数据分布？ ➡️ 扰动（Perturbation） 或 洗牌（Shuffling）。
需要保留数据关联性（跨表Join）但不能识别具体个体？ ➡️ 假名化（Pseudonymization）。
数据需要被还原回原始值（如合规审计时）？ ➡️ 加密（Encryption） 或 令牌化（Tokenization，通过Vault还原）。
对性能要求极高，且愿意牺牲数据完整性？ ➡️ 空值化（Nulling）。

重要注意事项（边界与风险）

不可逆性： 大多数脱敏技术（替换、遮蔽、泛化）是不可逆的，一旦执行，无法从脱敏后的数据还原出原始数据，加密和令牌化是可逆的。
重识别风险（Re-identification）： 脱敏不是“删除”，如果攻击者拥有多个来自不同数据源的脱敏数据，通过关联分析（如年龄、邮编、性别），仍然可能准确定位到特定个人（即“交叉攻击”）。
数据一致性与完整性： 脱敏时必须保持表间外键关系的一致性，用户表”脱敏后，其对应的“订单表”中的用户ID也必须是脱敏后的同一值，否则订单会变成另一个用户的。
存储与性能： 加密和令牌化会引入额外性能开销，对于海量数据（如PB级的大数据平台），通常优先选择替换或泛化这类计算代价小的技术。

在实际工程中,通常组合使用多种脱敏技术：姓名用替换，身份证号用遮蔽，年龄用泛化，薪资用扰动，用户ID用假名化。

上一篇大数据行业前景如何

下一篇数据流通合规怎么做

抱歉，评论功能暂时关闭!