联邦学习、同态加密……关于数据协作，你不可不知的隐私增强技术- 工业快报

TechWeb 文 / 宜月

8月12日消息，Gartner曾预测2021年的顶级战略技术趋势，以联邦学习为代表的隐私增强技术位列其中。联邦学习是解决数据孤岛的最佳路径吗？对隐私的保护是否能一劳永逸？如何最大限度地提高数据隐私性和实用性？这样的技术与企业需求之间是否存在缺口，又将如何影响企业的发展？

一年多前，在一个金融服务业高管云集的房间有人提问：“谁听说过联邦学习？”一只手举了起来，来自房间里唯一的风险投资家。其他包括CIO和CDO在内没有一位高管对这项技术有所了解，尽管他们的企业很可能已经在使用联邦学习技术。

虽然高管不需要了解企业使用的每一项技术，但当企业寻求与合作伙伴进行安全有保障的连接时，隐私增强技术（PETs）中的联邦学习应该迅速被纳入关于数据协作的战略讨论。隐私增强技术起源于学术界，早期被政府机构和高度监管的行业采用。相关技术在不放弃对数据的控制或不损害消费者隐私的情况下可加速安全数据协作、建立客户智能（CI）和最大化数据价值，已经进入了更广泛的商业应用场景。

由于隐私监管和大型科技公司限制访问，数据的供应越来越少。随着数据隐私和安全成为全球趋势，这就很容易看出为什么这项已经存在几十年的技术现在又出现在一些希望强化数据基础、实现真实客户中心化的企业视野中。在升级数据战略的过程中，其他经常提及的隐私增强技术还包括差异隐私（differential privacy）、合成数据（synthetic data）、安全多方计算（Secure Multiparty Computation ，SMPC）和同态加密（homomorphic encryption）。

隐私增强技术可以解决什么？

隐私增强技术已经存在了几十年，大部分时间仅在幕后发挥作用。目前被多数人熟知的联邦学习是隐私增强技术的一种，可用于保存敏感信息（如卫星位置、银行对账单和医疗图像），使获得许可的一方能够跨云平台、基础设施和地理位置安全访问信息，而无需将其移动或复制到任何地方。

那么联邦学习服务于什么？举个简单的例子。假设用户人群相似的品牌 A 和 B，它们拥有不同的数据。品牌 A 有用户标签数据，品牌 B 有会员数据和交易数据。这两个企业按照数据隐私准则是不能直接地把双方数据加以合并的，因为他们各自的用户并没有机会授权这样做。

那么，现在的问题是如何在 A 和 B 各端建立高质量的人群模型。但是，又由于数据不完整（例如企业 A 缺少交易数据，企业B 缺少标签数据），或者数据不充分（数据量不足以建立好的模型），各端有可能无法建立模型或效果不理想。

联邦学习的目的是解决这个问题：它能够做到各个企业的自有数据不出本地，联邦系统可以通过加密机制下的参数交换方式，在不违反数据隐私保护法规的情况下，建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。

因此，在这样的一个机制下，数据本身并不移动，也不会泄露用户隐私或对数据安全产生潜在风险，联邦系统为生态建立了“win-win”的策略，也解决了数据孤岛的挑战。

那么，在目前的数字时代，联邦学习是解决数据隐私和安全的最佳路径么？

隐私保护没有一劳永逸

Gartner曾预测2021年的顶级战略技术趋势，隐私增强技术位列其中。隐私增强技术的独特之处在于，虽然所有技术都有其优点，但没有一种技术应该比另一种技术“更好”或“更差”，因为对隐私的保护不是一劳永逸的。企业希望可配置的控件能够定制化地满足需求并加速合作关系的建立和结果的达成。大多数隐私增强技术都有不同的用途，根据企业的业务需求，它们之间的配合可能会达到更好的效果。

技术服务商要能阐释他们在帮助企业遵守数据隐私法规并建立消费者信任时，使用了什么方法以及每种方法的利弊。以下是企业可以向技术服务商提出的六组问题，以便更好地了解他们的技术如何支持企业当前和未来的需求：

多方支持：我能否在多方参与的环境中实施我自己的隐私标准和数据控制？还是我必须接受其他人的做法？安全性：我可以将我的数据保留在某个安全范围内吗？或者，与他人合作是否需要将数据移动到我的数据基础架构之外？灵活性：支持哪些应用场景，不支持哪些？速度：你的技术是否会减缓我的分析、查询或处理速度？如果是，减速是线性的（如10%减速）还是指数性的（如100倍减速）？效用：我的团队使用可用数据得出的洞察是否准确且可执行？

在不妥协数据隐私的前提下，最大限度地提高数据实用性

正如Winterberry不久前的一份报告显示，在美国和英国，70%受访高管目前正在或计划“共享一方数据以进行用户洞察、激活及效果测量或归因”。其中一些企业可能还不知道，隐私增强技术支持数据协作最大限度提高隐私和实用性，扩展了一方数据的可能性。使用传统的数据协作模式，敏感信息可能会要求删除个人标识符以保护隐私。然而，其中一些信息对于准确、无偏见地理解受众是必要的。与其将完整的数据表提供给有权限的特定数据科学家和分析人员，不如让原始数据与使用隐私增强技术的数据分析人员保持距离，这样做速度更快、更有效，而且最重要的是，隐私意识强且以客户为中心。

然而以联邦学习为代表的隐私增强技术也存在着实施周期长、整体预算较高等问题，对于寻求同样效果但希望采用更简单易行方案的品牌， LiveRamp的标识符（ID）转换解决方案--Vault是填补隐私增强技术与企业需求缺口的更佳选择。

填补隐私增强技术与企业需求之间的缺口，实现真正的以客户为中心

Vault是由链睿中国提供的软件服务，基于LiveRamp在隐私保护领域的强大综合实力，通过高效并安全地假名化并加密ID（Identity，用于营销以及数据分析环境中的用户身份），在隐私合规的前提下解决营销数据跨平台进行交互的挑战。Vault可处理任何ID，通过Vault加密后的ID被称为RampID，它不可逆转、可在任何客户指定的环境中部署。Vault成熟的密钥管理体系确保RampID生成的一致性，并可通过集群化部署提高RampID生成效率。

通过Vault，品牌可用更低的成本更简单地实现联邦学习等技术的多种应用场景，实现安全的数据连接和有效的数据协作：

场景一：安全第三方数据标签增补

品牌希望对其一方数据（如在线及线下交易数据、会员手机号、潜在用户设备号）等，利用第三方数据对其进行标签增补，完善用户画像，强化数据价值。在此过程中，Vault将加密后的品牌数据生成RampID，随后将RampID上传至专为此品牌设置的安全环境中，之后将RampID发送给第三方数据服务商。服务商在其LiveRamp保险柜中将匹配上的RampID添加标签，最终返回到品牌自己控制的环境中。在此过程中双方的匹配是基于假名化并加密过后的RampID, 而没有匹配上的RampID也无法逆向工程再辨识以及使用，以保障彼此的一方数据安全。

场景二：安全多方数据融合进行分析、建模等

品牌需要将自己的一方数据与多方数据进行融合，以支持其用户画像分析、建模等应用。在此过程中，品牌和其他各方分别将各自的数据通过Vault生成RampID，上传至链睿为品牌设置的安全环境中，在获得客户授权的前提下统一用于报告、建模等数据分析与应用流程，实现安全跨领域融合分析数据的目的。

场景三：安全上传一方数据至CDP等其他外部平台

对于希望将一方数据上传CDP等这样的外部平台的需求，安全有保障地上传数据是关键。通过Vault，不论是品牌的一方数据，还是LiveRamp连接的数据合作伙伴提供的二、三方数据，都将通过加密生成RampID后发送至CDP。经过CDP的多种处理，数据以RampID的形式发送至媒体发布平台，应用于数字营销的各个环节，包括洞察、激活、测量等等。通过一方数据及二、三方数据的安全上传，品牌可实现安全有效的数据连接与协作，更加深入地分析消费者并全面赋能数据，从而助力提升用户体验、提高数据价值。

综上所述，LiveRamp Vault作为隐私增强技术的便捷应用，与联邦学习技术可殊途同归的达成同样的数据隐私保护效果，打破数据孤岛，安全有保障地实现数据连接和数据协作。在此基础之上，品牌能够强化数据策略，真正实现以客户为中心，扩展数据应用场景，提升数据价值，从而赢得“用户”这一长期竞争中的关键优势。

许多公司多年来一直宣称以客户为中心，在数字和隐私第一的以客户为中心的标准已经提高的今日，很多公司必须抓紧追赶才不会掉队。隐私增强技术正不断证明他们能够能够缩小差距、加快数据战略、构建真正的单一客户视图，并始终如一地提供下一代体验，为企业建立竞争优势。要实现真正的以客户为中心，隐私增强技术方案必须尽快进入企业的数据战略乃至整体发展战略中。

（责任编辑：董云龙）

文章内容来自网络，如有侵权，联系删除、联系电话：023-85238885