蚂蚁集团 隐私计算最佳实践 隐私计算最佳实践 隐私计算最佳实践 Gartner的研究 2021年最主要的战略技术趋势: 隐私增强计算 2 1 概述 隐私计算:隐私保护前提下链接数据孤岛 10 满足数据安全、隐私保护和监管合规前提下,链接数据孤岛,实现多方协同释放数据 要素价值,是当前大数据技术发展应用的一大难题,而隐私计算正是解决这一难题的 技术方案。隐私计算又称为隐私增强计算、隐私保护计算,是目前业界认可的、能在 数据要素流通融合中有效保护数据隐私的信息技术。 随着各国隐私保护法规的陆续出台、隐私保护意识的觉醒,近年来欧洲、美国、中国、 日本、韩国等国家和地区加快了对隐私计算的研发和商用步伐。隐私计算在业内已经 应用于金融、科研、医疗等十多个行业,在联合机器学习、联合统计、联合科研、数据 发布、外包数据计算、外包数据查询等应用中保护数据隐私。 隐私计算作为一个快速发展的领域,其技术复杂发展快,其技术和应用还不被很多 期望采用隐私计算的机构和个人熟知,而隐私计算技术和产品的选型并不是一个简单 事情。本文将主要探讨隐私计算场景、技术选型、产品选型等话题,给隐私计算潜在 使用者提供隐私计算实践的参考。 蚂蚁集团发布了隐私计算最佳实践。这篇社论由蚂蚁集团提供,独立于Gartner分析。Gartner的所有研究均为©2021 Gartner, Inc.所有。保留所有权利。所有Gartner材料均经Gartner许可使用。Gartner研究的使用或发布并不表示Gartner 认可蚂蚁集团的产品和 /或战略。未经事先书面许可,禁止以任何形式复制或分发本刊物。此处包含的信息是从可靠来源获得的。Gartner对这些信息的准确性、完整性或充分性不作任何保证。Gartner不对本文所含信息的错误、遗漏或不足或其 解释承担任何责任。此处意见如有更改,恕不另行通知。尽管Gartner研究可能包括相关法律问题的讨论,但Gartner不提供法律建议或服务,其研究不应被诠释或使用。Gartner是一家上市公司,其股东可能包括在Gartner研究涵盖的实体中 拥有经济利益的公司和基金组织。Gartner的董事会可能包括这些公司或基金组织的高级经理。Gartner研究由其研究机构独立进行,不受这些公司、基金组织或其经理的激励或影响。有关Gartner研究的独立性和完整性的更多信息,请参阅其 网站上的 “Guiding Principles on Independence and Objectivity”(独立性和客观性指导原则)。 2 3 Curabitur at nibh Consectetuer adipiscing elit tortor lacus nonummy purus 2 隐私计算应用和场景 图示1 隐私计算三大场景 资料来源:蚂蚁集团 隐私计算可用于数据流通的三大类典型应用(联合计算、 隐私计算防范多头借贷。互联网金融行业中,多头借贷 提升保险理赔效率。随着越来越多的传统医院投入 算中,多方联合基于他们的数据完成指定的计算,如基 者每多申请一家机构,违约的概率就上升20% 。如何 前景。但是,在目前的商业医疗保险理赔过程中,参保 数据发布、云计算),保护其中的敏感数据。在联合计 于多方数据的建模、统计分析。在数据发布中,数据方 将其数据提供给一个或多方使用方,使用方可以对数据 进行各种分析和计算。在云计算中,数据方将其数据交 给云,利用云端丰富的计算和存储资源对其数据进行加 工处理。这里,数据和计算都是广义的概念,数据包括 数据集、查询条件、机器学习模型参数、计算逻辑等, 计算包括机器学习建模推理、统计、查询等。 隐私计算的这三大类应用中,联合计算由于其需求广、 隐私保护的难度大,是近年来业内最为关注的。本文将 用户的信贷逾期风险是普通客户的3到4倍,贷款申请 对贷款申请者的多头借贷风险进行准确评估成为行业 风控的重要一环。多个行业机构可以通过隐私计算共 同搭建行业安全数据联盟,让参与方通过安全查询获 取风险黑名单、多头贷款、多头逾期、多头查询在内的 风控数据,也可以支持多方不输出明细数据即可进行 联合安全建模、联合风险预测,形成行业内的联防联 控方案,大大降低企业经营风险。隐私计算保证了查 询方只能获取联盟内的统计数据,而无法获知任一参 与方的明细数据,保证各方自有数据的安全。 重点介绍联合计算中的隐私计算。 金融行业联合风控提升风险识别能力。银行个人信贷 下面以金融、医疗、政务行业场景举例介绍隐私计算 值,也需要引入外部数据。在离线建模阶段,银行与数 应用。 2.1 金融场景 金融是数据要素密集行业,同时也在多方数据协同、 要提升风险识别能力,既需要充分挖掘自身数据的价 据服务商采用隐私计算联合双方样本进行机器学习训 练,银行得到风控模型。在在线推理阶段,银行将模型 加密部署,保障模型及查询结果安全。 互联网怀抱,移动医疗与保险的结合也展现出广阔的 人必须带齐所有表单、医疗收据、病历等资料到保险 公司提交申请,或者手工拍照后通过保险公司APP 将 资料上传给理赔平台并发起理赔申请,整个过程效率 低、程序繁琐,需要等待多天才能获得理赔。为了提高 用户体验,增加用户粘性,提高患者整体的就医支付 能力,不少商业保险公司开始搭建 “商保快赔通道”,但 是在关键的医疗数据使用上,由于院方出于对医疗数 据安全的担忧,不愿意直接把敏感的医疗数据开放给 商保快赔平台,导致众多“ 商保快赔通道 ” 在接入医院 时难度较大。参与计算的医院和保险公司在各自私域 内部署隐私计算节点,进行联合理赔模型和策略训练, 验证效果后,将理赔计算逻辑部署在医院域的隐私计 算节点上。在患者就诊结束后申请理赔,医院对理赔 申请人的原始就医数据进行理赔计算,输出理赔计算 结果,最大程度的保护了医疗数据,同时也降低医院 接入的难度。 释放数据价值的过程中存在诸多痛点。 3 2.2 医疗场景 3 隐私计算技术选型推荐 MPC和TEE是用于联合计算的主要技术。他们都可以 隐私性强等特点,隐私保护与充分发挥其巨大的价值 术,涉及密码学、安全硬件、信息论、分布式计算等多 私,还可以只让指定方获得计算结果或结果的一部分。 医疗数据是个人隐私的最后防线,自身具有高价值与 是一对始终存在的矛盾。而隐私计算的出现化解了这 一矛盾进而在医疗领域前景广阔。 隐私计算支持医疗行业联合科研。通过机器学习对大 规模病例数据进行深度挖掘,可提高医疗科研与病情 隐私计算并非单一的技术,而是包含多种隐私保护技 个学科。隐私计算基于其实现隐私保护的原理可分为 密码学、可信执行环境、信息混淆脱敏、分布式计算四 类路线,其中的主要代表技术有多方安全计算、差分隐 私、匿名化、联邦学习等。这些技术在可支持的计算、 隐私保护的维度、隐私保护强度、安全性、性能等方面 支持多方数据的各种计算,除了可以保护各方数据隐 而且每次计算都需要各方的配合协作,因此各方可以 很好控制数据的用途(参与了什么计算任务)、用量 (参与了几次计算、哪些字段参与了计算),容易实施 数据最小化使用原则,防止数据滥用和非授权使用。 有较大差异,分别适合不同的应用和场景。有时也需要 下面总结对比隐私计算各技术路线代表技术,并给出 隐私范畴,收集个人隐私信息容易面临合规风险。同时 • 密码学路线代表技术是多方安全计算MPC(secure 总体而言,多方安全计算、可信执行环境可用于各种类 保护,数据共享会导致数据持有机构失去原有竞争优 进行数据的计算、检索等处理,这一过程中输入数 有取舍;联邦学习适用于对结果管控无要求的联合建 推断的效率,促进整个医疗服务的精确度和效率的提 升。但是单个医疗机构的数据样本有限,需要联合多 机构的病例数据进行联合建模。而病例数据属于个人 医疗健康行业知识产权竞争十分激烈,出于商业利益 势。多家医院和医疗科研机构可在本地部署隐私计算节 点,将进行联合计算的数据对接到各自私域的隐私计 结合使用两种或多种技术来满足应用需求。 Multi-Party Computation)。这一路线是在密态下 据、中间结果处于密态不暴露,只输出最终结果。 算节点上,通过联合隐私统计等可保障医疗数据不离 • 可 信 执 行 环 境 T E E ( Tr u s t e d E x e c u t i o n 还可通过联合机器学习进行病情推断提升医疗服务效 件构建一个可信的安全环境,数据在该环境中由可 开私有域的前提下,进行疾病的联合统计分析。此外, 率和准确度。 2.3 政务场景 政务场景也是隐私计算的重要场景。通过隐私计算, 一是可以打通政府各部门的数据,从而为民众提供更为 便捷、智能的服务;二是可以融合各方数据到政务场景 中,例如城市大脑的场景,更多的数据为城市的交通、 市政设施规划、安全、商业发展等各个方面治理水平的 提升提供了强劲的动力;三是可以把政府数据安全地 开放给产业,助力产业的发展。 4 技术选型推荐。技术路线的具体分析请参见附录。 型的联合计算、外包计算,两者在安全强度和性能上各 模;混淆脱敏可用于数据发布,还可辅助多方安全计算、 可信执行环境用于联合计算。 Environment)其方法是通过可信的抗篡改的软硬 技术路线建议。从联合计算的功能丰富性出发,联合 信的程序进行处理。 辅以信息脱敏和混淆技术,增强隐私保护。在某些建模 • 信息混淆脱敏路线的主要代表是匿名化和差分隐 私。其方法是通过加噪、删除、泛化等信息处理手 段对数据处理后再输出。 • 分布式计算路线的代表是联邦学习。大多分布式计 算任务原始数据不需要对外输出,只需输出本地基 于原始数据计算的中间结果。与把各方数据汇聚在 一起再计算的集中式计算方法相比,大为减少了原 始信息的泄露,但仍有中间结果信息泄露。 计算的隐私计算产品必须采用 MPC 或 TEE 技术路线, 情况下(模型不需要控制,可接受信息泄露),可以采用 联 邦学习作为补充 。如何在 MPC 和 TEE 之间选 择? MPC和TEE在安全强度和性能方面各有优势。MPC的 安全强度更高,但性能比TEE 差。为了灵活支持各种 场景,理想的 PPC 产品应该支持 MPC 和 TEE 双引擎。 允许用户灵活选 择引擎,并以相同的方式操作 PPC 产品。 5 路线 输入隐私 中间计算隐私 结果隐私 数据用法 结果管控 性能 优缺点 适合应用 MPC Y Y N Y Y 低到中 优点:高安全、高隐私、 1. 高安全的联合计算 用量管控 高管控
蚂蚁集团 隐私计算最佳实践
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 路人甲 于 2022-08-16 03:34:12上传分享