一 、联邦引言最近的学习ChatGPT(全称:Chat Generative Pre-trained Transformer )在各类社交媒体上风头无二,其是对数的破由OpenAI开发的一个人工智能聊天机器人程序 ,于2022年11月推出。据隐局该程序使用基于GPT-3.5架构的私保数据大型语言模型并通过强化学习进行训练 ,发布至今,护和OpenAI估值已涨至290亿美元,孤岛上线两个月后 ,困境用户数量达到1亿。联邦再往前看2016年,学习人工智能已经初现走向成熟的对数的亿华云破端倪,这一年随着AlphaGo 击败人类顶尖围棋选手李世石 、据隐局柯洁,私保数据我们真正见证了人工智能(AI)的护和巨大潜力,并开始期望在许多应用中使用更复杂,孤岛最先进的AI技术 ,包括无人驾驶汽车 ,医疗保健。如今 ,人工智能技术正在几乎每个行业中展示其优势 。 但是 ,当我们回顾AI的发展时 ,高防服务器不可回避的是AI的发展经历了几次起伏 。人工智能会不会再下滑呢?什么时候出现?由于什么因素?当前公众对AI的兴趣部分是由大数据的可用性驱动的:2016年AlphaGo总共使用了30万场游戏作为训练数据,以取得出色的成绩。随着AlphaGo的成功 ,人们自然希望像AlphaGo这样的大数据驱动的AI将成为在我们生活的模板下载各个方面。但是 ,人们都很快意识到现实世界中的情况有些令人失望:
图 1 :人工智能发展挑战 现实中,我们的数据质量是非常有限甚至是差的 ,比如聊天数据中有很多噪音 。数据标签的收集是比较困难的 ,很多场景中的源码下载数据是没有标签的。数据是孤岛的,这也是最重要一点,每家应用的数据不一样,比如主营社交软件的公司用的是社交属性数据,主营电商的公司用的源码库是电商交易数据,银行用的是信用数据 ,都是分散来应用的 。现实中,如何进行跨组织间的数据合作,会有很大的挑战。同时隐私保护政策变严格,这是重要的建站模板第二点,这些条例使得很多机构不能够把用户的数据收集起来、集中起来做分析,数据被条例保护在用户本地了。数据是人工智能时代的石油 ,但是由于监管法规和商业机密等因素限制,“数据孤岛”现象越来越明显。同时随着政策法规的逐渐完善和公众隐私保护意识加强 ,如何在保护数据隐私的前提下实现行业协作和协同治理,如何破解“数据孤岛”和“数据隐私保护”的两难困境 ,成为了当下人工智能技术行业应用中亟待解决的问题 。 二 、联邦学习概述2.1 “数据隐私保护”与“数据孤岛”困境数据孤岛和数据隐私保护的两难困境 :一是来自于人工智能技术本身的特点,需要海量数据作为基础;二是来自于世界范围内对数据隐私和安全的日益重视。 人工智能技术尤其是深度学习依赖于模型、 算法 ,更依辍于通过海量数据进行模型训练 。从而不断改进,仅依靠某一机构所掌握的数据,无法实现技术的快速突破。理想状态是在数据之间建立广 泛连接 ,形成合力,创造更大价值 。而现实情况是:有效数据往往难以获取或以“数据孤岛”的形式呈现。公司之间的数据共享需要用户的授权 ,而许多用户倾向于拒绝数据共享;即便一个公司内部,数据壁垒也不易打通;互联网巨头的存在 ,使得少数公司袭断大量数据。这些因素都会导致数据孤岛 ,难以创造出“1+1>2”的数据价值 。 全球范围内对数据隐私和安全的重视带来了更大挑战,这个挑战导致大部分企业只拥用小数据 ,加剧了数据孤岛现象的产生 。欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》 (General Data Protection Regulation, GDPR),明确了对数据隐私保护的若干规定 。和以往的行业规范不同,这是一个真正可以执行的法律,并且条款非常清晰严格 。例如,经营者要允许用户来表达数据“被遗忘”的愿望,即“我不希望你记住我过去的数据 ,并希望从现在起你不要利用我的数据来建模”。与此同时,违背GDPR的后果也非常严重 ,罚款可以高达被罚机构的全球营收的4%。Facebook 和Google已经成为基于这个法案的第1批被告 。而中国在2017年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出:“网络运营者不得泄露 、篡改 、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务”。这意味着对于用户数据的收集必须公开、透明 ,企业、机构之间在没有用户授权的情况下不能交换数据 。 虽然有明确的法律法规并且在全球范围内达成了广泛共识 ,但由于技术等因素的限制,实际应用中,数据隐私保护仍然是难题。收集数据的一方往往不是使用数据的一方 ,例如A方收集数据,转移到B方清洗,再转移到C方建模,最后将模型卖给D方使用 。这种数据在实体间转移、交换和交易的形式违反了相关法律法规 ,并可能受到严厉的惩罚。如何在保护数据隐私的前提下,从技术上解决数据孤岛的问题,在隐私安全和监管要求下,如何让AI系统更加高效 、准确地共同使用各自的数据 ,能够在小数据(很少的样本和特征)和弱监督(有很少的标注)的条件下做更好的模型 ,人们提出联邦学习的解决方案,并且不断探索其在具休行业场景下的应用。 2.2 联邦学习定义数学定义 : 定义N个数据持有者{ F1, F2, F3..., Fn},他们都希望通过整合各自的数据 { D1, D2, D3..., Dn}来训练机器学习模型。传统的方法是将所有数据放在一起使用 D=D1 U D2 U...U Dn来训练出一个模型 MSUM,而联邦系统是一个学习过程,在此过程中 ,所有数据持有者协作训练模型 MFED,并且对任意一个数据持有者 Fi 不会将其独享的数据 Di 暴露给其他人。除此之外 ,模型 MFED 的准确性定义为 VFED 其应该是非常接近于将数据集中放一起训练的模型 MSUM 的准确度 VSUM. 用公式定义 ,让 δ 为非负实数,如果 | VFED - VSUM |< δ 则称该联邦学习算法有 δ 的精度损失。
图 2.1:联邦学习模型组成 在Peter等在综述【1】中给出的上图定义中可以清晰看出 ,联邦学习指的是在满足隐私保护和数据安全的前提下设计一个机器学习框架 ,使得其中许多客户端(例如移动设备或整个组织)在中央服务器(例如服务提供商)的协调下共同训练模型 ,同时保持训练数据的去中心化及分散性 |