一文读懂“联邦学习”和“区块链”的异同
8月29日,在南京举办的2020年中国人工智能大会的主题报告中,“联邦学习”一词成为了大会的热点,各方学者主要就“联邦学习”近几年的发展及其在金融、医疗和自动驾驶中的应用展开了激烈的讨论,探究其在数据安全和隐私保护中的重要作用。
同时,区块链技术作为近几年的国家战略发展技术,在多方数据共享和用户隐私保护方面意义重大。今天文章,小编将为大家介绍联邦学习和区块链技术的异同,让大家对这两种新兴大数据技术有一个更加全面的认识。
01联邦学习
联邦学习诞生于2016年的谷歌输入法优化项目。今年4月,由微众银行、中国银联、腾讯研究院等多家机构联合发布的《联邦学习白皮书V2.0》中,关于联邦学习的最新定义是:在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。
同时,联邦学习有三大构成要素:数据源、联邦学习系统、用户。三者间关系如图所示,在联邦学习系统下,各个数据源方进行数据预处理,共同建立机器学习模型,并将输出结果反馈给用户。
联邦学习是一种在大数据服务中保护隐私的分布式机器学习技术,主要采用同态加密、差分隐私、安全多方计算等技术,其核心就是解决数据孤岛和数据隐私保护的问题,通过建立一个数据“联邦”,让参与各方都获益,推动技术整体持续进步。
联邦学习可根据数据集特征和用户的不同重叠情况,分为了横向联邦学习(即两个数据集的特征重叠部分多,用户重叠部分少)、纵向联邦学习(即两个数据集的特征重叠部分少,用户重叠部分多)和联邦迁移学习(即两个数据集的特征重叠部分少,用户重叠部分少)
02区块链
区块链诞生于2009年的比特币项目,根据账本来源分为三种服务形态:数字货币、智能合约、应用平台。2019年10月,中共中央政治局就区块链技术进行集体学习,由此,区块链技术在我国掀起新的开发与应用浪潮。
从本质上讲,区块链是一个共享数据库,存储于其中的数据或信息,具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特征。
在之前文章《区块链开创未来交通新格局》、《从区块链角度看车路协同》、《区块链技术将赋予交通大数据哪些“魔力”?》等文章中已经详细说明了区块链技术在智能交通方面的应用。同时,区块链在金融、保险、物联网、公共服务等领域也正慢慢与实体行业结合,发挥着数字化时代重要的作用。
03两者的异同
在新兴的互联网市场中,智能终端设备依据摩尔定律飞速发展,光纤网络和5G无线网络逐步普及,产品创新层出不穷,互联网大数据的交互与传递亟需值得信赖的“可信媒介”,联邦学习和区块链正是在这样的背景下诞生并与实体产生应用的。
联邦学习的可信在于,在数据合作过程中使用的是不可逆的变换数据,即使没有权威机构监督,隐私数据也不会泄露。
区块链的可信在于,在记账过程中使用了群体共识和数字签名技术,即使没有权威机构监督,所记录的交易也是不可篡改且不可抵赖的。因此,这样的技术“可信媒介”将为国民经济持续健康发展提供新的生产力。
同时,联邦学习和区块链技术的应用目标都是增加个节点间的互信。其区别在于,联邦学习旨在实现“数据可用不可见”的隐私保护技术,并通过融合使用各方数据提升用户服务的质量,进而创造出新的价值,如梯度下降算法和同态加密技术。
而区块链技术旨在确保交易记录不可篡改,利用共识算法、分布式技术解决在去中心化网络中的双重支付等问题。在区块链中,如果有某个用户想要篡改某个交易数据,则至少需要修改整个区块链网络中2/3以上的节点内数据,在节点数量足够多的情况下,这种数据恶意篡改基本不可能实现。
此外,两项技术均需要有协作意愿和共识的计算节点。不同之处在于,联邦学习要求节点之间的数据具有互补性,例如其中一个节点存储消费习惯特征,另一个节点存储性格、爱好等特征。各节点之间的共识为联邦算法,通过约定在联邦之间的信息交互协议,实现模型训练及推理。
而区块链需要各节点同步记录所有交易信息。当一个节点产生交易时,该节点将把交易内容加密后发送至网络上的所有节点,各节点通过共识算法达成数据的一致性问题。区块链中比较常用的共识算法主要包括:工作量证明、股份授权证明、拜占庭容错等。