《联邦学习》阅读笔记

高质量、大数据的训练数据通常是很难获得的，我们不得不面对难以桥接的数据孤岛。由于数据是由不同组织的不同部门产生并拥有的，传统的方法是收集数据并传输至一个中心点（例如一个数据中心），这个中心点拥有高性能的计算集群并且能够训练和建立机器学习模型，然而由于数据孤岛的出现，这种方法近来已经不再有效或者适用了

随着人工智能在各行各业的应用落地，人们对于用户隐私和数据的安全度也在不断提高。用户开始更加关注自己的隐私信息是否未经自己允许就被利用，甚至滥用。人们对于数据失去掌控的担忧，以及对于增益分配效果的不透明，加剧了所谓数据碎片化和孤岛分布的严重性

随着物联网和边缘计算的兴起，大数据往往不会拘泥于单一的整体，而是分布在许多方面。例如对于自动驾驶汽车，每辆汽车必须能够在本地使用机器学习模型处理大量信息，同时需要在全球范围内与其他汽车和计算中心协同工作

联邦学习概述

各种原因造成的数据孤岛正阻碍着训练人工智能模型所必须的大数据的使用。一种可行的方法是由每一个拥有数据源的组织训练一个模型，之后让各个组织在各个模型上彼此交流沟通，最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全，各组织间交换模型信息的过程将会被精心设计，使得没有组织能够猜测到其他任何组织的隐私数据内容。同时，当构建全局模型时，各数据源仿佛已被整合在一起，这边是联邦学习的核心思想

联邦学习旨在建立一个基于分布数据集的联邦学习模型。联邦学习包括两个过程，分别是模型训练和模型推理。在模型训练过程中，模型相关的信息能够在各方之间交换（或者以加密形式进行交换），但数据不能。这一交换不能暴露各个站点上数据的任何受保护的隐私部分。已训练好的联邦学习模型可以置于联邦学习系统的各参与方，可以在多方之间共享。在推理时，模型可以应用于新的数据实例

联邦学习是一种具有以下特征的用来建立机器学习模型的算法框架。其中机器学习模型是指将某一方的数据实例映射到预测结果输出的函数：

有两个或以上的联邦学习参与方协作构建一个共享的机器学习模型，每一个参与方都拥有若干能够用来训练模型的训练数据
在联邦学习模型的训练过程中，每一个参与方拥有的数据都不会离开该参与方，即数据不离开数据拥有者
联邦学习模型相关的信息能够以加密方式在各方之间进行传输和交换，并且需要保证任何一个参与方都不能推测出其他房的原始数据
联邦学习模型的性能要能够充分逼近理想模型（是指通过将所有训练数据集中在一起并训练获得的机器学习模型）的性能

理论上来说，如果使用安全的联邦学习在分布式数据源上构建机器学习模型，这个模型在未来数据上的性能近似于把所有数据集中到一个地方训练所得到的的模型的性能。

联邦学习系统可能涉及也可能不涉及中央协调方，也能被设计为对等(P2P)网络的方式（即不需要协调方，这种体系结构的优点是提高了安全性，但需要更多的计算操作来对消息内容进行加密和解密）

联邦学习带来了许多益处，由于它被设计为不需要直接数据交换或者收集的形式，所以保护了用户的隐私和数据安全。联邦学习还允许若干参与方系统训练一个机器学习模型，从而使各方都能得到一个比自己训练的更好的模型。

联邦学习有巨大的商业应用潜力，但同时也面临着诸多挑战。参与方（比如智能手机）和中央聚合服务器之间的通信链接可能是慢速且不稳定的，因为同一时间可能有非常多的参与方在通信。还有，在联邦学习系统中，来自不同参与方的数据可能会导致出现非独立同分布的情况。并且不同的参与方可能有数量不均的训练数据样本，这可能导致联邦模型产生偏差，甚至会使得联邦模型训练失败。联邦学习模型也容易遭到恶意攻击，即只要有一个或者更多的参与者发送破坏性的模型更新信息，就会使得联邦模型的可用性降低，甚至损失整个联邦学习系统或者模型性能

联邦学习的分类

设矩阵 D i D_i Di表示第 i i i个参与方的数据；设矩阵 D i D_i Di的每一行代表一个数据样本，每一列代表一个具体的数据特征；一些数据集可能包含标签信息，将特征空间设为 X X X，数据标签空间设为 Y Y Y，并用 I I I表示数据样本ID空间。特征空间 X X X，数据标签空间 Y Y Y和样本id空间 I I I组成了一个训练集 ( I , X , Y ) (I,X,Y) (I,X,Y)。根据训练数据在不同参与方之间的数据特征空间和样本ID空间的分布情况，将联邦学习划分为横向联邦学习、纵向联邦学习和联邦迁移学习

横向联邦学习。适用于联邦学习的参与方的数据有重叠的数据特征，即数据特征在参与方之间是对其的，但是参与方拥有的数据样本也是不同的
纵向联邦学习。适用于联邦学习参与方的训练数据有重叠的数据样本，即参与方之间的数据样本是对齐的，但是在数据特征上有所不同
联邦迁移学习适用于参与方的数据样本和数据特征重叠都很少的情况

威胁与安全模型

我们关注机器学习中的三种主要攻击类型：

完整性，对完整性的攻击可能导致机器学习系统出现检测错误，例如将入侵点检测为正常（假阴性）
可用性，对可用性的攻击可能会导致系统出现分类错误（假阴性和假阳性），即系统会变成不可用的
机密性，对机密性的攻击可能导致一些机器学习系统中的敏感信息（如训练数据或者训练模型）出现泄漏

对机器学习系统的攻击可能会在任何阶段发生，包括数据发布、模型训练和模型推理。在模型阶段发生的攻击叫做重构攻击。在模型推理阶段，一个敌对的结果方可能会使用反向工程技术来获取模型的额外信息，以此实施模型反演攻击或成员推理攻击。特征推理攻击则发生在数据发布阶段

重构攻击。敌手的目标是在模型的训练期间抽取训练数据，或抽取训练数据的特征向量。为了抵御重构攻击，应当避免使用存储显示特征值的机器学习模型，例如支持向量机(SVM)和k近邻(kNN)模型。在模型训练过程中，安全多方计算和同态加密可以被用来通过保护计算中间结果来抵御重构攻击。在模型推断过程中，计算方只应当被授予对模型的黑盒访问权限
模型反演攻击。敌手被假设为对模型拥有白盒访问权限或黑盒访问权限。对于白盒访问，敌手不需要存储特征向量便能获取模型的明文内容。对于黑盒访问，敌手只能查询模型的数据和收集返回结果。敌手的目的是从模型中抽取训练数据或训练数据的特征向量。为了抵御模型反演攻击，应当向敌手暴露尽可能少的关于模型的信息。对模型的访问应当被限制为黑盒访问，模型输出同样应当受限
成员推理攻击。敌手对模型至少有黑盒访问权限，同时拥有一个特定的样本作为其先验知识。敌手的目标是判断模型的训练集中是否包含特定的样本。敌手通过机器学习模型的输出试图推断此样本是否属于模型的训练集
特征推理攻击。敌手出于恶意目的，将数据去匿名化或者锁定记录的拥有者。在数据被发布之前，通过删除用户的个人可识别信息（也称为敏感特征）来实现匿名化，使用户保护隐私的一种常用方法。这种方法已被证明并非十分有效

p21

《联邦学习》阅读笔记

大数据系统相关栏目本月热门文章