- 5G时代通信延迟和网络带宽满足设备可用性
- 分布式机器学习有两个风险:模参上传过程 + 梯度聚合过程;
- 提出一个满足分布式拜占庭弹性的基于区块链分片技术(sharding)的5g安全计算框架(PIRATE)
待解决的问题
- 移动设备有足够的计算力,但设备异构和网络环境是分布式联邦的困难(异步联邦解决因异构导致的耗时等待 + 5G解决网络)
- 理想的分布式学习(高可用性 + 高扩展性 + 去中心化 + 拜占庭弹性模型安全)
- 传统中央服务器存在工作负载压力和单点故障SPOF(备份增加运营支出OPEX);
- 为实现分布式学习的拜占庭回弹,就需要有一个状态复制机(SMR)协议,—区块链满足
- 共识协议分为2类:竞争类(先附加块再共识–高扩展高分叉)和通信类(先共识再附加块–基于确定性的方式来选择leader);
- 分片共识作为一种混合方式得益于通信的即时最终性和竞争的无许可弹性,可以在无许可的区块链中实现可伸缩共识;(RapidChain是一种分片技术)
- 执行分布式计算时,仅仅依靠诚实行为来评价不足够,因为节点并不能根据诚实行为改变网络环境和计算能力,需要对整个训练过程的可靠性进行一致的评估,在我们的框架中应用一个许可版的分片共识协议。
分布式相比集中式的优点:
1、通信效率:更好利用带宽资源避免交通堵塞,在对等节点之间共享工作负载;
2、成本效率:随着参与者的逐渐增加,单节点维护系统不现实(OPEX);
3、可靠性:SPOF
贡献:
- 将梯度和参数存储在链上,利用区块链的可追溯性,恶意节点产生的全局模参可以回滚到出错前的状态(区块链的防篡改特性),
- 提出的拜占庭容错聚合算法是" l-nearest 梯度聚合"—降低他们生成的恶意梯度对模型聚合的影响;
- 但其还是master/slaves模式,其参数服务器是通过PoW竞争选举的;
- 此外因为系统中所有节点都需要保存历史模型参数会导致链上数据过大;
- 可靠性方面:当连续的两个拜占庭leader共谋时,后续的第三个leader就检测不出来模型污染,问题就出在每次只有一个leader对更新进行校验,当其接受更新时校验立即终止;
传统模型的线性聚合方式不能容忍一个拜占庭节点;
梯度聚合时的两种拜占庭保护方式:
1、基于容错 – 一般只针对IID数据
- Krum排除离大多数梯度较远的梯度并基于空间分数选择一个梯度、Multi-Krums取均值加快收缩进度、缺点是时间复杂度O(N2);
- l-nearest基于余弦距离选择 l 个最近的梯度并聚合,时间复杂度O(N),缺点是不能抵抗无所不知的拜占庭节点(某拜占庭节点获知其他节点的梯度,可伪造出一个满足聚合条件的恶意梯度);
2、基于检测
- Anomaly Detection:由预先训练过的异常检测模型为每个计算节点分配一个信用评分。由于局部梯度的权重是由信用评分决定的,因此加权和聚合可以过滤掉拜占庭式的局部梯度。
3、Learning to learn
将本地梯度更新当作RNN网络的输入,优化一个依赖原始问题轨迹的目标;
设备不稳定性要求有实时的可靠性评估来操作准入控制;
提出中心化的准入控制(计算能力、网络环境、加入或离开的可能性、历史诚信分数),一旦授权准入,可通过Bounded Cuckoo rule加入委员会;
训练过程中由委员会验证的分数会被传输进准入控制中心,低信用分节点会被剔除;
- 将计算节点随机分为不同的委员会中,聚合任务在不同的委员会之间进行,这样就可缓解中心化聚合的工作压力;
- 一个委员会内部leader:选举C*C/N个梯度进行验证聚合 + 与邻居委员会聚合 全局共识:2(N/C - 1)步之后就是全局的聚合;
- Hotstuff consensus protocol将共识过程分为4个步骤(PREPARE, PRE-COMMIT, COMMIT, DECIDE);
- ?????具体四个步骤在本文感觉就是引用原论文话术,啥都没讲
在通信效率和存储复杂度方面做比对
1、同等迭代比梯度存储量;
2、相同节点数量比迭代次数;



