Developing a Loss Prediction-based Asynchronous Stochastic Gradient Descent Algorithm for Distributed Training of Deep Neural Networks:这篇文章介绍了异步更新的模式。看来参数服务器并没有一个具体的阈值确定何时进行异步更新。这篇文章提出一个算法以弥补梯度损失值。
ICDCS 19, Dynamic Stale Synchronous Parallel Distributed Training for Deep Learning:提出一种自适应确定延迟轮数方法。
Pathways: Asynchronous Distributed Dataflow for ML: PATHWAYS makes use of a novel asynchronous distributed dataflow design that lets the control plane execute in parallel despite dependencies in the data plane
Communication-Efficient Federated Deep Learning With Layerwise Asynchronous Model Update and Temporally Weighted Aggregation:模型不同层的更新频率不一样,一般来说,shallow 层的参数比 deep 层的参数更新更加频繁,因此本文提出根据不同层的更新频率异步训练。本文还提出一个加权聚合策略,从而利用之前聚合的本地模型。
INT Lab, FedSA: A Semi-Asynchronous Federated Learning Mechanism in Heterogeneous Edge Computing:在联邦学习场景中,由于节点异构,数据分布以及网络资源等问题,同步学习需要忍受很大的同步代价。因此现有研究关注异步学习。这篇论文确定每轮训练中,参数服务器收到哪k个工作节点的梯度才更新全局模型。这篇论文根据边缘异构性和数据分布决定k的值。
INT Lab, Adaptive Asynchronous Federated Learning in Resource-Constrained Edge Computing:这篇文章根据实时系统状态,例如网络资源,为每一轮异步训练确定聚合的工作节点比例。和上一篇工作内容相似。这里是根据全局信息确定的M,感觉参考意义不大
Straggler Problem
Nurd: Negative-Unlabeled Learning for Online Datacenter Straggler Prediction:这篇文章并不是分布式模型训练场景,而是分布式系统中。提出了一个利用无监督学习预测数据中心慢节点的方法。