分布式训练常用的集合通信

通信原语是计算机科学中用于在并发或分布式系统中进行通信的基本操作

Broadcast

Broadcast: 将一个进程中的数据发送到所有其他进程,通常用于将一个进程的消息或数据复制到所有参与者。

Scatter

Scatter:源进程将数据分成多个部分,并将每部分发送到不同的目标进程。其他进程接收并存储各自的块

Gather

Gather:与Scatter 相反,将多个进程中的数据汇聚到一个进程中。

AllGather

AllGather:将所有进程中的数据汇聚到每个进程中。

AlltoAll

AlltoAll:每个进程将自身的数据分别发送给其他进程,同时接收来自其他进程的数据,效果类似于转置。

Reduce

Reduce:把全部进程的数据规约到一个进程上。

ReduceScatter

ReduceScatter:将每个进程的数据规约并分散到所有进程。

AllReduce

AllReduce:将每个进程的数据规约并同步到所有进程,可通过执行Reduce + Broadcast或ReduceScatter + AllGather实现。

Licensed under CC BY-NC-SA 4.0
皖ICP备2025083746号-1
公安备案 陕公网安备61019002003315号



使用 Hugo 构建
主题 StackJimmy 设计