1. **高效 NCCL P2P 通信替代 Shared Memory** - 通过 C++ 封装的 NCCL 点对点通信,显著提升跨 GPU 带宽、降低延迟,消除 CPU 拷贝与共享内存限制。(预计需要1-2month) 2. **引入多线程通信–计算重叠** - 利用 C++ 多线程与条件变量,将前向/反向通信与计算解耦并流水线化,提高整体吞吐。(预计需要1-2month)
高效 NCCL P2P 通信替代 Shared Memory
引入多线程通信–计算重叠