[ENHANCEMENT] MegaDPP：动态流水线并行优化

1. **高效 NCCL P2P 通信替代 Shared Memory**

      - 通过 C++ 封装的 NCCL 点对点通信，显著提升跨 GPU 带宽、降低延迟，消除 CPU 拷贝与共享内存限制。（预计需要1-2month）

2.  **引入多线程通信–计算重叠**

      - 利用 C++ 多线程与条件变量，将前向/反向通信与计算解耦并流水线化，提高整体吞吐。（预计需要1-2month）