支持 Python 函数转换;
添加或稳定化 API,以支持 FFT (torch.fft)、线性代数函数 (torch.linalg);
添加对复杂张量 autograd 的支持;
多项更新用于提升 Hessian 与 Jacobian 矩阵计算的性能;
改进分布式训练,包括提升 NCCL 可靠性、支持 pipeline 并行化、RPC profiling,以及通过添加梯度压缩来支持通信钩子(hook)。
ZeroRedundancyOptimizer:有助于减少每个线程的内存占用;
Process Group NCCL Send/Recv:该特性允许用户在 Python 层(而非 C++ 层)实现集合操作;
CUDA-support in RPC using TensorPipe:该特性为使用 PyTorch RPC 和多 GPU 机器的用户带来速度提升;
Remote Module:该特性允许用户像操作本地模块那样操作远程 worker 上的模块。