更新:Transformer engine 不在 GPU 外面,架构上依然在 GPU 的 SM 下面一起调度。Jim Keller 说的问题只有他做的 RISC-V ASIC 会遇到,对于英伟达 GPU 来说所有新网络新算子都是在 CUDA 上实现的。