关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

23 KiB

Raw Permalink Blame History

MSAdapter用户手册

1.简介

MSAdapter是一款将PyTorch训练脚本高效迁移至MindSpore框架执行的实用工具，旨在不改变原生PyTorch用户的编程使用习惯下，使得PyTorch风格代码能在昇腾硬件上获得高效性能。用户只需要将PyTorch源代码中torch系列相关的包导入部分（如torch、torchvision等），替换为导入msadapter.pytorch系列相关的包（如msadapter.pytorch、msadapter.torchvision等），加上少量训练代码适配即可实现模型在昇腾硬件上的训练。

本教程旨在协助用户快速完成PyTorch脚本迁移工作，精度调优和性能调优可参考MSAdapter调试调优指南。

2.模型迁移入门指南

将现有PyTorch原生代码利用MSAdapter移植至MindSpore时，当前通常需要如下两个步骤，替换导入模块以及替换网络训练脚本：

Step 1: 替换导入模块
首先替换代码中导入torch相关包的代码，如import torch或from torchvision等部分，这一步可以利用msadapter/tools下提供的replace_import_package工具可快速完成工程代码中torch及torchvision相关导入包的替换。

bash replace_import_package.sh [Project Path]

Project Path为需要进行替换的工程路经，默认为＂./＂。

或者，用户也可以手动的替换文件中的导入包部分代码，示例代码如下：

# 替换前
# import torch
# import torch.nn as nn
# import torch.nn.functional as F
# from torchvision import datasets, transforms

# 替换后
import msadapter.pytorch as torch
import msadapter.pytorch.nn as nn
import msadapter.pytorch.nn.functional as F
from msadapter.torchvision import datasets, transforms

class LeNet(nn.Module):
    def __init__(self):
        super(LeNet, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, 5)
        self.pool1 = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(16, 32, 5)
        self.pool2 = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(32*5*5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
                                     
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = self.pool1(x)
        x = F.relu(self.conv2(x))
        x = self.pool2(x)
        x = x.view(-1, 32*5*5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

criterion = nn.CrossEntropyLoss()

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

train_set = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
train_data = DataLoader(train_set, batch_size=128, shuffle=True, num_workers=2, drop_last=True)

MSAdapter目前已支持大部分PyTorch和torchvision的原生态表达接口，用户只需要替换导入包即可完成模型定义和数据初始化。模型中所使用的高阶API支持状态可以从这里找到 Supported List。如果有一些必要的接口和功能缺失可以通过ISSUE 向我们反馈，我们会优先支持。

Step 2: 替换网络训练脚本
由于MindSpore的自动微分采用函数式表达，和PyTorch的微分接口存在差异，目前需要用户手动适配训练部分的少量代码，即将PyTorch版本的训练流程代码转换为MindSpore的函数式编程写法，从而使能MindSpore动静统一、自动并行等竞争力功能。详细内容可参考MindSpore使用文档。以下示例展示了如何将PyTorch训练流程转换为MindSpore函数式训练流程：

迁移前网络表达：

net = LeNet().to(config_args.device)
optimizer = torch.optim.SGD(net.parameters(), lr=0.01, momentum=0.9, weight_decay=0.0005)
net.train()

# 数据迭代训练
for i in range(epochs):
    for X, y in train_data:
        X, y = X.to(config_args.device), y.to(config_args.device)
        out = net(X)
        loss = criterion(out, y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        print("------>epoch:{}, loss:{:.6f}".format(i, loss))

替换为Mindspore函数式迭代训练表达，其中前向过程通常包含了模型网络接口调用以及损失函数调用，反向求导过程包含了反向梯度接口调用以及优化器接口调用部分，此外，MindSpore不需要调用loss.backward()以及optimizer.zero_grad()，具体示例如下：

import msadapter.pytorch as torch
import mindspore as ms

net = LeNet().to(config_args.device)
optimizer = torch.optim.SGD(net.parameters(), lr=0.01, momentum=0.9, weight_decay=0.0005)

# 定义前向过程
def forward_fn(data, label):
    logits = net(data)
    loss = criterion(logits, label)
    return loss, logits

# 反向梯度定义
grad_fn = ms.ops.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)

# 单步训练定义
def train_step(data, label):
    (loss, _), grads = grad_fn(data, label)
    optimizer(grads)
    return loss

net.train()
# 数据迭代训练
for i in range(epochs):
    for X, y in train_data:
        X, y = X.to(config_args.device), y.to(config_args.device)
        res = train_step(X, y)
        print("------>epoch:{}, loss:{:.6f}".format(i, res.numpy()))

如果您想了解更多当前流程与PyTorch原生流程的区别可参考与PyTorch执行流程区别。

如果您想要运用静态图模式加速、分布式训练和混合精度等更高阶的训练方式加速训练可以参考3.进阶训练指南。如果在使用过程中遇到问题或无法对标的内容欢迎通过ISSUE 和我们反馈交流。当前存在部分接口暂时无法完全对标PyTorch（参考Supported List），针对这类接口我们正在积极优化中，您可以暂时参考4.手动适配指南进行适配处理（不影响网络的正常执行训练）。

更多迁移用例请参考MSAdapterModelZoo。

3.进阶训练指南

3.1 使用混合精度加速训练

混合精度训练是指在训练时，对神经网络不同的运算采用不同的数值精度的运算策略。对于conv、matmul等运算占比较大的神经网络，其训练速度通常会有较大的加速比。mindspore.amp模块提供了便捷的自动混合精度接口，用户可以在不同的硬件后端通过简单的接口调用获得训练加速。目前由于框架机制不同，用户需要将torch.cuda.amp.autocast接口替换成mindspore.amp.auto_mixed_precision接口，从而使能MindSpore的自动混合精度训练。

迁移前代码：

from torch.cuda.amp import autocast, GradScaler

model = Net().cuda()
optimizer = torch.optim.SGD(net.parameters(), lr=0.01, momentum=0.9, weight_decay=0.0005)

scaler = GradScaler()

model.train()
for epoch in epochs:
    for inputs, target in data:
        optimizer.zero_grad()

        with autocast():
            output = model(input)
            loss = loss_fn(output, target)

        loss = scaler.scale(loss)  # 损失缩放
        loss.backward()
        scaler.step(optimizer)  # 梯度更新
        scaler.update()  # 更新系数
...

迁移后代码：

import msadapter.pytorch as torch
from msadapter.pytorch.cuda.amp import GradScaler
from mindspore.amp import auto_mixed_precision

...
model = Net().cuda()
optimizer = torch.optim.SGD(net.parameters(), lr=0.01, momentum=0.9, weight_decay=0.0005)

scaler = GradScaler()

model.train()    # model的方法调用需放在混合精度模型转换前
model = auto_mixed_precision(model, 'O3')    # Ascend环境推荐配置'O3'，GPU环境推荐配置'O2'

def forward_fn(data, target):
    logits = model(data)
    logits = torch.cast_to_adapter_tensor(logits)  # model为混合精度模型，需要对输出tensor进行类型转换
    loss = criterion(logits, target)
    loss = scaler.scale(loss)   # 损失缩放
    return loss

grad_fn = ms.ops.value_and_grad(forward_fn, None, optimizer.parameters)

def train_step(data, target):
    loss, grads = grad_fn(data, target)
    scaler.step(optimizer, grads)  # 梯度更新
    scaler.update()  # 更新系数
    return loss

for epoch in epochs:
    for inputs, target in data:
        loss = train_step(input, target)
...

Step1：调用auto_mixed_precision自动生成混合精度模型，如果需要调用原始模型的方法请在混合精度模型生成前执行，如model.train()；

Step2（可选）：如果后续有对网络输出Tensor的操作，需调用cast_to_adapter_tensor手动将输出Tensor转换为MSAdapter Tensor。

更多细节请参考自动混合精度使用教程。

3.2 使用静态图模式加速训练

MindSpore框架的执行模式有两种：动态图（PyNative）模式和静态图（Graph）模式：

动态图模式下，程序按照代码的编写顺序执行，在执行正向过程中根据反向传播的原理，动态生成反向执行图。动态图模式方便编写和调试神经网络模型。
静态图模式下，程序在编译执行时先生成神经网络的图结构，然后再执行图中涉及的计算操作。静态图模式利用图优化等技术对执行图进行更大程度的优化，因此能获得较好的性能，但是执行图是从源码转换而来，因此在静态图下不是所有的Python语法都能支持。
更多详细信息请参考MindSpore动静统一机制介绍。

目前MSAdapte默认支持PyNative模式，请首先在PyNative模式下完成功能调试。如果想调用静态图模式进行训练加速，再尝试切换到Graph模式执行。下面介绍两种切换静态图的方式：

方式一：采用即时编译装饰器jit，使能部分函数粒度表达模块以静态图模式执行。

import mindspore as ms
@ms.jit
def mul(x, y):
    return x * y

方式二：全局设置Graph模式，更适合基于Module表达。

import mindspore as ms
ms.set_context(mode=ms.GRAPH_MODE)

由于Graph模式下不是所有的Python语法都能支持，通过上面两种方式切换到Graph模式后部分网络可能会出现语法不支持情况，需要根据报错信息对代码进行相应调整，当前主要体现在in-place类型操作和部分语法用法限制，具体可参考静态图语法支持。

3.3 使用分布式训练加速训练

分布式并行训练可以降低对内存、计算性能等硬件的需求，是进行训练的重要优化手段。目前MSAdapter中对标torch.distributed相关分布式接口还在开发中，如果用户想要使用分布式训练进行加速训练，需要将torch.distributed相关接口替换成MindSpore提供的更简单易用的高阶API。MSAdapter基于MindSpore分布式并行能力提供两种并行模式：

数据并行：对数据进行切分的并行模式，一般按照batch维度切分，将数据分配到各个计算单元中，进行模型计算。
自动并行：融合了数据并行、算子级模型并行的分布式并行模式，可以自动建立代价模型，找到训练时间较短的并行策略，为用户选择合适的并行模式。

相关机制请参考MindSpore原生分布式并行架构。

数据并行

from msadapter.pytorch.utils.data import DataLoader, DistributedSampler
from mindspore.communication import init
import mindspore as ms

...
init("hccl")   # 初始化通信环境:"hccl"---Ascend, "nccl"---GPU, "mccl"---CPU
ms.set_auto_parallel_context(parallel_mode=ms.ParallelMode.DATA_PARALLEL, parameter_broadcast=True) # 配置数据并行模式

train_images = datasets.CIFAR10('./', train=True, download=True, transform=transform)
sampler = DistributedSampler(train_images)     # 分布式数据处理
train_data = DataLoader(train_images, batch_size=32, num_workers=2, drop_last=True, sampler=sampler)

...

def forward_fn(data, label):
    logits = net(data)
    loss = criterion(logits, label)
    return loss, logits

grad_fn = ms.ops.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)
grad_reducer = nn.DistributedGradReducer(optimizer.parameters)  # 定义分布式优化器

def train_step(data, label):
    (loss, _), grads = grad_fn(data, label)
    grads = grad_reducer(grads)   # 梯度聚合
    optimizer(grads)
    return loss

net.train()
for i in range(epochs):
    for inputs, target in train_data:
        res = train_step(inputs, target)
...

自动并行

from msadapter.pytorch.utils.data import DataLoader, DistributedSampler
from mindspore.communication import init
import mindspore as ms

...
ms.set_context(mode=ms.GRAPH_MODE)   # 自动并行仅支持静态图模式
init("hccl")   # 初始化通信环境:"hccl"---Ascend, "nccl"---GPU, "mccl"---CPU
ms.set_auto_parallel_context(parallel_mode=ms.ParallelMode.AUTO_PARALLEL, search_mode="sharding_propagation")  # 配置自动并行模式

train_images = datasets.CIFAR10('./', train=True, download=True, transform=transform)
sampler = DistributedSampler(train_images)     # 分布式数据处理
train_data = DataLoader(train_images, batch_size=32, num_workers=2, drop_last=True, sampler=sampler)

...

def forward_fn(data, label):
    logits = net(data)
    loss = criterion(logits, label)
    return loss, logits

grad_fn = ms.ops.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)

@ms.jit
def train_step(data, label):
    (loss, _), grads = grad_fn(data, label)
    optimizer(grads)
    return loss

net.train()
for i in range(epochs):
    for inputs, target in train_data:
        res = train_step(inputs, target)
...

自动并行功能目前在实验性阶段，仅支持部分场景。如果在使用过程中出现不支持的报错信息，可以通过ISSUE反馈。

分布式启动

通过OpenMPI的mpirun运行分布式脚本。下面以使用单机8卡的分布式训练为例，当执行该命令时，脚本会在后台运行，日志文件会保存到当前目录下，不同卡上的日志会按rank_id分别保存在log_output/1/路径下对应的文件中。

mpirun -n 8 --output-filename log_output --merge-stderr-to-stdout python train.py > train.log 2>&1 &

多机多卡启动等更复杂的用法请参考MindSpore分布式训练样例。

4.手动适配指南

4.1 数据处理部分

通常情况下仅需将数据处理相关导入包修改为从msadapter导入，即可实现PyTorch数据部分的迁移，示例如下：

from msadapter.pytorch.utils.data import DataLoader
from msadapter.torchvision import datasets, transforms

transform = transforms.Compose([transforms.Resize((224, 224), interpolation=InterpolationMode.BICUBIC),
                                transforms.ToTensor(),
                                transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.247, 0.2435, 0.2616])
                               ])
train_images = datasets.CIFAR10('./', train=True, download=True, transform=transform)
train_data = DataLoader(train_images, batch_size=128, shuffle=True, num_workers=2, pin_memory=True)

TorchVision接口支持： MSAdapter torchvision是迁移自PyTorch官方实现的计算机视觉工具库，延用PyTorch官方API设计与使用习惯，内部计算调用MindSpore算子，实现与torchvision原始库同等功能。用户只需要将PyTorch源代码中import torchvision替换为import msadapter.torchvision即可。torchvision支持状态可以从这里找到 TorchVision Supported List。

另外，如果遇到数据处理接口未完全适配的场景，可以暂时使用PyTorch原生的数据处理流程，将生成的数据PyTorch张量转为MSAdapter支持的张量对象，请参考convert_tensor 工具使用教程实现。

4.2 模型构建部分

4.2.1 自定义module

from msadapter.pytorch.nn import Module, Linear, Flatten

class MLP(Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.flatten = Flatten()
        self.line1 = Linear(in_features=1024, out_features=64)
        self.line2 = Linear(in_features=64, out_features=128, bias=False)
        self.line3 = Linear(in_features=128, out_features=10)

    def forward(self, inputs):
        x = self.flatten(inputs)
        x = self.line1(x)
        x = self.line2(x)
        x = self.line3(x)
        return x

自定义Module写法和PyTorch原生写法一致，但需要注意下述问题：

自定义module时可能出现变量名已被使用场景，如self.phase，需要用户自行变更变量名;
自定义反向传播函数差异，反向函数需要满足MindSpore自定义反向函数格式要求，请参考自定义Cell反向，以下是适配案例：

# PyTorch 写法
class GdnFunction(Function):
    @staticmethod
    def forward(ctx, x, gamma, beta):
        # save variables for backprop
        ctx.save_for_backward(x, gamma, beta)
        ...
        return y

    @staticmethod
    def backward(ctx, grad_output):
        x, gamma, beta = ctx.saved_variables
        ...
        return grad_input, grad_gamma, grad_beta

# MSAdapter 写法
class GdnFunction(nn.Module):
    def __init__(self):
        super(GdnFunction, self).__init__()

    def forward(self, x, gamma, beta):
        ...
        return y

    def bprop(self, x, gamma, beta, out, grad_output):
        x = torch.Tensor(x)
        gamma = torch.Tensor(gamma)
        beta = torch.Tensor(beta)
        grad_output = torch.Tensor(grad_output)     
        ...
        return grad_input, grad_gamma, grad_beta

4.2.2 多态接口适配

PyTorch存在一些多态接口，使用灵活。MSAdapter作为Python层适配中间件，暂时只能支持主流场景，部分场景可能需要用户补齐默认参数或替换接口实现，如：torch.randint(10, (2, 2))需要补齐默认参数torch.randint(0, 10, (2, 2))等价实现，类似的接口还有torch.arange/torch.normal/torch.randint_like;

4.2.3 view类接口和inplace类接口适配

当前torch.view操作实际等价于创建指定shape的新tensor，并不真实共享内存，需要用户自己保证tensor的赋值更新。(共享内存的view接口正在研发中，敬请期待！);
暂时无法对标inplace相关操作，当前此类并不真实共享内存，所以torch.xxx(*, out=output)接口推荐写成output = torch.xxx(*)形式，tensor_a.xxx_(*)推荐写成tensor_b = tensor_a.xxx(*)形式，则该接口在图模式下也可正常执行;

切片后的inplace算子不生效，需修改为如下写法：

# PyTorch 原生写法
boxes[i,:,0::4].clamp_(0, im_shape[i, 1]-1)

# MSAdapter 推荐写法
a = boxes[i,:,0::4].clamp_(0, im_shape[i, 1]-1) 
boxes[i, :, 0::4] = a

4.3 训练流程部分

4.3.1 指定执行硬件

PyTorch原生接口通过to等接口将数据拷贝到指定硬件中执行，但是MSAdapter暂不支持指定硬件执行，实际执行的硬件后端由conetxt指定。如果您的程序运行在云脑2，则默认执行昇腾硬件，如果想执行在其他硬件后端可以参考如下代码;

ms.context.set_context(device_target="CPU")

4.3.2 网络训练流程

当调用ms.ops.value_and_grad接口时，如果has_aux为True，不允许存在多层嵌套的输出(优化中)，且求导位置必须为第一个输出;
torch.nn.utils.clip_grad_norm_ 可替换为 ms.ops.clip_by_global_norm等价实现梯度裁剪功能;

4.4 其他

网络中如果调用了MindSpore原生接口，则需要调用msadapter.pytorch.cast_to_adapter_tensor接口将输出tensor转换为MSAdapter tensor后方可继续调用PyTorch风格接口。除网络训练部分，不推荐混用MSAdapter接口和MindSpore接口;
MSAdapter tensor暂不支持格式化输出，如label = f"{class_names[labels[i]]}: {probs[i]:.2f}"，可先转换为numpy后输出;
代码中调用torch.autograd.Variable接口，替换为torch.tensor即可;
输出tensor如果要输入到opencv等其他组件进行处理时需要先转为numpy后再执行;
模型保存与加载：
```
# 模型保存
torch.save(net.state_dict(), ＇epoch1.pth＇)
# 加载来自MSAdapter迁移模型保存的pth/torch原生脚本保存的pth
net.load_state_dict(torch.load(＇troch_origin.pth＇), strict=True)
```
我们支持PyTorch原生的模型保存语法，允许用户保存网络权重或以字典形式保存其他数据；对于模型加载阶段，当前暂不支持加载网络模型结构。用户同样可以加载来自PyTorch原生的pth文件，但仅支持加载网络权重，不支持加载网络结构。基于MSAdapter保存的pth文件不支持PyTorch原生脚本使用。

FAQ

Q：设置context.set_context(mode=context.GRAPH_MODE)后运行出现类似问题：

"Tensor.add_" is an in-place operation and "x.add_()" is not encouraged to use in MindSpore static graph mode. Please use "x = x.add()" or other API instead。

A：目前在设置GRAPH模式下不支持原地操作相关的接口，需要按照提示信息进行修改。需要注意的是，即使在PYNATIVE模式下,原地操作相关接口也是不鼓励使用的，因为目前在MSAdapter不会带来内存收益，而且会给反向梯度计算带来不确定性。

Q：运行代码出现类似报错信息：

AttributeError: module 'msadapter.pytorch' has no attribute 'xxx'。

A：首先确定'xxx'是否为torch 1.12版本支持的接口，PyTorch官网明确已废弃或者即将废弃的接口和参数，MSAdapter不会兼容支持，请使用其他同等功能的接口代替。如果是PyTorch对应版本支持，而MSAdapter中暂时没有，欢迎参与MSAdapter项目贡献你的代码，也可以通过创建任务(New issue)反馈需求。

Q：为什么TensorDataset返回值为numpy.ndarray类型？

A：为了加速数据处理流程以及避免在GPU/Ascend中SyncDeviceToHost失败，TensorDataset返回值会被转换为numpy.ndarray类型。如果您结合DataLoader使用则无需关注返回值类型，如果您单独调用该接口则需要手动将输出转换为Tensor类型。

23 KiB Raw Permalink Blame History