MSAdapter用户手册
1.简介
MSAdapter是一款将PyTorch训练脚本高效迁移至MindSpore框架执行的实用工具,旨在不改变原生PyTorch用户的编程使用习惯下,使得PyTorch风格代码能在昇腾硬件上获得高效性能。用户只需要将PyTorch源代码中import torch
替换为import msadapter.pytorch
,加上少量训练代码适配即可实现模型在昇腾硬件上的训练。
本教程旨在协助用户快速完成PyTorch脚本迁移工作,精度调优和性能调优可参考MSAdapter调试调优指南。
2.模型迁移入门指南
将现有PyTorch原生代码利用MSAdapter移植至MindSpore时,当前通常需要以下三个步骤:
Step1: 替换导入模块
# import torch
# import torch.nn as nn
# import torch.nn.functional as F
# from torchvision import datasets, transforms
import msadapter.pytorch as torch
import msadapter.pytorch.nn as nn
import msadapter.pytorch.nn.functional as F
from msadapter.torchvision import datasets, transforms
class LeNet(nn.Module):
def __init__(self):
super(LeNet, self).__init__()
self.conv1 = nn.Conv2d(3, 16, 5)
self.pool1 = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(16, 32, 5)
self.pool2 = nn.MaxPool2d(2, 2)
self.fc1 = nn.Linear(32*5*5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = F.relu(self.conv1(x))
x = self.pool1(x)
x = F.relu(self.conv2(x))
x = self.pool2(x)
x = x.view(-1, 32*5*5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
criterion = nn.CrossEntropyLoss()
transform = transforms.Compose(
[transforms.ToTensor(),
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
train_set = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
train_data = DataLoader(train_set, batch_size=128, shuffle=True, num_workers=2, drop_last=True)
MSAdapter已经支持大部分PyTorch和torchvision的原生态表达,用户只需要替换导入包即可完成模型定义和数据初始化。模型中所使用的高阶API支持状态可以从这里找到 Supported List。如果有一些必要的接口和功能缺失可以通过ISSUE 向我们反馈,我们会优先支持。
Step2: 替换网络训练脚本
请根据以下示例进行适配修改:
迁移前网络表达:
net = LeNet().to(config_args.device)
optimizer = torch.optim.SGD(net.parameters(), lr=0.01, momentum=0.9, weight_decay=0.0005)
net.train()
# 数据迭代训练
for i in range(epochs):
for X, y in train_data:
X, y = X.to(config_args.device), y.to(config_args.device)
out = net(X)
loss = criterion(out, y)
optimizer.zero_grad()
loss.backward()
optimizer.step()
print("------>epoch:{}, loss:{:.6f}".format(i, loss))
替换为Mindspore函数式迭代训练表达:
import mindspore as ms
net = LeNet().to(config_args.device)
optimizer = ms.nn.SGD(net.trainable_params(), learning_rate=0.01, momentum=0.9, weight_decay=0.0005)
# 定义前向过程
def forward_fn(data, label):
logits = net(data)
loss = criterion(logits, label)
return loss, logits
# 反向梯度定义
grad_fn = ms.ops.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)
# 单步训练定义
def train_step(data, label):
(loss, _), grads = grad_fn(data, label)
optimizer(grads)
return loss
net.train()
# 数据迭代训练
for i in range(epochs):
for X, y in train_data:
X, y = X.to(config_args.device), y.to(config_args.device)
res = train_step(X, y)
print("------>epoch:{}, loss:{:.6f}".format(i, res.asnumpy()))
当前网络训练流程仍无法完全自动适配(自动适配特性开发中,敬请期待!),需要调用MindSpore的优化器接口和训练流程,如果您想了解更多当前流程与PyTorch原生流程的区别可参考与PyTorch执行流程区别 和与PyTorch优化器的区别 。
如果您想要运用分布式训练、图模式加速、数据下沉和混合精度等更高阶的训练方式加速训练可以参考3.进阶训练指南。如果在使用过程中遇到问题或无法对标的内容欢迎通过ISSUE 和我们反馈交流。当前存在部分接口暂时无法完全对标PyTorch(参考Supported List),针对这类接口我们正在积极优化中,您可以暂时参考4.手动适配指南进行适配处理(不影响网络的正常执行训练)。
更多迁移用例请参考MSAdapterModelZoo。
3.进阶训练指南
3.1 使用Graph模式加速训练
目前MSAdapte默认支持MindSpore的PyNative模式训练,如果想调用静态图模式进行训练加速(推荐您先在PyNative模式下完成功能调试后再尝试Graph模式执行),可参考静态图使用教程调用Graph训练模式:
方式一:全局设置Graph模式,更适合module表达
ms.set_context(mode=ms.GRAPH_MODE)
方式二:采用即时编译装饰器jit
,使能部分函数粒度表达模块以静态图模式执行
@ms.jit
def mul(x, y):
return x * y
注意,部分网络中Graph模式训练无法一键切换,可能需要对代码进行相应调整,当前主要体现在inplace类型操作和MindSpore原生框架用法限制,具体细节可参考静态图语法支持。
3.2 使用混合精度加速训练
from mindspore.amp import auto_mixed_precision
...
net = LeNet().to(config_args.device)
optimizer = ms.nn.SGD(net.trainable_params(), learning_rate=0.01, momentum=0.9, weight_decay=0.0005)
net.train()
net = auto_mixed_precision(net, 'O3') # Ascend环境推荐配置'O3',GPU环境推荐配置'O2';
# 定义前向过程
def forward_fn(data, label):
logits = net(data)
logits = torch.cast_to_adapter_tensor(logits) # 可选
loss = criterion(logits, label)
return loss, logits
...
Step1:调用auto_mixed_precision
自动生成混合精度模型,如果需要调用原始模型的方法请在混合精度模型生成前执行,如net.train()
;
Step2(可选):如果后续仍有对网络输出Tensor的操作,需调用torch.cast_to_adapter_tensor
手动将输出 Tensor转换为MSAdater Tensor;
更多细节请参考自动混合精度使用教程。
3.3 使用分布式训练加速训练
请参考快速入门分布式并行训练选择合适的分布式训练方式。推荐使用OpenMPI训练方式,其效果类似PyTorch的分布式数据并行DistributedDataParallel训练方式:
# 分布式数据处理
from msadapter.pytorch.utils.data import DataLoader, DistributedSampler
# 初始化通信环境
from mindspore.communication import init
...
train_images = datasets.CIFAR10('./', train=True, download=True, transform=transform)
sampler = DistributedSampler(train_images)
train_data = DataLoader(train_images, batch_size=32, num_workers=2, drop_last=True, sampler=sampler)
...
执行脚本命令为:
mpirun -n DEVICE_NUM python train.py
3.4 分组学习率/动态学习率配置
请参考以下代码使用MindSpore的分组学习率配置策略:
net = Net()
# 卷积参数
conv_params = list(filter(lambda x: 'conv' in x.name, net.trainable_params()))
# 非卷积参数
no_conv_params = list(filter(lambda x: 'conv' not in x.name, net.trainable_params()))
# 卷积参数使用固定学习率0.001,权重衰减为0.01
# 非卷积参数使用固定学习率0.003,权重衰减为0.0
group_params = [{'params': conv_params, 'weight_decay': 0.01, 'lr': 0.001},
{'params': no_conv_params, 'lr': 0.003}]
optim = nn.Momentum(group_params, learning_rate=0.1, momentum=0.9, weight_decay=0.0)
请参考以下代码使用MindSpore的动态学习率更新策略:
def lr_cosine_policy(base_lr, warmup_length, epochs, iter_per_epoch):
def _lr_fn(epoch):
if epoch < warmup_length:
lr = base_lr * (epoch + 1) / warmup_length
else:
e = epoch - warmup_length
es = epochs - warmup_length
lr = 0.5 * (1 + np.cos(np.pi * e / es)) * base_lr
return lr
output = []
for epoch in range(0, epochs):
lr = _lr_fn(epoch)
for iter in range(iter_per_epoch)
output.append(lr)
return output
lr_scheduler = lr_cosine_policy(args.lr, args.warmup, args.epochs, iter_per_epoch)
optimizer = ms.nn.SGD(net.trainable_params(), learning_rate=lr_scheduler, momentum=0.9, weight_decay=1e-4)
PyTorch提供了torch.optim.lr_scheduler
包用于动态修改lr,使用的时候需要显式地调用optimizer.step()
和scheduler.step()
来更新lr(详情请参考如何调整学习率)。而MindSpore的学习率是在优化器中自动更新的,每调用一次优化器,学习率更新的step会自动更新一次(详情请参考动态学习率使用教程)。
3.5 其他训练表达
除前文推荐的函数式迭代训练表达外,还有两种训练表达形式可供选择:
方式二:使用MindSpore的Model.train训练
import mindspore as ms
from mindspore.dataset import GeneratorDataset
from mindspore.train.callback import LossMonitor, TimeMonitor
model = LeNet()
criterion = nn.CrossEntropyLoss()
optimizer = ms.nn.SGD(model.trainable_params(), learning_rate=0.1, momentum=0.9, weight_decay=1e-4)
model = ms.Model(model, criterion, optimizer, metrics={'accuracy'})
dataset = GeneratorDataset(source=train_data, column_names=["data", "label"])
model.train(epochs, dataset, callbacks=[TimeMonitor(), LossMonitor()])
方式三:使用WithLossCell和TrainOneStepCell迭代训练
import mindspore as ms
from msadapter.pytorch import nn
import msadapter.pytorch as torch
model = LeNet()
criterion = nn.CrossEntropyLoss()
optimizer = ms.nn.SGD(model.trainable_params(), learning_rate=0.1, momentum=0.9, weight_decay=1e-4)
loss_net = ms.nn.WithLossCell(model, criterion)
train_net = ms.nn.TrainOneStepCell(loss_net, optimizer)
for i in range(epochs):
for X, y in train_data:
loss = train_net(X, y)
4.手动适配指南
4.1 数据处理部分
通常情况下仅需将数据处理相关导入包修改为从msadapter导入,即可实现PyTorch数据部分的迁移,示例如下:
from msadapter.pytorch.utils.data import DataLoader
from msadapter.torchvision import datasets, transforms
transform = transforms.Compose([transforms.Resize((224, 224), interpolation=InterpolationMode.BICUBIC),
transforms.ToTensor(),
transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.247, 0.2435, 0.2616])
])
train_images = datasets.CIFAR10('./', train=True, download=True, transform=transform)
train_data = DataLoader(train_images, batch_size=128, shuffle=True, num_workers=2, pin_memory=True)
TorchVision接口支持: MSAdapter torchvision是迁移自PyTorch官方实现的计算机视觉工具库,延用PyTorch官方API设计与使用习惯,内部计算调用MindSpore算子,实现与torchvision原始库同等功能。用户只需要将PyTorch源代码中import torchvision
替换为import msadapter.torchvision
即可。torchvision支持状态可以从这里找到 TorchVision Supported List。
另外,如果遇到数据处理接口未完全适配的场景,可以暂时使用PyTorch原生的数据处理流程,将生成的数据PyTorch张量转为MSAdapter支持的张量对象,请参考convert_tensor 工具使用教程实现。
4.2 模型构建部分
4.2.1 自定义module
from msadapter.pytorch.nn import Module, Linear, Flatten
class MLP(Module):
def __init__(self):
super(MLP, self).__init__()
self.flatten = Flatten()
self.line1 = Linear(in_features=1024, out_features=64)
self.line2 = Linear(in_features=64, out_features=128, bias=False)
self.line3 = Linear(in_features=128, out_features=10)
def forward(self, inputs):
x = self.flatten(inputs)
x = self.line1(x)
x = self.line2(x)
x = self.line3(x)
return x
自定义module写法和PyTorch原生写法一致,但需要注意下述问题:
- 自定义module时可能出现变量名已被使用场景,如
self.phase
,需要用户自行变更变量名;
- 自定义反向传播函数差异,反向函数需要满足MindSpore自定义反向函数格式要求,请参考自定义Cell反向,以下是适配案例:
# PyTorch 写法
class GdnFunction(Function):
@staticmethod
def forward(ctx, x, gamma, beta):
# save variables for backprop
ctx.save_for_backward(x, gamma, beta)
...
return y
@staticmethod
def backward(ctx, grad_output):
x, gamma, beta = ctx.saved_variables
...
return grad_input, grad_gamma, grad_beta
# MSadapter 写法
class GdnFunction(nn.Module):
def __init__(self):
super(GdnFunction, self).__init__()
def forward(self, x, gamma, beta):
...
return y
def bprop(self, x, gamma, beta, out, grad_output):
x = torch.Tensor(x)
gamma = torch.Tensor(gamma)
beta = torch.Tensor(beta)
grad_output = torch.Tensor(grad_output)
...
return grad_input, grad_gamma, grad_beta
4.2.2 多态接口适配
PyTorch存在一些多态接口,使用灵活。MSAdapter作为Python层适配中间件,暂时只能支持主流场景,部分场景可能需要用户补齐默认参数或替换接口实现,如:torch.randint(10, (2, 2))
需要补齐默认参数torch.randint(0, 10, (2, 2))
等价实现,类似的接口还有torch.arange
/torch.normal
/torch.randint_like
;
4.2.3 view类接口和inplace类接口适配
-
当前torch.view
操作实际等价于创建指定shape的新tensor,并不真实共享内存,需要用户自己保证tensor的赋值更新。(共享内存的view接口正在研发中,敬请期待!);
-
暂时无法对标inplace相关操作,当前此类并不真实共享内存,所以torch.xxx(*, out=output)
接口推荐写成output = torch.xxx(*)
形式,tensor_a.xxx_(*)
推荐写成tensor_b = tensor_a.xxx(*)
形式,则该接口在图模式下也可正常执行;
-
切片后的inplace算子不生效,需修改为如下写法:
# PyTorch 原生写法
boxes[i,:,0::4].clamp_(0, im_shape[i, 1]-1)
# MSAdapter 推荐写法
a = boxes[i,:,0::4].clamp_(0, im_shape[i, 1]-1)
boxes[i, :, 0::4] = a
4.3 训练流程部分
4.3.1 指定执行硬件
PyTorch原生接口通过to
等接口将数据拷贝到指定硬件中执行,但是MSAdapter暂不支持指定硬件执行,实际执行的硬件后端由conetxt指定。如果您的程序运行在云脑2,则默认执行昇腾硬件,如果想执行在其他硬件后端可以参考如下代码;
ms.context.set_context(device_target="CPU")
4.3.2 冗余代码删除
部分接口功能暂时无法对标,请将相关代码删除或进行相应适配,如:
- torch.cuda模块的相关操作在昇腾硬件上无实质作用,请删除;
- 请删除torch.no_grad接口。除非主动调用微分相关接口,MSAdapter默认不计算变量梯度;
- 请删除分布式并行训练的相关接口,并参考3.3 使用分布式训练进行分布式训练;
4.3.3 网络训练流程
- 当调用
ms.ops.value_and_grad
接口时,如果has_aux
为True,不允许存在多层嵌套的输出(优化中),且求导位置必须为第一个输出;
torch.nn.utils.clip_grad_norm_
可替换为 ms.ops.clip_by_global_norm
等价实现梯度裁剪功能;
4.4 其他
-
网络中如果调用了MindSpore原生接口,则需要调用msadapter.pytorch.cast_to_adapter_tensor
接口将输出tensor转换为MSAdapter tensor后方可继续调用PyTorch风格接口。除网络训练部分,不推荐混用MSAdapter接口和MindSpore接口;
-
MSAdapter tensor暂不支持格式化输出,如label = f"{class_names[labels[i]]}: {probs[i]:.2f}"
,可先转换为numpy后输出;
-
代码中调用torch.autograd.Variable
接口,替换为torch.tensor
即可;
-
输出tensor如果要输入到opencv等其他组件进行处理时需要先转为numpy后再执行;
-
模型保存与加载:
# 模型保存
torch.save(net.state_dict(), 'epoch1.pth')
# 加载来自torch原生脚本保存的pth
net.load_state_dict(torch.load('troch_origin.pth',from_torch=True), strict=True)
# 加载来自MSAdapter迁移模型保存的pth
net.load_state_dict(torch.load('troch_origin.pth'), strict=True)
我们支持PyTorch原生的模型保存语法,允许用户保存网络权重或以字典形式保存其他数据;对于模型加载阶段,当前暂不支持加载网络模型结构。
用户可以通过配置from_torch=True
标志位加载来自PyTorch原生的pth文件,仅支持加载网络权重,不支持加载网络结构。基于MSAdapter保存的pth文件不支持PyTorch原生脚本使用。
FAQ
Q:设置context.set_context(mode=context.GRAPH_MODE)后运行出现类似问题:
"Tensor.add_" is an in-place operation and "x.add_()" is not encouraged to use in MindSpore static graph mode. Please use "x = x.add()" or other API instead。
A:目前在设置GRAPH模式下不支持原地操作相关的接口,需要按照提示信息进行修改。需要注意的是,即使在PYNATIVE模式下,原地操作相关接口也是不鼓励使用的,因为目前在MSAdapter不会带来内存收益,而且会给反向梯度计算带来不确定性。
Q:运行代码出现类似报错信息:
AttributeError: module 'msadapter.pytorch' has no attribute 'xxx'。
A:首先确定'xxx'是否为torch 1.12版本支持的接口,PyTorch官网明确已废弃或者即将废弃的接口和参数,MSAdapter不会兼容支持,请使用其他同等功能的接口代替。如果是PyTorch对应版本支持,而MSAdapter中暂时没有,欢迎参与MSAdapter项目贡献你的代码,也可以通过创建任务(New issue)反馈需求。