Enflame
/
GCU_Pytorch_Mnist

 
			
							#!/usr/bin/python
#coding=utf-8
'''
If there are Chinese comments in the code，please add at the beginning：

示例选用的数据集是MnistDataset_torch.zip
数据集结构是：
 MnistDataset_torch.zip
  ├── test
  │   ├── MNIST/processed/test.pt
  │   └── MNIST/processed/training.pt
  │   ├── MNIST/raw/train-images-idx3-ubyte
  │   └── MNIST/raw/train-labels-idx1-ubyte
  │   ├── MNIST/raw/t10k-images-idx3-ubyte
  │   └── MNIST/raw/t10k-labels-idx1-ubyte
  ├── train
  │   ├── MNIST/processed/test.pt
  │   └── MNIST/processed/training.pt
  │   ├── MNIST/raw/train-images-idx3-ubyte
  │   └── MNIST/raw/train-labels-idx1-ubyte
  │   ├── MNIST/raw/t10k-images-idx3-ubyte
  │   └── MNIST/raw/t10k-labels-idx1-ubyte
   

代码会自动放置在/tmp/code目录下。
数据集在界面选择后，会自动放置在/tmp/dataset目录下。
预训练模型文件在界面选择后，会自动放置在/tmp/pretrainmodel目录下。
输出的模型文件也需要放置在/tmp/output目录下，平台会自动下载/tmp/output目录下的文件。
'''

import torch
from model import Model
import numpy as np
from torchvision.datasets import mnist
from torch.nn import CrossEntropyLoss
from torch.optim import SGD
from torch.utils.data import DataLoader
from torchvision.transforms import ToTensor
import argparse
import os
import importlib.util

def is_torch_gcu_available():
    if importlib.util.find_spec("torch_gcu") is None:
        return False
    return True

# Training settings
parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
parser.add_argument('--traindata', default="/tmp/dataset/train" ,help='path to train dataset')
parser.add_argument('--testdata', default="/tmp/dataset/test" ,help='path to test dataset')
parser.add_argument('--save_url', default="/tmp/pretrainmodel" ,help='path to train dataset')
parser.add_argument('--epoch', type=int, default=10, help='how much epoch to train')
parser.add_argument('--batch_size', type=int, default=256, help='how much batch_size in epoch')
parser.add_argument('--ckpt_url', default="", help='pretrain model path')

if __name__ == '__main__':
    args, unknown = parser.parse_known_args()
    if is_torch_gcu_available():
        os.environ['ENFLAME_LOG_LEVEL']='FATAL'
        os.environ['ENFLAME_LOG_DEBUG_MOD']=''
        os.environ['ENFLAME_ENABLE_EFP']='true'
        import torch_gcu
        device = torch_gcu.gcu_device(0)
        print('dtu is available: True')
    else:
        device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
        print('gcu is available: False')

    # 参数声明
    model = Model().to(device)
    optimizer = SGD(model.parameters(), lr=1e-1)
    cost = CrossEntropyLoss()

    print('epoch:{}, batchsize:{}, traindata:{}'.format(args.epoch, args.batch_size, args.traindata))
    train_dataset = mnist.MNIST(root=args.traindata, train=True, transform=ToTensor(),download=False)
    test_dataset = mnist.MNIST(root=args.testdata, train=False, transform=ToTensor(),download=False)
    train_loader = DataLoader(train_dataset, batch_size=args.batch_size)
    test_loader = DataLoader(test_dataset, batch_size=args.batch_size)

    for _epoch in range(args.epoch):
        print('the {} epoch_size begin'.format(_epoch + 1))
        model.train()
        for idx, (train_x, train_label) in enumerate(train_loader):
            train_x = train_x.to(device)
            train_label = train_label.to(device)
            label_np = np.zeros((train_label.shape[0], 10))
            optimizer.zero_grad()
            predict_y = model(train_x.float())
            loss = cost(predict_y, train_label.long())
            if idx % 10 == 0:
                print('idx: {}, loss: {}'.format(idx, loss.sum().item()))
            loss.backward()

            if is_torch_gcu_available():
                torch_gcu.optimizer_step(optimizer)
            else:
                optimizer.step()


        correct = 0
        _sum = 0
        model.eval()
        for idx, (test_x, test_label) in enumerate(test_loader):
            test_x = test_x
            test_label = test_label
            predict_y = model(test_x.to(device).float()).detach()
            predict_ys = np.argmax(predict_y.cpu(), axis=-1)
            label_np = test_label.numpy()
            _ = predict_ys == test_label
            correct += np.sum(_.numpy(), axis=-1)
            _sum += _.shape[0]
        print('accuracy: {:.2f}'.format(correct / _sum))

    #The model output location is placed under /tmp/output
    #state = {'model':model.state_dict(), 'optimizer':optimizer.state_dict(), 'epoch':epoch}
    #torch.save(state, '/pretrainmodel/mnist_epoch{}_{:.2f}.pkl'.format(_epoch+1, correct / _sum))
    #print('ls /pretrainmodel:')
    #print(os.listdir("/pretrainmodel"))