关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

wuzhf9 b902ff4e78 上传文件至 ''		5 months ago
.github	update mindspore and mkdocs version for CI (#591)	8 months ago

configs	finish vilayoutxlm eval	6 months ago

deploy	optimize inference md and add fcenet (#584)	8 months ago

docs	Adoption of ABINet for ms 2.1 (#590)	7 months ago

mindocr	add allreduce in metric	6 months ago

requirements	update mindspore and mkdocs version for CI (#591)	8 months ago

tests	Adoption of ABINet for ms 2.1 (#590)	7 months ago

tools	Adoption of ABINet for ms 2.1 (#590)	7 months ago

.flake8	Add Master Model (#446)	10 months ago

.gitignore	fix some readme (#501)	9 months ago

.pre-commit-config.yaml	Build mindocr online doc webpage (#393)	10 months ago

CONTRIBUTING.md	Add pre-commit and lint (#346)	10 months ago

LICENSE	Initial commit	1 year ago

MANIFEST.in	refactor py_infer (#267)	11 months ago

README.md	更新 'README.md'	5 months ago

README_CN.md	Adoption of ABINet for ms 2.1 (#590)	7 months ago

mkdocs.yml	update links and docs to inference part (#508)	9 months ago

package.sh	Fix static inspection issues. (#365)	10 months ago

pyproject.toml	Fix static inspection issues. (#365)	10 months ago

requirements.txt	Adoption of ABINet for ms 2.1 (#590)	7 months ago

results.png	上传文件至 ''	5 months ago

setup.py	Fix static inspection issues. (#365)	10 months ago

1. 模型简介

1.1. 模型结构简介

LayoutXLM是一个用于多语言文档理解的多模态预训练模型，其旨在弥合视觉丰富文档理解的语言障碍。Vi-LayoutXLM在LayoutXLM的基础上上移除了基于ResNet x101 64x4d的视觉骨干网络，在不降低模型性能的同时提高了模型的训练和推理速度。

1.2. 数据集

XFUND是一个多语言表单理解基准数据集，其中包括7种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)的带有键值对的人工标记表单。Vi-LayoutXLM使用其中文部分作为训练和测试集。数据集按如下格式存放：

datasets/XFUND
├── class_list_xfun.txt
├── zh_train
│   ├── image
│   │   ├── zh_train_0.jpg
│   │   ...
│   │   └── zh_train_99.jpg
│   └── train.json
└── zh_val
    ├── image
    │   ├── zh_val_0.jpg
    │   ...
    │   └── zh_val_49.jpg
    └── val.json

1.3. 代码提交地址

https://openi.pcl.ac.cn/wuzhf9/vilayoutxlm

**2. 代码目录结构说明

代码目录结构遵循MindOCR官方仓库中的目录结构。

3. 自验结果

3.1. 自验环境

Ascend910 + MindSpore2.0.0 + Python3.8.0

3.2. 训练超参数

详细训练超参数请查看./configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh.yaml

3.3. 训练

3.3.1. 如何启动训练脚本

mpirun --allow-run-as-root -n 8 python tools/train.py --config configs/kie/vi_layoutxlm_xfund_zh.yaml

3.3.2. 如何启动推理脚本

python tools/eval.py --config configs/kie/vi_layoutxlm_xfund_zh.yaml

3.3.3. 推理精度结果

4. 参考资料

4.1. 参考论文

https://arxiv.org/pdf/2104.08836

https://arxiv.org/pdf/2210.05391

4.2. 参考git项目

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/kie.md

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/algorithm_kie_vi_layoutxlm.md

No Description

Python Markdown Text C++ Shell other

285365963@qq.com 417493727@qq.com liangxhao@gmail.com 16683750+hadipash@users.noreply.github.com

80800595+VictorHe-1@users.noreply.github.com 52945530+Songyuanwei@users.noreply.github.com qiuluyu8@sina.com 33117903+wtomin@users.noreply.github.com 43231325+jianyunchao@users.noreply.github.com 54050944+tonytonglt@users.noreply.github.com 122354463+heepengpeng@users.noreply.github.com 44549936+ShahJahanIshaq@users.noreply.github.com 846461609@qq.com

38730040+Bruce-py@users.noreply.github.com

547917980@qq.com maijianqiang2@huawei.com

2441413514@qq.com 128798712+safeandnewYH@users.noreply.github.com wanghua36@huawei.com

How to access data resources in code