Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
taoht d824060f78 | 6 months ago | |
---|---|---|
.. | ||
src | 6 months ago | |
README.md | 6 months ago |
基于脑海大模型多语言处理能力构建的中-阿机器翻译引擎,采用的是2.6B参数规模,提供中文到阿拉伯文之间的相互翻译功能。
技术问题:在机器翻译场景下,如何采用高效的微调训练方法构建机器翻译引擎。
开源内容:围绕如何采用高效的微调训练方法构建机器翻译引擎问题,在多语言模型和平行翻译数据方面进行相应工作开源。
目录src中链接指向中阿翻译引擎源代码,该链接复用脑海200B的代码,可结合模型参数直接加载进行微调或者推理,微调和推理时在输入命令中指定模型为2.6B,并修改词典大小和序列长度即可,样例命令如下。
在数据集目录中上传了脑海2.6B中阿翻译模型文件,即PengCheng.Mind_zh-ar.ckpt。该模型文件可以直接使用源代码进行加载,并进行中阿翻译的微调或者推理。
在数据集目录中上传了用于脑海2.6B中阿翻译模型微调的数据集样例,即zh-ar.train_data。该数据集是采用反向翻译技术,经领域筛选、质量过滤得到的质量较高的中文与阿拉伯文之间的平行翻译数据,规模为1000万+。
本次开源的中阿翻译引擎在2022 IKCEST国际大数据竞赛"一带一路"机器翻译评测集总榜单上排名第二。
如果你对本项目的使用和代码有任何问题,可以提交issue。同时你也可以通过邮箱 liux@pcl.ac.cn 直接联系我们
无人机应用项目基于 Apache 2.0 协议。
基于大模型的应用开源问题:Open Issues in LLM-based Applications
Jupyter Notebook Python
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》