赛事介绍
宏基因组分析就是对特定环境样本内所有微生物(包括病毒,古菌,致病菌等)DNA进行提取、测序并分析其微生物组成和功能等的方法。为了提高微生物profile的准确度,在主办方将提供模拟数据,希望参赛者可以开发或优化获得更精准的profile算法,同时能兼顾内存占用、运算速度。更多比赛信息,详见:2022年猛犸杯国际组学数据创新大赛-精准宏基因组丰度计算赛道。
平台介绍
为满足数据的隐私保护要求,本次大赛秉承“数据不动程序动、数据可用不可见”的理念,基于 AI靶场 向选手开放数据。AI靶场分为运行环境与调试环境:选手仅允许在调试环境中基于样例数据进行程序调试。运行成功的程序可发送至运行环境并在全量数据上训练。最后,选手可以查看全量数据的计算结果,并参考调优模型。
仓库结构
.
├──human_ref # 人参考基因组序列
├── reads # baseline测试数据集
├── ref # baseline测试数据集
├── tools # baseline所需工具包
如何使用本仓库
下载baseline代码
1 使用git clone
快速获得本仓库源码
$git clone https://git.openi.org.cn/2022MICOS/2022M202208031455404.git
2 使用平台打包下载功能快速获得本仓库源码
在AI靶场上揭榜参赛并创建实验
宏基因组赛道需要选手使用【全量运行】功能进行训练和提交。详细流程详见2022年猛犸杯国际组学数据创新大赛用户手册.pdf 或AI靶场全流程演示.mp4 ,据此文档在AI靶场逐步操作即可。
更新baseline所需工具包
1、工具包安装
安装“tools.zip”文件中的工具包,安装方法详见“tools工具包操作说明.pdf”
2、baseline运行
详见baseline.script.txt
AI靶场实践指导
1、宏基因组数据集较大,需选择“国家基因库任务专用镜像”
2、为方便调试,AI靶场提供了一些接口来监测训练过程中的指标变化:全量运行代码调用
3、全量运行时直接运行bash脚本要注意里面的权限问题
调试环境为了方便使用会给所有的文件777权限,在每个类似./run.sh的直接调用之前需要加上chmod +x ./run.sh,即chmod +x ./run.sh;./run.sh
平台推荐使用sh的时候要激活用户目录下的.bashrc,以激活正确的conda环境和其他三方软件,完整实例如下:
!source ~/.bashrc && chmod +x run.sh; ./run.sh
相关资料入口
- 比赛报名入口:https://datai.pcl.ac.cn/#/competition/info/18
- 赛题直播讲解:https://pan.genomics.cn/ucdisk/s/FviqEb
- 赛事平台使用:2022年猛犸杯国际组学数据创新大赛用户手册.pdf 或AI靶场全流程演示.mp4
- Q&A文档链接:https://docs.qq.com/doc/DR3RVRFpJVGFyY2dH
- 官方赛事QQ:535091459
LICENSE
如无特殊说明,本仓库采用MIT License