关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

汀丶人工智能 e8001bf081 上传文件至 ''		1 year ago
README.md	更新 'README.md'	1 year ago

eval.py	上传文件至 ''	1 year ago

main.ipynb	上传文件至 ''	1 year ago

metric.py	上传文件至 ''	1 year ago

metric_1.py	上传文件至 ''	1 year ago

predict.py	上传文件至 ''	1 year ago

train.py	上传文件至 ''	1 year ago

train_new2.py	上传文件至 ''	1 year ago

utils.py	上传文件至 ''	1 year ago

utils_new2.py	上传文件至 ''	1 year ago

2022CCF大数据与计算智能大赛小样本数据分类任务baseline

原项目链接：https://aistudio.baidu.com/aistudio/projectdetail/4479243?contributionType=1

1.大赛介绍

CCF大数据与计算智能大赛（CCF Big Data & Computing Intelligence Contest，简称CCF BDCI）由中国计算机学会于2013年创办，是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求，以前沿技术与行业应用问题为导向，以促进行业发展及产业升级为目标，以众智、众包的方式，汇聚海内外产学研用多方智慧，为社会发现和培养了大量高质量数据人才。

大赛迄今已成功举办九届，累计吸引全球25个国家，1500余所高校、1800余家企事业单位及80余所科研机构的16万余人参与，已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。2022年，我们将迎来第十届CCF BDCI，十年磨砺，创新聚力再出发，CCF BDCI将进一步扩大影响力，关注数字经济技术发展与人才培养，助力推动我国大数据技术及产业生态发展。

本赛题为大赛赛题之一，另含算法赛道、自主平台赛道、系统赛道、训练赛道等二十余道竞技及训练赛题，查看全部赛题可点击进入 2022 CCF大数据与计算智能大赛（CCF BDCI）官网

链接：https://www.datafountain.cn/competitions/582

1.1 赛题介绍

赛题背景

创新是国家发展、民族复兴的不竭动力。近年来，随着政策扶植、国家工业化水平和国民教育水平提高，我国的专利申请量快速增长，专利检索、查新、管理等需求也不断增加。为了满足以上需求，提升专利服务质量，通常需要建立多个维度的专利分类体系。常见的分类体系有国际专利分类(IPC)、联合专利分类(CPC)、欧洲专利分类(ECLA)等，但是这些分类体系比较复杂，专业性强，对非IP人员而言使用有一定的困难。智慧芽作为国际领先的知识产权SaaS平台，根据用户的搜索习惯等因素，制定了一套新的专利分类体系，从而提升用户的使用体验。

赛题任务

比赛方公开958条专利数据，包括专利权人、专利标题、专利摘要和分类标签，其中分类标签经过脱敏处理，共36类。要求选手设计一套算法，完成测试数据的分类任务。
本次赛题公布的训练数据量较小，属于基于小样本训练数据的分类任务。小样本分类任务作为近年来研究的热点问题，学界提出了远程监督、数据增强、预训练模型、PET范式等方案。希望选手充分发挥创造力，将学界的研究成果落地到本赛题中来。

1.2赛题任务

数据简介

文档说明

名称	说明
train.json	训练集数据
testA.json	A榜测试集数据
submit_example_A.csv	提交样例数据

• 单条数据形式

{“id”: “538f267d2e6fba48b1286fb7f1499fe7”, “title”: “一种信号的发送方法及基站、用户设备”, “assignee”: “华为技术有限公司”, “abstract”: “一种信号的发送方法及基站、用户设备。在一个子帧中为多个用户设备配置的参考信号的符号和数据的符号在子帧中的时域位置关系满足前提一和前提二；前提一为，将每个用户设备的参考信号所需的资源包括在多个参考信号的符号中，前提二为以下条件中的至少一个：将每个用户设备的多个参考信号设置在每个用户设备的数据的符号之前的参考信号的符号中，和/或每个用户设备的数据的符号之后的参考信号的符号中，从而有效地节省了发送参考信号的开销，满足了资源设计的需求；且部分或全部用户设备可在多个参考信号的符号中包含其参考信号，使该用户设备的解调性能得到进一步改善。”, “label_id”: 0}

2.小样本预测

二分类/多分类任务在商品分类、网页分类、新闻分类、医疗文本分类等现实场景中有着广泛应用。现有的主流解决方案是在大规模预训练语言模型进行微调，因为下游任务和预训练任务训练目标不同，想要取得较好的分类效果往往需要大量标注数据，因此学界和业界开始研究如何在小样本学习（Few-shot Learning）场景下取得更好的学习效果。

提示学习(Prompt Learning) 的主要思想是通过任务转换使得下游任务和预训练任务尽可能相似，充分利用预训练语言模型学习到的特征，从而降低样本需求量。除此之外，我们往往还需要在原有的输入文本上拼接一段“提示”，来引导预训练模型输出期望的结果。

我们以Ernie为例，回顾一下这类预训练语言模型的训练任务。与考试中的完形填空相似，给定一句文本，遮盖掉其中的部分字词，要求语言模型预测出这些遮盖位置原本的字词。

因此，我们也将多分类任务转换为与完形填空相似的形式。例如影评情感分类任务，标签分为1-正向，0-负向两类。

在经典的微调方式中，需要学习的参数是以[CLS]向量为输入，以负向/正向为输出的随机初始化的分类器。

在提示学习中，我们通过构造提示，将原有的分类任务转化为完形填空。如下图所示，通过提示我[MASK]喜欢。，原有1-正向，0-负向的标签被转化为了预测空格是很还是不。此时的分类器也不再是随机初始化，而是利用了这两个字的预训练向量来初始化，充分利用了预训练模型学习到的参数。

数据集处理过后样式：

	一种用于测量岩石自由膨胀率的试验夹具中铁第五勘察设计院集团有限公司本申请实施例涉及岩土工程技术领域，具体地，涉及一种用于测量岩石自由膨胀率的试验夹具。该试验夹具包括：至少四个刚性接触条，沿周向均匀分布，为弧形板状结构，并在外周面设置有变形测量接触点；以及至少两个弹性连接线，能够弹性伸缩地套设在至少四个所述刚性接触条的外周面。上述试验夹具具有使测得的数据变形平稳、代表性强且能够适应不同直径试样的优点。	27
	一种有机光电材料及其用途广州华睿光电材料有限公司本发明涉及一种有机光电材料及其用途。该有机光电材料包括如式(1)所示结构特征的有机化合物，该有机化合物具有较小的ΔE(S‑T)，便于得到具有较好的热激发延迟荧光特性，从而实现OLED器件的高效率以及长寿命。所述的化合物，其合成过程相对简单，成本低，因而具有巨大的应用潜力和应用范围。本发明还涉及包含有该有机化合物的混合物，组合物(印刷油墨)及有机电子器件，特别是电致发光器件。	10
	热塑性纤维素与脂肪族共聚酯共混物纤维及制备方法中国石油化工股份有限公司上海石油化工研究院本发明涉及一种热塑性纤维素与脂肪族共聚酯的共混物纤维，主要解决现有技术中热塑性纤维素低温加工过程中粘度高，成纤性差，而使其应用领域受限的技术问题。本发明通过采用由20％至80％质量的热塑性纤维素与80％至20％质量的脂肪族共聚酯组成的共混物，该共混物由一种连续熔融挤出共混法制备得到，共混物的熔体粘度在低剪切速率100s条件下比两种起始原料的共混加成理论值至少低约30％；在高剪切速率1363s条件下比两种起始原料的共混加成理论值至少低30％的技术方案，较好地解决了该问题，可用于热塑性纤维素与脂肪族共聚酯的共混物纤维的工业化生产中。	25

2.1 模型训练

训练参数情况：

save_dir：保存训练模型的目录；默认保存在当前目录checkpoint文件夹下。

dataset：训练数据集;默认为"cblue"。

dataset_dir：本地数据集路径，数据集路径中应包含train.txt，dev.txt和label.txt文件;默认为None。

task_name：训练数据集;默认为"KUAKE-QIC"。

max_seq_length：ERNIE模型使用的最大序列长度，最大不能超过512, 若出现显存不足，请适当调低这一参数；默认为128。

model_name：选择预训练模型；默认为"ernie-3.0-base-zh"。

device: 选用什么设备进行训练，可选cpu、gpu、xpu、npu。如使用gpu训练，可使用参数gpus指定GPU卡号。

batch_size：批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。

learning_rate：Fine-tune的最大学习率；默认为6e-5。

weight_decay：控制正则项力度的参数，用于防止过拟合，默认为0.01。

early_stop：选择是否使用早停法(EarlyStopping)；默认为False。

early_stop_nums：在设定的早停训练轮次内，模型在开发集上表现不再上升，训练终止；默认为4。
epochs: 训练轮次，默认为100。

warmup：是否使用学习率warmup策略；默认为False。

warmup_proportion：学习率warmup策略的比例数，如果设为0.1，则学习率会在前10%steps数从0慢慢增长到learning_rate, 而后再缓慢衰减；默认为0.1。

logging_steps: 日志打印的间隔steps数，默认5。

init_from_ckpt: 模型初始checkpoint参数地址，默认None。

seed：随机种子，默认为3。

!python train_new2.py --warmup --early_stop --epochs 5 --save_dir "./checkpoint2" --batch_size 16

最新开源ERNIE 3.0系列预训练模型:

110M参数通用模型ERNIE 3.0 Base
280M参数重量级通用模型ERNIE 3.0 XBase
74M轻量级通用模型ERNIE 3.0 Medium

文档链接：
https://github.com/PaddlePaddle/ERNIE

ERNIE模型汇总

目前直接定义name就可以调用的主要为下面几类：

目开源 ERNIE 3.0 Base 、ERNIE 3.0 Medium 、 ERNIE 3.0 Mini 、 ERNIE 3.0 Micro 、 ERNIE 3.0 Nano 五个模型：

ERNIE 3.0-Base (12-layer, 768-hidden, 12-heads)

ERNIE 3.0-Medium (6-layer, 768-hidden, 12-heads)

ERNIE 3.0-Mini (6-layer, 384-hidden, 12-heads)

ERNIE 3.0-Micro (4-layer, 384-hidden, 12-heads)

ERNIE 3.0-Nano (4-layer, 312-hidden, 12-heads)

2.2 模型预测

输入待预测数据和数据标签对照列表，模型预测数据对应的标签

使用默认数据进行预测：

部分结果展示：

input data: 一种自动循环料仓及其控制系统宁夏共享机床辅机有限公司本发明提供了一种自动循环料仓，解决现有技术的装置采用多层码垛方式使装置结构复杂、占用空间大等技术弊端，该装置的主要结构包括：基准板，设置在基准板上方，由金属型板形成的环形滑道，设置在环形滑道内侧且沿其传动的传动装置，通过链条带动在环形滑道内自由滑动的工件码垛装置，安装在基准板下方且对基准板起支撑作用的顶升驱动装置，用于顶升工件码垛装置；同时还提出了一种自动循环料仓的控制系统，解决了现有技术的装置输送工件码垛装置时随着时间和传送长度的增加，伺服电机或步进电机输出值会产生累计误差，无法将托板准确传送到传动链末端，主要采用了终点位置检测，避免了累计误差的产生。
label: 7

input data: 一种于动态口令进行离线认证的登录方法及系统飞天诚信科技股份有限公司本发明公开一种基于动态口令进行离线认证的登录方法及系统，该方法包括：当终端接收到登录信息时，判断认证服务器是否连接，是则将登录信息发送给认证服务器，认证服务器根据登录信息中的用户信息查找到的种子信息和口令算法、动态因子生成验证窗口，判断登录信息中的动态口令是否与验证窗口中的动态口令匹配，是则通知终端允许用户登录，否则通知终端拒绝用户登录；否则当有合法设备插入时将登录信息中的动态口令发送给离线设备；离线设备根据内部的种子信息、口令算法和动态因子生成验证窗口，判断登录信息中的动态口令是否与验证窗口中的动态口令匹配，是则通知终端允许用户登录，否则通知终端拒绝用户登录。本发明技术方案方便安全可靠。
label: 31

input data: 导电图案结构及其制备方法、阵列基板和显示装置京东方科技集团股份有限公司本公开提供一种导电图案结构，该导电图案结构包括：依次层叠设置的第一金属层和第二金属层，其中，所述第二金属层覆盖所述第一金属层的上表面和全部侧表面；所述第一金属层的材料的金属活性比所述第二金属层的材料的金属活性强。本公开根据金属活动顺序表中金属还原性强弱的顺序，采用常规的置换反应，在第一金属层上形成包覆于其上表面和全部侧表面的第二金属层，从而降低了导电图案结构制作工艺的复杂性，且避免了低电阻金属中的金属离子扩散至有源层中破坏显示器件稳定性的问题，进而避免了产品良率下降的问题，除此之外，由于置换反应对设备和外界环境的要求较低，从而可以降低生产成本。
label: 16

input data: 城市生活垃圾处理工艺方法柳州东侯生物能源科技有限公司本发明公开了一种城市生活垃圾处理工艺方法，涉及垃圾处理技术领域。这种城市生活垃圾处理工艺方法包括粗破碎、筛分、多级磁选、多级细破碎、添加搅拌机搅拌并烘干成型、气化得到可燃气进行发电、臭气除臭等步骤。本发明每日产生的混合生活垃圾或已经填埋的陈年混合生活垃圾无需分类和脱水，直接由生活垃圾处理系统通过多重筛分、分选、破碎，添加自主研发的复合燃料添加剂，然后经成型机压制成热值达到3500‑4200大卡的复合燃料，可替代原煤，实现生活垃圾转化为环保新能源之目的，整个处理过程没有烟尘、污水和二恶英排放。解决了生活垃圾及陈腐垃圾不能完全无害化、资源化终极处理的问题。
label: 24

input data: 基于阈值度量的无线分布式协同网络机会信道接入方法天津(滨海)人工智能军民融合创新中心本发明公开了一种基于阈值度量的无线分布式协同网络机会信道接入方法。该方法为：首先每个信源节点均发送RTS数据包来独立竞争信道；中继节点将RTS数据包发送到信宿节点，信宿节点发送CTS数据包至所有中继节点进行回复；然后所有中继节点依次向信源节点发送CTS数据包，CTS数据包插入该信源节点到中继节点的信道状态；接收到CTS数据包后，信源节点计算得到能够实现最大传输速度的中继节点序列，并计算阈值；最后信源节点根据阈值进行度量，决定是否接入信道进行协同传输；接入完成后，所有信源节点开始新一轮分布式信道竞争。本发明扩大了无线网络的通信范围，在较低信令开销下实现了无线网络的分布式协同接入，提高了网络吞吐量。
label: 7

3.总结

最终模型性能：

模型	ACC	Precision	Recall	F1	average_of_acc_and_f1
ERNIE 3.0 Base	0.80716112	0.90843023	0.9245	0.91642	0.86179

预训练语言模型的参数空间比较大，如果在下游任务上直接对这些模型进行微调，为了达到较好的模型泛化性，需要较多的训练数据。在实际业务场景中，特别是垂直领域、特定行业中，训练样本数量不足的问题广泛存在，极大地影响这些模型在下游任务的准确度，因此，预训练语言模型学习到的大量知识无法充分地发挥出来。本项目实现基于预训练语言模型的小样本数据调优，从而解决大模型与小训练集不相匹配的问题。

小样本学习是机器学习领域未来很有前景的一个发展方向，它要解决的问题很有挑战性、也很有意义。小样本学习中最重要的一点就是先验知识的利用，如果我们妥善解决了先验知识的利用，能够做到很好的迁移性，想必那时我们距离通用AI也不远了。

最后也可以看出目前在新闻数据做的小样本demo性能结果上还有所欠缺，后续将进行改进。

本人博客：https://blog.csdn.net/sinat_39620217?type=blog

No Description

Python Jupyter Notebook

How to access data resources in code