Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
汀丶人工智能 e8001bf081 | 1 year ago | |
---|---|---|
README.md | 1 year ago | |
eval.py | 1 year ago | |
main.ipynb | 1 year ago | |
metric.py | 1 year ago | |
metric_1.py | 1 year ago | |
predict.py | 1 year ago | |
train.py | 1 year ago | |
train_new2.py | 1 year ago | |
utils.py | 1 year ago | |
utils_new2.py | 1 year ago |
原项目链接:https://aistudio.baidu.com/aistudio/projectdetail/4479243?contributionType=1
CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。
大赛迄今已成功举办九届,累计吸引全球25个国家,1500余所高校、1800余家企事业单位及80余所科研机构的16万余人参与,已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。2022年,我们将迎来第十届CCF BDCI,十年磨砺,创新聚力再出发,CCF BDCI将进一步扩大影响力,关注数字经济技术发展与人才培养,助力推动我国大数据技术及产业生态发展。
本赛题为大赛赛题之一,另含算法赛道、自主平台赛道、系统赛道、训练赛道等二十余道竞技及训练赛题,查看全部赛题可点击进入 2022 CCF大数据与计算智能大赛(CCF BDCI) 官网
链接:https://www.datafountain.cn/competitions/582
创新是国家发展、民族复兴的不竭动力。近年来,随着政策扶植、国家工业化水平和国民教育水平提高,我国的专利申请量快速增长,专利检索、查新、管理等需求也不断增加。为了满足以上需求,提升专利服务质量,通常需要建立多个维度的专利分类体系。常见的分类体系有国际专利分类(IPC)、联合专利分类(CPC)、欧洲专利分类(ECLA)等,但是这些分类体系比较复杂,专业性强,对非IP人员而言使用有一定的困难。智慧芽作为国际领先的知识产权SaaS平台,根据用户的搜索习惯等因素,制定了一套新的专利分类体系,从而提升用户的使用体验。
比赛方公开958条专利数据,包括专利权人、专利标题、专利摘要和分类标签,其中分类标签经过脱敏处理,共36类。要求选手设计一套算法,完成测试数据的分类任务。
本次赛题公布的训练数据量较小,属于基于小样本训练数据的分类任务。小样本分类任务作为近年来研究的热点问题,学界提出了远程监督、数据增强、预训练模型、PET范式等方案。希望选手充分发挥创造力,将学界的研究成果落地到本赛题中来。
比赛方公开958条专利数据,包括专利权人、专利标题、专利摘要和分类标签,其中分类标签经过脱敏处理,共36类。要求选手设计一套算法,完成测试数据的分类任务。
本次赛题公布的训练数据量较小,属于基于小样本训练数据的分类任务。小样本分类任务作为近年来研究的热点问题,学界提出了远程监督、数据增强、预训练模型、PET范式等方案。希望选手充分发挥创造力,将学界的研究成果落地到本赛题中来。
数据简介
名称 | 说明 |
---|---|
train.json | 训练集数据 |
testA.json | A榜测试集数据 |
submit_example_A.csv | 提交样例数据 |
• 单条数据形式
{“id”: “538f267d2e6fba48b1286fb7f1499fe7”, “title”: “一种信号的发送方法及基站、用户设备”, “assignee”: “华为技术有限公司”, “abstract”: “一种信号的发送方法及基站、用户设备。在一个子帧中为多个用户设备配置的参考信号的符号和数据的符号在子帧中的时域位置关系满足前提一和前提二;前提一为,将每个用户设备的参考信号所需的资源包括在多个参考信号的符号中,前提二为以下条件中的至少一个:将每个用户设备的多个参考信号设置在每个用户设备的数据的符号之前的参考信号的符号中,和/或每个用户设备的数据的符号之后的参考信号的符号中,从而有效地节省了发送参考信号的开销,满足了资源设计的需求;且部分或全部用户设备可在多个参考信号的符号中包含其参考信号,使该用户设备的解调性能得到进一步改善。”, “label_id”: 0}
二分类/多分类任务在商品分类、网页分类、新闻分类、医疗文本分类等现实场景中有着广泛应用。现有的主流解决方案是在大规模预训练语言模型进行微调,因为下游任务和预训练任务训练目标不同,想要取得较好的分类效果往往需要大量标注数据,因此学界和业界开始研究如何在小样本学习(Few-shot Learning)场景下取得更好的学习效果。
提示学习(Prompt Learning) 的主要思想是通过任务转换使得下游任务和预训练任务尽可能相似,充分利用预训练语言模型学习到的特征,从而降低样本需求量。除此之外,我们往往还需要在原有的输入文本上拼接一段“提示”,来引导预训练模型输出期望的结果。
我们以Ernie为例,回顾一下这类预训练语言模型的训练任务。 与考试中的完形填空相似,给定一句文本,遮盖掉其中的部分字词,要求语言模型预测出这些遮盖位置原本的字词。
因此,我们也将多分类任务转换为与完形填空相似的形式。例如影评情感分类任务,标签分为1-正向,0-负向两类。
在经典的微调方式中,需要学习的参数是以[CLS]向量为输入,以负向/正向为输出的随机初始化的分类器。
在提示学习中,我们通过构造提示,将原有的分类任务转化为完形填空。如下图所示,通过提示我[MASK]喜欢。,原有1-正向,0-负向的标签被转化为了预测空格是很还是不。此时的分类器也不再是随机初始化,而是利用了这两个字的预训练向量来初始化,充分利用了预训练模型学习到的参数。
数据集处理过后样式:
一种用于测量岩石自由膨胀率的试验夹具中铁第五勘察设计院集团有限公司本申请实施例涉及岩土工程技术领域,具体地,涉及一种用于测量岩石自由膨胀率的试验夹具。该试验夹具包括:至少四个刚性接触条,沿周向均匀分布,为弧形板状结构,并在外周面设置有变形测量接触点;以及至少两个弹性连接线,能够弹性伸缩地套设在至少四个所述刚性接触条的外周面。上述试验夹具具有使测得的数据变形平稳、代表性强且能够适应不同直径试样的优点。 27
一种有机光电材料及其用途广州华睿光电材料有限公司本发明涉及一种有机光电材料及其用途。该有机光电材料包括如式(1)所示结构特征的有机化合物,该有机化合物具有较小的ΔE(S‑T),便于得到具有较好的热激发延迟荧光特性,从而实现OLED器件的高效率以及长寿命。所述的化合物,其合成过程相对简单,成本低,因而具有巨大的应用潜力和应用范围。本发明还涉及包含有该有机化合物的混合物,组合物(印刷油墨)及有机电子器件,特别是电致发光器件。 10
热塑性纤维素与脂肪族共聚酯共混物纤维及制备方法中国石油化工股份有限公司上海石油化工研究院本发明涉及一种热塑性纤维素与脂肪族共聚酯的共混物纤维,主要解决现有技术中热塑性纤维素低温加工过程中粘度高,成纤性差,而使其应用领域受限的技术问题。本发明通过采用由20%至80%质量的热塑性纤维素与80%至20%质量的脂肪族共聚酯组成的共混物,该共混物由一种连续熔融挤出共混法制备得到,共混物的熔体粘度在低剪切速率100s条件下比两种起始原料的共混加成理论值至少低约30%;在高剪切速率1363s条件下比两种起始原料的共混加成理论值至少低30%的技术方案,较好地解决了该问题,可用于热塑性纤维素与脂肪族共聚酯的共混物纤维的工业化生产中。 25
训练参数情况:
save_dir:保存训练模型的目录;默认保存在当前目录checkpoint文件夹下。
dataset:训练数据集;默认为"cblue"。
dataset_dir:本地数据集路径,数据集路径中应包含train.txt,dev.txt和label.txt文件;默认为None。
task_name:训练数据集;默认为"KUAKE-QIC"。
max_seq_length:ERNIE模型使用的最大序列长度,最大不能超过512, 若出现显存不足,请适当调低这一参数;默认为128。
model_name:选择预训练模型;默认为"ernie-3.0-base-zh"。
device: 选用什么设备进行训练,可选cpu、gpu、xpu、npu。如使用gpu训练,可使用参数gpus指定GPU卡号。
batch_size:批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数;默认为32。
learning_rate:Fine-tune的最大学习率;默认为6e-5。
weight_decay:控制正则项力度的参数,用于防止过拟合,默认为0.01。
early_stop:选择是否使用早停法(EarlyStopping);默认为False。
early_stop_nums:在设定的早停训练轮次内,模型在开发集上表现不再上升,训练终止;默认为4。
epochs: 训练轮次,默认为100。
warmup:是否使用学习率warmup策略;默认为False。
warmup_proportion:学习率warmup策略的比例数,如果设为0.1,则学习率会在前10%steps数从0慢慢增长到learning_rate, 而后再缓慢衰减;默认为0.1。
logging_steps: 日志打印的间隔steps数,默认5。
init_from_ckpt: 模型初始checkpoint参数地址,默认None。
seed:随机种子,默认为3。
!python train_new2.py --warmup --early_stop --epochs 5 --save_dir "./checkpoint2" --batch_size 16
最新开源ERNIE 3.0系列预训练模型:
文档链接:
https://github.com/PaddlePaddle/ERNIE
目开源 ERNIE 3.0 Base 、ERNIE 3.0 Medium 、 ERNIE 3.0 Mini 、 ERNIE 3.0 Micro 、 ERNIE 3.0 Nano 五个模型:
ERNIE 3.0-Base (12-layer, 768-hidden, 12-heads)
ERNIE 3.0-Medium (6-layer, 768-hidden, 12-heads)
ERNIE 3.0-Mini (6-layer, 384-hidden, 12-heads)
ERNIE 3.0-Micro (4-layer, 384-hidden, 12-heads)
ERNIE 3.0-Nano (4-layer, 312-hidden, 12-heads)
输入待预测数据和数据标签对照列表,模型预测数据对应的标签
使用默认数据进行预测:
部分结果展示:
input data: 基于阈值度量的无线分布式协同网络机会信道接入方法天津(滨海)人工智能军民融合创新中心本发明公开了一种基于阈值度量的无线分布式协同网络机会信道接入方法。该方法为:首先每个信源节点均发送RTS数据包来独立竞争信道;中继节点将RTS数据包发送到信宿节点,信宿节点发送CTS数据包至所有中继节点进行回复;然后所有中继节点依次向信源节点发送CTS数据包,CTS数据包插入该信源节点到中继节点的信道状态;接收到CTS数据包后,信源节点计算得到能够实现最大传输速度的中继节点序列,并计算阈值;最后信源节点根据阈值进行度量,决定是否接入信道进行协同传输;接入完成后,所有信源节点开始新一轮分布式信道竞争。本发明扩大了无线网络的通信范围,在较低信令开销下实现了无线网络的分布式协同接入,提高了网络吞吐量。
label: 7
最终模型性能:
模型 | ACC | Precision | Recall | F1 | average_of_acc_and_f1 |
---|---|---|---|---|---|
ERNIE 3.0 Base | 0.80716112 | 0.90843023 | 0.9245 | 0.91642 | 0.86179 |
预训练语言模型的参数空间比较大,如果在下游任务上直接对这些模型进行微调,为了达到较好的模型泛化性,需要较多的训练数据。在实际业务场景中,特别是垂直领域、特定行业中,训练样本数量不足的问题广泛存在,极大地影响这些模型在下游任务的准确度,因此,预训练语言模型学习到的大量知识无法充分地发挥出来。本项目实现基于预训练语言模型的小样本数据调优,从而解决大模型与小训练集不相匹配的问题。
小样本学习是机器学习领域未来很有前景的一个发展方向,它要解决的问题很有挑战性、也很有意义。小样本学习中最重要的一点就是先验知识的利用,如果我们妥善解决了先验知识的利用,能够做到很好的迁移性,想必那时我们距离通用AI也不远了。
最后也可以看出目前在新闻数据做的小样本demo性能结果上还有所欠缺,后续将进行改进。
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》