ClinicalNLP
医学领域的文本不同于通用领域,具有其独特的表达方式和术语范围,需要结合领域自身特色进行特定的模型设计或配置。本算法库目标为提供一系列最新的医学自然语言处理相关算法和知识,方向覆盖医学命名实体识别、医学语义关系抽取、医学文本分类、医学文本生成、医学序列预测、医学文本预训练等。
Clinical_NER (医学领域命名实体抽取)
背景:医学文本广泛存在于电子病历、学术论文、医学报告等数据源中,如何高效、准确地识别其中的医学实体,如疾病、药物、基因、症状、不良反应、时间表达式等对于提高医学领域的决策效率和决策能力具有重要作用。
任务:给定一句医学文本,识别出其中的医学实体。
常用方法:通过序列标注方法对句子中的每一个单词打标,连续的标签对应的文本即为医学实体。
药物不良反应抽取
使用机器阅读方式进行命名实体识别
使用one pass模型进行命名实体识别
Clinical_RE (医学领域语义关系抽取)
背景:在了解了文本中的医学实体之后,需要进一步理解不同实体对之间存在的语义关系,这样才能对不同维度的医学事件进行更好的关联。
任务:给定文本中的一对医学实体,判断其蕴含什么样的语义关系。
常用方法:使用特殊符号取代识别好的医学实体,在神经网络模型的输入中对该医学实体对进行特殊标记,然后进行句子或篇章级别的文本分类。也有利用序列标注等其它策略进行关系抽取的方法。
基于文档结构和外部知识的文档级别实体关系抽取
T. Li, W. Peng, Q. Chen, X. Wang and B. Tang, “KEoG: A knowledge-aware edge-oriented graph neural network for document-level relation extraction,” 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2020, pp. 1740-1747, doi: 10.1109/BIBM49941.2020.9313590.
家族史信息抽取-n2c2/OHNLP Track on Family History Extraction
Zhan K, Peng W, Xiong Y, Fu H, Chen Q, Wang X, Tang B. Novel Graph-Based Model With Biaffine Attention for Family History Extraction From Clinical Text: Modeling Study. JMIR Med Inform 2021;9(4):e23587. URL: https://medinform.jmir.org/2021/4/e23587.DOI: 10.2196/23587
Clinical_text_classification_and_prediction (医学文本分类和序列预测)
背景:除了对医学文本进行分类之外,电子病历等医学文本的特殊形式衍生出来了序列预测等特殊任务。例如,给定一篇医学文本,判断其对应的诊断代码、药物代码或其它代码,以进行医学自动编码工作;再如,给定前T-1次的电子病历,预测第T次将会出现的文本或者医学编码。
任务:单文本分类、序列预测等。
常用方法:使用文本分类方法,输入为单文本或者序列文本。
基于RNN和GNN的药物预测
Liu S, Li T, Ding H, Tang B, Wang X, Chen Q, Yan J, Zhou Y. A hybrid method of recurrent neural network and graph neural network for next-period prescription prediction. International Journal of Machine Learning and Cybernetics. 2020 Dec;11(12):2849-56.
Clinical_PLM (医学文本预训练模型)
背景:通用领域的文本预训练模型迁移到医学领域时需要进行一定量的适配工作,包括医学领域特殊的词汇表达以及句法、语法形式等。
任务:有基于结构化电子病历(医学代码为主要语义对象)与自由文本电子病历(无结构化文本为主要语义对象)两种形式的预训练。
常用方法:采用常用的预训练语言模型,通过对不同输入数据进行数据对齐、设计新的损失函数等实现。
基于超大规模结构化电子病历的文本预训练语言模型 Med-BERT
Laila Rasmy, Yang Xiang, Ziqian Xie, Cui Tao, and Degui Zhi. "Med-BERT: pre-trained contextualized embeddings on large-scale structured electronic health records for disease prediction." npj digital medicine 2021 https://www.nature.com/articles/s41746-021-00455-y.