NLP自然语言处理
- 语言模型
- 机器翻译
- 机器阅读理解
- 自动摘要
- 图像描述
语言模型
什么是语言模型 语言模型的核心思想是按照特定的训练方式,从语料中提取所蕴含的语言知识,应用于词序列的预测。语言模型通常可以分为基于规则的语言模型和统计语言模 型。统计语言模型处于主流地位,通过对语料库的统计学习, 归纳出其中的语言知识,获得词与词之间的连接概率,并以词序列的概率为依据来判断其是否合理。
为什么需要语言模型 语言是人类最重要的、最有效的一种信息交流的手段,也 是人类进行观点、思想及情感交流最便捷、最自然的方式 之一,在信息传递中发挥着重要的作用。统计语言模型在语音识别、机器翻译、中文分词、问答系 统等自然语言处理领域中取得了成功地应用,例如:“厨房里食油用完了”和“厨房里石油用完了”。近年来,随着深度学习技术的不断发展,神经网络语言模型已成为目前语言模型领域的主流。
基于文法的语言模型
基于文法的语言模型是依据语法规则,由计算机根据这些语法解析文本的含义,其中语法规则来源于语言学家掌握 的语言学知识和领域知识。
弊端:不能处理大规模真实文本;需要大量专家知识。
统计语言模型
神经网络语言模型
机器翻译
机器翻译 (Machine Translation, MT)是用计算机把一种语 言(源语言, source language)翻译成另一种语言(目标语言, target language)的一门技术。
机器学习发展史
- 1949年,W. Weaver正式提出机器翻译问题
- 1954年,Georgetown大学在IBM协助下,用IBM-701计算机实现了世界上第一个MT系统,实现俄译英翻译
- 1990年,IBM提出统计机器翻译模型,机器翻译研究进入了繁荣时期
- 2014年,神经网络机器翻译被提出,机器翻译研究进入了 新的突破时期
Seq2Seq模型
注意力机制
对偶学习
展望
在工业界有很多研究机器翻译的机构,国外有Google、Microsoft、IBM、Facebook,国内有百度、华为、阿里巴巴、腾讯、搜狗、有道...
神经机器翻译采用编码解码网络,简单有效,已逐渐取代 统计机器翻译,成为主流研究范式,但神经机器翻译仍面临诸多问题:
- 缺乏可解释性
- 难利用先验知识、语言相关知识
- 训练、测试复杂度高(需GPU、甚至TPU)
- 领域、场景迁移性能差
对未来的展望:
- 神经机器翻译的可解释性研究
- 与专家知识、常识知识的融合研究
- 场景、领域的迁移和定制化研究
- 面向资源稀缺语言的机器翻译建模
- 多模态机器翻译(语音和文本的一体化)研究
- 与硬件的一体化研究
机器阅读理解
自然语言处理(Natural Language Processing, NLP)是实 现人类无障碍人机交互愿景的基石,被誉为“人工智能皇冠的明珠”;而机器阅读理解(Machine Read Comprehension, MRC) 是近年来 NLP 领域的研究热点之一,被视为“自然语言处 理皇冠上的明珠之一”。
自动摘要
图像描述