语言模型

什么是语言模型 语言模型的核心思想是按照特定的训练方式，从语料中提取所蕴含的语言知识，应用于词序列的预测。语言模型通常可以分为基于规则的语言模型和统计语言模型。统计语言模型处于主流地位，通过对语料库的统计学习，归纳出其中的语言知识，获得词与词之间的连接概率，并以词序列的概率为依据来判断其是否合理。

为什么需要语言模型 语言是人类最重要的、最有效的一种信息交流的手段，也是人类进行观点、思想及情感交流最便捷、最自然的方式之一，在信息传递中发挥着重要的作用。统计语言模型在语音识别、机器翻译、中文分词、问答系统等自然语言处理领域中取得了成功地应用，例如：“厨房里食油用完了”和“厨房里石油用完了”。近年来，随着深度学习技术的不断发展，神经网络语言模型已成为目前语言模型领域的主流。

基于文法的语言模型

基于文法的语言模型是依据语法规则，由计算机根据这些语法解析文本的含义，其中语法规则来源于语言学家掌握的语言学知识和领域知识。

弊端：不能处理大规模真实文本；需要大量专家知识。

统计语言模型

神经网络语言模型

机器翻译

机器翻译 (Machine Translation, MT)是用计算机把一种语言(源语言, source language)翻译成另一种语言(目标语言, target language)的一门技术。

机器学习发展史

1949年，W. Weaver正式提出机器翻译问题
1954年，Georgetown大学在IBM协助下，用IBM-701计算机实现了世界上第一个MT系统，实现俄译英翻译
1990年，IBM提出统计机器翻译模型，机器翻译研究进入了繁荣时期
2014年，神经网络机器翻译被提出，机器翻译研究进入了新的突破时期

Seq2Seq模型

注意力机制

对偶学习

展望

在工业界有很多研究机器翻译的机构，国外有Google、Microsoft、IBM、Facebook，国内有百度、华为、阿里巴巴、腾讯、搜狗、有道...

神经机器翻译采用编码解码网络，简单有效，已逐渐取代统计机器翻译，成为主流研究范式，但神经机器翻译仍面临诸多问题：

缺乏可解释性
难利用先验知识、语言相关知识
训练、测试复杂度高(需GPU、甚至TPU)
领域、场景迁移性能差

对未来的展望：

神经机器翻译的可解释性研究
与专家知识、常识知识的融合研究
场景、领域的迁移和定制化研究
面向资源稀缺语言的机器翻译建模
多模态机器翻译(语音和文本的一体化)研究
与硬件的一体化研究

机器阅读理解

自然语言处理(Natural Language Processing, NLP)是实现人类无障碍人机交互愿景的基石，被誉为“人工智能皇冠的明珠”；而机器阅读理解(Machine Read Comprehension, MRC) 是近年来 NLP 领域的研究热点之一，被视为“自然语言处理皇冠上的明珠之一”。

3.4 KiB Raw Permalink Blame History