hyx123 commented on issue hyx123/自然语言处理nlp#16
文本分类,情感分析1)文本分类,文本排重 文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联 典型应用:垃圾邮件判定,网页自动分类 2)文本表示,特征选取与权重计算,词向量 文本特征选择常用方法: 1、基于本文频率的特征提取法 2、信息增量法 3、X2(卡方)统计量 4、互信息法 3)分类器设计 SVM,贝叶斯,决策树等 4)分类器性能评测 1、召回率 2、正确率 3、F1值 5)主题模型(LDA)与PLSA LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。 6)情感分析 借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#15
句法分析1)句法分析理解以及意义 1、句法结构分析 完全句法分析 浅层分析(这里有很多方法。。。) 2、 依存关系分析 2)句法分析方法 1、基于规则的句法结构分析 2、基于统计的语法结构分析
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#14
命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析1)命名实体识别问题 相关概率,定义 相关任务类型 方法(基于规程->基于大规模语料库) 2)未登录词的解决方法(搜索引擎,基于语料) 3)CRF解决命名实体识别(NER)流程总结: 训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结 果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值 识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标 注划分出命名实体 4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#13
语言模型语言模型的缺陷: 语料来自不同的领域,而语言模型对文本类型、主题等十分敏感 n与相邻的n-1个词相关,假设不是很成立。
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#13
语言模型数据平滑: 数据平滑的概念,为什么需要平滑 平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#13
语言模型语言模型的启示: 1、开启自然语言处理的统计方法 2、统计方法的一般步骤: 收集大量语料 对语料进行统计分析,得出知识 针对场景建立算法模型 解释和应用结果
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#13
语言模型语言模型应用: 语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de 可能的汉字串:踏实烟酒算法的 他是研究酸法的 他是研究算法的,显然,最后一句才符合。
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#13
语言模型语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#12
形式语言与自动机形式语言与自动机基础知识: 集合论 图论 自动机的应用: 1,单词自动查错纠正 2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?) 形式语言的缺陷: 1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法 2、不符合人类学习语言的习惯 3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子 4、解决方向:基于大量语料,采用统计学手段建立模型
6 days ago
hyx123 commented on issue hyx123/自然语言处理nlp#12
形式语言与自动机描述语言的三种途径: 穷举法 文法(产生式系统)描述 自动机 自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言 形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础
6 days ago