目录
https://blog.csdn.net/qq_16555103/article/details/98748593
规则分词:通过维护词典,通过切分语句的时候,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。主要包括:
• 正向最大匹配法
• 逆向最大匹配法
• 双向最大匹配
特点:分词快,采用TRIE索引树,哈希索引
统计分词:通过统计各个词在训练文本中出现的次数得到词的可信度,当连续的各个字出现的频度超过某个值的时候,就可以认为这个连续的各个字属于一个词。主要包括:
• n-gram模型(分词消岐)
• HMM、CRF
特点:能很好处理歧义和未登陆词,单需要大量人工标注
添加/删除 jieba 自定义词典,并更改分词词频
jieba分词的基本功能
• 1. 分词
• 前缀字典匹配、HMM模型Viterbi算法
• 2. 自定义词典添加
• 3. 关键词抽取
• TF-IDF、TextRank; 还可以用 LDA 提取关键字(jieba没有这个功能)
• 4. 词性标注
• HMM模型Viterbi算法
• 5. 并行分词
• 当前版本不支持windows
技术:HMM、CRF、LSTM + CRF ---------- 分类问题:
BMES 与 词性分类 的 笛卡尔积
基于HMMs词性标注思想:
1. 分词序列为观察序列;
2. 词性序列为隐藏状态序列;
3. 如果语料已经标注根据统计得出状态转移阵和发射阵; ***********
4. 每个词性出现的次数,每个词性及其后继词性出现的次数和词性对应的词;
5. 如果语料未标注利用前向-后向算法训练(EM)得出状态转移阵和发射阵; ***********
6. 使用Viterbi算法确定最优的隐藏状态序列;
技术:① n-gram ② 添加自定义词典、改变自定义词典词频大小 ③
技术:① HMM、crf ② LSTM + CRF
• BIO标注法: I(Inside)、O(Outside)、B(Begin)
• I-xxx:在xxx类命名实体的内部(外开始外的所有位置);
• O:不属于实体;
• B-xxx:是xxx类命名实体的开始;
• BIOES标注法:B(Begin)、I(Inside)、O(Outside)、E(End)、S(Single)
• B-xxx:是xxx类命名实体的开始;
• I-xxx:在xxx类命名实体的内部;
• O:不属于实体;
• E-xxx:在xxx类命名实体的结尾;
• S-xxx:单独属于xxx类命名实体。
技术:① LDA主题模型 ② seq2seq + attention / transformer / bert ...
① 基于情感词典的方法
② 基于机器学习或深度学习的方法:
依存句法https://blog.csdn.net/qq_16555103/article/details/100710191
https://blog.csdn.net/qq_16555103/article/details/100767984(暂时未看)
https://blog.csdn.net/qq_16555103/article/details/100710191
2.信息抽取(关系抽取):从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、
专有名词等等。
通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因
果关系抽取等关键技术。
技术: ① 语义角色标注((去掉修饰词) >>>>>>> 三元组)、依存句法分析
② bootstrapping 抽取主干(主 谓 宾),本质上是规则模板,需要机器人共同半监督扩展模板库。
目的:做 知识图谱、建立问答系统的问答库
详请链接:https://blog.csdn.net/qq_16555103/article/details/103792301 ---- 信息抽取(booststra
ping、深度学习..)
3.文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式
的表达界面。目前主流的技术都是基于统计机器学习的。
4.机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、
手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网
络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
5.信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1,2,3的技术来建立更
加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹
配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
6.问答系统: 对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,
包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
7.对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引
擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以
及基于用户画像的个性化回复。
NLP常见项目领域(算法思路)http://www.javashuo.com/article/p-bvoyekzk-bq.html
NLP领域基本名词、算法 https://blog.csdn.net/qq_16555103/article/details/95625946