中文分词算法:基于几率图模型的条件机场(CRF)
文本或句子的结构化可分为:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示html
分词器 jieba 分词模式:默认切分、全切分、搜索引擎切分
分词的目的:文本实现了最基础的结构化
存储分词利用的数据结构:Bunch web
机器学习算法库:Scikit-Learn //能够学习各类算法:http://scikit-learn.org/stable/
停用词 //下载 http://www.threedweb.cn/thread-1294-1-1.html
权重策略:TF-IDF 词频逆文档频率
词频(Term Frequency):某个给定的词语在该文件中出现的频率
逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量
算法参见书:算法
常见文本分类算法:kNN最近邻算法、朴素贝叶斯算法、向量机算法数据结构
训练步骤:分词-》生成文件词向量文件-》词向量模型机器学习
分来结果评估
三个基本指标:①召回率(也叫查全率)②准确率 ③F-Measure学习
朴素贝叶斯算法的基本原理和简单的Python实现
朴素贝叶斯分类:一种简单的分类算法(思想基础简单:即一个对象中特征向量种每一个维度都是相互独立的)
朴素贝叶斯分类的正式定义:
书测试
kNN:向量间的距离衡量类似度来进行文本分类搜索引擎
文本分类:
分词-》生成文件词向量文件-》词向量模型
生成词向量模型时须要加载训练词袋,将测试集产生的词向量映射到训练集词袋的词典中htm
//因为机器学习刚开始攻克因此先把简易的读书笔记进行罗列。后面熟悉了再来修正对象