做者:炼己者html
本博客全部内容以学习、研究和分享为主,如需转载,请联系本人,标明做者和出处,而且是非商业用途,谢谢!python
直接作文本分类这个项目,具体的思路很简单。把原始文本变成向量,而后调用sklearn库里的分类算法,就能够实现文本分类了!算法
如何把文本转换为文本向量呢?看这篇文章便可,手把手地教你把中文文本变成向量(附代码)机器学习
尽可能地去理解代码,代码的实现思路,之后遇到相似问题能不能转换成相应的数据格式,继续用这些代码操做。学习
完整的实现文本分类这个项目以后不要骄傲,觉得本身很厉害了,能够纵横NLP界了。接下来你要开始有体系地去学习3d
我仍是推荐视频为主,书籍为辅,毕竟咱们是小白,直接看书会很容易放弃的。须要有好的e老师带咱们飞!视频
第一个视频教程,宗成庆教授的视频教程,建议书和视频一块儿来。htm
书籍也是宗成庆教授的著做
blog
第二个视频教程,是炼数成金的教程,里面的课程目录是这样的
教程
两个视频教程你能够网上搜索,也能够关注公众号:ZhangyhPico
回复关键字 天然语言处理入门 ,即可以领取资源
经典书籍我推荐《python天然语言处理》 以及 《数学之美》这两本书
《python天然语言处理》这本书很适合咱们小白来读,做者感受就是以咱们小白的角度来写的。里面主要是处理英文数据的,你能够试着用书里的方法来操做中文数据,这样你会更好的落实和理解书中的代码。
《数学之美》这本书我感受就是在说天然语言处理方向的技术原理,能够拿来作科普。好比你想作什么算法了,能够先拿这本书读一读,对你要用到的算法有个初步了解
到了这个阶段你的理论知识基本完备,至少不那么迷茫了。接下来你能够开始作项目,读论文了。固然没事儿的时候还要多多翻阅这两本经典之做,基本作机器学习方向就不能忽略这两本书了。李航的《统计学习方法》,周志华的西瓜书《机器学习》。
作项目的话你确定要有数据,中文的数据很差找,这里有一份关于中文数据的汇总,能够参考一下。
中文文本语料库整理
项目有不少,好比命名实体识别,实体关系抽取,知识图谱等等。
命名实体识别系列你能够参考这里的博客操做,中文命名实体识别总结
知识图谱这个项目很大,要作的东西不少。你能够先把理论知识备好,再去操做
理论知识依旧建议看视频,视频教程是小象学院的。能够关注公众号:ZhangyhPico
,回复关键字知识图谱,便可领取视频教程
天然语言处理方向的论文资料能够看这篇博客,里面会教你怎么找论文
初学者如何查阅天然语言处理(NLP)领域学术资料
到了这里,入门是确定入门了,后续发展就看你本身了。没事儿读读论文,作作比赛,悠哉游哉!!!
欢迎扫码关注