天然语言0_nltk中文使用和学习资料汇总

时间 2019-11-08

标签天然语言 nltk 中文使用学习资料汇总繁體版

原文原文链接

sklearn实战-乳腺癌细胞数据挖掘（博主亲自录制视频教程）

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=sharehtml

http://blog.csdn.net/huyoo/article/details/12188573node

官方数据python

http://www.nltk.org/book/linux

Natural Language Processing with Python

– Analyzing Text with the Natural Language Toolkit

Steven Bird, Ewan Klein, and Edward Lopergit

This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) github

0. Preface; 1. Language Processing and Python; 2. Accessing Text Corpora and Lexical Resources; 3. Processing Raw Text; 4. Writing Structured Programs; 5. Categorizing and Tagging Words (minor fixes still required); 6. Learning to Classify Text; 7. Extracting Information from Text; 8. Analyzing Sentence Structure; 9. Building Feature Based Grammars; 10. Analyzing the Meaning of Sentences (minor fixes still required); 11. Managing Linguistic Data (minor fixes still required); 12. Afterword: Facing the Language Challenge
Bibliography Term Index

This book is made available under the terms of the Creative Commons Attribution Noncommercial No-Derivative-Works 3.0 US License.
Please post any questions about the materials to the nltk-users mailing list. Please report any errors on the issue tracker. 正则表达式

nltk YouTube视频资源算法

先跟着模仿，再看书，要容易一些windows

https://www.pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/数据结构

拥有良好视频和文字教程

nltk是一个Python工具包, 用来处理和天然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.

1. nltk的安装

资料1.1: 黄聪：Python+NLTK天然语言处理学习（一）：环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 这个图文并茂, 步骤清晰, 值得一看. 我想我不必再从新写一遍了, 由于我当时也是按照他这样作的.

资料1.2: 把python天然语言处理的nltk_data打包到360云盘，而后共享给朋友们 http://www.cnblogs.com/ToDoToTry/archive/2013/01/18/2865941.html 这个是做者将接近300M的nltk_data上传到百度云了, 我以为, 能够试试下载, 毕竟使用资料1中nltk自带的download()方法, 从官方网站下载全部的数据包须要很长时间.

补充: 有人说, 这个下载的连接已经失效了, 我把我用的nltk2.0的data目录里的zip文件打包传到百度云盘了, 290多M, 上传我费了好多时间, 大家能够去下载: http://pan.baidu.com/s/1hq7UUFU

资料1.3: Ubuntu上安装NLTK出现的问题与解决方法 http://www.cnblogs.com/mengshu-lbq/archive/2012/09/19/2694135.html 须要的看看吧

资料1.4: 安装nltk遇到的小问题 http://blog.upupbug.com/?p=106

资料1.5 安装nltk后导入语料的时候出错, 通常是一些依赖包没安装 http://blog.tianya.cn/blogger/post_show.asp?BlogID=762305&PostID=8954744

资料1.6 NLTK中文化處理及文字筆畫音調剖析工具整合套件 http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5 台湾一个大学对nltk的介绍

资料1.7 windows下如何安装NLTK，并使用模块nltk？http://zhidao.baidu.com/question/567881533.html

2. nltk初步使用入门

资料2.1 PYTHON天然语言处理中文翻译 NLTK 中文版.pdf http://ishare.iask.sina.com.cn/f/23996193.html 中文版的《PYTHON天然语言处理》这是一个好书，强烈推荐。这本书虽然早就有人翻译成中文了，可是还有些精力旺盛的博主还在翻译，好比这位 http://www.cnblogs.com/yuxc/archive/2011/08/29/2157415.html 《Python天然语言处理》学习笔记索引。他翻译了不少，中英文夹杂的，精神可嘉，作法不可取。不知作别人早就翻译完了这本书吗？

资料2.2: 黄聪：Python+NLTK天然语言处理学习（二）：经常使用方法（similar、common_contexts、generate） http://www.cnblogs.com/huangcong/archive/2011/08/29/2158054.html

这篇, 初步介绍了如何开始使用nltk的语料和他的一些经常使用方法. 有点python基础的能够直接看了.之因此放在这里, 仍是由于, 只有安装好了才能够进行到这一步.

资料2.3 黄聪：Python+NLTK天然语言处理学习（三）：计算机自动学习机制 http://www.cnblogs.com/huangcong/archive/2011/08/29/2158447.html

这一篇也挺浅显易懂的.

资料2.4 python中nltk.parse_cfg是干什么用的求例子 http://zhidao.baidu.com/question/552627368.html

3.nltk初中级应用

资料3.1: 可爱的 Python: 天然语言工具包入门 http://www.ibm.com/developerworks/cn/linux/l-cpnltk/

这个是ibm的砖家写的资料, 可是这个不能做为入门资料, 能够归结到初级应用资料. 对于那些动手能力弱的人, 这个文章真的不是那么好懂的, 因此不适合入门看, 而适合那些喜欢写代码, 喜欢鼓捣折腾的人看.

资料3.2 词性标注 http://blog.csdn.net/fxjtoday/article/details/5841453 这篇文章介绍了默认的词性标注类(好比, 全部的词都标注为名词), 基于规则标注词性, 基于正则表达式标注词性, n-gram标注词性等等.

资料3.3: Classify Text With NLTK http://blog.csdn.net/fxjtoday/article/details/5862041 别看标题是英文的, 实际上内容是中英文混合的, 不过这个比上面一篇简单些. 主要就是使用nltk对一些姓名性别进行训练, 并预测测试语料中的姓名是啥性别. 这篇文章可以让你对分类, 样本特征稍微有个初步入门.

资料3.4 使用nltk从非结构化数据中抽取信息 http://blog.csdn.net/fxjtoday/article/details/5871386 这篇主要介绍了命名实体识别

4.使用nltk来处理中文资料

nltk 怎么样使用中文?这是个大问题。这么个工具目前只能比较好的处理英文和其余的一些拉丁语系，谁让别人的单词与单词之间有个空格隔开呢！中文汉字一个挨一个的，nltk在分词这一关就过不去了，分词无法分，剩下的就都作不了。惟一能作的，就是对网上现有的中文语料进行处理，这些语料都分好了词，可使用nltk进行相似与英文的处理。

python处理中文首先须要设置一下文本的编码，文件的首行加上： #coding utf-8 这个是给python解释器识别的，而后文件保存的时候，还须要保存为utf-8的编码。

这些编码设置完了， ntlk仍是处理不了中文。

nltk处理中文的第一步障碍就是中文资料不是分好词的，词语与词语之间没有空格。要使用nltk对中文进行处理，首先的第一步就是中文分词（台湾叫中文断词）。

目前python中文分词的包，我推荐使用结巴分词。使用结巴分词，以后，就能够对输出文本使用nltk进行相关处理。

固然中文分词，不该该成为使用nltk的障碍，或许不少人认为，既然用nltk，那么nltk就应该支持中文。可是咱们得认清现实，现实就是nltk就是不支持处理中文，所以，这个给国内不少天然语言处理的研究人员有了研究的空间了，nltk既然没作中文分词，那么中国人就应该本身作了这个。一个口碑比较好的中文分词工具就是ICTCLAS中文分词。

固然，我我的以为中国人本身开发的纯python实现的结巴分词也不错。

总的来讲，nltk不提供中文分词，不该该纠结于此，并止步不前，咱们彻底可使用其余的中文分词工具，将须要处理的资料分好词，而后再使用 nltk进行处理，所以，这里就很少说中文分词的那点事了。若是你由于中文分词而分心，并转向到中文分词的研究之中，那么你就掉入了另一个深坑之中。牢记本文的主题是nltk。固然须要多啰嗦一点的就是，nltk的默认词性标注集使用的是Penn Treebank 的词性标注集，所以，你选用中文分词模块的时候，最好可以使用和penn词性标注集差很少的中文分词工具，固然，不同也没事。

资料4.1 使用python结巴分词对中文资料进行分词 https://github.com/fxsjy/jieba 结巴分词的github主页

资料4.2 基于python的中文分词的实现及应用 http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html

资料4.3 对Python中文分词模块结巴分词算法过程的理解和分析 http://ddtcms.com/blog/archive/2013/2/4/69/jieba-fenci-suanfa-lijie/

资料4.4 宾州中文树库标记以及其解释， Penn Chinese Treebank Tag Set http://blog.csdn.net/neutblue/article/details/7375085

5.nltk的高级应用入门

啥叫高级啊？就是基础掌握了以后，开始运用实际工做了，就叫高级。好比什么统计推荐，评分，机器翻译，文本分类，舆情监控等等都是高级应用。

下面是些入门资料。

资料1：经过nltk的机器学习方法实现论坛垃圾帖的过滤 http://blog.sina.com.cn/s/blog_630c58cb0100vkw3.html

资料2：利用nltk创建一个简单的词库 http://blog.sina.com.cn/s/blog_630c58cb0100vkix.html

资料3：利用几率分布进行关联规则挖掘 http://blog.sina.com.cn/s/blog_630c58cb0100vll0.html

6. nltk的精通

何谓精通？精通就是熟练的表达你的想法。

何谓精通一个工具？就是你想作什么，你就能用这个工具顺利的完成。do everything you want with nltk.

至于如何精通，建议多看英文资料和多动手操练。nltk官方文档，一些参与nltk的大学研究机构，北大，清华的语言研究以及国际语言研究机构acl所发的论文等等。

假设你目前真的熟练的掌握了nltk的各类玩法了，那么，你精通的标志就是改造nltk，使它功能更强，更优，更快，更方便。

好比：

6.1 集成结巴分词到nltk的分词器之中

6.2 在国内多弄几个地方，放置nltk_data数据包，方便你们下载

6.3 给nltk提供语料

等等，剩下的由你来补充。

最后说一句： nltk的中文资料确实很少，坑爹吧？相信不少人卡在了中文分词那一步。。。坚决的要求用nltk进行中文分词的朋友，仍是先跳过这一步吧. 另外, 喜欢python和天然语言处理的朋友能够加个人QQ群:Python天然语言处理群(220373876), 欢迎来参与讨论.

python风控评分卡建模和风控常识

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share