天然语言0_nltk中文使用和学习资料汇总

sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程)

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=sharehtml

 

http://blog.csdn.net/huyoo/article/details/12188573node

 

官方数据python

http://www.nltk.org/book/linux

Natural Language Processing with Python

– Analyzing Text with the Natural Language Toolkit

Steven Bird, Ewan Klein, and Edward Lopergit

This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) github

0. Preface
1. Language Processing and Python
2. Accessing Text Corpora and Lexical Resources
3. Processing Raw Text
4. Writing Structured Programs
5. Categorizing and Tagging Words (minor fixes still required)
6. Learning to Classify Text
7. Extracting Information from Text
8. Analyzing Sentence Structure
9. Building Feature Based Grammars
10. Analyzing the Meaning of Sentences (minor fixes still required)
11. Managing Linguistic Data (minor fixes still required)
12. Afterword: Facing the Language Challenge
Bibliography
Term Index


This book is made available under the terms of the Creative Commons Attribution Noncommercial No-Derivative-Works 3.0 US License.
Please post any questions about the materials to the nltk-users mailing list. Please report any errors on the issue tracker.
正则表达式

 

 

 

 

 

 

nltk YouTube视频资源算法

先跟着模仿,再看书,要容易一些windows

 

https://www.pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/数据结构

拥有良好视频和文字教程

 

 

 

 

 

 

 

nltk是一个Python工具包, 用来处理和天然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.

1. nltk的安装

资料1.1: 黄聪:Python+NLTK天然语言处理学习(一):环境搭建  http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html   这个图文并茂, 步骤清晰, 值得一看. 我想我不必再从新写一遍了, 由于我当时也是按照他这样作的.


资料1.2: 把python天然语言处理的nltk_data打包到360云盘,而后共享给朋友们 http://www.cnblogs.com/ToDoToTry/archive/2013/01/18/2865941.html 这个是做者将接近300M的nltk_data上传到百度云了, 我以为, 能够试试下载, 毕竟使用资料1中nltk自带的download()方法, 从官方网站下载全部的数据包须要很长时间.

补充: 有人说, 这个下载的连接已经失效了, 我把我用的nltk2.0的data目录里的zip文件打包传到百度云盘了, 290多M, 上传我费了好多时间, 大家能够去下载: http://pan.baidu.com/s/1hq7UUFU

资料1.3: Ubuntu上安装NLTK出现的问题与解决方法 http://www.cnblogs.com/mengshu-lbq/archive/2012/09/19/2694135.html 须要的看看吧

资料1.4: 安装nltk遇到的小问题 http://blog.upupbug.com/?p=106 

资料1.5  安装nltk后导入语料的时候出错, 通常是一些依赖包没安装 http://blog.tianya.cn/blogger/post_show.asp?BlogID=762305&PostID=8954744

资料1.6 NLTK中文化處理及文字筆畫音調剖析工具整合套件 http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5 台湾一个大学对nltk的介绍

资料1.7 windows下如何安装NLTK,并使用模块nltk?http://zhidao.baidu.com/question/567881533.html


2. nltk初步使用入门

资料2.1  PYTHON天然语言处理中文翻译 NLTK 中文版.pdf  http://ishare.iask.sina.com.cn/f/23996193.html 中文版的《PYTHON天然语言处理》 这是一个好书,强烈推荐。这本书虽然早就有人翻译成中文了,可是还有些精力旺盛的博主还在翻译,好比这位  http://www.cnblogs.com/yuxc/archive/2011/08/29/2157415.html 《Python天然语言处理》学习笔记索引。 他翻译了不少, 中英文夹杂的,精神可嘉,作法不可取。不知作别人早就翻译完了这本书吗?

资料2.2: 黄聪:Python+NLTK天然语言处理学习(二):经常使用方法(similar、common_contexts、generate) http://www.cnblogs.com/huangcong/archive/2011/08/29/2158054.html  

这篇, 初步介绍了如何开始使用nltk的语料和他的一些经常使用方法. 有点python基础的能够直接看了.之因此放在这里, 仍是由于, 只有安装好了才能够进行到这一步.


资料2.3 黄聪:Python+NLTK天然语言处理学习(三):计算机自动学习机制 http://www.cnblogs.com/huangcong/archive/2011/08/29/2158447.html  

这一篇也挺浅显易懂的.

资料2.4 python中nltk.parse_cfg是干什么用的 求例子 http://zhidao.baidu.com/question/552627368.html 


3.nltk初中级应用

资料3.1: 可爱的 Python: 天然语言工具包入门 http://www.ibm.com/developerworks/cn/linux/l-cpnltk/

这个是ibm的砖家写的资料, 可是这个不能做为入门资料, 能够归结到初级应用资料. 对于那些动手能力弱的人, 这个文章真的不是那么好懂的, 因此不适合入门看, 而适合那些喜欢写代码, 喜欢鼓捣折腾的人看.


资料3.2 词性标注 http://blog.csdn.net/fxjtoday/article/details/5841453 这篇文章介绍了默认的词性标注类(好比, 全部的词都标注为名词), 基于规则标注词性, 基于正则表达式标注词性, n-gram标注词性等等.


资料3.3: Classify Text With NLTK http://blog.csdn.net/fxjtoday/article/details/5862041 别看标题是英文的, 实际上内容是中英文混合的, 不过这个比上面一篇简单些. 主要就是使用nltk对一些姓名 性别进行训练, 并预测测试语料中的姓名是啥性别. 这篇文章可以让你对 分类, 样本特征稍微有个初步入门.


资料3.4 使用nltk从非结构化数据中抽取信息 http://blog.csdn.net/fxjtoday/article/details/5871386  这篇主要介绍了命名实体识别


4.使用nltk来处理中文资料

nltk 怎么样使用中文?这是个大问题。这么个工具目前只能比较好的处理英文和其余的一些拉丁语系,谁让别人的单词与单词之间有个空格隔开呢!中文汉字一个挨一个 的,nltk在分词这一关就过不去了,分词无法分,剩下的就都作不了。惟一能作的, 就是对网上现有的中文语料进行处理,这些语料都分好了词,可使用nltk进行相似与英文的处理。


python处理中文首先须要设置一下文本的编码, 文件的首行加上: #coding utf-8 这个是给python解释器识别的,而后文件保存的时候,还须要保存为utf-8的编码。

这些编码设置完了, ntlk仍是处理不了中文。


nltk处理中文的第一步障碍就是中文资料不是分好词的, 词语与词语之间没有空格。要使用nltk对中文进行处理, 首先的第一步就是中文分词(台湾叫中文断词)。


目前python中文分词的包,我推荐使用结巴分词。 使用结巴分词,以后,就能够对输出文本使用nltk进行相关处理。


固然中文分词, 不该该成为使用nltk的障碍,或许不少人认为,既然用nltk,那么nltk就应该支持中文。可是咱们得认清现实,现实就是nltk就是不支持处理中 文,所以,这个给国内不少天然语言处理的研究人员有了研究的空间了,nltk既然没作中文分词,那么中国人就应该本身作了这个。一个口碑比较好的中文分词 工具就是ICTCLAS中文分词。


固然,我我的以为中国人本身开发的纯python实现的结巴分词也不错。


总的来讲,nltk不提供中文分词,不该该纠结于此,并止步不前,咱们彻底可使用其余的中文分词工具,将须要处理的资料分好词,而后再使用 nltk进行处理,所以,这里就很少说中文分词的那点事了。若是你由于中文分词而分心,并转向到中文分词的研究之中,那么你就掉入了另一个深坑之中。牢 记本文的主题是nltk。固然须要多啰嗦一点的就是,nltk的默认词性标注集使用的是Penn Treebank 的词性标注集,所以,你选用中文分词模块的时候,最好可以使用和penn词性标注集差很少的中文分词工具,固然,不同也没事。


资料4.1 使用python结巴分词对中文资料进行分词 https://github.com/fxsjy/jieba 结巴分词的github主页

资料4.2 基于python的中文分词的实现及应用 http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html

资料4.3  对Python中文分词模块结巴分词算法过程的理解和分析 http://ddtcms.com/blog/archive/2013/2/4/69/jieba-fenci-suanfa-lijie/

资料4.4 宾州中文树库标记以及其解释, Penn Chinese Treebank Tag Set http://blog.csdn.net/neutblue/article/details/7375085


5.nltk的高级应用入门

啥叫高级啊? 就是基础掌握了以后,开始运用实际工做了,就叫高级。好比什么统计推荐,评分,机器翻译,文本分类,舆情监控等等都是高级应用。

下面是些入门资料。

资料1: 经过nltk的机器学习方法实现论坛垃圾帖的过滤 http://blog.sina.com.cn/s/blog_630c58cb0100vkw3.html

资料2:利用nltk创建一个简单的词库 http://blog.sina.com.cn/s/blog_630c58cb0100vkix.html

资料3:利用几率分布进行关联规则挖掘 http://blog.sina.com.cn/s/blog_630c58cb0100vll0.html


6. nltk的精通

何谓精通? 精通就是熟练的表达你的想法。

何谓精通一个工具? 就是你想作什么, 你就能用这个工具顺利的完成。do everything you want with nltk.


至于如何精通,建议多看英文资料和多动手操练。nltk官方文档, 一些参与nltk的大学研究机构,北大,清华的语言研究以及国际语言研究机构acl所发的论文等等。


假设你目前真的熟练的掌握了nltk的各类玩法了,那么, 你精通的标志就是改造nltk, 使它功能更强,更优,更快,更方便。

好比:

6.1 集成结巴分词到nltk的分词器之中

6.2 在国内多弄几个地方,放置nltk_data数据包,方便你们下载

6.3 给nltk提供语料

等等,剩下的由你来补充。


最后说一句: nltk的中文资料确实很少,坑爹吧?相信不少人卡在了中文分词那一步。。。坚决的要求用nltk进行中文分词的朋友,仍是先跳过这一步吧. 另外, 喜欢python和天然语言处理的朋友能够加个人QQ群:Python天然语言处理群(220373876), 欢迎来参与讨论.

相关文章
相关标签/搜索