Python天然语言处理(1):初识NLPhtml
天然语言处理(Natural Language Processing,NLP):计算机科学领域和人工智能领域中的一个重要方向。它研究实现人与计算机之间用天然语言进行有效通讯的各类理论和方法,涉及全部用计算机对天然语言进行的操做。python
NLP的技术应用日益普遍。例如:收集和手持电脑对输入法联想提示和手写识别的支持;网络搜索引擎可以搜索到非结构化文本中的信息;机器翻译能把中文文本翻译成西班牙文。经过提供更天然的人机界面和获取存储信息的高级手段,语言处理正在这个多语种的信息社会中扮演着更核心的角色。算法
Python的安装网络
以前介绍过安装步骤,这里先略过。详情戳这里:Python学习总结之一--基础篇机器学习
NLTK的安装函数
NLTK:Natural Language Toolkit(天然语言工具包)。咱们能够从http://www.nltk.org上免费下载符合本身操做系统的版本。下载完成后,跟着步骤直接安装 。工具
Python版本要求post
而后咱们在Python解释器里输入代码,下载咱们后面学习时须要的数据。学习
首先,咱们输入import nltk成功时就说明咱们的nltk安装成功。可是很遗憾,这TM是个问题啊,本身下午搞了好久,下载了好几回都没有成功,我也不知道是怎么回事,网上查找到了一些资源,你们能够在这个博客里找到下载数据的地方。而后自行解压corpora文件里的压缩文件便可。搜索引擎
当你输入代码能够出现上图所示的text1到text9内容的时候,说明你的nltk_data下载成功。
http://www.nltk.org/
https://pypi.python.org/pypi/setuptools
http://www.nltk.org/data.html
NLTK是Python很强大的第三方库,能够很方便的完成不少天然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。
NLTK安装教程:www.pythontip.com/blog/post/10011/
下面介绍如何利用NLTK快速完成NLP基本任务
1、NLTK进行分词
用到的函数:
nltk.sent_tokenize(text) #对文本按照句子进行分割
nltk.word_tokenize(sent) #对句子进行分词
2、NLTK进行词性标注
用到的函数:
nltk.pos_tag(tokens)#tokens是句子分词后的结果,一样是句子级的标注
3、NLTK进行命名实体识别(NER)
用到的函数:
nltk.ne_chunk(tags)#tags是句子词性标注后的结果,一样是句子级
上例中,有两个命名实体,一个是Xi,这个应该是PER,被错误识别为GPE了; 另外一个事China,被正确识别为GPE。
4、句法分析