Python天然语言处理（1）：初识NLP

时间 2019-11-30

标签 python 天然语言处理 nlp 栏目 Python 繁體版

原文原文链接

因为咱们从美国回来就是想把医学数据和医学人工智能的事认真作起来，因此咱们选择了比较扎实的解决方法，想快速出成果的请绕道。咱们的一些解决方法是：1.整合公开的全部医学词典，尽量包含更多的标准医学词汇；2.收集各科室真实病例数据，寻找医学专业人士人工分词和标注病历3.使用机器学习算法，基于人工标注结果训练NLP模型；4.构建知识库，并彻底对应UMLS或SNOMED CT等国际标准知识库。如今根据上述积累，咱们的病历标注精确度已经大概达到85%-90%，后期还会进一步提升。若是有任何相似问题，能够搜索森亿智能或直接联系我。

Python天然语言处理（1）：初识NLP

Python天然语言处理（1）：初识NLPhtml

天然语言处理（Natural Language Processing，NLP）：计算机科学领域和人工智能领域中的一个重要方向。它研究实现人与计算机之间用天然语言进行有效通讯的各类理论和方法，涉及全部用计算机对天然语言进行的操做。python

NLP的技术应用日益普遍。例如：收集和手持电脑对输入法联想提示和手写识别的支持；网络搜索引擎可以搜索到非结构化文本中的信息；机器翻译能把中文文本翻译成西班牙文。经过提供更天然的人机界面和获取存储信息的高级手段，语言处理正在这个多语种的信息社会中扮演着更核心的角色。算法

Python的安装网络

以前介绍过安装步骤，这里先略过。详情戳这里：Python学习总结之一--基础篇机器学习

NLTK的安装函数

NLTK：Natural Language Toolkit（天然语言工具包）。咱们能够从http://www.nltk.org上免费下载符合本身操做系统的版本。下载完成后，跟着步骤直接安装。工具

Python版本要求post

而后咱们在Python解释器里输入代码，下载咱们后面学习时须要的数据。学习

首先，咱们输入import nltk成功时就说明咱们的nltk安装成功。可是很遗憾，这TM是个问题啊，本身下午搞了好久，下载了好几回都没有成功，我也不知道是怎么回事，网上查找到了一些资源，你们能够在这个博客里找到下载数据的地方。而后自行解压corpora文件里的压缩文件便可。搜索引擎

当你输入代码能够出现上图所示的text1到text9内容的时候，说明你的nltk_data下载成功。

http://www.nltk.org/

https://pypi.python.org/pypi/setuptools

http://www.nltk.org/data.html

NLTK是Python很强大的第三方库，能够很方便的完成不少天然语言处理（NLP）的任务，包括分词、词性标注、命名实体识别（NER）及句法分析。

NLTK安装教程：www.pythontip.com/blog/post/10011/

下面介绍如何利用NLTK快速完成NLP基本任务

1、NLTK进行分词

用到的函数：

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

2、NLTK进行词性标注

用到的函数：

nltk.pos_tag(tokens)#tokens是句子分词后的结果，一样是句子级的标注

3、NLTK进行命名实体识别（NER）

用到的函数：

nltk.ne_chunk(tags)#tags是句子词性标注后的结果，一样是句子级

上例中，有两个命名实体，一个是Xi,这个应该是PER，被错误识别为GPE了；另外一个事China，被正确识别为GPE。

4、句法分析

nltk没有好的parser，推荐使用stanfordparser

可是nltk有很好的树类，该类用list实现

能够利用stanfordparser的输出构建一棵python的句法树