Natural Language Processing with Python - Chapter 0

一年以前,我作梦也想不到会来这里写技术总结。误打误撞来到了上海西南某高校,成为了文科专业的工科男,如今天天除了膜ha,就是恶补CS。导师是作计算语言学的,因此当务之急就是先自学计算机天然语言处理,打好底子准备作科研(认真脸)。python

进入正题,从图书馆找了本“Natural Language Processing with Python” (影印版),书长这个样子,做者是Steven Bird, Ewan Klein和Edward Loper。粘贴个豆瓣连接供参考:https://book.douban.com/subject/5336893/编程

对于本书,读者大多将其定义为:NLTK的工具书(再加个“入门级”的定语或许更佳恰当),理论性还有待深刻。可是对于小白来说先刷一遍再说,简单、粗暴、实用、能迅速上手才是王道!vim

顺便再说一下为何要选Python,其实对于小白来说,与其浪费时间去纠结学什么编程语言,不如花时间去多敲几行代码。Python语言自己好很差小白我没资格评价,可是这里必需要说一句Python有不少功能强大的第三方工具包(package),这些工具包是解决具体学科具体问题的利器!好比在天然语言处理方面,NLTK(Natural Language Toolkit)功能极其强大。编程语言

好了,此次终于能进入正题了。Chapter 0能够视为学习前的准备工做,正所谓“工欲善其事,必先利其器”。编辑器

IDE: PyCharm
IDE我选了PyCharm,听说很好用。下载及安装方法以下:
1.Python官网下载Python,打开terminal,输入python显示版本信息
2.下载Python开发的IDE PyCharm,Professional版的激活码能够求助度娘

关于Python文件编码声明
1.位置:必须放在python文件的第一行或第二行
2.格式: a. 带等于号的
1 #coding=<encoding name>

           b. 带冒号的,最多见,大多数编辑器均可以识别               工具

1 #!/usr/bin/python
2 # -*- coding: <encoding name> -*-             
            c. vim的:
1 #!/usr/bin/python               
2 # vim: set fileencoding=<encoding name>
3.做用:告诉python interpreter如何解释字符串的编码
           若是没有文件编码类型声明,则python默认以ASCII编码去处理。
           若是没有声明代码,可是文件中又包含非ASCII编码的字符的话,python解释器去解释python文件天然会报错。
4.例子:第一行说明脚本语言是python的;第二行用来指定文件编码为utf-8的 。   
1 #!/usr/bin/python                 
2 # -*- coding: utf-8 -*-                          
5.注意:单个python源码文件中只容许用单一的编码,不容许嵌入多种编码,不然会报错!!!
6.Python分词器+编译器工做逻辑:
            a. 读取文件
            b. 不一样的文件,根据其声明的编码去解析为Unicode
            c. 转换为UTF-8字符串
            d. 针对UTF-8字符串去分词
            e. 编译之,建立Unicode对象
7.UTF-8: 8-bit Unicode Transformation Format,是一种针对Unicode的可变长度字符编码,又称万国码。
             总之,要想让Python程序支持中文,就须要在Python源文件开头加上这样一段编码声明。

My First Python Program - Hello World!
1.File --> New Project --> 选择Project的保存路径(我的感受很像R语言中working directory的设定)
2.右键刚刚建好的project --> New --> Python File --> 给File命个名(我的感受这就是脚本文件,相似于R语言中的script)
3.敲入文件编码声明(其实并没必要要,由于咱们输入英文"Hello World!",而不是中文)
4.Hello World
1 print ("Hello World!") 
5.这时会发现运行及调试按钮(绿色三角形)是灰色的,由于咱们尚未设置控制台。

 
python设置控制台
1.点击运行旁边的黑色倒三角,进入Run/Debug Configurations配置界面(或者Run —> Edit Configurations)
2.点击绿色加号,新建一个配置项,并选择python(由于是用源代码是python程序)
3.配置界面里Name一栏写一个名字,点击Script选项,找到刚才写的 .py 文件
4.点击OK,自动返回编辑界面,这时运行及调试按钮所有变绿
5.点击运行,观看输出结果

Installing Packages in PyCharm - Mac
1.Pycharm —> preference —> project interpreter
2. +  for adding packages
    -   for deleting packages
    -> for updating packages

NLTK (Natural Language Toolkit)
经过输入如下代码,调用NLTK这个包,而后下载咱们所需的data sets(实际上就是书中所用的语料)
1 import nltk
2 nltk.download()
Run and you will get to the NLTK Downloader
The Collections tab on the downloader shows how the packages are grouped into sets, and you should select the line labeled book to obtain all data required for the examples and exercises in this book.
我表示下载速度让人捉鸡,虽然MIT (Minhang Institute of Technology,译做:闵行男子职业技术学院)的网速至关快,并且不用交网费!!!

吃饭前,仍是要膜一下!遛了。 
相关文章
相关标签/搜索