第3次做业-MOOC学习笔记：Python网络爬虫与信息提取

时间 2019-11-17

标签 mooc 学习笔记 python 网络爬虫信息提取栏目 Python 繁體版

原文原文链接

1.注册中国大学MOOChtml

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程java

3.学习完成第0周至第4周的课程内容，并完成各周做业node

4.提供图片或网站显示的学习进度，证实学习的过程。python

5.写一篇很多于1000字的学习笔记，谈一下学习的体会和收获。ajax

咱们这学期学习了Python高级应用课程，而后看了中国慕课网的Python爬虫课，收获不少知识。首先，python3的语法必须知道，不过python3并不难，语法也很是简洁。可是，写着发现有个毛病，就是好比一个形参，因为不肯定类型，.没法像java那样补全，致使你若是忘了一个函数，必须查看代码或手册。。。不过这也是动态语言都有的问题，但好的IDE会帮你记录，因此使用好的编译器颇有必要。。哈哈。json

而后是学习python的各类库，为了打好基础，从基础的库开始学习会比较好，好比urlib，而后学习requests，这种是用来发请求的。返回的数据又是各类各样的类型，有html，js，json，字符串等，针对每种格式，固然都须要合适的解析器，固然，正则都能作。。。这里，解析html用到xpath，beautifulsoup，pyquery等库，js代码须要js引擎来运行和分析，例如nodejs，v8，json的解析要用到json库，字符串就看具体状况了。服务器

几款优秀制做爬虫的辅助工具cookie

因为我是采用python3.6开发的，而后从上文的介绍中，也该知道了一只爬虫是须要从HTML中提取内容，以及须要和网页作交互等。若是不采用爬虫框架的话，我建议采用:BeautifulSoup 库，一款优秀的HTML/XML解析库，采用来作爬虫，不用考虑编码，还有中日韩文的文档，其社区活跃度之高，可见一斑。[注] 这个在解析的时候须要一个解析器，在文档中能够看到，推荐lxmlRequests 库，一款比较好用的HTTP库，固然python自带有urllib以及urllib2等库，但用起来是绝对没有这款舒服的，哈哈Fiddler. 工具，这是一个HTTP抓包软件，可以截获全部的HTTP通信。若是爬虫运行不了，能够从这里寻找答案，官方连接可能进不去，能够直接百度下载爬虫的辅助开发工具还有不少，好比Postman等，这里只用到了这三个，相信有了这些能减小很多开发阻碍。网络

其实本质上来讲爬虫就是一段程序代码。任何程序语言均可以作爬虫，只是繁简程度不一样而已。从定义上来讲，爬虫就是模拟用户自动浏览而且保存网络数据的程序，固然，大部分的爬虫都是爬取网页信息（文本，图片，媒体流）。可是人家维护网站的人也不是傻的，大量的用户访问请求能够视为对服务器的攻击，这时候就要采起一些反爬机制来及时阻止人们的不知道是善意的仍是恶意的大量访问请求（固然了= =不这样人家服务器吃枣爆炸）。框架

网站爬取过程当中咱们会碰到如下几种状况：直接加载资源无处理、使用ajax异步加载、带参数验证的加载、cookie验证、登陆验证、js加密。