第3次做业-MOOC学习笔记：Python网络爬虫与信息提取

时间 2019-11-22

标签 mooc 学习笔记 python 网络爬虫信息提取栏目 Python 繁體版

原文原文链接

1.注册中国大学MOOCpython

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程正则表达式

3.学习完成第0周至第4周的课程内容，并完成各周做业服务器

4.提供图片或网站显示的学习进度，证实学习的过程。网络

5.写一篇很多于1000字的学习笔记，谈一下学习的体会和收获。并发

大三刚接触到python这门课的时候，就了解到网络爬虫，是一种按照必定的规则，自动地抓取万维网信息的程序或者脚本，被普遍用于互联网搜索引擎，能够自动采集全部其可以访问到的页面内容，以获取或更新这些网站的内容和检索方式。但我对它的认识仅仅停留在概念层面。此次经过老师的推荐，学习了《Python网络爬虫与信息提取》这门网络课程，让我体会到了python第三方库的强大，也让我对网络爬虫有了更深的认识。框架

在网络爬虫之规则中，了解了Requests库的七个主要方法，Request库的异常处理很重要，利用通用代码框架，来处理网络链接的风险。网络爬虫会为Web服务器带来巨大的资源开销，若是得到被保护的数据，可能泄露我的隐私，服务器上的数据有产权归属，获取数据后牟利会带来法律风险，因此咱们要合理利用网络爬虫，遵照Robots协议。函数

在网络爬虫之提取中，Beautiful Soup库是解析、遍历、维护“标签树”的功能库，bs4提供了5种基本元素和3种遍历功能。标记后的信息可造成信息组织结构，增长信息维度，可用于用于通讯、存储，更利于程序的理解和运用。信息标记有XML、JSON、YAML三种形式,。介绍了信息提取的通常方法：1.完整解析信息的标记形式，在提取关键信息。2.无视标记形式，直接搜索关键信息。融合方法：结合形式解析与搜索方法，提取关键信息。性能

在网络爬虫之实战中，学习了正则表达式，是用来简洁表达一组字符串的表达式。认识了正则表达式的经常使用操做符。Re库是python的标准库，主要用于字符串匹配。Re库的函数调用有两种方式，一种是直接加上方法名调用，还有一种是先将函数编译成正则表达式对象，再用正则表达式对象调用函数。Re库的Match对象，是一次匹配的结果，包含匹配的不少信息。学习

在网络爬虫之框架中，认识到爬虫框架是实现爬虫功能的一个软件结构和功能组件集合，爬虫框架是一个半成品，可以帮助用户实现专业文理爬虫，包括了“5+2”结构。学习到了Scrapy命令行的使用。Scrapy与requests比较，Scrapy是网站级爬虫，并发性好，性能较高，重点在于爬虫结构，但入门稍难。网站

在嵩天老师的讲解带领下，我知道了爬虫的概念，在一次次的实例练习中，我慢慢地掌握了简掌握了简单定向网络数据爬取和网页解析的基本能力。虽然有源代码能够参考，但在实际练习中，仍是遇到了不少问题，经过检查，发现大多数问题是由于本身的粗心形成的。这四周的课程学习下来，发现本身掌握的知识实在是太少了，学过得知识也掌握的不牢固。在接下的学习中，我要不断的温故而知新，不能只看一遍视频就结束了学习，要增强实践。遇到不会的知识点，也不能逃避问题，要及时百度解决问题。