第3次做业-MOOC学习笔记：Python网络爬虫与信息提取

时间 2019-11-30

标签 mooc 学习笔记 python 网络爬虫信息提取栏目 Python 繁體版

原文原文链接

1.注册中国大学MOOChtml

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程html5

3.学习完成第0周至第4周的课程内容，并完成各周做业程序员

4.提供图片或网站显示的学习进度，证实学习的过程。正则表达式

5.写一篇很多于1000字的学习笔记，谈一下学习的体会和收获。算法

随着机器学习、人工智能在互联网行业中的大热，算法领域程序员薪资的水厂船高，Python逐渐成为一门明星编程语言。Python编程语言以其简洁的语法特色、清晰的代数逻辑，以及海量的第三方库而著称。所谓人生苦短，我用Python，愈来愈多的人开始投入学习。听说，部分地区的小学生信息课程甚至也加入了Python。实在是大势所趋，势不可挡。编程

第一周的时候我学习到关于requests库的7种主要方法：
一、requests.requests( )
二、requests.get()
三、requests.head( )
四、requests.post()
五、requests.put()
六、requests.patch()
七、requests.delete( )。网络

第二周的时候我学习到新的库—Beautiful soup库，用来格式化爬取下来的网页数据，hmtl标签树的格式化。有益于咱们对爬取数据进行直观，简洁的分析。机器学习

第三周的时候我学习到了Beautiful Soup库解析器，有如下几种：

（1）bs4的HTML解析器

（2）lxml的HTML解析器

（3）lxml的XML解析器

（4）html5liblxml的解析器

第四周的时候我学习到了BeautifulSoup类的基本元素，有如下几种：

（1）Tag：标签，最基本的信息组织单元,分别用<>和</>标明开头和结尾标签

（2）Name：标签的名字, <>...</p>的名字是'p' ,格式: <tag> . name :

（3）Attributes：标签的属性, 字典形式组织,格式: <tag>. attrs

（4）NavigableString：标签内非属性字符串，<..</>中字符串,格式: <tag>.string

（5）Comment：标签内字符串的注释部分, 一种特殊的Comment类型编程语言

Scrapy爬虫基本使用，更重要的是对股票数据sceapy爬虫实例的过程分析。通过这几周的学习，让我深入的体会到了网络爬虫给咱们带来便利的同时，在没有恰当使用的状况下也能够致使整个网络的崩溃，因此说无论是是什么东西咱们都要把其优点发挥到最大，同时尽量的减小没必要要的麻烦。就是要在逐渐学习深刻过程当中，了解、理解、掌握正则表达式这是很是强大的东西，在不少语言中都会遇到这个东西，对提取想要的内容很是有帮助post