第3次做业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOCpython

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程正则表达式

 

 

 


3.学习完成第0周至第4周的课程内容,并完成各周做业
4.提供图片或网站显示的学习进度,证实学习的过程。api

 

 

 

 


5.写一篇很多于1000字的学习笔记,谈一下学习的体会和收获。网络

学习笔记并发

 0周介绍这门课主要掌握定向网络数据爬取还有网页解析的基本能力 ,这个课程 主要内容有自动爬取HTML页面 还有自动网络数据的请求提交,还有爬虫须要注意的合法规则,解析HTML页面,还有最后实在项目a/b,最后用一个正则表达式详解来提取页面相关关键信息 还有网络爬虫原理的介绍 专业爬虫框架介绍app

    第二节介绍了经常使用的python IDE工具 有文本类的自带IDE,还有sublime text,还有集成工具类的IDEpycharm anacondaSpyder 适合本身的工具使用框架

 

  第一周scrapy

导读介绍和0周同样ide

{第一单元}函数

第一章request库的安装 最好简单 安装方法 pip安装 我也跟视频安装了 这是截图

 

 

 

而后是调试截图

 

 

 

而后有7个主要方法接下来介绍详细7个方法

第二章

介绍requests.get的介绍

requests.ge(urlparams=None**kwarges)

url获取页面的url连接

Params  url中额外参数 可选

**kwarges  12个控制访问参数

 

介绍response对象的属性 有五个,

分别是

r.status_code,返回200表示链接成功 其余数据都是失败

r.text, url对应页面内容

r.encoding, 猜想响应内容的编码 可能不许 iso-8859-1就是不许

r.apparent_encoding,响应内容的编码方式,比较准

r.content HTTP响应二进制内容、

第三章

理解Requests库的异常6种 

 

 

 

 

 

 

 

 

 

 

第三章

爬取网页代码框架

第四章

http协议及Requests库方法

先理解HTTP协议

 

 

 

 

单元小结

重点requests.getrequests.head

通用框架

 

 

 

第二单元

网络爬虫引起的问题,3类,网页requests,网站scrapy和全网(定制开发)

法律风险,骚扰问题,网络爬虫限制

 

robots协议 网络爬虫限制标准

遵照方式

能够不遵照,但须要负法律责任 类人行为能够不参考 让咱们遵照

第三单元

实战

搜索和图片的爬取和存储

获取IP地址

 

第二周

 

安装Beautiful Soup库安装仍是正常的pip安装,而后就是了解

 

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每一个节点都是Python对象,全部对象能够概括为4种:

 

 Tag NavigableString BeautifulSoup Comment

 

3种遍历方式:

 

上行遍历,下行遍历,平行遍历。bs4库还有三种信心标记的方法:XML:标签:<name>…</name>  JSON: 键值对:“key”:“value”YAMAL等。

 

第三周

 

讲的都是实战部分主要讲Re库:

 

正则表达式:是用来简洁表达一组字符串的表达式;是一种通用的字符串表达框架;进一步,正则表达式是一种针对字符串表达简洁特征思想的工具,能够用来判断某字符串的特征归属。

 

Re库的主要功能函数(searchmatchfindallfinditersub)进行了解和使用,Re库的函数式法为一次性操做,还有一种为面向对象法,经过compile生成的regex对象

 

第四周:

 

讲解了Scrapy的爬虫框架结构, 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,同时爬虫框架是一个半成品, 可以帮助用户实现专业

 

网络爬虫。在和request库相比中,若是是很是小的需求,则使用request库。不过小的需求则用Scrapy库。并且Scrapy库并发性好,性能较高

 

 

 

应用Scrapy爬虫框架主要是编写配置型代码:

 

进入工程目录,执行scrapy genapider demo pyth

 

该命令做用:

 

(1)生成一个名称为demo的spider

 

(2)在spiders目录下增长代码文件demo.py(该命令仅用于生成demo.py,该文件也能够手工生成)

 

运行爬虫,获取网页命令:scrapy crawl demo

 

yield关键字的使用:

 

包含yield语句的函数是一个生成器,生成器每次产生一个值(yield),函数被冻结,被唤醒后再产生一个值,生成器是一个不断产生值得函数

相关文章
相关标签/搜索