python爬虫整理——爬虫简介

1.什么是爬虫html

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。java

2.url的含义python

URL,即统一资源定位符,也就是咱们说的网址,统一资源定位符是对能够从互联网上获得的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每一个文件都有一个惟一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。c++

URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。shell

爬虫爬取数据时必需要有一个目标的URL才能够获取数据,所以,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。编程

.为何用python进行爬虫c#

  • 抓取网页自己的接口

相比与其余静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁;相比其余动态脚本语言,如perl,shell,python的urllib2包提供了较为完整的访问网页文档的API。(固然ruby也是很好的选择)
此外,抓取网页有时候须要模拟浏览器的行为,不少网站对于生硬的爬虫抓取都是封杀的。这是咱们须要模拟user agent的行为构造合适的请求,譬如模拟用户登录、模拟session/cookie的存储和设置。在python里都有很是优秀的第三方包帮你搞定,如Requests,mechanize浏览器

  • 网页抓取后的处理

抓取的网页一般须要处理,好比过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。
其实以上功能不少语言和工具都能作,可是用python可以干得最快,最干净。ruby

相关文章
相关标签/搜索