【一块儿学爬虫】爬虫库

时间 2019-11-08

原文原文链接

#爬虫库html

urllib
re
requests ：pip install requests
selenium:自动化测试，js渲染的网页，这是使用requests没法请求，须要selenium；须要下载chromdriver，移动到配置好的环境变量路径中：这以后使用selenium能够打开chrome浏览器。这个须要浏览器界面

form selenium import webdriver driver = webdriver.Chrome()#会自动打开浏览器 dirver.ger('www.baidu.com')#此时chrome浏览器会自动访问百度 driver.page_source()#能够获取到网页的源码java

phantomjs:不须要界面，无界面浏览器，后台静默运行。下载后须要把EXE文件配置到环境遍变量

javafrom selenium import wendriver driver = wendriver.PhantomJS() driver,ger('www.baidu.com') driver.page_source();python

lxml 网页解析。官网安装或者先下载whl文件，再使用pip安装：pip install whl文件名
beautifulsoup，依赖lxml库，主要用于网页解析

from bs4 import BeautifulSoup soup = BeautifulSoup('<html>','lxml')#解析htmlmysql

pyquery：网页解析，pip install pyquery

from pyquery import PyQuery as pq doc = pq('') doc = pq('hello') result = doc('html').test() result#结果为helloweb

#存储库面试

pymysql：操做MySQL

import pymysql conn = pymysql.connect(host='',user='',password='',端口，db=‘MySQL’) cursor=conn.cursor() cursor.execute('sql语句') cuesor.fetchone()#获取一条记录redis

pymongo：操做MongoDB，菲关系型数据库

import pymongo client = pymongo.MngoClient('localhost') db = client('newestdb') db.insert('name':'cyb') db['table'] = find_one(('name':'cyb'))#数据的查询sql

redis库

import redis r = redis.Redis('localhost','6379') r.set('name':'bob') r.get('name')chrome

flask web库，代理设置：代理获取，代理存储。
django：web服务器框架
jupyter ：python在线调试

资料分享

java学习笔记、10T资料、100多个java项目分享数据库

欢迎关注我的公众号【菜鸟名企梦】，公众号专一：互联网求职面经、java、python、爬虫、大数据等技术分享**：公众号**菜鸟名企梦后台发送“csdn”便可免费领取【csdn】和【百度文库】下载服务；公众号菜鸟名企梦后台发送“资料”:便可领取5T精品学习资料**、java面试考点和java面经总结，以及几十个java、大数据项目，资料很全，你想找的几乎都有