《爬虫、数据清洗与可视化实战》零一等

时间 2020-05-30

原文原文链接

@若是只是作统计和机器学习，下载anacondahtml

@若是robots.txt最后是web

User Agent:* Disallow:/

表示文本中前面部分的爬虫之外，不容许爬取。chrome

@网页查看json

源代码：ctrl+uapi

若是查看网页返回数据里面的url带有callback，用requests分析的时候url去掉这个参数%E9%9D%92%E5%B2%9B浏览器

@连接里面可能经过某种编译方法把汉字变为特殊字符串，以下？？？网络

https://touch.dujia.qunar.com/list?modules=mobFunction,configDepNew,extendFunction&dep=%E9%9D%92%E5%B2%9B&query=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&originalquery=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&ddf=true&needQStar=trueapp

@去哪儿网城市列表机器学习

import requests #在network里面的name里多找找网页相应的内容，经过内容找应该请求的url
url='https://touch.dujia.qunar.com/depCities.qunar' r=requests.get(url) a=r.json() print(a) print('=====') #作不重复的城市名字列表
city_list=[] for i in a['data'].items(): for m in i[1]: print(m) if m not in city_list: city_list.append(m) print(city_list)

@@@《网络爬虫》唐松异步

@修改请求头，可是那些项是必须的呢？

‘user-agent’

‘host’

@解析动态网页：审核元素找到真正目标连接和selenium

@AJAX：异步JavaScript和xml

@#在network里面的name里多找找网页相应的内容，经过内容找应该请求的url，再用json提取，可是url很差找。

@selenium使用

1.配置浏览器驱动（网络资料）

从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序，驱动程序名为chromedriver。版本须要和本机的chrome浏览器对应，才能正常使用。下载后把文件解压，而后放到本机chrome浏览器文件路径里。能够出发浏览器打开网页了：

from selenium import webdriver chromedriver_address=r'C:\Users\sunlu\AppData\Local\Google\Chrome\Application\chromedriver.exe' driver=webdriver.Chrome(chromedriver_address) driver.get('https://www.cnblogs.com/senlinmu/p/9586136.html')

《爬虫、数据清洗与可视化实战》零一 等

《爬虫、数据清洗与可视化实战》零一等