《爬虫、数据清洗与可视化实战》零一 等

@若是只是作统计和机器学习,下载anacondahtml

@若是robots.txt最后是web

User Agent:* Disallow:/

表示文本中前面部分的爬虫之外,不容许爬取。chrome

@网页查看json

源代码:ctrl+uapi

若是查看网页返回数据里面的url带有callback,用requests分析的时候url去掉这个参数%E9%9D%92%E5%B2%9B浏览器

@连接里面可能经过某种编译方法把汉字变为特殊字符串,以下???网络

https://touch.dujia.qunar.com/list?modules=mobFunction,configDepNew,extendFunction&dep=%E9%9D%92%E5%B2%9B&query=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&originalquery=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&ddf=true&needQStar=trueapp

@去哪儿网城市列表机器学习

import requests #在network里面的name里多找找网页相应的内容,经过内容找应该请求的url
url='https://touch.dujia.qunar.com/depCities.qunar' r=requests.get(url) a=r.json() print(a) print('=====') #作不重复的城市名字列表
city_list=[] for i in a['data'].items(): for m in i[1]: print(m) if m not in city_list: city_list.append(m) print(city_list)

 

 

@@@《网络爬虫》唐松异步

@修改请求头,可是那些项是必须的呢?

‘user-agent’

‘host’

@解析动态网页:审核元素找到真正目标连接和selenium

@AJAX:异步JavaScript和xml

@#在network里面的name里多找找网页相应的内容,经过内容找应该请求的url,再用json提取,可是url很差找。

@selenium使用

1.配置浏览器驱动(网络资料)

 

http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序,驱动程序名为chromedriver。版本须要和本机的chrome浏览器对应,才能正常使用。下载后把文件解压,而后放到本机chrome浏览器文件路径里。能够出发浏览器打开网页了:

from selenium import webdriver chromedriver_address=r'C:\Users\sunlu\AppData\Local\Google\Chrome\Application\chromedriver.exe' driver=webdriver.Chrome(chromedriver_address) driver.get('https://www.cnblogs.com/senlinmu/p/9586136.html')

2.

相关文章
相关标签/搜索