首先须要先导入webdrivercss
from selenium import webdriver
复制代码
webdriver支持主流的浏览器,好比说:谷歌浏览器、火狐浏览器、IE浏览器等等html
而后能够建立一个webdriver对象,经过这个对象就能够经过get方法请求网站python
driver = webdriver.Chrome() # 建立driver对象
driver.get('https://www.baidu.com') # 请求百度
复制代码
接下来能够定义一个方法:search_productgit
selenium是一个用于测试网站的自动化测试工具,支持不少主流的浏览器,好比:谷歌浏览器、火狐浏览器、IE、Safari等。github
如windows、Linux、IOS、Android等。web
打开终端输入chrome
pip install Selenium
复制代码
一、Chrome驱动文件下载:点击下载谷歌浏览器驱动windows
二、火狐浏览器驱动文件下载:点击下载geckodriverapi
配置环境变量的方法很是简单,首先将下载好的驱动进行解压,放到你安装Python的目录下,便可。浏览器
由于以前,在配置Python环境变量的时候,就将Python的目录放到个人电脑–>属性–>系统设置–>高级–>环境变量–>系统变量–>Path
一、id
二、name
三、class name
四、tag name
五、link text
六、partial link text
七、xpath
八、css selector
定义一个元素 | 定位多个元素 | 含义 |
---|---|---|
find_element_by_id | find_elements_by_id | 经过元素的id定位 |
find_element_by_name | find_elements_by_name | 经过元素name定位 |
find_element_by_xpath | find_elements_by_xpath | 经过xpath表达式定位 |
find_element_by_link_text | find_elements_by_link_text | 经过完整超连接定位 |
find_element_by_partial_link_text | find_elements_by_partial_link_text | 经过部分连接定位 |
find_element_by_tag_name | find_elements_by_tag_name | 经过标签订位 |
find_element_by_class_name | find_elements_by_class_name | 经过类名进行定位 |
find_element_by_css_selector | find_elements_by_css_selector | 经过css选择器进行定位 |
方法 | 说明 |
---|---|
set_window_size() | 设置浏览器的大小 |
back() | 控制浏览器后退 |
forward() | 控制浏览器前进 |
refresh() | 刷新当前页面 |
clear() | 清除文本 |
send_keys (value) | 模拟按键输入 |
click() | 单击元素 |
submit() | 用于提交表单 |
get_attribute(name) | 获取元素属性值 |
text | 获取元素的文本 |
from selenium import webdriver
import time
# 建立Chrome浏览器对象,这会在电脑中打开一个窗口
browser = webdriver.Chrome()
# 经过浏览器向服务器发起请求
browser.get('https://www.baidu.com')
time.sleep(3)
# 刷新浏览器
browser.refresh()
# 最大化浏览器窗口
browser.maximize_window()
# 设置连接内容
element = browser.find_element_by_link_text('抗击肺炎')
# 点击'抗击肺炎'
element.click()
复制代码
关于selenium的简单介绍就先到这里了,更多详细内容你们能够去selenium官方文档查看。点击查看selenium官方文档
从上图,能够看到须要获取的信息是:价格、商品名称、付款人数、店铺名称。
如今咱们开始进入主题。
首先,须要输入你要搜索商品的内容,而后根据内容去搜索淘宝信息,最后提取信息并保存。
我在这里定义提个搜索商品的函数和一个主函数。
在这里须要建立一个浏览器对象,而且根据该对象的get方法来发送请求。
经过id值能够获取到文本框的位置,并传入参数,而后点击搜索按钮。
从上图能够发现搜索按钮在一个类里面,那么能够经过这个类来定位到搜索按钮,并执行点击操做。
当点击搜索按钮以后,网页便会跳转到登陆界面,要求咱们登陆,以下图所示:
搜搜商品的代码以下:
def search_product(key_word):
''' :param key_word: 搜索关键字 :return: '''
# 经过id值来获取文本框的位置,并传入关键字
browser.find_element_by_id('q').send_keys(key_word)
# 经过class来获取到搜索按钮的位置,并点击
browser.find_element_by_class_name('btn-search').click()
# 最大化窗口
browser.maximize_window()
time.sleep(15)
page = browser.find_element_by_xpath('//div[@class="total"]').text # 共 100 页,
page = re.findall('(\d+)', page)[0] # findall返回一个列表
return page
复制代码
获取商品信息相对比较简单,能够经过xpath方式来获取数据。在这里我就不在论述。在这边我建立了一个函数get_product来获取并保存信息。在保存信息的过程当中使用到了csv模块,目的是将信息保存到csv里面。
def get_product():
divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq "]') # 这里返回的是列表,注意:elements
for div in divs:
info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
price = div.find_element_by_xpath('.//strong').text + '元'
nums = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
names = div.find_element_by_xpath('.//div[@class="shop"]/a').text
print(info, price, nums, names,sep='|')
with open('data3.csv', mode='a', newline='', encoding='utf-8') as file:
csv_writer = csv.writer(file, delimiter=',') # 指定分隔符为逗号
csv_writer.writerow([info, price, nums, names])
复制代码
从上面的图片中能够发现连续三页URL的地址,其实真正变化并非不少,通过测试发现,只有q和s两个参数是有用的。
构造出的url:s.taobao.com/search?q={}…
由于q是你要搜索的商品,s是设置翻页的参数。这段代码就放在了主函数里面
def main():
browser.get('https://www.taobao.com/') # 向服务器发送请求
page = search_product(key_word)
print('正在爬取第1页的数据')
get_product() # 已经得到第1页的数据
page_nums = 1
while page_nums != page:
print('*'*100)
print('正在爬取第{}页的数据'.format(page_nums+1))
browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_nums*44))
browser.implicitly_wait(10) # 等待10秒
get_product()
page_nums += 1
复制代码
最后结果,以下图所示:
若是在这里你们有不理解的地方能够向我提出。能够在文章下方留言,也能够添加个人微信
你们若是须要获取源代码的话能够关注个人公众号,在公众号里面文章会更加的详细。
本次爬取淘宝信息的视频教程已经上传到了B站,点击观看视频教程里面有不少的爬虫视频和web安全渗透的视频,欢迎你们观看并留言!!
好了,又到了该说再见的时候了,但愿个人文章能够给你带来知识,带给你帮助。同时也感谢你能够抽出你宝贵的时间来阅读,创做不易,若是你喜欢的话,点个关注再走吧。更多精彩内容会在后续更新,你的支持就是我创做的动力,我从此也会尽力给你们书写出更加优质的文章、。