Python爬虫之获取淘宝商品信息

时间 2020-05-26

原文原文链接

爬取淘宝信息数据

首先须要先导入webdrivercss

from selenium import webdriver
复制代码

webdriver支持主流的浏览器，好比说：谷歌浏览器、火狐浏览器、IE浏览器等等html

而后能够建立一个webdriver对象，经过这个对象就能够经过get方法请求网站python

driver = webdriver.Chrome()	# 建立driver对象
driver.get('https://www.baidu.com')	# 请求百度
复制代码

接下来能够定义一个方法：search_productgit

1、selenium的简单介绍

1.selenium简介

selenium是一个用于测试网站的自动化测试工具，支持不少主流的浏览器，好比：谷歌浏览器、火狐浏览器、IE、Safari等。github

2.支持多个操做系统

如windows、Linux、IOS、Android等。web

三、安装selenium

打开终端输入chrome

pip install Selenium
复制代码

四、安装浏览器驱动

一、Chrome驱动文件下载：点击下载谷歌浏览器驱动windows

二、火狐浏览器驱动文件下载：点击下载geckodriverapi

五、配置环境变量

配置环境变量的方法很是简单，首先将下载好的驱动进行解压，放到你安装Python的目录下，便可。浏览器

由于以前，在配置Python环境变量的时候，就将Python的目录放到个人电脑–>属性–>系统设置–>高级–>环境变量–>系统变量–>Path

2、selenium快速入门

一、selenium提供8种定位方式

一、id

二、name

三、class name

四、tag name

五、link text

六、partial link text

七、xpath

八、css selector

二、定位元素的8中方式详解

定义一个元素	定位多个元素	含义
find_element_by_id	find_elements_by_id	经过元素的id定位
find_element_by_name	find_elements_by_name	经过元素name定位
find_element_by_xpath	find_elements_by_xpath	经过xpath表达式定位
find_element_by_link_text	find_elements_by_link_text	经过完整超连接定位
find_element_by_partial_link_text	find_elements_by_partial_link_text	经过部分连接定位
find_element_by_tag_name	find_elements_by_tag_name	经过标签订位
find_element_by_class_name	find_elements_by_class_name	经过类名进行定位
find_element_by_css_selector	find_elements_by_css_selector	经过css选择器进行定位

三、selenium库下webdriver模块经常使用的方法与使用

控制浏览器的一些方法

方法	说明
set_window_size()	设置浏览器的大小
back()	控制浏览器后退
forward()	控制浏览器前进
refresh()	刷新当前页面
clear()	清除文本
send_keys (value)	模拟按键输入
click()	单击元素
submit()	用于提交表单
get_attribute(name)	获取元素属性值
text	获取元素的文本

四、代码实例

from selenium import webdriver
import time

# 建立Chrome浏览器对象，这会在电脑中打开一个窗口
browser = webdriver.Chrome()

# 经过浏览器向服务器发起请求
browser.get('https://www.baidu.com')

time.sleep(3)

# 刷新浏览器
browser.refresh()

# 最大化浏览器窗口
browser.maximize_window()

# 设置连接内容
element = browser.find_element_by_link_text('抗击肺炎')

# 点击'抗击肺炎'
element.click()

复制代码

关于selenium的简单介绍就先到这里了，更多详细内容你们能够去selenium官方文档查看。点击查看selenium官方文档

爬取淘宝数据

从上图，能够看到须要获取的信息是：价格、商品名称、付款人数、店铺名称。

如今咱们开始进入主题。

首先，须要输入你要搜索商品的内容，而后根据内容去搜索淘宝信息，最后提取信息并保存。

一、搜素商品

我在这里定义提个搜索商品的函数和一个主函数。

搜索商品

在这里须要建立一个浏览器对象，而且根据该对象的get方法来发送请求。

从上图能够发现搜索框的 id值为q，那么这样就简单不少了，有HTML基础的朋友确定知道id值是惟一的。

经过id值能够获取到文本框的位置，并传入参数，而后点击搜索按钮。

从上图能够发现搜索按钮在一个类里面，那么能够经过这个类来定位到搜索按钮，并执行点击操做。

当点击搜索按钮以后，网页便会跳转到登陆界面，要求咱们登陆，以下图所示：

登陆成功后会发现，里面的数据总共有100页面。

上图是前三页的url地址，你会发现其实并无太大的变化，通过测试发现，真正有效的参数是框起来的内容，它的变化会致使页面的跳转，很明显第一页的s=0，第二页s=44，第三页s=88，以此类推，以后就能够轻松作到翻页了。

搜搜商品的代码以下：

def search_product(key_word):
    ''' :param key_word: 搜索关键字 :return: '''
    # 经过id值来获取文本框的位置，并传入关键字
    browser.find_element_by_id('q').send_keys(key_word)
    # 经过class来获取到搜索按钮的位置，并点击
    browser.find_element_by_class_name('btn-search').click()
    # 最大化窗口
    browser.maximize_window()

    time.sleep(15)
    page = browser.find_element_by_xpath('//div[@class="total"]').text  # 共 100 页，

    page = re.findall('(\d+)', page)[0] # findall返回一个列表
    return page
复制代码

二、获取商品信息并保存

获取商品信息相对比较简单，能够经过xpath方式来获取数据。在这里我就不在论述。在这边我建立了一个函数get_product来获取并保存信息。在保存信息的过程当中使用到了csv模块，目的是将信息保存到csv里面。

def get_product():
    divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq "]')	# 这里返回的是列表，注意：elements
    for div in divs:
        info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
        price = div.find_element_by_xpath('.//strong').text + '元'
        nums = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
        names = div.find_element_by_xpath('.//div[@class="shop"]/a').text
        print(info, price, nums, names,sep='|')
        with open('data3.csv', mode='a', newline='', encoding='utf-8') as file:
            csv_writer = csv.writer(file, delimiter=',')    # 指定分隔符为逗号
            csv_writer.writerow([info, price, nums, names])
复制代码

三、构造URL实现翻页爬取

从上面的图片中能够发现连续三页URL的地址，其实真正变化并非不少，通过测试发现，只有q和s两个参数是有用的。

构造出的url：s.taobao.com/search?q={}…

由于q是你要搜索的商品，s是设置翻页的参数。这段代码就放在了主函数里面

def main():
    browser.get('https://www.taobao.com/')  # 向服务器发送请求
    page = search_product(key_word)
    print('正在爬取第1页的数据')
    get_product()   # 已经得到第1页的数据
    page_nums = 1
    while page_nums != page:
        print('*'*100)
        print('正在爬取第{}页的数据'.format(page_nums+1))
        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_nums*44))
        browser.implicitly_wait(10) # 等待10秒
        get_product()
        page_nums += 1
复制代码

最后结果，以下图所示：

问题咨询

若是在这里你们有不理解的地方能够向我提出。能够在文章下方留言，也能够添加个人微信

代码获取

你们若是须要获取源代码的话能够关注个人公众号，在公众号里面文章会更加的详细。

视频教程

本次爬取淘宝信息的视频教程已经上传到了B站，点击观看视频教程里面有不少的爬虫视频和web安全渗透的视频，欢迎你们观看并留言！！

致谢

好了，又到了该说再见的时候了，但愿个人文章能够给你带来知识，带给你帮助。同时也感谢你能够抽出你宝贵的时间来阅读，创做不易，若是你喜欢的话，点个关注再走吧。更多精彩内容会在后续更新，你的支持就是我创做的动力，我从此也会尽力给你们书写出更加优质的文章、。