selenium实现淘宝的商品爬取

时间 2019-11-12

标签 selenium 实现淘宝商品繁體版

原文原文链接

1、问题html

本次利用selenium自动化测试，完成对淘宝的爬取，这样能够避免一些反爬的措施，也是一种爬虫经常使用的手段。本次实战的难点：python

1.如何利用selenium绕过淘宝的登陆界面web

2.获取淘宝的页面内容实现翻页，并判断是否翻页成功。chrome

3.获取每一页的信息，实现数据的抓取工做。api

4.环境python3.6，对应的Chrome的webdriver驱动网址：http://chromedriver.storage.googleapis.com/index.html，将本身对应的webdriver放入scripts的环境内。测试

2、解决google

1.在登陆淘宝界面的时候，会弹出界面窗口，须要捕捉当前的页面，判断是否有变化。url

先用self.browser【驱动名称】.current_window_handle来捕获当前的界面信息。spa

用self.browser【驱动名称】.switch_to_window(now_handle),来进行页面变化的判断code

　　　　 self.browser.get(self.url) input_content = self.wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, '#q')) ) submit = self.wait.until( EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button")) ) now_handle = self.browser.current_window_handle input_content.send_keys(self.key) submit.click() self.browser.switch_to_window(now_handle)

2.在当前页码的判断，肯定是否翻页成功。

获取输入标签的值，和点击按钮，完成翻页动做，再用EC.text_to_be_present_in_element来检测是否完成了翻页的动做。

　　　　 print("正在翻第{0}页".format(number)) input_content = self.wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')) ) submit = self.wait.until( EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit")) ) input_content.clear() input_content.send_keys(number) submit.click() self.wait.until( EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(number)) ) self.get_content()

3.利用选择器获取整个页面的内容：

利用xpath进行解析，也能够利用pyquery等一系列的解析方式进行解析。

　　　self.wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist > div > div > div:nth-child(1)')) ) html = self.browser.page_source content_text = etree.HTML(html) names = content_text.xpath('*//div[@class="pic"]/a/img/@alt') srcs = content_text.xpath('*//div[@class="pic"]/a/img/@data-src') totals = [(name, src) for (name, src) in zip(names, srcs)]

3、结果呈现

4、总结

本项目利用了selenium来完成数据的自动爬取，须要注意获取的数据元素，以及数据信息。

重点在于弹出页面的判断以及对翻页成功的判断，其他的内容就是通常的数据爬取的方式。淘宝实战须要对webdriver有必定的基础和了解。才能够正确获取到标签内容。

webdriver的参考文档：

https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains