去年写的一个小功能,一年过得好快,好快!html
目的:爬取京东商品详情页面的内容(商品名称、价格、评价数量)后存储到xls文档中,方便商家分析本身商品的动态。python
软件:chrome(windows)、chromedriver.exe、phantomjs.exe 、anaconda、pycharmchrome
实现:用selenium自动化工具实现内容抓取,模拟谷歌浏览器打开url,内容展现在浏览器后(js动态内容展现) 定位到各个文本和按钮的位置,而后抓取内容和模拟人工点击按钮继续操做浏览器来展现动态的内容(滚动页面,点击“下一页”等按钮),最后写入excel中。windows
打包发布:整个程序须要python环境,这样不方便客户使用,最终打包成双击可运行的win程序,不用安装任何编译工具,方便妹子使用。浏览器
目前的问题:多线程没有实现,不晓得哪里的问题,求指导!!!网络
代码链接多线程
py2exe--打包成双击可用的程序post
运行日志
D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py 17-01-07 发现URL文件,准备开始爬虫 2018-04-23 17:01:16 4 ############# 一共 4 条数据要爬虫 ############# http://item.jd.com/712579.html ############# 努力加载连接中,请耐心等待 ############# debugprint@@@ 打印url False RETURN_CODE ############# 网页已经被打开,耗时:5秒 ############# debugprint@@@ scrolldown1 debugprint@@@ 准备开始滚动500 debugprint@@@ 已向下滚动500 debugprint@@@ scrolldown2 debugprint@@@ start find name btn ############# 1名称: ############# 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6 debugprint@@@ start getprice ############# 1价格: ############# 7599.00 商品评价(9400+) 好评度: 95% ############# 多线程开始 ############# ############# MyThread_totalcom线程开始 ############# 所有评价(9400+):9400 ############# 多线程结束 ############# 晒图(500):500 好评(8900+):8900 中评(200+):200 差评(200+):200 test111111111 ############# 准备插入第 1 条数据,一共:8列 ############# ############# 写入以下数据 ############# 连接 http://item.jd.com/712579.html 名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6 价格 7599.00 晒图 500 好评 8900 中评 200 差评 200 所有评价 9400 ############# 该条数据写入完成耗时:7秒,还剩3条数据待分析,即将开始下一个连接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# https://item.jd.com/7275691.html ############# 努力加载连接中,请耐心等待 ############# debugprint@@@ 打印url False RETURN_CODE ############# 网页已经被打开,耗时:4秒 ############# debugprint@@@ scrolldown1 debugprint@@@ 准备开始滚动500 debugprint@@@ 已向下滚动500 debugprint@@@ scrolldown2 debugprint@@@ start find name btn ############# 1名称: ############# 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银 debugprint@@@ start getprice ############# 3价格: ############# 5698.00 ############# 没法获取xpath以下 ############# //*[@id="detail"]/div[1]/ul/li[5] 商品评价(10+) 好评度: 100% ############# 多线程开始 ############# ############# MyThread_totalcom线程开始 ############# 所有评价(10+):10 ############# 多线程结束 ############# 晒图(0):0 好评(10+):10 中评(0):0 差评(0):0 test111111111 ############# 准备插入第 2 条数据,一共:8列 ############# ############# 写入以下数据 ############# 连接 https://item.jd.com/7275691.html 名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银 价格 5698.00 晒图 0 好评 10 中评 0 差评 0 所有评价 10 ############# 该条数据写入完成耗时:26秒,还剩2条数据待分析,即将开始下一个连接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# http://www.qq.com ############# 努力加载连接中,请耐心等待 ############# debugprint@@@ 打印url 2 RETURN_CODE ############# 页面被跳转 ############# test111111111 ############# 准备插入第 3 条数据,一共:8列 ############# ############# 写入以下数据 ############# 连接 http://www.qq.com 名称 !!页面被跳转 价格 2 晒图 好评 中评 差评 所有评价 ############# 该条数据写入完成耗时:0秒,还剩1条数据待分析,即将开始下一个连接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# https://item.jd.com/3347170.html ############# 努力加载连接中,请耐心等待 ############# debugprint@@@ 打印url False RETURN_CODE ############# 网页已经被打开,耗时:2秒 ############# debugprint@@@ scrolldown1 debugprint@@@ 准备开始滚动500 debugprint@@@ 已向下滚动500 debugprint@@@ scrolldown2 debugprint@@@ start find name btn ############# 1名称: ############# 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/2.0米床 被套220*240cm 抹茶花 debugprint@@@ start getprice ############# 1价格: ############# 268.00 商品评价(7500+) 好评度: 100% ############# 多线程开始 ############# ############# MyThread_totalcom线程开始 ############# 所有评价(7500+):7500 ############# 多线程结束 ############# 晒图(445):445 好评(7400+):7400 中评(20+):20 差评(10+):10 test111111111 ############# 准备插入第 4 条数据,一共:8列 ############# ############# 写入以下数据 ############# 连接 https://item.jd.com/3347170.html 名称 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/2.0米床 被套220*240cm 抹茶花 价格 268.00 晒图 445 好评 7400 中评 20 差评 10 所有评价 7500 ############# 该条数据写入完成耗时:3秒,还剩0条数据待分析,即将开始下一个连接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ############# ############# @@@@@$$$$$$$$@@@@@ 全部代码正常运行 无报错 @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@ ############# ############# 整个爬虫一共耗时:38秒,单条连接平均爬虫耗时:9.5秒 ############# ############# sleep 10s后关闭浏览器 #############