最近一直在用且有维护的另外一个爬虫是KINDLE 特价书爬虫,blog地址见此: http://www.cnblogs.com/weibaar/p/4824578.htmljavascript
在学完coursera的getting and Cleaning data后,继续学习用R弄爬虫网络爬虫。主要用的仍是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各类好用的R包的大神奉上膝盖html
查阅资料以下:java
言归正传,拿了几个网页练手。包括对拉勾网爬了一下虫,还尝试了对国外某黄页爬虫,对ebay用户评价爬虫分析其卖家卖的东西主要在哪一个价格段(我查的那个卖家,卖8.99和39.99最多,鞋子类),作了一下文本挖掘,还有爬了一下股票数据,基金买入状况等等。node
之因此放拉勾网为例子,由于这个你们都比较熟一点?其余的都有点小众=_=并且虽然我没有跳槽的心,但年初倒是不少人跳槽的热点。另外,由于以前听人说过,要了解一个公司的动态,有一个办法是去看这个公司放出来的招聘岗位,能够知道他们最近哪一个业务线要扩张了,哪一个业务线要跑人了,以及了解技术需求。python
library(rvest) lagou<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn=3" web<-html(lagou,encoding="UTF-8") #读取数据,规定编码 #以前我是用关键字搜索,阅读html代码,得到html_nodes里须要什么属性,不过许多浏览器有开发者工具,能够直接得到层级信息。如遨游 position<-web %>% html_nodes("li div.hot_pos_l a") %>% html_text() #上面就是直接读取数据,得到位置信息 #不过在后面作其余网站时发现,有时候信息储存在同类数据里(如div没有class等等),建议是找一个大的分类,先得到表格信息,再作数据 list_lagou<-web %>% html_nodes("li.clearfix") #这里正确找准正确的划分点很重要。有<li class="odd clearfix">,其实用li.clearfix同样能够取(对于空格二选一,如"li.odd"或者"li.clearfix") #接下来的company/position照选便可,由于事先已经分好了list,因此每个出多少内心有数。。
在讲完原理以后,如今开始尝试写代码git
由于里面涉及太多的选取数据工做。为了不出现太多变量,我最后是编了一个函数,输出数据库程序员
#下面开始写代码,首先写一个函数getdata,会输出一个数据框 getdata<-function(page,urlwithoutpage){ url=paste0(urlwithoutpage,page) #这里输入拉勾网没有页码的url web<-html(url,encoding="UTF-8") #读取数据,规定编码,access用 list_lagou<-web %>% html_nodes("li.clearfix") #得到一个清单,15个职位 title<-list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_text() company<-list_lagou %>% html_nodes("div.hot_pos_r div.mb10 a")%>%html_text() link<-gsub("\\?source\\=search","",list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_attr("href")) #接下来的因为数据都存在span里,没有很好的划分。这个取数要复杂一些。我在这里,研究他们的表,先取15个完整list,而后用seq等序列取数 #以后要研究是否有更好的方法 #若是有table,能够直接用data.table取数更快。。。 temp<-list_lagou %>% html_nodes("div.hot_pos_l span") city<-temp[seq(1,90,by=6)] %>% html_text() salary<-gsub("月薪:","",temp[seq(2,90,by=6)]%>% html_text()) year<-gsub("经验:","",temp[seq(3,90,by=6)]%>% html_text()) degree<-gsub("最低学历:","",temp[seq(4,90,by=6)]%>%html_text()) benefit<-gsub("职位诱惑:","",temp[seq(5,90,by=6)]%>% html_text()) time<-temp[seq(6,90,by=6)]%>%html_text() data.frame(title,company,city,salary,year,degree,benefit,time,link) }
#使用该函数, library(rvest) url<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn=" final<-data.frame() for (i in 3:5){ final<-rbind(final,getdata(i,url)) } #定义个数,把上面的getdata获得的Data.frame合并 head(final)
上面完成了第一个列表。爬出效果如图

关于这个数据有什么用呢…… 简单来讲,咱们能够用它来看这个网上有多少在招的,各公司招人的比例,以及薪资水平,作一点基础的数据分析。
虽然我如今不跳槽,不过了解一下市场情况也是不错的~譬如见下图,从目前这网上的平均薪资与工做年限的关系来看,数据分析岗至少在职位前五年属于薪资增加期,初始涨得快,后面涨得慢,但平均应有13%左右的增加?而后这网上目前没有什么高级岗位开出来(工做5-10年的岗位不多),反而是有些公司搞错分类,放了一堆数据录入的到数据分析栏目。。。github
值得一提的是,由于数据分析这个类目里包含了不一样的类别,如数据录入的也被归到数据分析,还有高薪也被归到这里,因此不能彻底按这个作参考。不过这个研究让我深入体会到了爬虫的有效性!好玩!实用!能够用到工做中去:) 还能够像个猎头同样了解人才市场~~作个有情调的数据分析师~~web
另外,其实咱们还能够遍历JD,看近期是什么技术最吃香,是R仍是Python仍是SQL仍是SAS仍是别的啥啥啥。下面是我随机抽了个JD作的爬虫。能够直接拿到相关数据。正则表达式
final[1,9] ## [1] http://www.lagou.com/jobs/378361.html ## 45 Levels: http://www.lagou.com/jobs/113293.html ... url<-as.character(final[1,9]) w<-html(url,encoding = "UTF-8") d<-w %>% html_nodes("dd.job_bt p") %>% html_text() d ## [1] "1.金融、计算机、财务、经济相关专业;" ## [2] "2.有证券从业资格证者优先;" ## [3] "3.想从事文职类工做,对办公软件熟悉;" ## [4] "4.可接收已拿到学历证的应届毕业生。" ## [5] "<U+00A0>"
注意事项:
对于被编码保护的数据(如国外yellow.local.ch,email被编码保护了。须要用 decodeURIComponent函数反编译。)
xpath语句对html_nodes适用。可是它好像是全局语句。。就是若是用div[1]//span[4]取数的话,它直接就只出全局的那个结果。。。
正则表达式颇有用!!尤为是对网页数据,某些不会写,或者技术高超不肯意被咱们爬虫的工程师,用rvest去抓数据,会抓到一堆堆乱码= =这几天练习下来感觉到了无尽恶意
中文,html(data,encoding='UTF-8')
还有iconv(data,'utf-8','gbk')
能够有效避免大部分乱码。可是R对中文支持真的很渣。
rvest对于静态抓取很方便!可是对于脚本访问的网页,还须要继续学习RCurl包。备查资料以下:
等学会了再写总结。
以及最后的最后,近期研究重点应该是IT金融?受张丹老师的两条均线与R语言)鼓舞好大!我以为学R嘛,用到实处才是重要的!玩爬虫玩的太开心都没跟JHU的课了。。。。
之后能够尝试按照本身和老爸的看股票习惯开发出相似的选股模型来~~
以及,我以前有看到有个牛人用python爬了各大网站程序员相关的招聘信息:程序员网站codejob 有兴趣的能够去看看。