背景
前段时间不少成都的朋友准备买房,遇到了各类问题。有的交了订金,房东发现还有机会涨价,宁愿交2w的违约金,也要再等一等房价涨起来;有的没有2年社保或户口买房;如今人才落户放宽后,有机会买房了,却又发现不少地方须要全款。那么如今成都二手房的状况究竟怎么样了?到底该买哪一个区的呢?html
思路git
使用爬虫从链家爬取二手房的数据github
将数据导入可视化分析平台浏览器
制做透视图ide
这里使用的可视化分析平台是公司内部开发平台,我直接拿来用用看下可否作出什么有意思的图出来。spa
结果
虫子爬取到的单条数据:code
{'area': 85.21, 'average_price': '17017', 'city': '锦江', 'community': '翡翠城四期 ', 'focus_num': '117', 'house_id': '106100521101', 'last_buy_time': '2011-02-16', 'link': 'https://cd.lianjia.com/ershoufang/106100521101.html', 'location': '104.102412,30.618452', 'model': ' 2室1厅 ', 'price': 1450000.0, 'publish_time': '2017-07-27', 'title': '翡翠城四期 套二 有装修 有阳台', 'watch_num': '81'}
对虫子进行了升级,可以拿到地理数据和发布时间了。htm
成都二手房每平方米的平均价格:ci
遇到的问题
首先我在知乎上找到一个分析北京房价的虫子,因而我下载下来准备用来收集成都的,可是却发现好久没维护,虫子跑不动了,因而我改了改,让虫子从新跑起来。虫子在爬取链家数据的时候,当爬取到3000多条的时候,遇到了链家的反爬虫策略,让输入验证码,我也就爬一次看看,并不想浪费太多的时间在验证码的识别上。网上有朋友告诉我使用和浏览器同样的hears和cache就能够,因而我试了一下,发现果真可行。开发
下面是个人虫子的地址,感兴趣的朋友,能够下载下来试试:
https://github.com/BlackKnigh...可是,hears和cache的那部分代码由于在笔记本上,没有来得及push。估计下周一去push。