光棍节之夜,用数据分析帮女神学姐选婚房

(本文成文于2015年11月12日,为做者原创,发布在博客园方便诸君阅读)程序员

前段时间发了一篇分析房价的文章,因而这两天在微信上咨询个人朋友络绎不绝。今天是光棍节,我什么都没抢到。下午,有一位学姐在微信上找我,怀着激动的心情打开微信。正则表达式

学姐说,“看到你以前发的文章了,能不能帮我在北京选一套婚房啊?”微信

学姐求我,焉有不该。因而,咱们约了今天晚上在北邮校园的零一咖啡厅见面。学姐是咱们实验室比我大两级的女神,追求者众,听说要找男友只找BAT三家的高富帅,据说后来找了个360的男友。毕业两年,就准备买婚房了,太使人羡慕了。看看我能不能帮忙吧!网络

坐在咖啡厅,我从新运行了数据采集程序,抓取光棍节当天全部的二手房数据,这个过程要花15分钟。趁着这个时候,我开始询问学姐对婚房具体需求。工具

学姐说,她但愿能找面积在70平以上,130平如下的比较新的房子。至于预算,如今两家人拿出了180万的首付,我当时就震惊了。我帮她算了一下,她男朋友的工资一个月两万,按照贷款三十年,每月还款不超过收入的51%计算,总共能贷大概140万。所以,预算在320万左右。3d

正好15分钟过去,数据采完了,总共10W套左右,基本上包括了绝大多数北京二手房。大概是下面这个样子(省略了一部分信息):代理

image

可选数量:10W套

我按照学姐的要求,选择了70到130平,价格在350万如下的全部房子,总共3W套。看来可选择的还挺多的啊。平均面积93平,单价2.34万。blog

按面积和价格筛选:30498套

她忽然又说,不喜欢太老的房子。排序

确实如此,房子不能太老,不然水暖电和房子的质量都会比较差,之后也很难出手。因而,我用正则表达式,从每一个房子的所有信息里,抽取房子的年份,并选择1997年之后的房子。97年之后,大户型开始多了起来。看了看,还有2.5万套左右。事件

选择1997年以后:2.5W套

学姐又说,她不想上班太远,位置也不想太偏。

我心想,恩,要离老公近一点,但是,怎么定义不远呢?我打开了地图,告诉她,你来选一个区域范围吧!

学姐用纤纤手指,在屏幕上画了一个框,我仔细看了一下,大概是这个样子:

image

这个区域,西至玉泉路,东到东五环,南到长安街,北到立水桥。我以为颇有意思,问学姐,长安街以南有好多单价较低的东西城区的房子,为何不考虑呢?

她说,“男友在北边,这样上班方便。再说,宁要北边一张床,不要南边一间房,因此固然要买长安街以北的房子啦!”

她选的其实还挺有道理,北边过了立水桥,就是昌平的天通苑了,连我都据说过天通苑国的传言,天天出入境极其困难,她男友怎么舍得让她早高峰在天通苑地铁站挤地铁呢,那个情景,大概是下面这个样子(男默女泪)。

image

我分析了一下坐标,这个矩形范围大约在东经116.25到116.53度,北纬39.91到40.059度之间。一个表达式跑下来,总共只剩下2400套左右的房子了。

选定地图区域:2400套

按照不一样区域进行划分,就能看到下面的柱状图:

image

看来基本上只能在朝阳,海淀,燕郊三个地方买房子了。学姐不会考虑燕郊。她说,竟然还有西城区的房子!

我也深感奇怪,1998年后,竟然还有单价在5W之内的西城区的房子?看了一下,西城有18套,东城有17套。

若是能买到西城的房子,学姐真是赚大了!因而我赶忙检索那些西城的房子出来:

image

单价才三万八!这怎么可能,随便找了两个仔细一看,原来一个是地下室,另一个是商住两用的房子。

学姐问我,什么是商住两用?我告诉她,所谓商住两用就是商水商电,小产权,不能落户口。

学姐说,坚定不要地下室,并且必定能落户口。

这个也难不倒我,中介固然不会傻到在标题上标注地下室和商住两用。但一般商住两用,会标明“不限购”,各类“大厦”,“中心”,“投资”的,确定都是没法落户的,用关键字筛掉它们!

keywords = re.compile(u'商|地下|限购|大厦|中心|投资');

学姐眉头一皱,“忘了告诉你了,我要两室或者三室的房子,必定要带客厅”。我想了几秒钟,看来还得正则表达式出马:

housetype = re.compile(u'(2|3)室(1|2)厅');

这样,西城东城的房子完全干掉了,一套都没有。我告诉学姐,你如今只能选择朝阳和海淀的房子了。此时,可选的房子数量共计1000套左右,只占总数的不到1%。

不要小产权,商住两用和地下室,两室/三室带客厅:1000套

接下来按照区域选房子。咱们按照区域排序分组并求数量,获得了下面这张表:

image

学姐问道,这么多商圈,不少地方听都没听过,怎么选?我把数据导出成文件,导入到基于百度地图的可视化工具工具里,汇出了这样的一张图,每一个地方有多少套房子,一目了然。按照大区来划分,可选项主要集中在北苑,清河,望京和十里堡附近。

image

学姐想了想,说,男友所在的科技公司在东边,我在中关村上班,因此北苑应该是个不错的选择,正好是两我的的上班的中点,酒仙桥地铁并不方便,因此暂时先不考虑。

啊,学姐好赞! 如今应该比较明确了。

咱们来重点考察一下北苑,按照小区来划分(PID是数量,year为小区平均年份,单价为平均单价)

image

咱们将地图缩放到北苑,每一个小区有多少套合适的房子,即可一目了然。

image

学姐说,这价格差异仍是挺大的,从2.7W到3.9W都有。为何区别这么大呢?

我说,这可能和房子年份有关,越新的小区,房子确定会越贵,为了证实个人猜想,我作了以下的线性回归曲线:

image

通过计算,皮尔逊相关系数在0.63左右,可见,对于比较新的非学区房来讲,建造年份和价格强相关。

为何天怡家园和茉藜园只有一条秋实街相隔,二手房可选择性(天怡家园6套,茉藜园51套)却差异这么大呢?仔细对比了两个小区的基本信息,可能缘由有两个,茉藜园(3559户)比天怡家园(690户)的规模大了不少,并且天怡家园是部委联合建房,因此相对来讲多一些。总体交易活跃度不高。

选择具备性价比的房子

学姐说,如今硬性条件都知足了,怎么来选择最有性价比的房子呢?

先说价格,学姐忽然问我,成交价就是中介网上标明的价格吗? 我偷笑了一下,心想,“看来学姐是彻底不懂啊”。中介固然要收中介费的啊,某著名中介通常是成交价的2.7%。下面是商品普通住宅的额外支出状况:

image

我接着说道,这是普通商品房的税率,若是是经济适用房,须要交纳10%的综合地价款,若是是公房,还须要交纳土地出让金…

学姐打断我,这个太复杂了!

确实啊,这些政策足够写好几张纸,我本身也不是很清楚。咱们先考虑那个表里的状况吧。

修正实际交易价格

 

其实仔细观察中介的标签就能发现,若是是满五年惟一或满两年惟一,必定会标上。若是不惟一,就什么都不标。从这些特征,可以计算出每套房子的实际成交额,这个步骤可能会出错,。

我回答,这看你怎么定义性价比了。基本上,一分价钱一分货,能从下面几个角度来考虑:

  • 户型:仅次于位置的最重要因素
  • 采光:即便作不到明厨明卫,也最少作到明室明厅。
  • 学区:旁边是否有不算太差的幼儿园和小学
  • 升值空间:房子将来是否好出手。

学姐问,90多套房子,这个让我怎么选啊,能让机器帮我选择一下吗?

这可以让我犯了难,户型图均可以查到,但让程序去作自动识别,并计算采光,这实在是太难了,只能让学姐本身来选了。

采光也无法自动识别,但能经过中介给出的评论中提取关键词,绘制词图,提升筛房效率。

学区和升值空间相对比较容易,把北苑全部的学校,幼儿园,以及将来地铁的建设状况绘制出来,便可做为直接的参考。

image

即便在2020年,北苑的地铁线路依旧不够发达,只增长了勇士营一站。勇士营站的位置,靠近来春园和北京青年城,能够认为将来有较好的升值空间。

绘制北苑全部的幼儿园

以学姐的状况,估计之后还会换学区房,咱们姑且将附近的幼儿园绘制出来:

image

(时间所限,笔者没有标注每一个幼儿园的状况,以后有专门的学区房专题进行分析)

提取中介点评关键字,作成词云,方便观察

因为中介对每套房子的评价内容特别多,所以一条一条观察会很是浪费时间。我不得不动用天然语言处理技术,对剩余的90多套房子,提取点评关键词。

因为中介对每套房子的评价内容特别多,所以一条一条观察会很是浪费时间。我不得不动用天然语言处理技术,对剩余的90多套房子,提取点评关键词:

image

综合评价排序表格

为了方便学姐快速地从90套房子中选取本身中意的房子,我生成了这些房子的词图,坐标图和房型图。

另外一方面,考虑对这些房源进行排序,但如何评价房子的综合好坏呢

通常来讲,看房的人越多越火,但不排除挂出来好久都没人看上,所以用每个月平均看房次数比较合适。另外,更好的房子会有更多的中介小哥对其进行评价,房评热度较高。所以,使用下面的公式来计算房子的评价:

 

综合评价=(总看房人数/已挂出时间)∗0.2+经纪人评论数量∗0.8

(获取挂出时间的方法请参考附录,公式的权重参数是我瞎编的)

我花了五分钟生成了一个word文档能很是方便地进行对比,选择恐惧症福音,就像下面这个样子:

image

 

我接着说,接下来就靠你和你男友对户型进行筛选,选出20-30套以为不错的房子,综合地铁商场幼儿园地图,制定看房计划,联系中介,最后肯定最合适的房子,这样会比较有效率。

 

学姐看完之后,很是开心,说道,太棒了太棒了,这样我选房就一目了然,你把你生成的这份文档拷到我U盘上吧

这时,学姐掏出了一个很是精致的爱心优盘,说道“不要随便乱看哦,这里面有我和我男票的爱之皂片”。

心塞啊。。。我把优盘插在电脑上准备拷贝,顺便问学姐,你难道不考虑酒仙桥,清河的房子吗?好像中关村也有符合你要求的房子呢,那里比北苑地理位置好多了。。。

学姐表情一变,啊啊啊啊,是啊,我到底该怎么选啊,你知道我有选择恐惧症。。。你再帮我选一下吧。。。

我:。。。。。。

这时,外面有汽车鸣了两下笛,学姐的电话也响了,应该是她的BAT男朋友来了。

她一看手机,啊,我男友来接我了,学弟今天谢谢你!因而拿起包包转身急匆匆地就出门了。。。

哎,准备回家吧,看看能不能趁双十一回去抢个袜子。正要收拾电脑,

“学姐,你的优盘!”

备注:

本文成文于2015年11月12日,,请联系微信公众号“沙漠之鹰”。全部数据和分析都来自真实数据,但并不保证事件和人物存在,若有雷同,纯属巧合。

1.越新的小区越贵?

为了证实个人猜想,我根据北苑20个小区的价格和年份进行计算,皮尔逊相关系数在0.63左右,可见,对于比较新的非学区房来讲,建造年份和价格强相关。

2.计算二手房税费和手续费的方法

中介固然不会傻到真正交多少税写在页面上,但仔细观察页面标签就能发现,若是是满五年惟一或满两年惟一,必定会标上。若是不惟一,就会标“房本满两年”。从这些特征,可以计算出每套房子的实际成交额。

目前北京二手房我的所得税的计算只要能核实房屋原值,均要按照(出售价— 房屋原值 — 合理费用)× 20%的方法计算,不能核实原值的,个税以本次房屋交易价格按核定征收率1%计算。但因为本次计算不能知道房屋原值,所以按1%处理。

税费因政策更新已经修改屡次,所以网络上说法不一,异常复杂,表格中的数据,是我按照330新政的信息校对过的。

好笑的是,同一套房,不一样中介代理标注的信息都不同:

image

3.为何要本身选好大体的区域

每一个中介的门店只负责特定的范围。所以虽然中介能提供一个小区里的详细信息,但很难也一般不会帮你介绍其余位置的房型。所以按照需求明确本身所需的区域,再去选择当地的门店,是很是重要的。

4. 获取房屋在中介登记的时间

信息中并无明确提到登记时间,这对咱们计算房子综合评价很重要。怎么办呢?

笨蛋!固然是获取第一个房评人的评论时间啊,他是登记这个信息的人!

 

 

沙漠之鹰:以程序员的视角,分析数据,解构模式,发现洞见,欢迎关注微信公共号:

image

相关文章
相关标签/搜索