组内有三人去考证了,只剩下6人前端
组员 | 分工 | 贡献比例 |
---|---|---|
王永福 | 先后端,爬虫,博客主体 | 30% |
孙承恺 | 建模,算法设计,统筹 | 18% |
邱畅杰 | 爬虫 | 15% |
徐祖豪 | 前端数据可视化 | 13% |
张凌昕 | 前端数据可视化,部分博客 | 11% |
丁枢桐 | 数据可视化,聚类算法 | 13% |
GitHub
python
environment.yml
并上传至GitHub,你们能够去看package.json
中有,能够yarn install
直接安装
根据题目要求,咱们须要爬取相关数据,根据对题目的分析,以及对美团和大众点评、高德地图的前期调研,咱们认为能够将前三个评测目标划为一组,数据一块儿爬取,由于它们须要的字段比较类似(能够见上面的数据截图);第四个目标咱们在美团上找不到数据,大众点评难以爬取,所以转向高德POI搜索爬取。git
美团的数据主要从手机版网页爬取(PC版网页没有经纬度且须要计算token),使用Chrome Developer Tools模拟手机访问网页抓取数据进行分析,发现Cookie
只须要设置ci
和uuid
便可爬取,其余仿照抓取到的请求设置。
github
爬取时须要注意美团反爬技术很是硬,须要不断更换IP和ID,不然没一会就会白给,早上咱们已经白给好屡次了。咱们的爬虫理论上具有获取全部数据的能力,但因为疯狂白给,最后只获取了少许数据用于制做demo。web
另外高德API虽然不反爬,可是API有调用配额限制,爬多了也会白给。建议多准备几个Key算法
获取到数据后,须要对数据进行预处理以进行展现,对于不一样的评测目标,采起不一样的方法编程
将美团爬取到的数据按销量降序排列,按商圈聚类,而后根据全局排名,分阶梯对每个商铺赋权,再将商圈内的商铺权值求和,排序,获得最受欢迎的商圈。json
这个比较简单,直接按人均消费所属阶层聚类,组内排序,第一关键字评分降序,第二关键字人均价格升序。后端
两条路:api
clustering
中的代码生成从高德地图爬取的数据参照第一个评测目标类似的方法处理
主要采用了Vue框架来管理视图路由,AntV进行可视化展现,展现效果可见截图。地图部分采用了高德地图JS SDK
理论上不须要这部分,可是没用网络感受很low,为了高级一点,也为了可扩展性,用Flask加了个服务端,动态提供数据
跟数据可视化一块儿作了,页面上的东西基本都是有交互的,饼图有Tooltip,点击下面的图例能够取消显示某一类,作到部分展现。地图能够旋转,改变俯仰角,热力图是3D的
能够在可视化上作一些炫酷或者高级的交互,好比说:
若是能爬到大量数据
作一整个推荐平台,同时收集用户数据
在此次现场编程中我主要负责的是前端这一块,在写饼图的时候,我刚刚开始不是很懂G2,而且在挑选饼图形式的时候,比较不知道挑选哪一个比较好
多看一些模板,而且有的模板上会给一些注释,让我更了解G2的一些使用方法,用起来更容易。在饼状图格式的挑选上,先是选了一个不是太好看的,后来又选了一个比较合适的。
短期的分析和设计很使人烦躁,api接口没开放增长工做量
化繁为简
数据难以爬取,token算法未知
对于美团爬取手机版页面,采用代理池
对于大众点评,放弃
PSP2.1 | Personal Software Process Stages | 预估耗时(min) | 实际耗时(min) |
---|---|---|---|
Planning | 计划 | 20 | 20 |
Estimate | 估计这个任务须要多少时间 | 60 | 60 |
Development | 开发 | 0 | 0 |
Analysis | 需求分析(包括学习新技术) | 0 | 0 |
Design Spec | 生成设计文档 | 20 | 20 |
Design Review | 设计复审 | 30 | 30 |
Coding Standard | 代码规范(为开发制定合适的规范) | 40 | 40 |
Design | 具体设计 | 120 | 120 |
Coding | 具体编码 | 0 | 0 |
Code Review | 代码复审 | 0 | 0 |
Test | 测试(自我测试,修改,提交修改) | 0 | 0 |
Reporting | 报告 | 60 | 60 |
Test Report | 测试报告 | 60 | 60 |
Size Measurement | 计算工做量 | 10 | 10 |
Postmortem & Process Improvement Plan | 过后总结并提出过程改进计划 | 0 | 0 |
Total | 合计 | 550 | 550 |
第N周 | 新增代码(行) | 累计代码(行) | 本周学习耗时 (小时) |
累计学习耗时 (小时) |
重要成长 |
---|---|---|---|---|---|
1 | 100 | 100 | 5 | 5 | 掌握了现场团队编程中队友之间合做的技巧和方法 |