数据的获取方式:html
一、获取外部的公开数据集,python
UCI 加州大学欧文分校开放的经典数据集,被不少数据挖掘实验室采用 http://archive.ics.uci.edu/ml/datasets.html网页爬虫
国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。 http://data.stats.gov.cn/scrapy
CEIC:超过128个国家的经济数据,能精确查找GDP、进出口零售,销售等深度数据。 http://www.ceicdata.com/zh-hans函数
中国统计信息网:国家统计局官方网站,聚集了国民经济和社会发展统计信息。 http://www.tjcn.org/网站
优易数据:由国家信息中心发起,国内领先的数据交易平台,不少免费数据。 http://www.youedata.com/url
二、爬虫spa
要求:htm
python基础知识 元素(列表、字典、元组等)、变量、循环、函数………ci
Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫
网站:电商网站、问答网站、二手交易网站、婚恋网站、招聘网站等
三、待续