下面就介绍一些获取数据的方法:python
1 爬虫
最好的方法就是本身写爬虫,优势是能够自由的定制想要的数据,缺点是周期较长。web
但如今随着python的兴起,愈来愈多的架包的开发,爬虫愈来愈简单实现。大数据
跟着下面这个教程能够很快的实现一个强大的爬虫:.net
CSDN 爬虫教程
http://blog.csdn.net/u012052268/article/category/6889435blog
2 数据平台
国内一些机构贡献了一些数据集出来,你们能够在上面下载。教程
2.1 数据堂
数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,可是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/开发
2.2 搜狗实验室
搜狗实验室是比较权威的数据提供方提供的数据质量很高并且数据是免费的。网址:
http://www.sogou.com/labs/io
2.3 天然语言处理与信息检索共享平台
是中科大的信息平台,上面有一些天然语言相关的数据集。网址:
http://www.nlpir.org/?action-category-catid-28下载
2.4 聚数力
http://dataju.cn/Dataju/web/home方法
3 人工收集的
这是几个博主本身总结的,质量很高。
https://zhuanlan.zhihu.com/p/25138563
https://www.zhihu.com/question/53655758/answer/146351918