Spark上数据的获取、处理与准备

1、获取公开数据集 UCI机器学习知识库:包括近300个不一样大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/ Amazon AWS公开数据集:包含的一般是大型数据集,可经过Amazon S3访问。这些数据集包括人类基因组项目、Common Craw网页语料库、维基百科数据和Google Books Ngrams
相关文章
相关标签/搜索