玩机器学习的童鞋都知道数据集的重要性,没有数据粮食喂养,好的模型是长不出来的,形象的比喻就是“巧妇难为无米之炊”。机器学习
这一年多来一直在摸索文本分析领域,文科生一枚摸着石头过河,很惋惜一直没有出什么东西。不过却也在这过程当中积累了一些在线评论数据集。大可能是在百度网盘、谷歌遇到我以为有用的数据我通常会下载下来。大邓都整理到csv中,方便你们使用pandas进行数据分析。今天我整理了一下,分享给你们。ide
中文在线评论数据
中文的数据主要电商平台在线评论数据,且均标注正负情感标签的,领域包括:学习
计算机视频
热水器blog
服装直播
手机数据分析
书籍pandas
洗发水产品
经过这些标注的各个领域评论数据,咱们能够训练各自领域的情感分析模型。有余力的童鞋也能够构建相关领域属性词典,想一想就很激动。大邓这里打开其中一个文件,样子大概是这样的。it
此外还有微博评论数据,有人将其标注为4种情绪,数据量10万条。再次感谢他们的辛勤劳动。
亚马逊评论数据集
该数据集的发现要感谢山东烟台的一位网友,向我咨询问题的时候给我留下了 加州大学圣地哥分校Julian McAuley教授的Amazon product ata数据集页面。
数据集简介:
该数据集包含来自亚马逊的产品评论和元数据,其中包括1996年5月至2014年7月的1.4亿条评论。 该数据集包括评论(评分,文字,乐于投票),产品数据(产品描述,类别信息,价格,品牌和图像特征)以及产品连接。
亚马逊1996-2014年 近200G数据(这只是部分数据,更大更大的数据须要找Julian McAuley教授要)。这是教授的官方介绍,竟然还有一个视频直播。大邓写这篇文章时美国大概是晚上十点,可能教授下班了,因此屋子里没有。若是赶巧的话,大家能看到教授搞学习。