最近, 耗子我在作关于互联网新闻分类的项目, 须要用到sklearn.datasets里新闻数据抓取器fetch_20newsgroups, 而当将参数subset设置为'all'时, fetch_20newsgroups须要即时从互联网下载数据, So:python
稍有python下载经验的就知道, 1M就得等好久了, 这是14M, 啊啊!浏览器
直接复制图片中的网址下载:多线程
https://ndownloader.figshare.com/files/5975967
而后, 依然很慢......编辑器
复制连接, 用火狐浏览器插件多线程下载器下载
额, 也不算快啊......函数
直接复制连接给迅雷呀!? 刚咋没想到呢????
行吧, 还算迅雷给力......fetch
问题又来了, 有文件了, Python 怎么读取啊???
文件名是 20newsbydate.tar.gz
而后我就搜了 Python如何读取gz文件
大概是我中午没睡好吧, 搜这干吗......spa
几经波折, 终于找到了......
感谢大神的分享: 这里是原文.net
在此说明以下:
fetch_20newsgroups函数将下载的文件放在
C:\Users\(你的user_name)\scikit_learn_data\20news_home目录下
将你下载的文件放在这里插件
注:
Python下载的文件叫20new-sbydate.tar.gz
你下载的叫20newsbydate.tar.gz
因此改为它那样的就成
(不过本身应该先看下, 你那个版本的Python下载的文件名字是啥)线程
进入Python安装文件夹中找到文件 twenty_newsgroups.py
用任意文本编辑器打开它
找到download_20newsgroups函数
上红框是下载文件的部分, 下红框是解压文件的部分
So, 咱们只须要将上红框注释掉, 并加入文件地址便可
而后, ctrl+s , 如图:
有可能再报一个缩进的错:
缩进嘛, 看下哪行的4个空格变成一个Tab了, 改过来便可