昨晚写了个小爬虫,简单分析下发现能够修改请求的url,直接获取全部目标的数据。想先打印在控制台看看,发现打印的数据不全,一开始还觉得被反爬虫了,获取的数据自己不全,后来将数据直接保存JSON文件(3兆多大小),用Ubuntu文档编辑器打不开(直接卡死),用vim打开发现数据完整(说明爬虫获取的数据自己没毛病),再在Pycharm用Python打开发现提示文件过大,打印在控制台也仍是显示不全,在网上找了很久才找到了解决方法?。
web
原来Pycharm IDEA对能关联的文件大小作了限制,主要是为了保护内存,默认值为2500kb,这对爬虫用户来讲至关不友好,但时安装软件的时候也不提醒下?vim
idea.max.intellisense.filesize = 20000 idea.max.content.load.filesize = 20000 idea.cycle.buffer.size = 20000
其中20000表明限制大小为20000kb(暂时应该够用?),可自行修改
编辑器
解决方法很简单,可是找到问题的来源很辛苦,一开始我觉得是爬虫代码的问题,就反复修改请求头,换代理,掉了坑里很久,后来发现不是数据自己问题才慢慢恍然大悟,最终Google到了方法。因此要对本身的爬虫自信点,有问题全是IDEA的锅?ide