1、运行设置 数据采集前的设置,包括采集速度、采集策略、任务装载、网络超时、HTTP设置、加载设置、任务模式、任务定时、预警设置、过滤设置10个部分。网络
【运行设置界面】socket
2、IP代理设置post
软件支持动态和静态IP代理,支持http/https/socket代理。当须要启用IP代理时,须要在资源管理界面添加代理资源。测试
【IP代理设置界面】网站
1.启用IP代理3d
启用IP代理采集时,须要进行代理配置。需选中“启用IP代理”,才能启用IP代理功能。代理
【启用IP代理】blog
2.IP资源列表图片
添加完成的IP资源后会在列表中显示。资源
【IP资源列表】
:添加IP资源代理。
:删除IP资源代理。
:保存IP资源代理
:修改IP资源代理
3.IP代理配置
可添加IP代理帐号,配置IP代理属性。
(1)静态代理IP
【静态代理IP配置】
:添加IP资源代理。
:删除IP资源代理。
:批量导入IP帐号。
:保存IP资源代理。
(2)动态代理IP
【动态代理IP配置】
①协议类型:选择代理的协议类型,软件支持http/https/socket代理。
②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。
③刷新周期:指代理IP的有效时长。
④请求地址:粘贴代理商的请求地址。
⑤POST DATA:根据代理不一样,post请求的状况下填写该内容。
⑥代码编辑区:须要填写一段脚本,以调用代理IP。
4.启用代理加速
启用代理加速后,能够在采集过程当中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提高采集的效率和数据质量。
【代理加速】
5.本机IP混用策略
当代理IP失效时,选择是否启用本地网络。
【本机IP混用策略】
3、验证码设置
当采集某些网站的数据时,每一条数据都须要输入一条验证码时就用到了验证码设置。验证码设置的做用是爬虫软件自身输入验证码,以免人工输入。
【验证码设置界面】
1.识别配平台
软件内置了两个打码平台,可根据不一样的平台进行验证码配置。
【识别平台】
(1)基础识别平台:预约的内置识别方式。
(2)若快:若快为打码平台。软件经过打码平台解析验证码内容。
2.识别列表
添加验证码识别名称。
【识别列表】
3.验证码设置与测试(不经常使用)
【资源配置】
其中红框内详情、保存、下载、清空、测试是用来测试验证码是否正确的。点击测试若是右侧验证码图片与图片下解析出来的文字一致,就证实验证码设置的正确。