一,建立新任务操做步骤:html
1.添加新任务浏览器
点击任务列表右侧,新建任务文件。cookie
【添加任务】网络
此时会出现一个弹框,能够在弹框中填写采集地址,修改任务名称,以及选择是否须要登陆/关键词采集。工具
【新建任务】网站
2.填写采集地址url
在弹窗里填写采集地址和任务名称。3d
【填写采集地址】htm
采集地址通常选择目标网站的入口地址,好比首页。blog
大多数状况下,采集地址只填写一个url地址。若是连接的页面结构和层级结构是一致的,可以套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。若是不一致,须要建立新的采集任务。
例1:采集整个淘宝网所有商品的信息,淘宝网首页就是入口地址。
例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。
例3:只采集某商品的评论信息,该商品的连接地址就是入口地址。
3.选择当前页面所需内容
建立新的任务以后,点击“下一步”,选择页面须要抽取内容。
①抽取连接:须要抽取页面上的连接时,选择抽取连接以及具体的连接类型,会创建对应的连接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)
②抽取数据:须要抽取页面上的数据时,选择抽取数据,会创建对应的数据抽取。
例如: 须要采集新闻的正文数据,当前页面是新闻首页,聚集了新闻的连接,正文数据是经过点击新闻连接进入的,因此本页面须要抽取新闻连接。 软件预置了一些常见的连接页面场景,此时勾选连接列表,软件会自动创建一个连接抽取。
【选择页面抽取内容】
点击“完成”,软件自动建立对应的抽取内容的模板。
二,建立新任务注意事项
1.如何选择采集类型
采集类型分为默认(html)和本地文件目录两种。
(1)默认(html):采集网站上的各类信息
(2)本地文件目录:采集本地文件目录信息。
【设置采集类型】
2.什么状况下选择浏览器采集
在页面均由JS生成时,采集效果不理想的状况下,能够尝试使用“浏览器采集”,该方式近乎于在浏览器上点击,会减慢采集速度,可是对JS语法的支持更加全面。
浏览器采集:经过浏览器的方式采集数据。
适用状况:由大量JS生成的,采集难度大的网页。对JS语法的支持更加全面,近乎于在浏览器上点击,但采集速度慢、效率低。
【设置浏览器采集】
3.Cookie的使用方法
① 配置Cookie
(1)填写Cookie:
正常状况下(除JS生成的Cookie外),软件会自动获取Cookie。 当软件没法获取到网页的Cookie时,须要参考下文从浏览器寻找Cookie。 (2)禁用Cookie的状况:
对于不须要Cookie的网站,选择“禁用Cookie”,可加快采集速度。
【Cookie配置】
② 如何经过浏览器寻找cookie
在获取不到登陆状态的时候,能够经过浏览器的F12开发者工具进行手动的获取Cookie。首先先用浏览器打开网页,点击F12打开开发者工具,如图所示。
接下来点击network网络任务列表。
在浏览器上输入用户名密码,点击登陆
能够在network里面看到出现不少条任务,从中就能够找到关于登陆的cookie。
③ 多帐号登陆的Cookie处理
当须要登陆多个帐号来抓取同一个网页时,能够在采集列表中设置多个采集任务,采集地址填写一个地址,填写不一样的Cookie信息便可。
4.什么状况下禁用JavaScript
对于有些把JavaScript只用于美观效果的网页,关闭JavaScript不影响采集数据时,能够加快采集速度。
【JavaScript配置】