StartContext是注入时全部seed的上下文信息若是爬虫在抓取过程中须要共享一些变量。那么可以使用StartContext做为容器。java
public StartContext()
构造一个StartContext。一般用来充当seedRequest的容器安全
public StartContext(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls)
构造一个StartContext。而且加入一个种子URLui
参数:编码
url
-url
processorCls
-spa
public StartContext(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls, PageRequest.PageEncoding pageEncoding)
构造一个StartContext。而且加入一个种子URL线程
参数:code
url
-component
processorCls
-对象
pageEncoding
- URL对应网页的编码
public PageRequest createPageRequest(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls)
建立网页下载请求PageRequest
参数:
url
- 这个请求对应的http或者https 地址
processorCls
- 下载完成后处理这个网页Page的PageProcessor的class对象
返回:
PageRequest
public PageRequest createPageRequest(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls, int priority, PageRequest.PageEncoding pageEncoding)
建立网页下载请求PageRequest
参数:
url
- 这个请求对应的http或者https 地址
processorCls
- 下载完成后处理这个网页Page的PageProcessor的class对象
priority
- 设置这个PageRequest的priority。须要注意的只有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起做用并排序。
pageEncoding
- 这个PageRequest对应URL的网页编码格式。若是不指定那么会用crawTaskBuilder中指定的usePageEncoding。若是crawTaskBuilder没有 使用usePageEncoding。则默认用UTF-8编码
返回:
PageRequest
public PageRequest createPageRequest(java.lang.String url, java.lang.Class<? extends PageProcessor> processorCls, int priority)
建立网页下载请求PageRequest
参数:
url
- 这个请求对应的http或者https 地址
processorCls
- 下载完成后处理这个网页Page的PageProcessor的class对象
priority
- 设置这个PageRequest的priority。须要注意的只有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起做用并排序。
返回:
PageRequest
public BinaryRequest createBinaryRequest(java.lang.String url, java.lang.Class<? extends BinaryProcessor> processorCls)
建立一个二进制下载请求
参数:
url
- 这个请求对应的http或者https 地址
processorCls
- 文件下载时处理这个InputStream的BinaryProcessor的class对象
返回:
BinaryRequest
public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack)
建立支持事务的下载请求。
参数:
transactionCallBack
- 事务完成后的回调接口的Class
返回:
TransactionRequest
public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack, BasicRequest... child)
给定一个child集合建立支持事务的下载请求。
参数:
transactionCallBack
- 事务完成后的回调接口
child
- child集合
返回:
TransactionRequest
public void injectSeed(BasicRequest request)
注入种子
参数:
request
-
public java.util.List<BasicRequest> getSeedRequests()
返回该StartContext所包含的全部种子URL
返回:
public java.lang.Object getContextAttribute(java.lang.String attribute)
返回attribute对应的value 这个方法是线程安全的
参数:
key
-
返回:
返回attribute对应的value
public java.lang.Object putContextAttribute(java.lang.String attribute, java.lang.Object value)
向StartContext域put一个属性值。并返回以前的attribute对应的value。若是以前没有attribute属性那么返回null。这个方法是线程安全的
参数:
attribute
-
value
-
返回:
返回以前的attribute对应的value。若是以前没有attribute属性那么返回null
public int getSeedSize()
返回种子URL的个数
返回:
public boolean isEmpty()
返回StartContext是否为空。
返回: