模拟ajax实现网络爬虫——HtmlUnit

    最近在用Jsoup抓取某网站数据,可有些页面是ajax请求动态生成的,去群里问了一下,大神说模拟ajax请求便可。去网上搜索了一下,发现了这篇文章,拿过来先用着试试。转帖以下: javascript

     网上关于网络爬虫实现方式有不少种,可是不少都不支持Ajax,李兄说:模拟才是王道。确实,若是可以模拟一个没有界面的浏览器,还有什么不能作到的呢? 关于解析Ajax网站的框架也有很多,我选择了HtmlUnit,官方网站:http://htmlunit.sourceforge.net /,htmlunit能够说是一个Java版本的无界面浏览器,几乎无所不能,并且不少东西都封装得特别完美。这是这几天来积累下来的心血,记录一下。
package com.lanyotech.www.wordbank; html

import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.MalformedURLException; import java.util.List; import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException; import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController; import com.gargoylesoftware.htmlunit.ScriptResult; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlOption; import com.gargoylesoftware.htmlunit.html.HtmlPage; import com.gargoylesoftware.htmlunit.html.HtmlSelect; public class WorldBankCrawl {     private static String TARGET_URL = "http://databank.worldbank.org/ddp/home.do";         public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {         //模拟一个浏览器         WebClient webClient = new WebClient();         //设置webClient的相关参数         webClient.setJavaScriptEnabled(true);         webClient.setCssEnabled(false);         webClient.setAjaxController(new NicelyResynchronizingAjaxController());         webClient.setTimeout(35000);         webClient.setThrowExceptionOnScriptError(false);         //模拟浏览器打开一个目标网址         HtmlPage rootPage= webClient.getPage(TARGET_URL);         //获取第一个数据库         HtmlSelect hs = (HtmlSelect) rootPage.getElementById("lstCubes");         //按要求选择第一个数据库         hs.getOption(0).setSelected(true);         //模拟点击Next按钮,跳转到第二个页面         System.out.println("正在跳转…");         //执行按钮出发的js事件         ScriptResult sr = rootPage.executeJavaScript("javascript:setCubeData(2,-1,4,'/ddp');");                 //跳转到第二个页面,选择国家         HtmlPage countrySelect = (HtmlPage) sr.getNewPage();         //得到包含所有国家信息的选择框页面         HtmlPage framePage=(HtmlPage)countrySelect.getFrameByName("frmTree1″).getEnclosedPage();         //得到selectAll按钮,触发js事件         framePage.executeJavaScript("javascript:TransferListAll(‘countrylst','countrylstselected','no');SetSelectedCount(‘countrylstselected','tdcount');");         //获取Next按钮,触发js事件         ScriptResult electricityScriptResult = framePage.executeJavaScript("javascript:wrapperSetCube('/ddp')");                 System.out.println("正在跳转…");         //跳转到下一个页面electricitySelect         HtmlPage electricitySelect = (HtmlPage) electricityScriptResult.getNewPage();         //得到electricity选择的iframe         HtmlPage electricityFrame = (HtmlPage) electricitySelect.getFrameByName("frmTree1″).getEnclosedPage();         //得到选择框         HtmlSelect seriesSelect = (HtmlSelect) electricityFrame.getElementById("countrylst");         //得到全部的选择框内容         List optionList = seriesSelect.getOptions();         //将指定的选项选中         optionList.get(1).setSelected(true);         //模拟点击select按钮                       electricityFrame.executeJavaScript("javascript:TransferList('countrylst','countrylstselected','no');SetSelectedCount('countrylstselected','tdcount');");         //获取选中后,下面的选择框         HtmlSelect electricitySelected = (HtmlSelect) electricityFrame.getElementById("countrylstselected");         List list = electricitySelected.getOptions();         //模拟点击Next按钮,跳转到选择时间的页面         ScriptResult timeScriptResult = electricityFrame.executeJavaScript("javascript:wrapperSetCube('/ddp')");                 System.out.println("正在跳转…");         HtmlPage timeSelectPage = (HtmlPage) timeScriptResult.getNewPage();         //获取选中时间的选择框         timeSelectPage = (HtmlPage) timeSelectPage.getFrameByName("frmTree1″).getEnclosedPage();         //选中全部的时间                timeSelectPage.executeJavaScript("javascript:TransferListAll('countrylst','countrylstselected','no');SetSelectedCount('countrylstselected','tdcount');");         //点击Next按钮         ScriptResult exportResult = timeSelectPage.executeJavaScript("javascript:wrapperSetCube('/ddp')");                 System.out.println("正在跳转…");         //转到export页面         HtmlPage exportPage = (HtmlPage) exportResult.getNewPage();         //点击页面上的Export按钮,进入下载页面         ScriptResult downResult = exportPage.executeJavaScript("javascript:exportData('/ddp' ,'EXT_BULK' ,'WDI_Time=51||WDI_Series=1||WDI_Ctry=244||' );");                 System.out.println("正在跳转…");         HtmlPage downLoadPage = (HtmlPage) downResult.getNewPage();         //点击Excel图标,开始下载         ScriptResult downLoadResult = downLoadPage.executeJavaScript("javascript:exportData('/ddp','BULKEXCEL');");         //下载Excel文件         InputStream is = downLoadResult.getNewPage().getWebResponse().getContentAsStream();                 OutputStream fos = new FileOutputStream("d://test.xls");         byte[] buffer=new byte[1024*30];         int len=-1;         while((len=is.read(buffer))>0){             fos.write(buffer, 0, len);         }         fos.close();         fos.close();         System.out.println("Success!");     } }
相关文章
相关标签/搜索