互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）

首先，大致来说，XPath是一个相对简单的语言，甚至都不必定能称得上是一个语言，主要用处是用来标记XML的元素路径。因为html也是一种xml，所以一般来讲，在html中抽取某个元素是经过XPath来作的。XPath自己和Css有着很大的类似性，通常来讲若是以前对Css有必定的了解的话，XPath上手仍是很简单的。具体的状况我在下面的课程中一边写，一边解释。

首先先肯定列表页：

http://www.hushangcaifu.com/invest/main.html

http://www.hushangcaifu.com/invest/index2.html

http://www.hushangcaifu.com/invest/index3.html

基本上能够看到列表页除了第一页之外都有规律可寻，不过看到这个效果，一般咱们最好精益求精一下，看下第一页是否也能够符合规律呢？

打开 http://www.hushangcaifu.com/invest/index1.html 果真也是第一页，好了，很完美，总结成正则表达式：

http://www\\.hushangcaifu\\.com/invest/index\\d+\\.html

再看下详情页：

http://www.hushangcaifu.com/invest/a3939.html

http://www.hushangcaifu.com/invest/a3936.html

哈哈，小菜一碟，直接化解成正则：

http://www\\.hushangcaifu\\.com/invest/a\\d{4}\\.html

好了，最后最重要的就是提取页面元素了。咱们打开详情页：

http://www.hushangcaifu.com/invest/a3870.html

通常来讲，咱们在咱们想要提取的元素上右击，点击审查元素，获得以下结果：

首先看到yanh1147这个元素有没有整个网页惟一的class，id或者其余属性，能够看到，在这个页面中没有，那么咱们就往上找，上一级的p标签也没有，我们再往上找，在上一级是一个，终于有class了，让咱们祈祷这个class是惟一的吧，ctrl+f打开搜索框，输入product-content-top-left-top，能够看到，找到了1 of 1，这个表明一共一个，这个是第一个，这就是咱们但愿的结果，好了，只用找到这一级既可，咱们来构造整个的xpath，通常来讲xpath咱们并不会从最顶层的html开始写，由于没有必要，所以咱们要使用//，这个表示不知中间有多少的层级。接着咱们直接把刚刚找到的这个div写上去，获得这个表达式：

//div[contains(@class,"product-content-top-left-top")]

对于class属性，咱们一般会使用contains这样一个函数，防止一个元素有多个class的状况，另外由于class是一个属性，所以class前面须要加上@表明选择到该元素的一个属性。

如今咱们已经选择到了咱们要选择的元素的父元素的父元素，只要咱们继续往下走两层既可。

//div[contains(@class,"product-content-top-left-top")]/p/span

因为咱们要选择元素里的文字信息，而不是整个元素，咱们须要指定是这个元素的文字：

//div[contains(@class,"product-content-top-left-top")]/p/span/text()

好了，这样咱们就肯定了咱们爬取的借款用户的名称，咱们打开xpathhelper验证一下有没有写错：

完美的结果。不过你们有的时候也须要注意，由于有的网页不表明你在一个内容页测试成功，在其余内容页也能成功，最好多测几个页面才是保险的。好了，其余的抽取项就不一一演示了，直接上最后的代码。

var configs = {

domains: ["www.hushangcaifu.com"],

scanUrls: ["http://www.hushangcaifu.com/invest/index1.html"],

contentUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/a\\d{4}\\.html"],

helperUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/index\\d+\\.html"],

fields: [

{

name: "title",

selector: "//div[contains(@class,'product-content-top-left-top')]/h3/text()",

required: true

},

{

name: "user_name",

selector: "//div[contains(@class,'product-content-top-left-top')]/p/span/text()"

},

{

name: "total_money",

selector: "//div[contains(@class,'product-content-top-left-middle')]/div[1]/h4/text()"

},

{

name: "project_time",

selector: "//div[contains(@class,'product-content-top-left-middle')]/div[2]/h4/text()"

},

{

name: "annual_return",

selector: "//div[contains(@class,'product-content-top-left-middle')]/div[3]/h4/text()"

},

{

name: "return_method",

selector: "//div[contains(@class,'product-content-top-left-middle')]/div[4]/h4/text()"

}

]

};

var crawler = new Crawler(configs);

crawler.start();

将代码粘贴到神箭手平台上既可运行。好了，看下运行结果：

对爬虫感兴趣的童鞋能够加qq群讨论： 566855261。