广西互联网金融平台系列-Scrapy爬虫爬取大户人家-福金贷

1、背景

广西这么多平台当中,跟国有企业挂钩的很多,像林海金融、福金贷、金投互联网等平台。其中福金贷的上线还获得广西电视台的报道,这么有实力的平台,数据是怎么样的?css

2、目的

这一次就想看看大户人家的数据dom

3、代码示例

方式:在标的列表页是用JS点击-跳转到详情页面的,遇到这种渲染方式,我也只能采用scrapy结合selenium的方式进行数据抓取了。可是通过勘察分析,发现JS渲染的跳转地址和详情页url地址一致,那就不用跳来跳去了,正则匹配一下,把坐标提取出来再组合url就好了。scrapy

class GxfjdSpider(scrapy.Spider):
    name = 'gxfjds'
    allowed_domains = ['www.gxfjd.net']
    start_urls = ['https://www.gxfjd.net/boot/invest/420/1']

    def parse(self, response):
        print(response)
        """
        将当前列表页的每条标的连接拿到
            并传给detail进行深刻爬取
            已知页码能够在url中循环  就不用翻页了
        """

        total = response.css('table.newpro-table tr.leftTime')
        for x in total:
            target_js = x.css('td.button a::attr(href)').extract_first("")
            match = re.search('\d+,\d+',target_js)
            target_urls = "https://www.gxfjd.net/boot/lookup/" +  match.group(0) + "?pageSize=100&pageNo=1&tab=invest#invest"
            yield Request(url=target_urls,callback=self.parse_detail)

    def parse_detail(self, response):
        """ 标的详细信息 投资人投资记录 """
        loaders = GxfjdItemLoader(item=GxfjdItem(),response=response)

        loaders.add_css("title",'.u-tt3 span::text')
        loaders.add_css("protype", '.u-tt3 span::text')
        loaders.add_css("amount", '.l-ct.data dl:first-child strong::text')
        loaders.add_css("profit", '#Y-rate::text')
        loaders.add_css("terms", '#Brtime strong::text')

        loaders.add_value("target_urls",response.url)
        loaders.add_value("target_urls_id", response.url)

        loaders_item = loaders.load_item()
        yield loaders_item

        ilist = response.css('.m-tab2Content.m-table tr')[1:]
        for tr in ilist:
            iloders = GxfjdListItemLoader(item=GxfjdListItem(), response=response)
            names = tr.css('td:nth-child(1)::text').extract()
            print(tr.css('td:nth-child(1)::text').extract())
            amounts = tr.css('td:nth-child(2)::text').extract()
            print(tr.css('td:nth-child(2)::text').extract())
            itime = tr.css('td:nth-child(3)::text').extract()
            print(tr.css('td:nth-child(3)::text').extract())
            iloders.add_value("invest_username",names)
            iloders.add_value("invest_amount", amounts)
            iloders.add_value("invest_time", itime)
            iloders.add_value("target_urls",response.url)
            iloders.add_value("target_id", response.url)

            iloaders_item = iloders.load_item()
            yield iloaders_item

4、大户人家的数据

此次的数据真的是大户人家,很是漂亮,好比:ide

1.福金贷标的金额最高的是2000万,没错,2000万!并且不仅1笔,有3笔2000万的借款。url

2.金额为1000万的标的有21条记录,OMG!(果真是大户人家)spa

3.福金贷的发标记录总共有422条,最低金额的标是46万.net

4.收益率最低是6%,最高11%code

5.投资人投资记录有22677条,平均每一个标的产生投资笔数为53笔。get

6.最豪投资人莫过于[13****],他的最高投资金额为单笔230万元,并且有19笔超过1百万的投资记录。selenium

7.福金贷的第一笔投资来自于用户[xi****],他在[2015-03-20]号当天投资了19笔,OMG !

8.多个平台[福金贷、海金汇、泛湾天域、小鹅网、宝筹贷、乐助贷]的投资人排行中,最高的也就是福金贷的投资用户最为土豪。

相关文章
相关标签/搜索