咱们已经获取了网页的源代码,而且已经加入了异常处理,可是为了实现咱们最终的目标,咱们至少还要作两件事情
html
1. 分析网页源代码,找出哪些是咱们须要的内容正则表达式
2. 使用必定的方法将咱们须要的内容截取出来编程
那好,先来看看获取的网页源码浏览器
这里只是其中的一小段代码,要是想看网页源码的话,能够在浏览器上打开整个网页的源码函数
那么怎么分析网页源码学习
1. 大部分浏览器都有查看网页源码的功能,找到浏览器的这个功能并将源码显示出来spa
2. 对照源码和网页分析哪些内容是你想要的,说白了就是一个找规律的过程,这并不须要你拥有关于网页编程方面的知识code
咱们再来看看咱们要实现的功能是什么htm
获取发布人,段子内容,点赞数,评论数等信息,因此咱们应该在网页中找到包含所有四个信息的网页代码都有什么特征get
你们能够看到,咱们所须要的信息的代码是从<div class="article block untagged开始的,而后一直到结束,固然不会像上面贴出来的代码同样少,经过每个<div class="article block untagged,咱们能够找到咱们所须要的全部内容
<div class="article block untagged mb15" id='qiushi_tag_113842500'> <div class="author clearfix"> <a href="/users/12103976" target="_blank" rel="nofollow"> <img src="http://pic.qiushibaike.com/system/avtnew/1210/12103976/medium/20150718023701.jpg" alt="三十公分不含头"/> </a> <a href="/users/12103976" target="_blank" title="三十公分不含头"> <h2>三十公分不含头</h2> </a> </div> <div class="content"> 看到某歌手再次吸毒被抓的新闻时我难免叹了口气,人家十几年不唱歌了都还有钱吸毒,我TM每天上班连抽烟的钱都没有。。 <!--1447765334--> </div> <div class="stats"> <span class="stats-vote"><i class="number">18977</i> 可笑</span> <span class="stats-comments"> <span class="dash"> · </span> <a href="/article/113842500" data-share="/article/113842500" id="c-113842500" class="qiushi_comments" target="_blank"> <i class="number">193</i> 评论 </a>
分析源代码的过程很是很是重要,是爬虫编程的核心,因此这个环节必定不能偷懒,慢慢来,即便你花两三天时间来想,也是值得的
至于个人方法就比较笨,对照网页上内容和源码,而后将须要的内容一个一个比对,最后慢慢总结规律,好比,我在网页上看到"三十公分不含头"是发布人的名字,因而我就在网页源码中找这个名字所在的地方,而后依次找段子内容,点赞数和评论数等,最后总结规律,看看包含这些信息的代码有什么特征
别急,慢慢来
接下来就是从网页源码中获取本身想要的内容了,那么如何获取呢?
答案是,正则表达式
正则表达式网上的资料有不少,我看了几篇,写得很乱,这自己就是一个很复杂的东西,对于数学很差的我来讲,我但愿能尽可能简单的学习
因此我作了两个列表,里面收录了关于正则表达式的经常使用的一些函数和表达式模式
我不建议你彻底背下来,用到哪一个函数就在列表里面寻找,而后认真学习这个函数