Java爬虫入门简介(三) —— Jsoup解析HTML页面

上一篇博客我们已经介绍了如何使用HttpClient模拟客户端请求页面了。这一篇博客我们将描述如何解析获取到的页面内容。 上一节我们获取了 http://www.datalearner.com/blog_list 页面的HTML源码,但是这些源码是提供给浏览器解析用的,我们需要的数据其实是页面上博客的标题、作者、简介、发布日期等。我们需要通过一种方式来从HTML源码中解析出这类信息并提取,然后存到
相关文章
相关标签/搜索