Java爬虫入门简介（三） —— Jsoup解析HTML页面

时间 2021-01-03

原文原文链接

上一篇博客我们已经介绍了如何使用HttpClient模拟客户端请求页面了。这一篇博客我们将描述如何解析获取到的页面内容。上一节我们获取了 http://www.datalearner.com/blog_list 页面的HTML源码，但是这些源码是提供给浏览器解析用的，我们需要的数据其实是页面上博客的标题、作者、简介、发布日期等。我们需要通过一种方式来从HTML源码中解析出这类信息并提取，然后存到

>>阅读原文<<