Java爬虫百度首页

时间 2021-07-11

原文原文链接

新入Java爬虫，记录一下爬取http://site.baidu.com/并分类存储的思路和实现代码。项目环境 Idea + maven + jdk1.8 + tomcat 8 +mysql 8 未采用框架。实现思路： HttpClient构建Http请求获取页面 Jsoup解析，结构化数据创建Dao层，连接Mysql数据库，将分类好的数据写入数据库利用Servlet将前台的select选