java爬虫 爬取网站信息 保存数据库

需求分析 1:爬取虎嗅首页获取首页文章地址:https://www.huxiu.com/ 2:爬取虎嗅分页地址,获取分页上的文章地址。 3:爬取文章详情页,获取文章信息(标题、正文、做者、发布时间、评论数、点赞数、收藏数)。 4:将爬到的文章信息入库。 实现思路 1:爬首页 请求地址:https://www.huxiu.com/ 请求方式:get   请求参数:无 请求头:  User-Agent
相关文章
相关标签/搜索