笔记——初学java爬虫

通过java实现爬虫获取网站数据

       通过几天时间的学习,对于使用java实现爬虫功能有了初步的了解,并且实现了一个demo,可以获取购物网站https://www.noon.com/中的一些数据。
       其中用到了JSoup这个Html解析器,对于JSoup解析器,可在网站https://www.yiibai.com/jsoup/jsoup-quick-start.html中进行学习。

1.创建maven项目
       使用maven项目的优点:
       (1)项目非常大时,可借助Maven将一个项目拆分成多个工程,利于分工协作。

       (2)借助Maven,可将jar包保存在“仓库”中,在需要时,引用该文件接口,不需要复制文件过来占用空间。

       (3)借助Maven可以以规范的方式下载jar包,因为所有的知名框架或第三方工具的jar包已经按照统一的规范存放到了Maven的中央仓库中。

       (4)Maven会自动将你要加入到项目中的jar包导入,而且还会将该jar包所依赖的jar包都自动导入进来。
在这里插入图片描述
2.引入相关jar包
       因为只是一个demo,通过打印的方式显示结果,所以只需引入图中的jar包即可。
在这里插入图片描述
3.代码编写
       通过java实现爬虫功能,每句代码相应的功能与作用已在注释中给出。
在这里插入图片描述
4.运行结果
       成功获取到了该页面商品列表中所需的数据
在这里插入图片描述        总结:通过这次学习,使我了解到了爬虫的原理,并且学会了简单数据的获取方式,个人感觉在数据获取中最难的是找到地址之间的规律,这样就可以通过参数的拼接来获取多个页面的数据。        第一次写博客,主要的目的是把它当做一份笔记,让自己可以更好地学习与成长。