Python 3网络爬虫学习笔记(4)——开始采集

一.遍历单个域名 像之前一样,我们还是利用维基百科来进行数据采集的学习 通过对维基百科上python词条的HTML源代码的观察,可以发现页面有关的链接都在标签名为a的href属性之中: 如图,就是指向消歧义的链接。而这样的链接又分为内链和外链: 内链:同一网站不同内容页面之间的相互链接。内链就是网站域名下内容页面之间的链接,内链优化的好,网站的结构就会好,也就会有利于网站的优化。 外链:从别的网站
相关文章
相关标签/搜索