作一个最简单的python爬虫,使用爬虫爬取:智联招聘某招聘信息的DOMhtml
# py01v1.py from urllib import request # 使用urllib.request请求一个网页的内容,并把内容打印出来 if __name__ == '__main__': # 定义须要爬的页面 url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm" # 打开相应url并把页面做为返回 rsp = request.urlopen(url) # 按住Ctrl键不送,同时点击urlopen,能够查看文档,有函数的具体参数和使用方法 # 把返回结果读取出来 html = rsp.read() print(html)
上面简单几行代码就能够爬取页面的HTML代码了 右键运行,截图以下 可是,咱们爬取到的代码是不能自行显示中文的,须要解码处理 py02v1.py文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py02v1.pypython
# py02v1.py from urllib import request if __name__ == '__main__': url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm" rsp = request.urlopen(url) # 按住Ctrl键不送,同时点击urlopen,能够查看文档,有函数的具体参数和使用方法 html = rsp.read() # 解码 html = html.decode() print(html)
解码后效果: 恭喜你,最简单的爬虫就已经学会啦! 若是运行失败,多是 1.【爬取的链接失效】,更换最新的地址就能够了 2.【Python环境问题】,这里不作仔细介绍,请自行【百度】解决,也可联系博主 QQ:1370911284 微信:18322295195git
<hr> - 本笔记学习于图灵学院python全栈课程 - 本笔记不容许任何我的和组织转载github