本文的文字及图片来源于网络,仅供学习、交流使用,不具备任何商业用途,版权归原做者全部,若有问题请及时联系咱们以做处理。html
做者: LSGOGrouppython
PS:若有须要Python学习资料的小伙伴能够加点击下方连接自行获取git
http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cefgithub
学习了python基本语法后,对爬虫产生了很大的兴趣,废话很少说,今天来爬取网易新闻,实战出真知。web
打开网易新闻 能够发现新闻分为这样的几个板块:chrome
此次选择国内板块来爬取文章。浏览器
环境:python3服务器
编译器:PyCharm网络
安装 selenium 针对三大浏览器驱动 driverapp
下载地址
chromedriver:https://code.google.com/p/chromedriver/downloads/list
Firefox 的驱动 geckodriver:https://github.com/mozilla/geckodriver/releases/
IE 的驱动 IEdrive:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/
了解网页
网页绚丽多彩,美轮美奂,如同一幅水彩画。爬取数据首先须要知道所须要抓取的数据是怎样的呈现的,就像学做一幅画,开始前你要知道这幅画是用什么画出来的,铅笔仍是水彩笔…可能种类是多样的,可是放到网页信息来讲这儿只有两种呈现方式:
HTML
JSON
HTML是用来描述网页的一种语言
JSON是一种轻量级的数据交换格式
爬取网页信息其实就是向网页提出请求,服务器就会将数据反馈给你
导入须要的用的模块和库:
1 from bs4 import BeautifulSoup 2 import time 3 import def_text_save as dts 4 import def_get_data as dgd 5 from selenium import webdriver 6 from selenium.webdriver.common.keys import Keys 7 from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操做类
获取网页信息须要发送请求,requests 能帮咱们很好的完成这件事,可是仔细观察发现网易新闻是动态加载,requests 返回的是即时信息,网页部分稍后加载出来的数据没有返回,这种状况 selenium 可以帮助咱们获得更多的数据,咱们将 selenium 理解为一个自动化测试工具就好,Selenium 测试直接运行在浏览器中,就像真正的用户在操做同样。
我使用的浏览器为Firefox
1 browser = webdriver.Firefox()#根据浏览器切换 2 browser.maximize_window()#最大化窗口 3 browser.get('http://news.163.com/domestic/')
这样咱们就能驱动浏览器自动登录网易新闻页面
咱们的目标天然是一次将国内板块爬取下来,观察网页,在网页不断向下刷时,新的新闻才会加载出来,到最下面甚至还有须要点击按钮才能刷新:
这时使用 selenium 就能展示其优点:自动化,模拟鼠标键盘操做:
1 diver.execute_script("window.scrollBy(0,5000)") 2 #使网页向下拉,括号内为每次下拉数值
在网页中右键点击加载更多按钮,点击查看元素,能够看到
经过这个 class 就能够定位到按钮,碰到按钮时,click 事件就能帮助咱们自动点击按钮完成网页刷新
1 # 爬取板块动态加载部分源代码 2 3 info1=[] 4 info_links=[] #存储文章内容连接 5 try: 6 while True : 7 if browser.page_source.find("load_more_btn") != -1 : 8 browser.find_element_by_class_name("load_more_btn").click() 9 browser.execute_script("window.scrollBy(0,5000)") 10 time.sleep(1) 11 except: 12 url = browser.page_source#返回加载彻底的网页源码 13 browser.close()#关闭浏览器
获取有用信息
简单来讲,BeautifulSoup 是 python 的一个库,最主要的功能是从网页抓取数据,能减轻菜鸟的负担。 经过 BeautifulSoup 解析网页源码,在加上附带的函数,咱们能轻松取出想要的信息,例如:获取文章标题,标签以及文本内容超连接
一样在文章标题区域右键点击查看元素:
观察网页结构发现每个div标签class=“news_title" 下都是文章的标题和超连接。soup.find_all()函数能帮咱们找到咱们想要的所有信息,这一级结构下的内容就能一次摘取出来。最后经过字典,把标签信息,挨个个取出来。
1 info_total=[] 2 def get_data(url): 3 soup=BeautifulSoup(url,"html.parser") 4 titles=soup.find_all('div','news_title') 5 labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords') 6 for title, label in zip(titles,labels ): 7 data = { 8 '文章标题': title.get_text().split(), 9 '文章标签':label.get_text().split() , 10 'link':title.find("a").get('href') 11 } 12 info_total.append(data) 13 return info_total
4. 获取新闻内容
自此,新闻连接已经被咱们取出来存到列表里了,如今须要作的就是利用连接获得新闻主题内容。新闻主题内容页面为静态加载方式,requests 能轻松处理:
1 def get_content(url): 2 info_text = [] 3 info=[] 4 adata=requests.get(url) 5 soup=BeautifulSoup(adata.text,'html.parser') 6 try : 7 articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p') 8 except : 9 articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all( 10 'p') 11 for a in articles: 12 a=a.get_text() 13 a= ' '.join(a.split()) 14 info_text.append(a) 15 return (info_text)
使用 try except的缘由在于,网易新闻文章在某个时间段先后,文本信息所处位置标签不同,对不一样的状况应做出不一样的处理。
最后遍历整个列表取出所有文本内容:
1 for i in info1 : 2 info_links.append(i.get('link')) 3 x=0 #控制访问文章目录 4 info_content={}# 存储文章内容 5 for i in info_links: 6 try : 7 info_content['文章内容']=dgd.get_content(i) 8 except: 9 continue 10 s=str(info1[x]["文章标题"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ') 11 s= ''.join(s.split()) 12 file = '/home/lsgo18/PycharmProjects/网易新闻'+'/'+s 13 print(s) 14 dts.text_save(file,info_content['文章内容'],info1[x]['文章标签']) 15 x = x + 1
存储数据到本地txt文件
python 提供了处理文件的函数open(),第一个参数为文件路径,第二为文件处理模式,"w" 模式为只写(不存在文件则建立,存在则清空内容)
1 def text_save(filename, data,lable): #filename为写入CSV文件的路径 2 file = open(filename,'w') 3 file.write(str(lable).replace('[','').replace(']','')+'\n') 4 for i in range(len(data)): 5 s =str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不一样,能够选择 6 s = s.replace("'",'').replace(',','') +'\n' #去除单引号,逗号,每行末尾追加换行符 7 file.write(s) 8 file.close() 9 print("保存文件成功")
一个简单的爬虫至此就编写成功: