如何利用python爬取网易新闻

时间 2019-11-29

标签如何利用 python 网易栏目 Python 繁體版

原文原文链接

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具备任何商业用途,版权归原做者全部,若有问题请及时联系咱们以做处理。html

做者： LSGOGrouppython

PS：若有须要Python学习资料的小伙伴能够加点击下方连接自行获取git

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cefgithub

学习了python基本语法后，对爬虫产生了很大的兴趣，废话很少说，今天来爬取网易新闻，实战出真知。web

打开网易新闻能够发现新闻分为这样的几个板块：chrome

此次选择国内板块来爬取文章。浏览器

1. 准备

环境：python3服务器
编译器：PyCharm网络
安装 selenium 针对三大浏览器驱动 driverapp

下载地址

chromedriver：https://code.google.com/p/chromedriver/downloads/list
Firefox 的驱动 geckodriver：https://github.com/mozilla/geckodriver/releases/
IE 的驱动 IEdrive：http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

了解网页

网页绚丽多彩，美轮美奂，如同一幅水彩画。爬取数据首先须要知道所须要抓取的数据是怎样的呈现的，就像学做一幅画，开始前你要知道这幅画是用什么画出来的，铅笔仍是水彩笔…可能种类是多样的，可是放到网页信息来讲这儿只有两种呈现方式：

HTML
JSON

HTML是用来描述网页的一种语言

JSON是一种轻量级的数据交换格式

爬取网页信息其实就是向网页提出请求，服务器就会将数据反馈给你

2. 得到动态加载源码

导入须要的用的模块和库：

1 from bs4 import BeautifulSoup
2 import time
3 import def_text_save as dts
4 import def_get_data as dgd
5 from selenium import webdriver
6 from selenium.webdriver.common.keys import Keys
7 from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操做类

获取网页信息须要发送请求，requests 能帮咱们很好的完成这件事，可是仔细观察发现网易新闻是动态加载，requests 返回的是即时信息，网页部分稍后加载出来的数据没有返回，这种状况 selenium 可以帮助咱们获得更多的数据，咱们将 selenium 理解为一个自动化测试工具就好，Selenium 测试直接运行在浏览器中，就像真正的用户在操做同样。

我使用的浏览器为Firefox

1 browser = webdriver.Firefox()#根据浏览器切换
2 browser.maximize_window()#最大化窗口
3 browser.get('http://news.163.com/domestic/')

这样咱们就能驱动浏览器自动登录网易新闻页面

咱们的目标天然是一次将国内板块爬取下来，观察网页，在网页不断向下刷时，新的新闻才会加载出来，到最下面甚至还有须要点击按钮才能刷新：

这时使用 selenium 就能展示其优点：自动化，模拟鼠标键盘操做：

1 diver.execute_script("window.scrollBy(0,5000)")
2 #使网页向下拉，括号内为每次下拉数值

在网页中右键点击加载更多按钮，点击查看元素，能够看到

经过这个 class 就能够定位到按钮，碰到按钮时，click 事件就能帮助咱们自动点击按钮完成网页刷新

 1 # 爬取板块动态加载部分源代码
 2 
 3 info1=[]
 4 info_links=[]    #存储文章内容连接
 5 try:
 6     while True :
 7         if  browser.page_source.find("load_more_btn") != -1 :
 8             browser.find_element_by_class_name("load_more_btn").click()
 9         browser.execute_script("window.scrollBy(0,5000)")
10         time.sleep(1)
11 except:
12     url = browser.page_source#返回加载彻底的网页源码
13     browser.close()#关闭浏览器

获取有用信息

简单来讲，BeautifulSoup 是 python 的一个库，最主要的功能是从网页抓取数据，能减轻菜鸟的负担。经过 BeautifulSoup 解析网页源码，在加上附带的函数，咱们能轻松取出想要的信息，例如：获取文章标题，标签以及文本内容超连接

一样在文章标题区域右键点击查看元素：

观察网页结构发现每个div标签class=“news_title" 下都是文章的标题和超连接。soup.find_all()函数能帮咱们找到咱们想要的所有信息，这一级结构下的内容就能一次摘取出来。最后经过字典，把标签信息，挨个个取出来。

 1 info_total=[]
 2 def get_data(url):
 3     soup=BeautifulSoup(url,"html.parser")
 4     titles=soup.find_all('div','news_title')
 5     labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords')
 6     for title, label in zip(titles,labels ):
 7             data = {
 8                 '文章标题': title.get_text().split(),
 9                 '文章标签':label.get_text().split() ,
10                 'link':title.find("a").get('href')
11             }
12             info_total.append(data)
13     return info_total

4. 获取新闻内容

自此，新闻连接已经被咱们取出来存到列表里了，如今须要作的就是利用连接获得新闻主题内容。新闻主题内容页面为静态加载方式，requests 能轻松处理：

 1 def get_content(url):
 2     info_text = []
 3     info=[]
 4     adata=requests.get(url)
 5     soup=BeautifulSoup(adata.text,'html.parser')
 6     try  :
 7         articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p')
 8     except :
 9         articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all(
10             'p')
11     for a in articles:
12         a=a.get_text()
13         a= ' '.join(a.split())
14         info_text.append(a)
15     return (info_text)

使用 try except的缘由在于，网易新闻文章在某个时间段先后，文本信息所处位置标签不同，对不一样的状况应做出不一样的处理。

最后遍历整个列表取出所有文本内容：

 1 for i in  info1 :
 2     info_links.append(i.get('link'))
 3 x=0   #控制访问文章目录
 4 info_content={}# 存储文章内容
 5 for i in info_links:
 6     try :
 7         info_content['文章内容']=dgd.get_content(i)
 8     except:
 9         continue
10     s=str(info1[x]["文章标题"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ')
11     s= ''.join(s.split())
12     file = '/home/lsgo18/PycharmProjects/网易新闻'+'/'+s
13     print(s)
14     dts.text_save(file,info_content['文章内容'],info1[x]['文章标签'])
15     x = x + 1

存储数据到本地txt文件

python 提供了处理文件的函数open（），第一个参数为文件路径，第二为文件处理模式，"w" 模式为只写（不存在文件则建立，存在则清空内容）

1 def text_save(filename, data,lable):   #filename为写入CSV文件的路径
2     file = open(filename,'w')
3     file.write(str(lable).replace('[','').replace(']','')+'\n')
4     for i in range(len(data)):
5         s =str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不一样，能够选择
6         s = s.replace("'",'').replace(',','') +'\n'   #去除单引号，逗号，每行末尾追加换行符
7         file.write(s)
8     file.close()
9     print("保存文件成功")

一个简单的爬虫至此就编写成功：

到此为止，爬取网易新闻的方法就介绍完了，但愿对你们有用！See You！