GNE v0.04版更新，支持提取正文图片与源代码

时间 2019-11-29

标签 gne v0.04 更新支持提取正文图片源代码繁體版

原文原文链接

GeneralNewsExtractor如下简称GNE是一个新闻网页通用抽取器，可以在不指定任何抽取规则的状况下，把新闻网站的正文提取出来。html

咱们来看一下它的基本使用方法。python

安装 GNE

使用 pip 安装：git

pip install --upgrade git+https://github.com/kingname/GeneralNewsExtractor.git
复制代码

固然你也可使用pipenv安装：github

pipenv install git+https://github.com/kingname/GeneralNewsExtractor.git#egg=gne
复制代码

获取新闻网页源代码

GNE 如今不会，未来也不会提供网页请求的功能，因此你须要自行想办法获取通过渲染之后的网页源代码。你可使用Selenium或者Pyppeteer或者直接从浏览器上复制。浏览器

这里演示如何直接从浏览器中复制网页的源代码：bash

在 Chrome 浏览器中打开对应页面，而后开启开发者工具，以下图所示：

在Elements标签页定位到标签，并右键，选择Copy-Copy OuterHTML，以下图所示

把源代码保存为1.html

提取正文信息

编写以下代码：工具

from gne import GeneralNewsExtractor

with open('1.html') as f:
    html = f.read()

extractor = GeneralNewsExtractor()
result = extractor.extract(html)
print(result)
复制代码

运行效果以下图所示：网站

此次更新了什么

在最新更新的 v0.04版本中，开放了正文图片提取功能，与返回正文源代码功能。其中返回图片 URL 的功能在上面已经演示了，结果中的images字段就是正文中的图片。spa

那么怎么返回正文源代码呢？只须要增长一个参数with_body_html=True便可：code

from gne import GeneralNewsExtractor

with open('1.html') as f:
    html = f.read()

extractor = GeneralNewsExtractor()
result = extractor.extract(html, with_body_html=True)
print(result)
复制代码

运行效果以下图所示：

返回结果中的body_html就是正文的 html 源代码。

关于 GNE 的深刻使用，能够访问GNE 的Github: github.com/kingname/Ge…。