GeneralNewsExtractor
如下简称GNE
是一个新闻网页通用抽取器,可以在不指定任何抽取规则的状况下,把新闻网站的正文提取出来。html
咱们来看一下它的基本使用方法。python
使用 pip 安装:git
pip install --upgrade git+https://github.com/kingname/GeneralNewsExtractor.git
复制代码
固然你也可使用pipenv
安装:github
pipenv install git+https://github.com/kingname/GeneralNewsExtractor.git#egg=gne
复制代码
GNE 如今不会,未来也不会提供网页请求的功能,因此你须要自行想办法获取通过渲染之后的
网页源代码。你可使用Selenium
或者Pyppeteer
或者直接从浏览器上复制。浏览器
这里演示如何直接从浏览器中复制网页的源代码:bash
编写以下代码:工具
from gne import GeneralNewsExtractor
with open('1.html') as f:
html = f.read()
extractor = GeneralNewsExtractor()
result = extractor.extract(html)
print(result)
复制代码
运行效果以下图所示:网站
在最新更新的 v0.04版本中,开放了正文图片提取功能,与返回正文源代码功能。其中返回图片 URL 的功能在上面已经演示了,结果中的images
字段就是正文中的图片。spa
那么怎么返回正文源代码呢?只须要增长一个参数with_body_html=True
便可:code
from gne import GeneralNewsExtractor
with open('1.html') as f:
html = f.read()
extractor = GeneralNewsExtractor()
result = extractor.extract(html, with_body_html=True)
print(result)
复制代码
运行效果以下图所示:
返回结果中的body_html
就是正文的 html 源代码。
关于 GNE 的深刻使用,能够访问GNE 的Github: github.com/kingname/Ge…。