GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、做者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果很是出色,几乎可以达到100%的准确率。html
使用方式很是简单:python
from gne import GeneralNewsExtractor extractor = GeneralNewsExtractor() html = '网站源代码' result = extractor.extract(html) print(result)
扫描公众号查看原文编辑器