网页正文抽取技术模块和模型介绍

时间 2019-11-10

标签网页正文抽取技术模块模型介绍栏目 HTML 繁體版

原文原文链接

同一个网站发布的网页每每是模板没有变化，变化的都是网页的主体内容，也就是正文。这是由于如今绝大多数的网站基于网页生成模板去产生网页，网页中的数据通常直接经过查询从数据库中调出，而后将查询结果放到网页的特定位置。算法

网页抽取通常经常使用的算法DTE算法正是基于这样一个事实：同一个站点的不一样页面一般是由同一个或一组HTML模板生成，它们的结构相同或者很类似，仅仅主体信息部分的内容不一样。而这也是动态网页快速发展带来的结果，即使是网站出于性能考虑将页面生成为静态网页，也绝大多数基于模板。数据库

正文抽取算法主要有两个步骤：第一步是利用类似嘲页概括模板；第二步是经过模板匹配抽取网页正文。性能

上面两张图是网页正文抽取原型系统的主要功能模块和模型。网站

网页正文抽取技术对于信息交换共享、搜索引擎自动摘要生成、网页文档分类以及PDA设备信息展现、帮助阅读有障碍的人群等诸多领域的应用是一个很重要的前提工做。文章仅介绍了两个功能模块和抽取模型，可是对于网页正文抽取的精确率还有不少工做要作。搜索引擎