同一个网站发布的网页每每是模板没有变化,变化的都是网页的主体内容,也就是正文。这是由于如今绝大多数的网站基于网页生成模板去产生网页,网页中的数据通常直接经过查询从数据库中调出,而后将查询结果放到网页的特定位置。算法
网页抽取通常经常使用的算法DTE算法正是基于这样一个事实:同一个站点的不一样页面一般是由同一个或一组HTML模板生成,它们的结构相同或者很类似,仅仅主体信息部分的内容不一样。而这也是动态网页快速发展带来的结果,即使是网站出于性能考虑将页面生成为静态网页,也绝大多数基于模板。数据库
正文抽取算法主要有两个步骤:第一步是利用类似嘲页概括模板;第二步是经过模板匹配抽取网页正文。性能
上面两张图是网页正文抽取原型系统的主要功能模块和模型。网站
网页正文抽取技术对于信息交换共享、搜索引擎自动摘要生成、网页文档分类以及PDA设备信息展现、帮助阅读有障碍的人群等诸多领域的应用是一个很重要的前提工做。文章仅介绍了两个功能模块和抽取模型,可是对于网页正文抽取的精确率还有不少工做要作。搜索引擎