基于DBSCAN聚类算法的通用论坛正文提取

这是今年和队友一起参加第五届泰迪杯的赛题论文,虽然最终只获得了一个三等奖。但是在这个过程中和队友也一起学到了不少东西,特此记录。 1、  简单介绍 赛题的目的,是让参赛者对于任意 BBS 类型的网页,获取其 HTML 文本内容,设计一个智能提取该页面的主贴、所有回帖的算法。 http://www.tipdm.org/jingsa/1030.jhtml?cName=ral_100#sHref赛题地址
相关文章
相关标签/搜索