文本分类过程:http://www.cnblogs.com/luchen927/archive/2012/02/14/2349551.html;html
语料库资源:htm
1:搜狗中文新闻语料库:http://www.sogou.com/labs/dl/c.html;blog
2:博客园园友自行收集的语料库:http://www.cnblogs.com/finallyliuyu/archive/2010/09/10/1823676.html;资源
二者皆为新闻类信息,前者标题使用数字表示,不便于对分类结果的快速验证;后者资源在数量,准确性、平衡性方面稍欠缺。get
网页正文抓取相关文章:博客
1:园友蛙娃正文抓取器:http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html;co
2:园友finallyliuyu正文抓取器:http://www.cnblogs.com/finallyliuyu/archive/2010/09/29/1838442.html;数字