1.最近闲来无事,想把本身最近一段时间工做的东西整理下。算法
目标:新闻采集器编码
1.只须要输入列表网址,采集器将自动采集全部的文章。rsa
2.采集器最后无需写任何采集规则。分页
3.基于静态爬虫的HTML分页获取 策略(本身捉摸的,准确度不高)项目
4.基于开源项目的内容提取算法(Html2Article)时间
5.基于编码的探测的开源项目(NUniversalCharDet)采集