给@dudu 一个idea

好长时间没写文章了,由于我最近一直在琢磨博客园如何才能成为一家上市公司,上市前我在博客园买点原始股,说不定就发了。java

 

如今遇到错误老是先谷歌,谷歌背墙,在百度,百度不到在到博客园找 找看看算法

由于找找看的数据都是博客园的,数据量太少,我想找找看这个功能能不能升级都全网搜索,主要搜索和代码相关的网页,ide

这个搜索分英文版和中文版,中文错误 走中文版国内采集,英文错误 走国外采集的网页网站

固然,要上市,必需要有概念性的功能,我以为 搜索引擎

1指定关键词全网抓取和指定域名全网抓取 ,用户能够本身指定 要抓取的内容idea

(这个主要用于查找各类错误等等)orm

2 抓取算法的开源和透明是必须索引

3展现算法的开源和透明也是必须get

你们补充下其余功能博客

============================================================

ps:idea 开源与我最近在折腾本身的小站(http://www.unknownerror.org/) ,主要练习ASP.NET MVC3,各类开源orm,基于Html Agility Pack和ScapySharp的数据采集,

外加lucenenet

发现一个一个网站的采集是在太郁闷了

后来找到 Nutch 这个东西,一看是作搜索引擎用,怎奈是java的,俺不会。。SO,这个想法交给dudu和看到园友们,最合适了

相关文章
相关标签/搜索