好长时间没写文章了,由于我最近一直在琢磨博客园如何才能成为一家上市公司,上市前我在博客园买点原始股,说不定就发了。java
如今遇到错误老是先谷歌,谷歌背墙,在百度,百度不到在到博客园找 找看看算法
由于找找看的数据都是博客园的,数据量太少,我想找找看这个功能能不能升级都全网搜索,主要搜索和代码相关的网页,ide
这个搜索分英文版和中文版,中文错误 走中文版国内采集,英文错误 走国外采集的网页网站
固然,要上市,必需要有概念性的功能,我以为 搜索引擎
1指定关键词全网抓取和指定域名全网抓取 ,用户能够本身指定 要抓取的内容idea
(这个主要用于查找各类错误等等)orm
2 抓取算法的开源和透明是必须索引
3展现算法的开源和透明也是必须get
你们补充下其余功能博客
============================================================
ps:idea 开源与我最近在折腾本身的小站(http://www.unknownerror.org/) ,主要练习ASP.NET MVC3,各类开源orm,基于Html Agility Pack和ScapySharp的数据采集,
外加lucenenet
发现一个一个网站的采集是在太郁闷了
后来找到 Nutch 这个东西,一看是作搜索引擎用,怎奈是java的,俺不会。。SO,这个想法交给dudu和看到园友们,最合适了