搜索引擎开发需要用到什么技术?

搜索引擎是一个体积庞大的系统架构,其中的细节技术非常之多主要包括以下: 1,爬虫技术 搜索引擎搜索展现的前提是,将互联网的网站内容爬取到服务器保存,再进行处理,展现。想要进行全网的数据爬取,爬虫系统的设计很关键,需要具备高效,健壮的特点。爬取数据分为深度优先和广度优先。 2,数据清洗 由于每个网站的标准不一,实际上爬取的数据非常杂乱,且包括大量的垃圾无用的内容,因此需要对数据进行过滤,去重。处理完
相关文章
相关标签/搜索