搜索引擎技术总结2-google原理总结

时间 2020-06-23

原文原文链接

google原理：crawler从urlserver得到域名列表，将搜索到的网页送入storeserver,压缩网页存入repository，并从网页中解析出一个新的url时则分配给此网页一docID.indexer读取repository,解压并解析文档，每一文档转换成一组具体值为hits的一组词。hits记录了该单词及在文档中的位置，字体大小等。indexer把这些hits分配到一组barr