Heritrix总结及消重算法初探

好久没有更新博客了。最后一次更新居然已经是一个月以前的事了。忍不住问自己,5月份都做了什么?编程珠玑看了几篇,但是没有像之前那样仔细去琢磨。数据压缩好像就停留在SPIHT算法的理解上了。花了两个星期搞了信息检索的作业,老实说,还没有做完。 我这部分的作业内容差不多是这样的:改进Heritrix中的网页消重方法。花了有一个多星期研究了Heritrix的总体构架。参考了网上的一些资料,自己也看了一些源
相关文章
相关标签/搜索