经过curl伪造百度蜘蛛的头,尝试抓取豆瓣上的日记文章,发现返回404. curl
而谷歌蜘蛛没有被屏蔽。 测试
而经测试,豆瓣的group组文章能够被百度蜘蛛抓取。 url
最后经过百度搜索豆瓣的日记和组,发现日记文章基本没有收录,就算偶尔有几个也是11年的快照。 百度
组页面正常。 搜索