Google News的爬虫现在不会只造访你网站一次了,因为他们发现有些网站(比如谷奥这样的……)在发文之后,总是改来改去的,不是改个错别字,就是修正一下原文里的错误,当然还经常会有情况最新进展的更新,甚至是彻底改了个新的URL地址。
为了让读者能在Google News里看到与原始网站一样最完美的内容,所以Google决定让Google News持续索引已经获得了内容的网站,不过这种增加数倍工作量的方式Google也无法承受,他们只会在第一天频繁访问已经索引的内容,之后逐渐降低索引频度,因为基本上新闻作者都是在刚发布不久后更新内容,谁也不会隔了200多天了又去修改一个大半年前的文章。
我希望Google Reader也可以这样……但是有一点:如果原文被删除了,那就保留输出最后一次的索引,便于大家围观。
Via Google News Blog
本站文章除注明转载外,均为本站原创编译
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:Google News 现在会不断访问原文,好能得到更新后的文章
本文地址:http://www.guao.hk/posts/google-news-revisiting-your-website.html
本文短网址:http://guao.cc/oFD
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:Google News 现在会不断访问原文,好能得到更新后的文章
本文地址:http://www.guao.hk/posts/google-news-revisiting-your-website.html
本文短网址:http://guao.cc/oFD






@Dextor:
好 能 得到 更新后的文章。。。。这么分词没错吧?
“好能得到更新后的文章”是啥意思?
动态更新的会很纠结.像韩寒的博客,删除可以看到索引,如果正文被清空或替换的话GR就悲剧了.
@wzyboy:
也有可能是rss抓取慢了。
呃……我发现谷奥在Google Reader里是全文输出的,并且通常可以看到Update:XXXXXXXX字样
这可能是谷奥改得比较及时吧,在还未被抓取之前就改好错别字了