5

Google News 现在会不断访问原文,好能得到更新后的文章

2010年1月26日

Google News的爬虫现在不会只造访你网站一次了,因为他们发现有些网站(比如谷奥这样的……)在发文之后,总是改来改去的,不是改个错别字,就是修正一下原文里的错误,当然还经常会有情况最新进展的更新,甚至是彻底改了个新的URL地址。

为了让读者能在Google News里看到与原始网站一样最完美的内容,所以Google决定让Google News持续索引已经获得了内容的网站,不过这种增加数倍工作量的方式Google也无法承受,他们只会在第一天频繁访问已经索引的内容,之后逐渐降低索引频度,因为基本上新闻作者都是在刚发布不久后更新内容,谁也不会隔了200多天了又去修改一个大半年前的文章。

我希望Google Reader也可以这样……但是有一点:如果原文被删除了,那就保留输出最后一次的索引,便于大家围观。

Via Google News Blog

本站文章除注明转载外,均为本站原创编译
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:Google News 现在会不断访问原文,好能得到更新后的文章
本文地址:http://www.guao.hk/posts/google-news-revisiting-your-website.html
本文短网址:http://guao.cc/oFD
作者: 分类: Google新闻 标签:
  1. 2010年1月26日18:26 | #1

    @Dextor:
    好 能 得到 更新后的文章。。。。这么分词没错吧?

    Thumb up 0 Thumb down 0

  2. Dextor
    2010年1月26日12:48 | #2

    “好能得到更新后的文章”是啥意思?

    Thumb up 0 Thumb down 0

  3. duanni
    2010年1月26日12:26 | #3

    动态更新的会很纠结.像韩寒的博客,删除可以看到索引,如果正文被清空或替换的话GR就悲剧了.

    Thumb up 0 Thumb down 0

  4. 2010年1月26日11:28 | #4

    @wzyboy:
    也有可能是rss抓取慢了。

    Thumb up 0 Thumb down 0

  5. 2010年1月26日09:36 | #5

    呃……我发现谷奥在Google Reader里是全文输出的,并且通常可以看到Update:XXXXXXXX字样

    这可能是谷奥改得比较及时吧,在还未被抓取之前就改好错别字了

    Thumb up 0 Thumb down 0

  1. 本文目前尚无任何 trackbacks 和 pingbacks.
首次留言需审核,之后不会再审核。由于缓存机制您的留言可能不会立即显示出来,请稍后刷新本页面

您可以直接点击别人评论右侧的回复,这样您的回复评论将同时发到原作者信箱