Matt Cutts 在最近的Google Webmaster视频提到,很多站长抱怨Google的搜索引擎对他们的robots.txt文件视而不见,他们不想让有些网页被Google索引到,但是他们还是发现这些网页url还是出现在了Google的搜索结果里面。
Matt说,robots.txt告诉搜索搜索引擎别抓这个页面,Google也确实遵守约定不抓这个页面,这也是你在搜索结果该链接下面看不到摘要片段的原因。
那为什么这些页面还会出现在Google的搜索结果里面呢?Matt举例子说,搜索California DMV,会指向www.dmv.ca.gov这个网站,尽管这个站点屏蔽了所有的搜索引擎,但是Google还是给出了这个站点的链接,原因在于像纽约时报,eBay之类的站点在链接到这个站的时候都会在锚点加上说明文字"California DMV",这就帮助Google不用抓取这个站点的页面也能返回到这个站的链接。
Matt 另外提到,他们还可以通过Open Directory Project(DMOZ)这样的网站得到url的信息,比如Metallica.com这个站也在robots.txt中禁止Google抓取页面,但是Google从Open Directory Project中就能获取Metallica.com的描述信息显示在搜索结果的摘要片段里面。
当这种情况发生的时候,好像是Google没有遵守robots.txt的约定,但是实际上不是的,matt说Google不会冒犯robots.txt的约定,不抓取页面也能返回对用户有帮助的信息
via matt
Related posts
- 推荐 8 个改进 Google 搜索的油候脚本
- 在一个Sitemap索引文件中包括25亿个URL
- Google 搜索新的“企鹅”算法开始清理“过分 SEO”的网站
- Google 撤销掉搜索结果页面里的页面大小标识
- 如果你更换了域名,记得告诉Google
- Google CEO Eric Schmidt 说我们绝不能透露 200 多个搜索排名因素
- Google 说别管我们的工具条在干嘛,反正我们没监视 Bing 的搜索结果
- Google 官方表示小网站不需要 XML Sitemaps 也无所谓
- Pagerank 数据更新,谷奥恢复到更换域名前的 5 分
- Google Instant 会砍断长尾?
本站文章除注明转载外,均为本站原创编译
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:为什么 robots.txt 禁止抓取的页面还会出现在 Google 搜索结果中
本文地址:http://www.guao.hk/posts/robots-txt-remove-url.html
本文短网址:http://guao.cc/Vrd
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:为什么 robots.txt 禁止抓取的页面还会出现在 Google 搜索结果中
本文地址:http://www.guao.hk/posts/robots-txt-remove-url.html
本文短网址:http://guao.cc/Vrd






如果是这样,纵然有了robots.txt限制,只要这个robots.txt限制了的页面依然有反向链接,就依然会被收录?robots.txt限制意义何在?
@est: 这是Matt举的例子,不必拘泥,失检之处,谢谢你细心的指出。
> 搜索California DMV,会指向www.dmv.ca.gov这个网站,尽管这个站点屏蔽了所有的搜索引擎
谁说屏蔽了?
http://www.dmv.ca.gov/robots.txt
User-agent: *
Disallow: /flash
Disallow: /templates
谷歌还是很遵守robots.txt的约定,百度就不一定了