存档:

文章标签 ‘Googlebot’
2

Matt Cutts 解释啥叫针对搜索引擎的“伪装”

2011年11月3日

Google的SEO大神Matt Cutts最近发布了一段9分钟长的视频,谈论的主题是“伪装”,他在视频里定义了什么叫针对搜索引擎的伪装:

  • 伪装就是给Google爬虫和用户呈现不同的内容
  • 伪装违反标准
  • 伪装是一件高风险的事情
  • 伪装通常都是为了欺骗
  • 别相信有所谓的“白帽伪装”技术

如果你的网站有针对不同区域的访客设置了不同的内容,那样不算欺骗,因为Google爬虫都是从美国出发的,他们只要按照美国用户被对待就成了。针对移动和桌面提供不同版面也不算欺骗,因为Google爬虫一直看到的都是桌面版。

继续观看视频:

阅读全文...

1

专门的 Googlebot-News 爬虫跟 Googlebot 合并

2011年8月27日

Google宣布不再使用单独的Googlebot-News爬虫来为Google News抓取新闻内容,新闻爬虫将被Googlebot网页爬虫所代替,至此Google就只有这一种爬虫了。

如果你想让Google同时将你网页的内容作为网页搜索和新闻搜索来索引,你不必做任何改变,Google还是会像以前那样抓取你的内容。只不过在你查看服务器日志的时候,不会再看到Googlebot-News爬虫的身影了,取而代之的是统一的Googlebot爬虫。

如果你依然不想让Google News收录你的网站新闻,那么还是可以在robots.txt里使用Disallow标签来告诉Googlebot-News爬虫而不必手动改成Googlebot爬虫,因为Google会明白你的意思。

其实这样改的好处在于你只需要写同一个语句,即可同时阻止Google网页爬虫和新闻爬虫的索引,不必为每个爬虫单独设置规定了。

Via SEL

12

一个怪异的 bug,Google 改从中国放出搜索爬虫?

2011年3月11日

我们都知道Google索引网站信息的爬虫都是从美国加州山寨城出发的,神奇的是这几天有哥们在Google Webmaster Help里问他怎么发现了来自中国IP出发的Google爬虫,连Google的工程师都在风中凌乱了。

Google工程师JohnMu回复说:

这是一个临时性的诡异的bug,以后不会再发生了,谢谢告诉我们!

这对美国很多网站来说可是个严重的问题,因为有些网站会阻止中国IP的访问(比如视频网站Hulu),如果Google的爬虫都来自中国,那这些网站禁掉中国IP的同时也就等于禁止Google来索引自己了,那不是找死了。

这件事非常诡异,Google也没给出任何细节解释。不许联想!

Via SER

5

傻傻 Google 会将空白 HTML 页算作重复内容对网站做出惩罚

2011年1月20日

有人在Google Webmaster Help论坛抱怨说自己受到了Google不公平待遇,不知道怎么回事自己的网站就被Google降级了。Google的JohnMu对他的问题进行了回复,他说因为此人的网站里保存着好多空白的HTML网页,然后Google傻傻的爬虫爬到了他们,认为该网站存在大量重复内容(空白网页当然都是一样的……),然后就给这个网站降级了。JohnMu建议该站站长赶紧移除这些无意义的空白网页。

空白=重复内容?好吧,从机器的角度看确实是这样的,但咱能再加入些人性化的判断不?毕竟Google不会因为爬虫遇到大量404错误这种“内容重复”的网页就给网站降级。

Via SER

8

Google 发布 Robots.txt 详细说明

2010年11月30日

googlevan_robotstxt

站长和 SEO 从业者们有的忙了,Google 在上个周末发布了详细的 Robots.txt 标准Robots 标签以及 X-Robots-Tag HTTP 头标准如何控制 GoogleBot 抓取以及索引三个关键文档。我是对这东西完全没啥概念,实际上谷奥现在的 SEO 同样很糟糕,不知道有没有液内高手出手相助一下呢?先行谢过 Orz。

via sert

pic via GuiaBuscadores

作者: 分类: Google新闻 标签: , , ,
3

Google 爬虫又学了一招:理解 JavaScript 代码

2010年6月27日

Google数以亿计的爬虫们每天都在以光速索引着互联网上的信息,以便我们能通过Google搜索到最新的内容。最近Google的发言人告诉福布斯说他们的爬虫现在可以跟JavaScript做深入互动了,它们甚至可以理解JavaScript代码,这将使Google可以索引到更丰富的内容。

让一个程序理解JavaScript并不是一件简单的事,没有哪种算法可以应用到任何程序上,在任何点,告诉你这个程序是否可以继续无限循环下去,然而如果Google的爬虫可以处理JavaScript,他们就必须解决这种困难。

Google爬虫变得越来越快越来越聪明还要感谢新的Caffeine系统,正是这个新系统使得Google爬虫具备了理解甚至处理代码的能力,以更好的解析富媒体。

Via Mashable

10

Google 爬虫已经开始抓取 AJAX 页面里的内容了

2010年3月5日

今天在圣克拉拉举行的SMX West大会上,Google的Maile Ohye确认说Google已经开始使用去年夏天建议给各个网站的标准提议,来抓取AJAX页面里的内容了。Google Code里可以找到如何部署自己的AJAX代码和URL地址的例子,好让Google爬虫可以索引到。

如果你的网站大量使用AJAX并有无法被索引到的带hash标记的URL地址,那么现在正是改进AJAX的好时机。对AJAX抓取有任何问题,可以到讨论组里提出,Google Web Toolkit团队会帮你解决。

Via Search Engine Land

2

Google 说爬虫携带伪造的引用页地址其实是个 bug

2010年2月22日

我们在几天前报道说,Google 爬虫用故意伪造的引用页去索引网站,可能是想判断 spam。今天,Google做出了回应,实际上这只是一次bug事故(没提临时工的事儿):

我们尝试一个实验,来判断那些指向热门搜索词汇排行里与“海地”有关的关键字的恶意软件。因为这个实验是在一个紧急情况下开发出来的,因此使用了一些不正确的Google搜索索引,现在我们已经修复了这个问题。谢谢您的关注,我们对给您带来的困扰表示道歉。

真相大白,Google跟之前Bing的爬虫也携带了错误引用页地址的杯具一样,都是bug。

Via Search Engine Land

4

Google 用故意伪造的引用页来判断 spam?

2010年2月19日

Michael VanDeMar说他发现Google的爬虫正在使用伪造的引用页,也许以此来判断某种形式的spam。Michael说Google的一些隐形爬虫会发送包含错误关键字的伪造引用页地址到爬过的网页。Bing在几年前曾经也这么玩过,不过后来他们修复了这个问题,不会再被站长捕捉到发送伪造引用页地址的Bing爬虫了。

那么Google为什么捡起了Bing玩剩下的方法了呢?可能是为了判断某种形式的spam。不过当年Bing这么干的时候,引起了很多站长的反感,这也迫使Bing不再使用这个办法。而现在Google似乎做的比较隐秘,所以站长还没发现这个问题,一旦事情暴露,站长们还是会感到很头疼。

Search Engine Land的编辑RustyBrick已经给Google发去了询问邮件,但等了24小时还没有回信儿。

Via Search Engine Land

作者: 分类: 故事/传闻 标签: ,
2

Google 承诺将加快 Google 爬虫抓 AdSense 代码的速度

2009年12月11日

自从Webmaster Tools推出Site Perfomance工具明年网站速度可能会与PageRank挂钩的传言之后,站长们又开始关心起自己网站的速度了,而且最要命的是Google是以Google爬虫抓取网站的速度来判断一个网站的速度。

曾经有人抱怨说Google Analytics代码影响了自己网站的速度,Google速度以异步代码解决了问题。现在又有人抱怨说AdSense代码影响了网站速度,Google给出了回应:

第一,AdSense的代码实际上已经针对客户端做了优化,所以浏览网页的用户不会由于AdSense服务器缓慢而降低浏览速度。

第二,但是Google是以Google爬虫抓取网站的速度来判断一个网站的速度,而现在AdSense代码在被Google爬虫抓取的时候是未经过压缩的,速度会稍慢,我们现在正在解决这个问题。

Via Search Engine Roundtable