存档:

文章标签 ‘Googlebot’
2

Google 承诺将加快 Google 爬虫抓 AdSense 代码的速度

2009年12月11日

自从Webmaster Tools推出Site Perfomance工具明年网站速度可能会与PageRank挂钩的传言之后,站长们又开始关心起自己网站的速度了,而且最要命的是Google是以Google爬虫抓取网站的速度来判断一个网站的速度。

曾经有人抱怨说Google Analytics代码影响了自己网站的速度,Google速度以异步代码解决了问题。现在又有人抱怨说AdSense代码影响了网站速度,Google给出了回应:

第一,AdSense的代码实际上已经针对客户端做了优化,所以浏览网页的用户不会由于AdSense服务器缓慢而降低浏览速度。

第二,但是Google是以Google爬虫抓取网站的速度来判断一个网站的速度,而现在AdSense代码在被Google爬虫抓取的时候是未经过压缩的,速度会稍慢,我们现在正在解决这个问题。

Via Search Engine Roundtable

7

10个 Google 有意思的事情

2009年11月4日

google-1998

我想大部分人都已经知道 Google 最开始是2个斯坦福大学的 Ph.D. 学生 Larry Page 和 Sergey Brin 的研究课题。但你可否知道 Google 最初的储存设备其实只是一个乐高玩具积木所拼搭起来的机器?或者 Google 正式成立之前,就已经有人签了一张 10万美金的支票送给这两位学生?还有 Google 甚至还有自己的官方狗?如果都不知道,那就继续看下去吧。 =)

1)Google 之前被叫做 BackRub

google-backrub 在1996年,已经毕业的 Larry Page 和 Sergey Brin 一起研究万维网(World Wide Web)之中每一个连接和每一个连接之间的关系。他们发现一个很有趣的现象就是通过知道有多少连接指向某一网站可以估计出这个网站在万维网上的重要性(这就是我们现在所熟知的 Page Rank 的原形)。

这项研究课题被命名为 BackRub,其实就是 Backlink 的意思。这里还有一个当年他们在 斯坦福大学保存下来的网页。而 BackRub 的 Logo 其实就是一只手反着放在扫描仪里扫描出来的图像。

2)最初 Google 存储设备

google-computer-storage-lego

Larry 和 Sergey 当时需要非常非常多的容量(40Gb)来研究他们的 PageRank,而当时世界上最大的硬盘只有4Gb,于是他们找到10个硬盘并组装在一起。机箱就是 Larry 用 Lego 积木拼出来的。

3)Google 的第一位投资者

andy-bechtolsheim Sun Microsystem 的协助创始人 Andy Bechtolsheim 一眼就看出了 Google 的潜力,他于 Larry 和 Sergey 简短的谈了30分钟,就抽出自己的支票夹(有钱人出门都不带现金),直接签上10万美金,交给 Larry 和 Sergey 做 Google Inc. 的资金。可当时 Google 都还没有存在呢。

阅读全文...

1

Google 的搜索结果已经足够实时了

2009年10月22日

google-real-time

Marketing Pilgrim的编辑发了一篇文章,但里面有一个拼写错误,在文章发布之后,他随手在Google里搜索了一下那个错误的拼写,居然发现了如上图的结果,37秒前的索引,已经出现在Google搜索结果中。

我们之前有提到过通过自定义的参数来强制Google显示最近1小时、1分钟甚至1秒钟之内的索引结果,看来这些实时搜索结果现在已经出现在普通的搜索结果里了。好吧,现在我们可以说Google爬虫的索引内容已经可以足够实时的出现在搜索结果中了,下一步就希望Google爬虫能更实时的对更多网站进行索引,让搜索结果与网站页面更新几乎保持同步,完成终极的实时搜索引擎。

Via Marketing Pilgrim

作者: 分类: 故事/传闻 标签: ,
7

Google 可以搜索到受保护 twitter 用户的 tweets,赖谁?<--更新,赖我

2009年10月21日

twitter-bill-clinton

就算你保护了自己的twitter,神通广大的Google还是可以把你所有tweet都挖掘出来。比如美国前总统克林顿,他在twitter里就是保护信息无法被公开查看的,但是你只要在Google里搜索“site:twitter.com/billclinton”,他的tweets就全出来了(尽管每个tweets只有一部分文字)。

google-bill-clinton

Google搜索爬虫,也就是Googlebot可以毫无限制的索引twitter超过50亿条tweets,其中包括所有受保护的信息。在此之前twitter至少修复过两个bug,防止twitter自己的搜索引擎索引到受保护的tweets,以及订阅受RSS来获得受保护用户的tweets更新。但是Google现在依然是畅通无阻。

twitter的一个重要守则就是不要retweet受保护用户的tweet,twitter创始人也是这么想的,但是Google现在把一切都“retweet”给大众了。

从Google的搜索结果来看,似乎这个事并不赖Google,因为是twitter将tweet的内容作为网页标题了,只要不这么做,tweets泄露问题就解决了。

Update:感谢 @tuite_Tips 读者 Rat2 的提醒,Google 并未索引被保护的 Tweets,文中引用的克林顿的tweets是当初假克林顿在未加密前发的tweets,所以才能被Google索引到。而真克林顿收回twitter账号并加密后,所有tweets都没有被Google索引到了。twitter的保密措施做的很完美,Google也不会随便索引那些禁止爬虫的网页。

所以,这个事到底赖谁终于明确了,赖我,没仔细研究就转发了这条新闻,还请大家多多谅解。

Via 洛杉矶时报