就算你保护了自己的twitter,神通广大的Google还是可以把你所有tweet都挖掘出来。比如美国前总统克林顿,他在twitter里就是保护信息无法被公开查看的,但是你只要在Google里搜索“site:twitter.com/billclinton”,他的tweets就全出来了(尽管每个tweets只有一部分文字)。
Google搜索爬虫,也就是Googlebot可以毫无限制的索引twitter超过50亿条tweets,其中包括所有受保护的信息。在此之前twitter至少修复过两个bug,防止twitter自己的搜索引擎索引到受保护的tweets,以及订阅受RSS来获得受保护用户的tweets更新。但是Google现在依然是畅通无阻。
twitter的一个重要守则就是不要retweet受保护用户的tweet,twitter创始人也是这么想的,但是Google现在把一切都“retweet”给大众了。
从Google的搜索结果来看,似乎这个事并不赖Google,因为是twitter将tweet的内容作为网页标题了,只要不这么做,tweets泄露问题就解决了。
Update:感谢 @tuite_Tips 和读者 Rat2 的提醒,Google 并未索引被保护的 Tweets,文中引用的克林顿的tweets是当初假克林顿在未加密前发的tweets,所以才能被Google索引到。而真克林顿收回twitter账号并加密后,所有tweets都没有被Google索引到了。twitter的保密措施做的很完美,Google也不会随便索引那些禁止爬虫的网页。
所以,这个事到底赖谁终于明确了,赖我,没仔细研究就转发了这条新闻,还请大家多多谅解。
Via 洛杉矶时报
Related posts
- Google 爬虫又学了一招:理解 JavaScript 代码
- Google 说爬虫携带伪造的引用页地址其实是个 bug
- Google 的搜索结果已经足够实时了
- Google 爬虫们已经会执行 JavaScript 来探索更多内容了
- Google 用故意伪造的引用页来判断 spam?
- Google 爬虫已经开始抓取 AJAX 页面里的内容了
- 10个 Google 有意思的事情
- 专门的 Googlebot-News 爬虫跟 Googlebot 合并
- Matt Cutts 解释啥叫针对搜索引擎的“伪装”
- Google 承诺将加快 Google 爬虫抓 AdSense 代码的速度
本站文章除注明转载外,均为本站原创编译
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:Google 可以搜索到受保护 twitter 用户的 tweets,赖谁?<--更新,赖我
本文地址:http://www.guao.hk/posts/google-index-protected-tweets.html
本文短网址:http://guao.cc/co4
转载请注明:文章转载自:谷奥——探寻谷歌的奥秘 [http://www.guao.hk]
本文标题:Google 可以搜索到受保护 twitter 用户的 tweets,赖谁?<--更新,赖我
本文地址:http://www.guao.hk/posts/google-index-protected-tweets.html
本文短网址:http://guao.cc/co4








@kei:
正确
至今twitter上没几个following和follower的飘过~实在玩不惯这玩意,连搜索功能都找不着
@Rat2:
你怎么还用这个头像啊
赖你……哈哈
@Rat2:
多谢提醒。。。已改
个例吧 其他的受保护数据都好好的
而且也许这些数据是他开启受保护设置之前留下的
https://twitter.com/tuite_Tips/status/5013597664
其实是那个 @notbillclinton 之前发的 (就像 @NOTAndroid 之于 @Android, 假账号)
那些 Tweet ID 现在也属于 @notbillclinton:
https://t.orzdream.com/status/560995992