Google推新索引技术Caffeine 搜索结果提高50%
CNET科技资讯网6月9日国际报道 Google终于发布众所期待的搜索索引技术咖啡因(Caffeine)。
Google在周二晚上的官方博客中公布了发布Caffeine索引技术的信息。博客中写道:“与我们的老索引技术相比,Caffeine能够提供的新网络搜索结果提高50%,最大程度收集我们提供的网络内容。无论是新闻、还是博客或论坛,一经发布,用户都能发现相关内容的链接,索引速度较以前有大幅提高。”
Google从2009年8月开始测试Caffeine。搜索专家马特·库茨(Matt Cutts)去年11月曾表示,新系统在圣诞假日后不久将投入使用。当时,Google曾表示新索引技术将是自2006年以来的重大变革。速度和综合性是新技术关注的目标。
Google曾表示,新系统需与网络内容的爆炸性增长保持同步,过去两年中,博客、视频和社交媒体技术都蜂拥至网络。借助Caffeine,Google将加快索引次数的更新,对一小部分网络进行消化,而不是对整个网络重新索引并更新索引内容。
Google软件工程师卡莉·格兰姆斯(Carrie Grimes)在博客中称:“我们将把Caffeine列为未来考虑重点,不仅使之索引更多新结果,还要将之打造为适应网络消息增长的速度更快、理解力更高的搜索引擎,为用户提供相关度更高的搜索结果。”
在解释为什么开发新的搜索索引系统时,Google表示:“Web内容欣欣向荣,它不仅在大小和数量上取得了增长,内容也不断变化,出现了视频、图片、新闻和实时更新,普通的网页变得更加丰富和复杂。此外,人们对搜索的要求也在比从前高很多,搜索者希望找到最想要的内容,发布者希望新发布的内容立刻被找到。”
“为了适应Web的变革并满足人们日益增长的需求,我们开发了Caffeine(咖啡因),下图描述了传统索引系统与Caffeine的区别:”
传统的索引分为很多层,其中一些会以较快的速度更新,而主要内容层则会每几周才更新一次。在更新一个层时,Google需要对整个Web进行分析,这也就意味着在Google发现一个页面与提供给用户这之间有一个延迟。
在Caffeine中,“我们只在小的范围内分析Web内容,并不间断地更新索引,进而设计全球网络内容。一旦我们发现新的页面或现有页面上更新了内容,我们可以直接将其添加到索引中,也就是说,你可以更快地搜索到新的Web内容。”
Caffeine每秒可以并行处理数以万计的页面,如果这些网页以纸张堆积起来,那么每秒钟它可以增高近5000米。Caffeine在每个数据库中占据100,000,000 GB的存储空间,每日的新增量也十分惊人。你需要625000个最大容量版本iPod才能存储这么多数据,它们首尾相连能超过64公里。