CC
当前位置:首页 > 新闻 > 行业动态
谷歌开发实时索引系统 抓取内容更新仅需数秒
作者:wxq  发布时间:2010-03-05  查看次数:5356
北京时间3月4日消息,据美国科技博客网站ReadWriteWeb报道,谷歌正开发一套新系统,使任何规模的网络发布者在发布新内容后,都能够在数秒钟内将内容自动提交给谷歌搜索索引目录。

美国搜索引擎技术网站SearchEngineLand主编丹尼·苏利文(Danny Sullivan)认为,谷歌这项新系统投入使用后,无疑将使该公司“翻开新篇章”。

谷歌PubSubHubbub(以下简称“PuSH”)实时同步协议开发主管布雷特·斯拉特金(Brett Slatkin)去年秋季曾表示,他希望谷歌今后能够使用PuSH协议来为网络内容建立索引,而放弃各大搜索引擎商多年来使用的网络爬虫技术。

谷歌高级产品经理迪伦·凯西(Dylan Casey)周二在美国加州圣克拉拉市举行的搜索营销大会(Search Marketing Expo)上表示,谷歌计划不久后为网站所有者提供相关技术标准,使这些网站能够参与诸如PuSH之类的技术协议。

工作原理

据悉,PuSH是一种基于ATOM格式的同步系统。内容发布者使用该系统过程中,将对外公布一个Hub,该Hub将负责通知每次新发布的内容。注册用户则相当于告诉该Hub:“该内容发布者每次发布新内容时,请立即发送给我。”如此一来,注册用户无需再访问内容发布者的初始网站是否有内容更新,而只需等待来自Hub的通知。换句话说,每次内容发布者发布了新内容,就会自动通知Hub,Hub再将所有内容发送给所有注册用户。整个过程仅需数秒钟时间。

如果谷歌利用PuSH协议来建立网络内容索引,便可要求所有网站使用该技术,同时要求这些网站报明各自所使用的Hub。然后谷歌再利用这些PuSH所投递的信息,来随时查找各网站上每次发布的新内容。这种作法同传统RSS新闻聚合服务颇为相似。

ReadWriteWeb认为,PuSH协议不大可能完全替代当前使用的爬虫技术。事实上,要获取PuSH所投递的信息,首先需借助爬虫技术。尽管如此,如果谷歌使用PuSH协议,无疑将使该公司现有索引技术变得更为强大。

SearchEngineLand的苏利文表示,谷歌今后必须考虑采取一种垃圾信息的控制机制,而不是不加选择地让所有信息都收录于索引当中。他指出,在搜索引擎技术初期开发阶段,就曾出现过这种抓取内容过滥现象,从而给各大搜索引擎服务带来了“大麻烦”。

产品优势

从运算角度看,PuSH协议的效率更高。谷歌的斯拉特金称,更为重要的是,如果使用PuSH协议,将给小型网站带来更为积极的影响。就目前而言,谷歌爬虫对大量小型网站的抓取频率仅为每周一次。而使用PuSH协议后,这些小型网站可随时将新发布内容提交给谷歌。

互联网内容更丰富、发布更及时、运行效率更高后,无疑将使所有人都受益,而不仅仅限于谷歌一家。PuSH是一种开放协议,雅虎和微软必应(Bing)也可以访问。斯拉特金说:“我的技术主管表示,即便是竞争对手,我们也要对这一协议采取开放的推广方式。”

返回
在线咨询
0311-67663355
QQ咨询

帝易企划

请联系您的客服获取工单提交地址:)