阅读文章

GOOGLE搜索结果随机算法揭密


图书馆管理员们提出最多的问题之一是“对于什么样的结果应该位于搜索列表的最上方 Google是如何选择的?”现在品质工程师马特-卡兹介绍了快速入门的知识解释了Google是如何在网上爬行和索引以及如何评定搜索结果等级的马特也向学校图书馆管理员提出建议告诉他们如何辅导学生()

爬行和索引 此信息来自永久免费网(http://www.farfree.com)转载请保留信息正确性谢谢!

在你浏览包含了Google搜索结果的网页之前要发生很多事情首先是在万维网数以十亿计的网页上爬行和索引这个工作是由Googlebot完成的它负责与全球的网络服务器连接以收集文件爬行不是真的在网上漫游而是访问网络服务器返回到一个特定的网页上接着扫描该网页建立超链接并为每一个网页编上号码爬行可收集大量的文件但这些文件还不能直接用于搜索

如果没有索引在你想查询如“civil war”(南北战争)等内容时Google的服务器将不得不在你每次搜索时阅读每一份文件的内容因此第二个步骤是要建立一个索引这样就需要“转换” 爬行所获得的数据为了不必在每一份文件上扫描每一个单词就需要在数据上做些文章以便显示包含了特定单词的所有文件例如假设单词“civil”在编号为38225668和92的文件上出现过而单词“war”出现编号为28152268和77的文件上()

一旦建立了索引就开始对文件进行等级评定并确定它们的相关性假如某个人上Google搜索并输入“civil war”为呈现和评价搜索结果需要做两件事一是查找包含了用户提问的网页二是按照相关性排定匹配网页的位置Google已经开发出一个有趣的技术可加速第一步骤的过程不是将所有索引存储在一台电脑上而是使用数百台电脑做这种工作由于任务被分配到很多电脑上使得查询答案更为迅速

为更加形象地描述这个过程可以设想下一本30页厚书的索引如果一个人在索引中查找数页的信息那么每一次搜索都至少需要花几秒钟的时间但如果你将索引的每一页分给不同的人去查找呢?三十个人分别查找索引的不同部分要比一个人独自查找快的多同样Google也是将数据分配到各台电脑上以便可以更快地查找文件

如何查找包含了用户提问的网页?让我们返回到上面举的“civil war”例子单词“civil”在编号为38225668和92的文件上单词“war”在编号为28152268和77的文件上我们可以在网页上显示文件并寻找包含两个单词的文件(从下表中可以看出是822和68号文件)

单词civil 3 8 22 56 68 92 此信息来自永久免费网(http://www.farfree.com)转载请保留信息正确性谢谢!

单词war 2 8 15 22 68 77

两个单词都出现 8 22 68

包含了一个单词的文件列表被称为“文件标识列表”查找包含两个单词的文件被称为“文件标识列表的交集”

评定搜索结果此信息来自永久免费网(http://www.farfree.com)转载请保留信息正确性谢谢!

有了包含用户提问的网页后就该按照相关性评定网页了Google使用了很多技术其中 PageRank算法是最有名的PageRank评定的是两种事情从网站到某一网页有多少个链接提供链接的网站的排名使用PageRank来自 CNN和纽约时报网站的链接的价值是很多不太有名网站的两倍

除了PageRank外Google还使用了很多其他技术例如一份文件所包含的 “civil”和“war”两个单词靠的很近就比只使用了“war”单词的包含“Revolutionary War”(独立战争)的文件相关性要大的多另外在题目中出现了“civil war”的网页它的相关性就比题目为“19th Century American Clothing”(19世纪的美国服装)要重要的多同样如果“civil war”在网页上出现了数次比出现一次的网页要相关的多

Google的目的是要找到知名度和相关性都大的网页如果两个网页出现匹配提问的信息数量几乎一样我们常常会选择更有名网站的链接但如果其他方面表明一个网页更为相关也会选择更少链接或更低排名的网页例如一个网页全篇都是讲“南北战争”的内容会比只是略微提到“南北战争”的网页更为有用即使这个网页是出现不太有名的网站上一旦我们有了文件的列表和分值就会选择最高分值最匹配的文件

Google从包含了提问单词的每一份文件中提取几句话作为摘要显示接着将排好的URLs和摘要显示在搜索结果上正如你所知道的运行一个搜索器需要大量的计算资源每一次搜索需要500台以上的电脑一起工作搜索的时间还不到半秒钟
 

本文TAGS:GOOGLE搜索结果随机算法揭密 | 参与评论 | 打印本文 | 论坛讨论 | 关闭窗口
相关文章




Copyright © FarFree.Com Powered by 8Studio.Com V2.1 皖ICP备05018661号