第四十章 搜索引擎算法(2/3)

这些页面的r值会趋向于稳定,也就是收敛的状态。

至于hits,其理论基础依然没变,它最大的特点或者说改变就在它意识到agerank算法平均的分布权值不符合链接的实际情况。

所以hits算法中引入了另外一种网页,称为hub网页,hub网页是提供指向权威网页链接集合的eb网页。

所以使用hits的搜索结果会比其他两者都更权威,但这个算法会大大增加计算负担,对吧?”

孟谦看了一眼ibm出来的哥们,对方愣了一下有点好像不确定的点了点头。

所以现在简单总结一下,搜索引擎的算法基础就是超链分析,算法的优劣势就在于如何让搜索结果更具有参考价值,让用户获得更有效的信息。

当然如果能直接理解用户的需求然后帮他搜索他最想要的内容,这是最理想的搜索引擎状态,但谁都知道这是不可能的。

因此搜索引擎的好坏决定的就是同样的关键词下,你是否能让相对更多的人获得他们想要的内容。

10个用户用谷歌,5个人找到了自己想要的东西,如果用我们的搜索引擎,6个人找到了自己想要的东西,在这里领域目前的技术环境下,我们就是更优秀的。

那么在这个理解基础上,我接下来要给大家介绍的,就是我的搜索引擎算法,动态规则超链分析算法。

动态规则超链分析算法有以下几个变化。

第一,刚才我们提到了,好的搜索引擎是要看在同一关键词下谁的反馈结果更能满足用户需求,那么当用户在搜索某个东西的时候,从大概率来说,他想要看到的结果应该是与这个东西具有更垂直型相关的内容。

举个例子,客户在搜索汽车的时候,不管他是想买车,还是想了解汽车知识,汽车类的专业网页对他的帮助应该都是更大的。

所以在我的算法中,对于指向某一个网站的链接,我首先会做垂直率评分,比如有现在有10个网站链接到了a,这10个网站都是汽车类网站和这10个网站都不是汽车类网站的结果,想必是肯定不一样的。

这里还有一个小小的心理问题,那就是同行之间很少会做超链接,所以拥有更多垂直类网站链接的网站,它的专业性肯定比被乱七八糟网站链接的网站要更大概率靠谱。

第二,建立关键词库热度排序机制,现在的几家搜索引擎企业都对网页做了排序,而我对关键词也做了排序,而且给关键词做排序非常简单,那就是看用户的搜索量。

就比如今天搜索汽车的用户最多,那么汽车的评分可能就是10分,这个时候,算法会分配更多的资源到汽车相关的信息上去,去抓取更多的优质网页。

这里有四个好处,提升信息反馈速度、增加热点反馈的时效性、节约计算机资源以及围绕最终目的,让更多使用我们搜索引擎的用户得到有用信息。

第三,用户反馈机制,也就是跟踪用户的点击情况和浏览情况。

还是用汽车举例,有100个用户搜索汽车后,80个点击了a网页,a网页的评级就会上升,如果有更多的用户在a网页的停留时间较长,a网页的评级也会上升,如果有更多的用户在a网页上直接进行链接等操作,a网页的评级也会上升。

也就是说,在整个网页评级系统中,加入用户反馈分。

第四,规律算法,在用户的所有行为中寻找大概率行为,并将这些大概率反馈到人工,比如说60%搜索了汽车的用户下一个搜索词都是保险。

这样的一些规律我们是无法预测的,但我们可以利用算法进行大数据挖掘,回馈的这些结果可以供人工分析部对一定的网页进行评分,这个就是人工分。

结合以
本章未完,请翻下一页继续阅读.........