PageRank
基本思路:如果网页T与网页A有连接则意味着T的所有者认为A更重要因此T的重要性分数的一部分被分配给A.这个重要性分数是:PR (T)/C(T)
其中PR(T)是T的PageRank值
服务平台因此T的重要性分数的一部分被分配给A.这个重要性分数是:PR (T)/C(T)
其中PR(T)是T的PageRank值而C(T)是T的出站链接数那么A的PageRank值是一系列类似于T的页面重要性得分值的累积。 br />
PR(A)=(1-d)+ d(PR(t1)/C(t1)+… + PR(tn)/C(tn))
A代表页面A
PR(A)代表A页的PR值
d是阻尼指数。通常被认为是d=0.85
T1… tn表示链接到页面A的页面t1到tn
C表示页面上的出站链接数。 C(t1)是第t1页上的外部链接数
从计算公式可以看出必须使用迭代计算来获得PR值的计算。
优点:它是一种独立于查询的静态算法。所有网页的PageRank值通过离线计算获得;它有效地减少了在线查询时的计算量大大缩短了查询响应时间。
不足:人们的查询具有主题特征PageRank忽略主题相关性导致结果的相关性和主题减少;此外PageRank严重歧视新页面。
主题敏感的PageRank
(主题敏感的PageRank)基本思想:为PageRank提出忽略主题。核心思想:离线计算PageRank向量的集合每个向量都与一个主题相关即计算不同主题的页面得分。它主要分为两个阶段:主题相关的PageRank向量集的计算和在线时主题的确定。
优点:根据用户的查询请求和相关上下文判断与用户查询相关的主题(用户的兴趣)查询结果高度准确。
不足:主题的相关性不用于提高链接分数的准确性。
Hilltop
基本思想:与PageRank的区别:只考虑专家页面的链接。主要有两个步骤:专家页面搜索和目标页面排序。
优点:相关性强结果准确。
不足:专家页面的搜索和确定在算法中起着关键作用。专家页面的质量决定了算法的准确性难以保证专家页面的质量和公平性;忽略了大量非专家页面。影响并不反映整个互联网的舆论;当没有足够的专家页面存在时它返回空因此Hilltop适用于查询排序的细化。