2012年3月30日 星期五

HITS演算法與PageRank演算法比較

HITS演算法與PageRank演算法比較

HITS演算法PageRank演算法可以說是搜索引擎鏈結分析的兩個最基礎且最重要的演算法。從以上對兩個演算法的介紹可以看出,兩者無論是在基本概念模型還是計算思路以及技術實現細節都有很大的不同,下面對兩者之間的差異進行逐一說明。

1.HITS演算法是與用戶輸入的查詢請求密切相關的,而PageRank與查詢請求無關。所以,HITS演算法可以單獨作為相似性計算評價標準,而PageRank必須結合內容相似性計算才可以用來對網頁相關性進行評價。

2.HITS演算法因為與用戶查詢密切相關,所以必須在接收到用戶查詢後即時進行計算,計算效率較低;而PageRank則可以在爬蟲抓取完成後離線計算,線上直接使用計算結果,計算效率較高。

3.HITS演算法的計算物件數量較少,只需計算擴展集合內網頁之間的鏈結關係;而PageRank是全局性演算法,對所有互聯網頁面節點進行處理。

4.從兩者的計算效率和處理物件集合大小來比較,PageRank更適合部署在伺服器端,而HITS演算法更適合部署在用戶端。

5.HITS演算法存在主題泛化問題,所以更適合處理具體化的用戶查詢;而PageRank在處理寬泛的用戶查詢時更有優勢。

6.HITS演算法在計算時,對於每個頁面需要計算兩個分值,而PageRank只需計算一個分值即可;在搜索引擎領域,更重視HITS演算法計算出的Authority權值,但是在很多應用HITS演算法的其他領域,Hub分值也有很重要的作用。

7.從鏈結反作弊的角度來說,PageRank從機制上優於HITS演算法,而HITS演算法更易遭受鏈結作弊的影響。

8.HITS演算法結構不穩定,當對“擴充網頁集合”內鏈結關係作出很小改變,則對最終排名有很大影響;而PageRank相對HITS而言表現穩定,其根本原因在於PageRank計算時的“遠端跳轉”。

引用自《TechWeb技術社區

沒有留言:

張貼留言