您的当前位置:首页正文

基于Web结构挖掘的HITS算法分析及改进

2020-04-20 来源:独旅网
第38卷第1期・学术 V0I.38 No.1 湖南g-q机 201 1年1月 HUNAN AGRICULTURAL MACHINERY Jan.2O1 1 基于Web结构挖掘的 HITS算法分析及改进 邓超,何月顺 (东华理工大学信息工程学院,江西抚州 344000) 摘要:随着网络和数据挖掘技术的发展,Web数据挖掘得到了较多的研究。文章从W。b结构挖掘的角度 出发,在分析传统的HITS(Hyperlink—Induced Topic searc11)算法的基础上,针对Hub页面的多主题性、无关页面 和无关链接等对HITS算法的影响,提出了HITS算法的改进算法。 关键词:Web结构挖掘:HITS;Hub 中图分类号:TP393 文献标 ̄tlq-:A 文章编号:1007—8320(201 1)Ol一0080—02 Analysis and Improvement of HITS Algorithm Based on Web Structure Mining DENG Chao,HE Yue—shun (College of Information Engineering,East China University of Technology;Fuzhou,Jiangxi 344000,China) Abstract:With the development of the lnternet and the data mining,//lore and more research work are come out with the Web data mining.From the direction of Web structure mining and focused on HITS (Hypedink—Induced Topic Search)algorithms analyzing after analyzing of the two main algorithms(PageRank and HIST).Much factors including multi—subjects of Hub pages、irrelevant pages and irrelevant links have effects on HITS performance.To resolve those problems,we propose an improved algorithm on HIST. Key words:Web sturcture mining;HITS;Hub 随着Intemet的快速发展。Web正在成为一种新的数据 源,其中汇集了大量信息。但是Web具有无结构、动态、组织 复杂的特点,给用户搜索数据造成了很大困难。为了从大量半 0操作:h。=q满足∑a q (2) q<P 结构化数据中发现可用的模式,Web挖掘技术应运而生,Web 规范化ap,h 挖掘分为Web内容挖掘、Web使用挖掘和Web结构挖掘。本 a 文主要介绍当前Web结构挖掘的一个主流算法(HITS算法), (3) 并分析传统HITS算法存在的一些缺陷,针对这些缺陷提出了 改进的HIST算法。 、T/∑【 q E T a 】 1 Web结构挖掘的主流HITS算法 h :.. (4) 1.1算法原理 通过挖掘Web链接结构,分析Web间的链接关系,找出 、/q∑[hq Web集合中的authorities和hubs。 其中,P的权威值等于所有指向P的超链接网页中心值 其中Page小圆代表网页,里面的红色椭同代表根基S;外 之和;P的中心值等于P所链向的所有网页的权威值之和。 面的黑色椭圆代表根基T。 1.3 HITS算法的缺陷 1.2计算Authority值和hub值 (1)Hub页面的多主题性。如果一个Hub页面包含有多个 主题,就会有许多链接是指向不相关页面的,这些不相关页面 、.1 I操作:a。=q满足 h q (1) 的Auth0ritv权重虽然较低,但是HITS算法将它们的Authority 权重之和作为该Hub页面的Hub权重,于是该Hub页面就会 有一个非常大的Hub权重。而实际上,该Hub页面只有很少甚 收稿日期:2011-12—24 至没有链接指向好的Authoirty页面。 作者简介:,F超(1985一),男,江西吉安人,硕士研究生,研究方 向:分布式数据库与数据挖掘。 (2)两台主机之间的互相强化关系。比如,一台主机上的 第38卷第1期 邓 超,等:基于Web结构挖掘的HITS算法分析及改 的k分之一。很显然,式(7)已经包括式(6)。 2.3通过对链接上下文的分析来处理无关链接的影响 ! 许多页面链接到另一台主机上的同一个页面P1,这就会大大 增加P1的Authofiy权重。反过来,t如果一台主机上的同一个 页面P2链接到另外一台主机的许多页面上,这又会大大增加 P2的Hub权重。 对链接上下文的分析主要集中在链接地址和链接描述 上。通过对联接地址的分析,很容易去除站点内的导航链接,可 以给每一链接一个链接权重Lw,对于站内导航链接可忽略不 计,链接权重Lw=0。对联接描述的分析主要是对HTML标记 (3)无关链接的影响。通常情况下,一个页面上的链接并 不都与主题有关,它包括站点内的导航链接,广告链接,系统自 动生成的一些链接等等。这些链接会极大地影响HITS算法的 (a>LD</a>之间的文本LD进行分析。文本LD通常是该链接 效果 2 HITS算法的改进 以上列出的影响HITS算法效果的几个因素并不是相互 独立的,它们彼此间有内在的联系。例如解决了无关页面的影 响,则无关链接的影响也可能随之解决。因为,即使无关链接将 一些无关页面扩展进了基本集,但在处理无关页面的时候,可 以同时将其带来的副作用消除或减弱。本文提出了一些改进 算法消除或减弱以上不利因素。当然,这些算法不可能完全消 除上述不利因素及其他潜在因素的影响,但是在我们的实验 结果中,这些算法确实能得出满意的结果。 2.1 Hub权重算法的改进 当一个Hub页面链接到许多无关页面时,它的Hub权重 将异常升高,导致输出的Hub页面偏离主题。这主要是由于 HITS算法计算Hub权重时,采用Hub所指向的所有Authority 权重之和所致。现在将计算公式改为: hp (q满足 aq)/n (5) q<一P n表示指向网页P的网页q的总数,即该Hub指向的页面 数。将Hub权重的计算由它所指向的Authority权重之和改为 Authority权重的平均值。这样,即使该Hub指向再多的无关页 面,它的Hub权重也不会异常升高,反而会下降,因为无关页面 的Authority权重很低。 2.2改进算法解决两台主机之间的互相强化关系 采用以下算法可以消除两台主机之间的互相强化关系: a = 满足∑h /k. (6) q>一P hp=( 满足an/m)/n (7) q<一p k表示与q同主机并指向P的页面数,in表示与q同主机 并被P所指向的页面数,n表示q的总数。式(6)表示,若主机1 有k个页面指向主机2的同一页面p,则该k个页面各自对p 的Authority权重的贡献为其Hub权重的k分之一。式(7)表示, 若主机1的同一页面p同时指向主机2的k个页面,则该k 个页面各自对页面P的Hub权重的贡献为其Auth0ritv权重 所指向页面的主题的概括,对LD的分析比分析它所指向的整 个页面容易得多,甚至精确得多。根据搜索主题q和链接文本 LD的匹配程度MD可以确定链接权重Lw,匹配程度的计算 可以用到很复杂的技术包括语义分析,文本挖掘技术等等。本 文采用比较简单的方法,MD为q中的单词在LD中出现的次 数,这样,LW可由下式得出: LW=I+MD (8) 于是,式(6)、式(7)变为: l Ihp (q满足 qq。Lw/m)/n (10) q<一p 猎 足 通过对联接地址和链接描述的分析,确定出链接权重LW 作为计算Hub和Authoriyt权重的系数可以有效解决无效链 接的影响。式(9)、式(1O)已经包括式(6)、式(7)的改进结果。 3 结论 基于HITS算法原理的搜索引擎不是预先计算页面的权 威权重和Hub权重,而是在用户提交搜索主体后再对普通搜 索引擎的结果进行处理,这就带来一个响应速度慢的问题。而 Google搜索引擎虽然可以预先计算页面的等级值,但是却不能 将搜索主题的相关性计入等级值中去,因而也存在一些问题。 本文在深入研究了以上两种系统后提出了一个改进后的原型 系统,使搜索结果的质量有了显著提高,但是如何将这两种 Web结构挖掘系统的特点结合起来,在保证搜索结果质量的 基础上进一步提高响应速度是我们以后重要解决的问题。 参 考 文 献 【1]Han Jiawei,Kamber M.数据挖掘一概念与技术【M】.北京:高等教育出 版社.2007. 【2]杨炳儒,李岩,陈新中,等.Web结构挖掘[D].北京科技大学计算 机科学系,2003. [3]Soumen Chakrabarti.Web数据挖掘:超文本数据的知识发现[M].北 京:人民邮政出版社.2009. [4]Carol Lea Clark.Art:HITS on the web[J].Harcourt College Publishers,2001. [5]胡可云,田凤占,黄厚宽.数据挖掘理论与应用【M】.北京:清华大学出 版社.2008. ∑ h L /w K 

因篇幅问题不能全部显示,请点此查看更多更全内容