您的当前位置:首页正文

实时信息搜索技术的研究

2024-08-28 来源:独旅网
2011牟gll期 中图分类号:TtB01 文献标识码:A 文章编号:1009—2552(2011)11—0027—04 实时信息搜索技术的研究 邓志宏 (湖南文理学院计算机科学与技术学院,常德415000) 摘要:随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越 重要的角色,在网络时代,信息检索主要通过Intemet搜索引擎进行。Internet提供了多种不同的 信息发布和检索方式。讨论新型智能信息搜索技术,使用户成为搜索引擎的主导者,搜索引擎 既可以按照既定的算法海量搜索,还可以根据用户输入来抓取信息,达到实时搜索功能,就如 何智能分析用户输入,如何抓取网页,怎样获取网页源码,以及关键字的获取与过滤进行了描 述与分析。 关键词:智能信息提取;实时搜索;搜索过滤与分析 Research on real-time information search technology DENG Zhi—hong (School of Computer Science and Technology,Hunan University of Arts and Science,Changde 415000,China) Abstract:With the rapid development of information technology,Internet has penetrated into every aspect of people’S lives.Changing people’S lifestyles and ways of thinking and facilitate sharing of iformatnion resources around the world.The wodd is currently over 10 billion web pages,and each day millions of additional pages,electronic information explosion—like enriched.Of COLXIse,current search engine technology is already quite mature,data coUeefion,and keyword ranking algorihm can altso be highly eficifent operation.But with a new class of short message service like Twitter appearance,the searching world face with a new problem,that is,real—time search technology.This paper presents a simple real—time search method based on the traditional search technology,which is simple real—time search. Key words:intelligent ifornmation extraction;real—time search;search filter and analysis 0 引言 随着信息技术的迅速发展,Internet已深入到人 术。结合传统搜索技术的基础上提出一种简单的实 时搜索方法,实现简单的实时搜索。 们生活的各个方面,改变着人们的生活方式和思维 方式,方便了全球信息资源共享。全球目前的网页 超过100亿个,每天还在新增加数百万个的网页,电 l 总体设计 结合传统搜索技术,对用户输人实行并行处理, 子信息爆炸似的丰富起来。然而Internet资源既丰 采用并行技术跟踪用户的输入,份两条主线进行处 理,其中是传统的搜索过程,另外增加一条实现记录 并智能分析用户检索关键字,经过智能分析处理后 将有效的关键字存储到临时存储器当中,为实时搜 索定向关键字数据源。在获取定向关键字时除了 收稿日期:2011一o4—25 富又分散且处于无序状态,使得人们在网上查找自 己所需的信息并非易事。这时为满足人们对信息检 索的需求,搜索引擎便应运而生。当然目前搜索引 擎技术已经相当成熟,数据采集和关键字排名算法 也能高效运转,但是随着Twitter一类短信息服务的 出现,搜索世界出现了新的难题,那就是实时搜索技 基金项目:湖南省普通高等学校教学改革研究项目([20101311) 作者简介:邓志宏(1972一),男,副教授,主要从事.NET平台上的 软件开发与研究。 一27— 跟踪用户检索输入外,还采用XML关键字搜索技 术,进行有效的定向关键字提取。 定向搜索检索临时存储器当中的定向关键字, 对互联网进行有针对性的定向搜索,从而达到快速 搜索到所需要的信息。对于定向搜索信息需要考虑 的问题有语义分析、智能信息提取等。 定向搜索的好处是有针对性,效率高,而且能实 现简单的实时搜索功能。 2 传统网页搜索 一般搜索引擎的主要搜索功能是关键词搜索, 根据关键字获取网页,它的所有搜索技巧都体现在 网页搜索之中,并针对不同用户群需要设置了多种 搜索技巧。概括起来有四类,分别是:普通搜索技 术、智能搜索技术、命令搜索技术、综合搜索技术,这 四类都有各自独特的搜索方法和应用范围。 2.1 基本搜索 搜索方式简洁方便,只需要在检索框内输入查 询内容后按回车键(Enter)或者点击搜索按钮。系 统就会按照输入关键字对数据库信息进行逐个匹 配,将搜索到的数据返回客户。 简单实时搜索模型如图1所示。 服务器端 I开始 园 搜索结果. 犏 输入关键字 二 一 I定向搜索I l搜索/处理算法 搜索数据 t 图1简单实时搜索模型 2.2限定搜索 搜索引擎还支持对搜索范围进行限制,如在网 页标题、具体站点、URL链接中检索、专业文档搜 索等。 (1)搜索关键词 搜索的关键词包含在页标题中和keywords中。 检索语法是:“intitle:关键词”。网页标题通常是对 网页内容提纲挈领式的归纳。把查询内容范围限定 在网页标题中,有时能获得良好的效果。使用的方 式,是把查询内容中,特别关键的部分,用”intitle”领 起来。例如,找SPSS软件的使用教程,就可以这样 查询:教程intitle:SPSS。 (2)搜索范围 把搜索范围限定在特定站点中,检索语法是: “关键词SITE:站点域名”当你知道某个站点中有 一28一 自己需要找的东西,就可以把搜索范围限定在这个 站点中.提高查询效率。例如,要在天空网下载 SPSS软件,就可以这样查询:SPSS SITE:skycn.corn (3)专业文档搜索 百度支持对ofifce文档(包括Word,Excel,Pow— erPoint)、Adobe PDF文档、RTF文档进行全文搜索。 检索语法:“关键词fileType:文档类型”。fileType 后可以跟以下文件格式:DOC,XLSPPT,PDF,RTF, A LIJ。其中,ALL表示搜索所有这些文件类型。例 如,查找关于lib2.0方面的PFI"。“lib2.0 fileType: PPT”,点击结果标题,直接下载该文档,也可以点击 标题后的”HTML”快速查看该文面(Http://file. baidu.corn/),直接使用专业文档搜索。一般搜索引 擎会提供自动提示功能,根据用户的输入来自动识 别并补全输入。当然类似的还有错别字更正,同义 词,翻译等等功能。 2.3个性化搜索探析 个性化搜索(Personalized Search)指的是搜索引 擎根据用户搜索的历史记录,来返回更适合这个用 户的搜索结果。这些搜索历史记录包括用户所搜索 的关键词,在搜索结果中的点击情况,在各个网站的 访问情况,书签情况等。搜索引擎掌握了这些用户 资料后进行分析。在用户搜索新的关键词时,能返 回更有针对性的搜索结果,从而提高用户体验。个 性化搜索是将搜索建立在个性化的搜索环境之下, 通过对用户的不断了解、分析,使得搜索结果更符合 每个用户的需求。 3 实时搜索模型构建 3.1 实时搜索技术及问题概述 时下,以Twitter为代表的实时网络成为互联网 最热门的应用领域之一,而正是基于网民对新兴资 讯速度和实时性的更高要求,搜索引擎领域应需而 动,“实时搜索(Real—Time Search)”概念应孕而生。 当然要实现实时搜索需要解决一些基本问题:①访 问同步,数据共享。②高速数据读写。③快速检索。 ④比特信息检索(短信息检索)。 3.2简单实时搜索定向关键字获取 要实现搜索引擎获取定向搜索关键字需要从几 个方面人手。 (1)通过对用户检索关键字的cookie进行提取 和处理,将可行的关键字存入到临时数据存储器当 中。临时数据存储器必须满足以下要求: ①超高速的10读写能力。可以将临时数据存 储器比作PC机的内存,或者CPU的内部缓存,它为 搜索引擎算法提供实时数据域。 ②智能信息处理。临时数据存储器也需要像内 存样的历史数据清除功能,定期将不常用的数据清 除掉或者存人海量数据存储器当中。 图2为通过cookie获取定向搜索 生建字的模型图。 智能数据分析 1、有效关键字提取 2、语义识别 Spider的网页抓取的路径是按照超链接的拓扑顺序 进行的。首先Spider拥有一个初始的URL列表,放 到队列中,根据URL获取到对应的网页,分析网页 中的<a href=…>结构,获得新的URL,插入到队 列中。同时根据需要也可以获取<img src=…>等 结构,抓取相应的其它类型的文件。重复地进行这 个过程,直到抓取到指定数量的网页为止。 4.2 实时网页抓取技术需考虑的因素 存储器 图2基于cookie的定向搜索关键字获取模型 (2)通过统一的信息聚合接口实现关键字提 取,现在Web流行RSS内容聚合,搜索引擎需要采 (1)负载均衡 在多台并行主机之间合理地分布任务,使得每 用新的算法方式提取RSS内容中的有效关键字并 将结果存储到临时数据存储器当中。由此可以实现 信息的实时捕捉。 3.3简单定向搜索 所谓简单定向搜索是指搜索引擎从临时存储器 中获取经过智能数据分析提取出的关键字来进行 Web搜索的方式。 定向搜索指的就是按照规定的关键字搜索引擎 实行主动搜索的搜索方式。实行定向搜索在目前来 说不能像蜘蛛那样爬行网页,定向搜索必须保证实 时,本论文从以下几个方面保证定向搜索的时间尺 度在尽量小的范围内。 (1)充分利用RSS内容聚合功能实行搜索。 (2)实行锁定页面发布时间段搜索搜索引擎只 搜索最新发布的信息。 (3)尽量使用XML关键字搜索技术,如使用基 于SLCA的方法,基于MIU的XML搜索。系统的体 系机构如图3所示。 (4)使用DHT的多关键字搜索技术,最大限度 的提高搜索速度。 用户查询 聚类的搜索结果 图3 一种基于MIU的XML搜索系统的体系机构 4 互联网的网页获取 4.1 网页抓取的基本原理 利用能够从互联网上自动收集网页的网络爬虫 的程序(Web Spider)系统程序,自动访问互联网,并 沿着任何网页中的所有URL统一资源定位符)爬到 其他网页,重复这个过程,并收集爬过的所有网页。 网页抓取是整个搜索引擎工作的开始,简单的 一台主机都尽可能满负荷地工作,实现抓取效率的 最大化。目前比较常用的方式是按照IP地址的 hash值范围分配。 (2)加快单个抓取过程 单个抓取过程需要由很多步操作来组成,如果 某一步效率太低,将会严重影响整个过程的效率。 比如,gethos出ynameo是一个阻塞的过程,需要等待 DNS的查询结果。目前通过采用HTrP/1.1重用连 接,DNS缓存和预取等技术,可以加快处理速度。 (3)处理网页更新 实时搜索对最新的网页信息高度重视,所以搜 索引擎必须识别最新的网页,对于已经抓取过的网 页不进行处理,如此节省抓取网页的时间。同时抓 取过程中为了避免spider陷入死循环,在一次大循 环中,通常记录下已经抓取的网页URL,避免抓取 队列再次抓取。当抓取进程完成一个大循环进入下 一次重复抓取过程时,利用HTrP协议的响应消息, 可以知道网页在上一次抓取之后是否已经被修改 过。这样既可以保证抓取到更新的网页,又不用重 复抓取原来的网页。 (4)对于动态网页的处理 由于众所周知的spider Trap问题,很多Spider 的做法是不抓取动态网页,有的Spider只抓取第一 层的动态网页,这样可以避免很多问题,但是以放弃 部分信息为代价,特别是某些最新的重要信息可能 放在动态网页中,这样对于新信息的搜索将得不到 满意的结果。 (5)提高抓取网页的质量 既然不可能抓取到所有的网页,为了提高抓取 的质量,通常是优先抓取“重要的”网页。“重要的” 网页有几种度量标准:①可以通过分析超链结构和 概率模型来猜测未抓取网页的内容,从而决定哪一 类内容的信息需要优先抓取。②可以通过链接分析 来对未抓取网页的重要性进行度量,优先抓取重要 性高的网页。③分析网页的位置,比如域名,目录深 度等,可以优先抓取“.com”域名下网页,并优先抓 取目录深度浅的网页。 一29— 4.3网页抓取策略 为它的补充。 在抓取网页的时候,可将www作为一个有向图 处理,将每一个页面看作图的节点,将页面中的超链 5 结束语 搜索引擎在不断扩大覆盖面的同时,正在向个 接看作图的有向边,因此,可以使用有向图遍历法对 性化、智能化、专业化、多媒体、多语言搜索、实时性 和实用性的模糊检索方面发展,并取得了较大的进 展,但还需要进一步改进和完善。 本文结合实际需求,对当今热门的实时搜索进 其进行遍历。有向图遍历法分为深度优先算法和广 度优先算法。 深度优先搜索是一种在开发网络爬虫程序的早 期使用得较多的方法,是指网络爬虫会从起始页开 始,一个链接一个链接跟踪下去,处理完这条线路之 后再转人下一个起始页,继续跟踪链接。当不再有 行分析,提出了简单的实时搜索模型,采用定向关键 字搜索技术、语义分析技术、数据流检索技术等方面 为实时搜索提供解决方案。 同时阐述了不断采用新技术和策略,让搜索更 方便、更快速、更精确是搜索引擎未来的发展方向。 参考文献: [1]梁斌.走进搜索引擎[M].北京:电子工业出版社,2007. [2]卢亮.搜索引擎原理、实践与应用[M].北京:电子工业出版社, 2007. 其他超链可选择时,说明搜索已经结束。 广度优先是指网络爬虫会先抓取起始网页中链 接的所有网页,然后再选择其中的一个链接网页,继 续抓取在此网页中链接的所有网页。 综合考虑以上几种策略,同时结合实时搜索特 点,分析得出采用以广度优先抓取策略为主、线性抓 取策略(根据IP地址递增抓取所有文档,与链接无 关)为辅的抓取策略,同时需要有针对性的对更新 频繁的网站实现重点搜索。对于某些不被引用的或 很少被引用的HTML文件,广度优先抓取策略可能 会遗漏这些孤立的信息源,可以用线性抓取策略作 [3]Sung Jin Kim,Sang Ho Lee.An Improved Computation of the Page Rank Algorithm[J].Soongsil University,2003. [4]周波.语言处理中专有名词的提取和识别[J].电子科技大学, 2006. [5]周倩.智能搜索技术[J].开源社区,2010. [6]刘艳敏.Web内容抽取及语义识别算法研究[J].燕山大学. 2006. 责任编辑:张禹 (上接第26页) (1)显示整个网络的拓扑图,能清楚的观测到 整个网络各个节点所处的位置和状态。 节点的设计方案,并对节点的硬件与软件平台作了 详细的论述,完成了BACnet/,6L0wPAN协议的设 计。最终将整个网络拓扑通过界面显示,并实现监 (2)识别各个节点的信息,对于每一个已连接 的节点都有身份识别的功能,能够判定一个节点是 否正确连接到整个传感器网络当中。 (3)提示或辨识网络状态和节点状态的信息。 当有节点出现问题,可以发出报警。 控功能。结果证明,系统运作正常。在后续的工作 中,将着力于研究在组建较大规模网络时,系统是否 依然能够稳定工作。 参考文献: [1]ANS//ASHARE standard 135-2004,BACnet—A data communication protocol for building automation and control networks[S].USA. 2004. (4)其他个性化的功能,如将更加完善的信息 展现在页面上方便浏览;提供一些测试功能,能够通 过自发指令模拟节点出现异常的演习行为;对于网 络处在不太稳定的环境当中时,可获取每个节点的 [2]谢希仁.计算机网络[M].5版.北京:电子工业出版社,2008. [3]IEEE 802.15 TG4【EB/OL].http://www.ieee802.org/15/pub/ TG4.htm】. 异常状态表。来针对某些不良节点进行更好的关注 和维护等。 [4]Zaeh Shelby,Carsten Bormann.6LoWPAN:The Wireless Embed— 如图5所示,在这个无线传感器网络当中模拟 了三类共8个节点,1个se/Ter节点,3个cluster— head节点和4个sensor节点。 检测结果表明,该平台能即时反映网络拓扑结 ded lntemet[M].Wiley,2010. [5]向浩,袁家斌.基于6LoWPAN的IPv6无线传感器网络[J].南 京理工大学学报:自然科学版,2010,34(1):57—6O. [6]孔晓芳.基于TinyOS无线传感器网络节点的研究[D],南开大 学,2008. 构,实现了良好的监控性能。 [7]Blip Tuton ̄[EB/OL].[201i~o3—25].http://docs.tinyos. net/tinywiki/index.php/BLIPTutoria1. _4 结束语 本文提出了一种基于6LoWPAN的无线传感器 责任编辑:张禹 

因篇幅问题不能全部显示,请点此查看更多更全内容