高校校园网信息舆情监控系统的研究
作者:张玉芬 马春光 胡晓旭
来源:《经济研究导刊》2015年第17期
摘 要:随着互联网的飞速发展,多数人已经把它作为获取信息的首选途径。与此同时,少数不法分子开始借助互联网与政府为敌,极大地危害了社会的安定。尤其是校园网,网民都是些思想还未完全成熟的学生,受到蛊惑和怂恿的概率极高,目前部分高校对此已经高度重视。基于此,给出了校园网网络舆情监控系统的架构设计方案,具体描述了网页信息源设定、网页信息采集、舆情分析、舆情处理等组成模块的功能及关键技术,为理解和构建校园网信息舆情监控系统提供参考。
关键词:网络舆情;监控系统;高校校园 引言
我国目前已有5.91亿网民,而在这众多网民中学生恰恰是数量最大的一个群体,占比达到了26.8%。计算机网络的进一步普及,一方面,虽然给众多网民的生活和工作带来非常大的便利;但另一方面,与网络相关的漏洞问题和黑客攻击问题,也给网民造成了一定的损失。现在流行的网络交互平台,如博客、论坛、微博、即时通信软件、QQ群、微信等,其功能主要是为人民大众提供表达个人观点和抒发个人情感的公共虚拟场所。但是,一小撮恶意分子却利用它们对民众进行煽风点火,刺激负面情绪的萌生和爆发。校园网的公共安全就显得更加重要,因为它面向的是高校人数众多的学生网民,而且学生们正处于思想还未完全成熟,情绪波动大,极易受到网络负面新闻的影响。所以,在网络盛行的当今时代,为了让高等教育更好地开花结果,必须尽可能的监控高校学生上网的渠道,加以网络教育,必要时进行网络引导。互联网上的网络舆情信息是关乎社会与校园安全稳定的一个重要因素,所以网络舆论监控和分析成为研究的热点问题。
一、国内外网络舆情的现状
网络舆情指的是公众通过有线或者无线这样的信息网络,针对公共事务和现象发表的个人意见和建议,隐藏在海量的网民言论中。由于网络舆情具有海量和隐蔽的特征,如果单单依靠人工判读这种传统的方式来分析的话,效率势必极其低下,并且最为重要的目标是舆情的统计特征将很难从中获知,特别是如果采用传统的人工方法来跟踪重点网民的话,更加是不现实的。但是,紧随着计算机和互联网技术的迅猛发展,可以方便地采用计算机技术对网络言论进行自动地提取、分析和处理,进而监控和引导网络舆情,这已经成为当前首选的有效且可行的方法[1]。
龙源期刊网 http://www.qikan.com.cn
国外的一些市场机制已然趋于成熟的发达国家,更多倡导通过市场自动调节机制和行业的自律对网络舆情进行管理。例如,加拿大政府把网络舆情分为攻击性信息和非法信息两类,前者需要通过加强行业和用户的自律性;与此同时,辅以网络知识教育和自律性道德规范的制约来解决,并且已经取得了良好的管理效果。而后者则是以法律为依据,按法律进行制裁,他们实行的是“自我规制”制度。目前,IBM公司已经推出了采用先进的语义和文本分析技术的网络舆论监控方面的综合解决方案。该方案对如下网络应用:BLOG、Wiki、BBS论坛、新闻组、读者评论、网摘等。该方案从监控技术上说,就属于比较成熟的。而在我们国家,目前主要是研究对舆论信息的监控和引导、如何进行组织管理和法律保护以及关键技术的算法实现等相关内容[2]。
二、校园网信息舆情监控系统的组成 1.功能介绍
该系统能够对高校学生们常常访问的校园网网站,如学校主页、校内各级下属学院和各其他部门的主页、学校的BBS等的网页信息自动进行抓取、分类和聚类分析、热点和焦点的统计、跟踪等,最终客观而全面地把舆情结果以报告的形式提供出来,从中可以洞悉学生们的热点和敏点话题,及时发现有害的舆情导向信息,为校方有效疏通学生不良情绪,作出科学引导提供有效依据,并且可以通过信息群发技术进行积极地舆情引导。 2.总体框架
通过对系统功能和业务流程的分析得知,该系统可划分为网页信息源设定、网页信息采集模块、舆情分析模块和舆情处理模块这四个核心部分,下图描述了该系统的组成结构。
图1 高校校园网信息舆情监控系统的组成结构 3.网页信息源设定
该部分是整个校园网信息舆情监控系统的数据来源。按照功能需求,该系统既可以采集来自论坛、博客、综合性网站等的网页信息,又可以采集用户自定义的关注网站。所以,设置的网页信息来源主要有两种,一是常见的搜索引擎,二是用户自己定义的需要注意的网址列表,可以存放在文本文件中。互联网Web页面中包含着非常多的数据信息,可以把它看做是一个大的数据库,正是我们所需要的信息来源。 4.网页信息采集模块
网页信息采集模块可以根据事先设置好的关键字,从搜索引擎和自定义网址列表所对应的网站中连续地采集网页信息,并对信息进行预处理操作,处理之后将有效数据存放到舆情数
龙源期刊网 http://www.qikan.com.cn
据库中。由于网页的更新较为频繁,增长速度又特别快,而且页面中多是些结构不规整的数据,所以,对网页进行信息采集是十分复杂的,下面将列出该模块实现的主要关键技术。 (1)抓取网页。可以利用搜索引擎所特有的网络爬虫程序,顺着超链接进行一级一级地抓取网页。经常被人们使用的有两种抓取网页的思路,分别是深度优先和宽度优先遍历策略。 (2)处理网页。主要包括提取关键内容、对数据进行清理和对内容进行去重。提取内容和清理数据过程指的是,首先,当网页抓取以后,先要把网页上与文本没有任何关系的内容清理掉;然后,提取网页的内容和标题;最后,采用人工和机器学习的方式来设定抽取模板,由于不同类型的网页,需要抽取的内容不同。内容去重涉及到自然语言的处理,具体过程是,先过滤掉没有意义或者内容有重复的网页,然后再对文本进行分词处理,可以使用以词典为基础、规则与统计相结合的分词方法进行。 5.网页数据库
采集所得来的网页数据可以利用企业级数据库进行存储,这样数据库管理系统自身具备的功能可被充分利用,能够非常方便地按照用户的需求对数据库中的数据进行操作,同时成为舆情分析模块的数据来源。 6.舆情分析模块
舆情分析模块是整个舆情系统的重中之重,它建立在网页信息采集模块和网页数据库的基础之上,主要功能包括以下三方面。一是对舆情观点进行倾向性分析。主要是运用人工智能和模糊匹配的方式,通过对数据信息进行概念化,进而把用户的观点分析出来,包括情感、喜好、态度等非内容的信息,从而明确用户的意图。二是对热点和焦点事件的识别功能。焦点事件是指某一舆情信息在某一段时间内被媒体播出或者刊登次数较多;热点事件是指某一舆情信息在某一段时间内更多地被关注或者被集中地关注,可以采用相关网页数量来测量,也即关注度。三是对焦点事件和重点网民的跟踪,最终形成关联分析和趋势分析。该模块主要由文本分类、文本聚类、话题识别和跟踪处理等部分组成,关键技术主要是以上各部分所涉及的算法。 7.舆情处理模块
舆情处理是在舆情分析之后,需要根据用户的需求做出相应的处理报告,为相关部门提供决策支持。该模块的主要功能包括:一是统计和上报舆情信息的分析结果;二是对舆情进行引导。
(1)统计、上报功能。为了更清晰地给用户提供舆情分析的统计结果,系统提供了多种形式,如分类查看、热点统计、焦点跟踪、重点网民跟踪等,尤其是系统能够预测分析重点事件的未来发展趋势,还能够根据设置的特征信息对焦点事件和重点网民自动识别,这些分析和统计得出的结果将会自动形成报表。其中,分类查看是能够以分类形式来显示最新搜索到的网页信息;热点统计指的是能够把网络上用户关心最多的网页一一列举出来;焦点事件定义为众多
龙源期刊网 http://www.qikan.com.cn
网民较为关心的事件,并且对其进行跟踪,系统从而能够查找出与此事件有关的全部网页信息,这便是焦点跟踪[3]。跟踪重点网民是对用户最为感兴趣的重点网民进行实时跟踪,并且能够根据时间段设置来列出该重点网民的所有言论信息。
(2)舆情引导功能。采用基于信息群发的推送技术对舆情进行引导,该方法指的是利用信息群发软件,通过论坛,即时通讯或电子邮件等方式,大量地向用户发送网页信息或手机短信,这些用户包括互联网用户或者移动通信网的用户等[4]。为了达到引导网络舆情的目的,对于那些焦点事件,需要用户进行正确引导,可以将事先设定的发言内容,使用信息群发技术,大批量地发送到聊天群或者主流的论坛等网站,这种引导方法与传统舆情引导方式(社会管理者主动干预互联网)相比,更加隐蔽、更加柔和,成本也更加低廉,最为重要的是此种方法信息宣传效果更加好一些,并且不容易被网民察觉。 结语
目前,网络舆情监控是一个比较新的研究领域,它不但能够促进互联网舆情信息挖掘理论的进步,而且能够解决提取网页中有用信息的实现技术上的难题,进而及时地对校园以及社会舆情的变化情况作出快速的响应。本文对校园网信息舆情监控系统的功能和规划设计过程做了初步的研究,主要是利用科学的手段和先进的技术对网页信息进行采集、分析和处理,来实现对高校校园网络信息舆情的动态关注和积极引导,为高校的相关部门提供良好的决策支持。 参考文献:
[1] ;蔡洪民,等.校园网舆情监控系统的设计与实现[J].计算机安全,2013,(2):51-54. [2] ;何佳,等.网络舆情监控系统的实现方法[J].郑州大学学报:理学版,2010,(3),42卷第1期:82-85.
[3] ;刘磊.网络舆情分析系统研究[J].情报探索,2010,(10):106-108. [4] ;虞欣平,等.一种实用的网络舆情监控系统[J].福建电脑,2011,(6).
龙源期刊网 http://www.qikan.com.cn
因篇幅问题不能全部显示,请点此查看更多更全内容