互联网舆情搜索分析系统的设计与实现
来源:世娱网
总第267期 计算机与数字工程 Vo1.40 No.1 2012年第1期 Computer&Digital Engineering 93 互联网舆情搜索分析系统的设计与实现 袁键田宏林张涛 (73610南京210018) 摘要文章描述了一个互联网舆情搜索分析系统的设计及实现方法。系统采用互联网搜索引擎(例如谷歌、百度、雅虎等)、RSS技 术、网页信息结构化抽取等技术实现了对互联网敏感信息发现以及网络舆情信息的搜索分析。 关键词网络舆情;系统设计;实现 中图分类号TP393 Design and Implementation of an Internet Public Sentiment Searching and Analysing System YUAN Jian TIAN Honglin ZHANG Tao (No.73610 Troops of PI A,Nanjing 210018) Abstract In this paper,design and implementation method for an Internet public sentiment searching and analysing system is depicted. By using Internet Search Engines(such as Google,Baidu,Yahoo and SO on),technologies of RSS and Web information extraction,this sys tern is built to search Internet sensitive information and analyse the Internet public sentiment. Key Words internet public sentiment,system design,implementation Claw Number TP393 1 引言 关键字监控模块 论坛监控模块 重点目标监控模块 l论坛源码采集l 网络舆情以“多元”为最大特点,信息的数量极为 广度采集 。深度采集 luRL去重 I● 博客更新发现I 庞大,且类别繁多,背景信息复杂|2]。而以人工方式甄别海 ● 量互联网舆情信息并加以统计分析无法满足现实的需要, URL去重 l垃圾信息过滤l IQQ空间更新发现l ● 由此必须采用网络爬虫(网络爬虫是一个自动提取网页的 关键信息提取 l关键信息提取l I QQ上线控测l ● ● 程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重 自动摘要 l舆情热点发现l f主机信息控测l 要组成E3])技术自动地对网络舆情信息进行采集、分析、整 ≤; { {≥ 理,才能达到全面及时掌握互联网舆情目的。 数据访问接口 据 本文基于网络爬虫技术,结合互联网搜索引擎、RSS、 { 网页信息结构化抽取等关键技术,研究设计了“互联网舆情 报文调阅模块 管理配置模块 统计和态势分析 任务管理 。 模块 . 搜索分析系统”,实现互联网网页信息的采集以及网络舆情 l信息提取 . 关键字库管理 l数据分类统计l 热点的发现与跟踪。 l目标判定 。 论坛地址库管理 l用户阅报统计l 2 系统组成 l信息处理 l l重点目标库管理l J重点目标统计I 系统采用B/S架构,硬件由浏览器端(用户端)、“爬虫” J信息上报 . .系统配置 l舆情态势分析l 服务器、WEB服务器、数据库服务器组成。软件功能模块 图1互联网舆情搜索分析系统结构图 包括:关键字监控模块、重点目标监控模块、论坛监控模块、 和深度搜索两种方式,对互联息进行搜索。广度搜索 报文调阅模块、管理配置模块、态势统计分析模块以及数据 即调用多个互联网搜索引擎(谷歌、百度、奇虎、有道、搜搜 存储模块构成。系统结构如图1所示。 等)对关键字进行搜索,同时对搜索结果进行整合、去重、分 2.1关键字监控模块 类,实现互联息搜索能力的最大化。深度搜索则利用 关键字监控模块采用搜索引擎技术自动搜索预设关键 开源爬虫程序一Nutch[43(基于Lucene的开源搜索引擎, 字,并对搜索结果进行URL去重、关键信息提取、人库等处 Lucene是Apache软件基金会jakarta项目的一个子项目, 理,达到监控互联网敏感信息的目的。系统定义广度搜索 提供了一个全方检索引擎的架构,提供了完整的查询引擎 *收稿日期:2011年7月10日,修回日期:2011年8月2O日 作者简介:袁键,男,硕士研究生,工程师,研究方向:网络安全。田宏林,男,高级工程师,研究方向:网络安全管理。张涛,男,硕士研 究生,工程师,研究方向:网络安全。 94 袁键等:互联网舆情搜索分析系统的设计与实现 第4O卷 和索引引擎 ]),对用户指定网站进行深度挖掘,搜索匹配 关键字的网页信息。 2.2重点目标监控模块 网敏感信息搜索能力的最大化。实现嵌入常用互联网搜索 引擎的关键是分析出搜索引擎的URI 特征,得出配置规 则。 重点目标监控主要通过系统预先设置的目标信息(例 如:网名、QQ号、Email、博客、QQ空问地址、上网IP地址 等等),自动探测其网络活动情况(例如:博客更新情况、QQ 以谷歌搜索引擎为例,分析其URI 特征: 谷歌搜索关键字“舆情系统”时,其URI 地址为: http f w w google.com.hk/search? hi=zh-CN&newwindow=1 空间更新情况、目标主机信息),实现对重要目标的自动跟 踪监控。系统利用RSS技术实现对重点目标博客及QQ 空间更新情况的跟踪,并通过整合Nmap[。]开源扫描工具 实现远程主机操作系统版本、开放端口等信息的获取。 2.3论坛监控模块 论坛监控模块自动获取互联网论坛发帖,解析发帖标 q一 E8 88%86%E6 83 85%E7% BB E7 BB%9F &start—O&sa—N&num一2O 1)关键字标签:q一关键字的URL编码,谷歌采用 UTF 8编码,因此,本例中: q一 E5 8D 97 E4 BA%AC E5 86 9B E5 8C%BA 题、作者、发布时间、点击量、回复量等信息要素,并进行 URI 去重、垃圾过滤、入库等处理,实现对互联网论坛的监 控。系统通过对发帖页面源码进行解析,获取帖子的点击 “一”右边部分即为关键字“舆情系统”的UTF 8编码。 2)每页显示的结果条数标签:num—N,表示每页显示 量、回复量及转贴数量等热度信息,进行热度计算,实现论 坛热点发现功能。热点发现算法采用文献[7]中提到的舆 情二次聚类模型,提高了舆情网页的相关度质量,使网络舆 情分析更为准确可靠。 2.4报文调阅模块 的搜索结果为N条,本例中num一2O,则每页显示的搜索 结果为2O条。 3)起始页码标签:start=P 1,表示显示所有搜索结果 的第P页,本例中start一0,则显示搜索结果的第1页。 4)时间标签:tbs,有以下规则: 报文调阅模块对数据库中存储的信息进行报文生成, 进而为用户提供提取、处理、上报等功能。 2.5态势统计分析模块 (1)tbs=rltm:1,表示为最新搜索结果; (2)tbs=qdr:d,表示为一天内最新搜索结果; (3)tbs=qdr:w,表示为一周内搜索结果; 态势统计分析模块为用户提供各类数据的统计图表及 报表输出功能(例如:重点目标地域分布统计、舆情分类统 (4)tbs=qdr:m,表示为一个月内搜索结果; (5)tbs qdr:Y,表示为一年内搜索结果; (6)tbs=0,表示时间不限。 计、关键字统计等),为分析互联网当前信息态势提供辅助。 2.6管理配置模块 管理配置模块主要提供关键字库、论坛解析规则知识 库、重点目标库等数据库的管理以及搜索引擎配置、网站爬 取深度、用户权限设置等系统配置功能。 各类搜索引擎配置规则表如表1所示。 3.2基于RSS技术的博客更新发现 RSS(Really Simple Syndication),就是网站内容摘要的聚 合。为了更好地推广自己、让浏览者及时快捷地了解信息更 3 关键技术 3.1 互联网搜索引擎综合利用 新,越来越多的网站提供网站信息订阅、定制服务,提供RSS 订阅服务便是其中的方法之一【 。目前,国内大多数博客 系统综合利用目前互联网中常用的搜索引擎(例如:谷 歌、百度、奇虎、有道、搜搜等)。分析了各种搜索引擎的技 (例如:新浪、搜狐、网易、腾讯等)都提供RSS源订阅。因此, 系统基于RSS技术实时解析博客源地址,提取博客信息(包 术特点、配置规则,在一个平台上,嵌人多个搜索引擎,并对 每个搜索引擎的返回结果进行整合、去重、分类,实现互联 谷歌(Google) 百度(Baidu) 括:博文标题、发表时间、摘要、阅读人数、回复人数等),实现 了对不同类型博客更新自动发现的通用方法。 有道(youdao) 搜搜(soso) 表1搜索引擎配置规则表 奇虎(qihoo) 搜索范围tbm:blg,搜索博客; tbm:frm,搜索论坛; tbm:nWS,搜索新闻。 area一1,搜索博客; area一2,搜索论坛; area一0,所有结果。 时间tbs=rltm:1,为最新搜索结lm=0,无时间; tmtype一一1,当日最lm=0,结果无时间限sd一0,搜索结果无时 果;lm一1,当天搜索结新搜索结果; 制; 间; tbs=qdr:d,一天内最新搜索果;tmtype一0,无时间限lm一1,当天搜索结sd=l,当天搜索结果; 结果;lm=7,最近一周内搜制; 果; sd=2,最近一周内搜 tbs=qdr:w,一周内搜索结果;索结果; tmtype=l,一周内搜lm=7,最近一周内搜索结果; tbs=qdr:m,一个月内搜索结lm一30,最近一个月索结果; 索结果; sd一3,最近一个月内 果; 内搜索结果; tmtype一2,一个月内lm一30,最近一个月搜索结果; tbs=qdr:y,一年内搜索结果;lm=360,一年内搜索搜索结果; 内搜索结果; sd=4,一年内搜索结 tbs=0,时间不限。 结果。tmtype 3,一年内搜lm=360,一年内搜索果。 索结果。 结果。 2012年第i期 计算机与数字工程 95 从本质上来讲,RSS是一种为了实现站点内容共享的 数据交换规范,该规范是XML的一个扩展子集[9]。由此, RSS博客解析接口的实现,关键在于提取RSS Feeds中节 点信息,即XMI 文档的解析。例如: <?xml version=”1.0”encoding=”gb2312”?> <rss version--”2.0”> <channel> <title>Cool Blog我的博客日志</title> <link>http://blog.sina.com.cn/eag1ehaoren</link> <description>博客日志系统</description> <language>zh—cn</language> <generator>Dreamweaver 8</generator> <item> <title>这是某篇日志的标题 </title> <link> http://blog.sina.com.cn/eaglehaoren/showlog.asp?b id=1 </link> <category>前台技术</category> <description>这篇日志的内容</description> <pubDate>2006—05—01 16:40:53</pubDate> </item> </channel> </rss> 其中元素<i蒯一 错一一tem>,用来表示某一篇文章(日志)的具 体信息。包括:子元素<t一一~itl一e>表示文章(日志)的标题;酣一 ~一 一~>一 ~一> 一一~< link>表示文章(日志)的链接地址;<category>表示文章 (日志)的所属分类;<description>表示文章(日志)的内容 一 一描述;<pubDate>表示文章(日志)的发布时间等等。首先 定义一个操作XML文档的接口“XmlOperater”,它定义了 XMI 文档的载入与解析两个方法。RSS博客对象,包括: 博客名、地址、日志列表、日志标题、链接、内容、发布时间等 属性,其UML图如图2所示。 图2 XMLOperater接口UMI 图 类RSSBlog继承XMLOperater接口,具体实现接口的 两个方法,其中方法parse,即为从XML文档中解析出博客 各要素信息的函数。 3.3基于D()M树的论坛信息提取方法 网页信息提取技术,包括基于归纳学习的信息提取、基 于HTMI 结构解析的信息提取、基于Web查询的信息提 一一 一一> 一一~ 转换生成的D()M树则 如图3所示。通过对IX)M 树的遍历,即可实现对页面 中结构化信息的提取。 互联网论坛种类繁多, 格式不一,个性化强,每一类 型论坛网页都对应一种结构 化信息提取规则,因此,要实 图3 DOM树 现各种论坛网页信息的提 取,关键是要建立与之相对应提取规则,即:正则表达式匹配规 则知识库,系统采用了文献[13]中提到的人工学习与自动学习 两种方式,不断补充和丰富网页信息提取的知识库。 4结语 本文综合利用互联网常用搜索引擎、RS8技术、网页信息 结构化抽取等技术,实现了互联息的采集、整合,为实行网 络舆情的搜索与分析,了解动向,提供了有效的技术手段。 然而,互联网舆情是一个较新的研究领域,实施有效全面的网 络舆隋信息挖掘还存在诸多难题,尤其是中文信息处理和文本 挖掘的热点发现算法还有待于进一步研究改进。 参考文献 [1]中国互联网网络信息中心.第28次中国互联网发展状况统计 报告[R].北京:CNNIC,201 1. China Internet Network Information Center.The 28th statisti— cal report on Intemet development in China[R].Beijing: CNNIC,2011. E2]何佳,周长胜,石显锋.网络舆情监控系统的实现方法_J].郑州 大学学报(理学版),2010,42(1):82. HE Jia,ZHOUChangsheng,SHIXianfne&ImplementationMethod for Network Public Opinion Monitoring Systme[J].Journal 0f Zhengzhou University(SCIENCE EDITION),2010,42(1):82. [3]PNKERTON B Finding what people want Experiences with 一96 袁键等:互联网舆情搜索分析系统的设计与实现 201l(3):140. 第4O卷 the web craw1er[c]//Proceedings of the Second World-Wide- Web conference.Chicago,Illinois,1994,10. [9]Steven Holzner.Secrets of RSS[M].New Jersey:Peachpit Press,June l7,2006:2-10. [4]Rohit Khare,Pk D,Doug Cutting,Kragen Sitaker,Adam 融fkirL Nuthc:A F1exible and Scalable Open-Source Web Search [1O]Srisuresh T,Egevang K.Traditional IP Network Address Translator(Traditional NAT)rS].RFC 3022,1995—12. EngineER].CommerceNet Labs Technical Report,2004. [5]陈建锋.Nutch的中文问题研究rJ].研究与开发,2009:61. CHEN Jianfeng.Research on of Chinese Problem in Nutch[J]. Research and development,2009:61. [11]Stenback J,Hegaret PL,Hors A L E ̄cument Object Model (D()M)Level 2 HTML Specification[EB/OL].http://www. w3.org/TR/2003/REC-IX)M-Level一2一HTMI,20030109/I ̄M2 HTMI html#html—ID-II76245063,2003. [6]Fyodor.Remote OS detection via TCP/IP Stack FingerPrinting [DB/OL].http://Ⅵr、vw.insecure.org/nmap/nmap-finger printing-article.txt,1998—10—18/1999—4—1O. [12]许文,都云程,李渝.一种通用HTML网页主题信息提取方法 [c]//第二十届全国计算机信息管理学术研讨会.北京,2006. XU Wen,DU Yuncheng,I I Yu.A general Approach to Ex— [7]王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].情报分 析与研究,2009(3):77. WANG Wei.XU Xin.Online public opinion hotspot detection tracting Imformation in HTML Pages[C]//Proceedings of the twentieth National Symposium on computer information man and analysis Based on Document Clustering[J].Information a— nalysis and research,2009(3):77. agement.Baijing,2006. [13]陈琼,苏文健.基于网页结构树的web信息抽取方法[J].计 算机工程,2005,31(2):55. CHEN Qiong,SU Wenj Jan. Web information extraction [8]张冬平,郭东辉.采用C#实现RSS订阅服务[J].计算机与现 代化,2011(3):140. ZHANG Dongping,GU0 Donghui.RSS subscription service Based on Web structure Tree[J].Computer Engineering, 2005,31(2):55. Based on C#Language[J].Computer and Modernization, 乖 坏 . 不 坏 不 尔 尔 尔 乖 尔 尔 !矫 ’不 ’钎 幼 (上接第86页) on the concept of life cost[J].East China Electric Power, 2008,36(10):87-89. 管理的安全保密措施主要有以下三个方面:1)网络数据传 输安全;2)数据存储安全;3)身份认证安全。 网络数据传输安全可通过相关部门的网络安全密码设 [5]罗云,张俊迈,吴奕亮.设备周期费用方法研究及其应用[M]. 北京:海洋出版社,1992. LU0 Yun,ZHANG Junmai。WU Yiliang.Equipment cycle 备构建安全通道对数据进行加密传输,传输的数据应使用 加密、数字证书签名等手段进行保护。装备信息管理模块 和装备管理数据库应加密存储。终端用户通过数字证书进 cost method and its application[M].Beijing:Ocean Press, 1992. 行身份认证并进行各项操作。各节点之间流转的数据信息 通过电子印章进行签名确认。 [63傅钰,陈煜,孙大伟,等.车辆装备全寿命周期信息管理研究 _J].军事交通学院学报,2010,12(4):42—45. FU Yu,CHEN Yu,SUN Dawei,et a1.Research on Life Cycle 6结语 论文提出了信息化条件下通信保密设备的全寿命管理 Information Management of Vehicle Equipment[J].Journal of Academy of military transportation,2010,12(4):42—45. [7]D.U.K ini.G loba1.Project Management—not Business as U— suM[J].Journal of Management in Engineering,2000,16(6): 29—33. 这一新课题,给出了通信保密设备全寿命管理的定义、构建 了管理模型,并对该模型的系统结构、模块功能与实现的关 键技术作了简要论述。该模型的设计为信息化条件下的新 [8]张国宗.大型公益建设项目全寿命集成管理模式研究[J].技术 型装备管理模式研究提供了重要的理论依据。 参考文献 经济与管理研究,2009(6):52—55. ZHANG Guozong The Pattern Studies of Entire Life-span Inte— grated-rization on Large ̄scale Public Good Construction Project[J]. Technical Economics and Management,2010(6):52—55. [1]王汉功,甘茂治,陈学楚,等.装备全系统全寿命管理[M].北 京:国防工业出版社,2003. WANG Hangong,GAN Maozhi,CHEN Xuecu,et a1.Sys— [9]吴亚雷.基于全寿期管理的概率风险评估在舰船装备研制风险 管理中的应用[J].舰船科学技术,2010,32(9):98—100. WU Yalei.The application of PLM based probabilistic risk as— tern-wide life-cycle management and equipment[M].Beijing: National Defense Industry Press,2003. sessment in risk management of naval ship R&DEJ].Ship Sci ence and Technology,2010,32(9):98—100. [23 KK Seo.Approximate estimation of the product life cycle cost using artificial necural networks in conceptual design[J].Ad— vanced Manufacturing Technology,2002,19:461—471. [1o]吴晓平,付钰.信息系统安全风险评估理论与方法[M].北京: 科学技术出版社,2011. WU Xiaoping.FU Yu.Theories and methods of the informa— E3]夏春水,魏丽娟.后勤装备更新的全寿命周期成本分析[J].科 技创业月刊,2010,12(3):12—23. XIA Chunshui,WEI Lijuan.Life cycle cost analysis for logisti— tion system security risk assessment[M].Beijing:Science and Technology Press,201 1. cal equipment updated[J].Monthly scientific and technological innovation,2010,12(3):12—23. [111陈伟超,敖瑁,马春波.基于误差分析的DCT域图像隐藏算法 _lJ].舰船电子工程,2010,30(8). CHEN Weichao,AO Jun,MA Chunbo.DCT Domain Image [4]薛兰玉.基于全寿命周期成本理念的检修成本建立方法[J].华 东电力,2008,36(10):87—89. XUE Lanyu.Method for establishing the cost of maintenance Hiding Algorithms asBed on Errors Analysis[J].Ship Elec— tronic Engineering,2010,30(8).