杨海光大数据环境下舆情监测分析平台分析.docx

上传人:b****2 文档编号:18571938 上传时间:2023-08-19 格式:DOCX 页数:21 大小:206.10KB
下载 相关 举报
杨海光大数据环境下舆情监测分析平台分析.docx_第1页
第1页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第2页
第2页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第3页
第3页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第4页
第4页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第5页
第5页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第6页
第6页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第7页
第7页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第8页
第8页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第9页
第9页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第10页
第10页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第11页
第11页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第12页
第12页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第13页
第13页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第14页
第14页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第15页
第15页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第16页
第16页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第17页
第17页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第18页
第18页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第19页
第19页 / 共21页
杨海光大数据环境下舆情监测分析平台分析.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

杨海光大数据环境下舆情监测分析平台分析.docx

《杨海光大数据环境下舆情监测分析平台分析.docx》由会员分享,可在线阅读,更多相关《杨海光大数据环境下舆情监测分析平台分析.docx(21页珍藏版)》请在冰点文库上搜索。

杨海光大数据环境下舆情监测分析平台分析.docx

杨海光大数据环境下舆情监测分析平台分析

大数据环境下舆情监测分析平台及关键技术研究

一、舆情监测分析平台国内外相关研究状况

1.舆情监测相关研究及概念

1.1论文统计

舆情的表现方式很多,随着时代的发展,媒体的种类越来越多,相应地舆情的载体也越来越广泛。

中国互联网络信息中心(CNNIC)发布的《第36次中国互联网络发展状况统计报告》[1]显示:

“截至2015年6月,中国网民规模达6.68亿,其中,手机网民规模5.94亿,互联网普及率达到48.8%。

网民上网设备中,手机使用率达88.9%,随着手机终端的大屏化和手机应用体验的不断提升,手机作为网民主要上网终端的趋势进一步明显。

随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。

网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步[2]。

可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器[3]。

通过对网络舆情的搜集与分析来判定民众的意愿[4],可以更好地进行决策,也可以更好地应对一些社会突发危机事件。

以“舆情”为关键词在CNKI中进行检索,检索时间为2005年1月1日-2016年2月20日,共检索到关于舆情研究的论文25396 篇(含博硕士论文)。

以“舆情监测”为主题检索,检索到论文11145篇,其中2005年只有1篇,2008年以后有关舆情监测研究受到重视,论文发表呈逐年上升趋势。

 

1.2相关概念

互联网技术带来了信息爆炸,消息源越来越多,传播更加快速,传播者的门槛越来越低,而内容创作门槛的降低直接导致了内容的贬值[5]。

传统报业只有在内容生产上体现高专业技能,才能在浩瀚的传播海洋中占据高位。

舆情监测,就是针对互联网上公众的言论和观点进行监视和预测的行为。

其概念强调两点[6]:

一是新闻事件、社会现象和社会问题主要通过互联网首发或传播,二是表达信念、态度、意见和情绪的公众主要是网民。

从上世纪九十年代开始,互联网的飞速发展已经深刻的改变了社会的信息传播渠道;如今普及的移动互联网更是彻底颠覆了传统的媒体和舆论观念,成就了一个“人人都是信息采集者、人人都是信息传播者”的新时代[7]。

这些言论主要为对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。

具体上讲,舆情监测是指整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦[8],实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握民众思想动态,做出正确舆论引导,提供分析依据[9]。

刘毅所著的《网络舆情研究概述》[10]是国内首部全面研究网络舆情的专著,对以后的学者研究网络舆情有很大的帮助。

由于传播媒介的特殊性,网络舆情有其特性[11],主要表现为:

它来源于互联网,来源比较广泛,而且是可以匿名的。

但正是可以匿名给一些人散布虚假信息以可乘之机,再加上网络舆情传播速度快,影响范围广,会对社会和民众心理产生干扰,影响人们的理性思维和正确判断,从而给社会稳定带来隐患[12]。

舆情监控系统是指通过对各种媒体信息汇集、分类、整合、筛选等技术处理,再形成对舆情热点、动态、网民意见等实时统计报表的软件工具。

人力、资金以及计算机软件系统等是构成网络舆情的监测体系的重要物质保障和技术保障[13]。

1.32015年度中国舆情监测行业市场份额总体状况分析

随着网络舆情的重要性越来越显,政府和企业对舆情监测的需求不断上升,这推动了舆情监测市场进入高速成长期。

看到这块不断做大的蛋糕,大批投机者纷纷进入舆情监测市场。

截止2014年底,全国共涌现出1000多家舆情软件企业,这个数量还在不断增长。

由于互联网应用形式日新月异,对信息采集和分析的要求越来越高,很多舆情软件产品无法给用户带来有效的监测效果。

目前,市面上95%以上的产品把精力花在界面展示上以迷惑客户,而对于具有难度的核心采集和分析技术缺乏热情去研究,导致行业还处在技术严重滞后、市场竞争激烈、质量良莠不齐的状况。

而中国网络舆情服务产业,却在此时刻又正经历着从无到有、从小到大、从粗放到规范的过程。

对于整个舆情监测市场规模,从舆情软件市场10亿元,到舆情信息服务业100亿元。

通过检索发现,舆情产业已经形成了政府、媒体、教育科研、软件和商业等五大背景的行业格局[14]。

党政机关依托党政宣传思想工作系统,下设职能部门或企事业舆情服务机构,开展舆情信息汇集和分析,汲取社情民意,为决策提供参考[15],具有很强的政策性和现实意义。

同时,媒体对业界政务舆情研究的成果大量涌现,为党政部门、企业和社会团体组建舆情监测队伍提供实用指南。

2.舆情监测技术综述

网络舆情监测的方式主要有人工方式和自动方式[16]。

人工方式主要是利用搜索引擎对网站进行人工监测,有信息量大、不能实时监测的局限性[17],因此研究网络舆情自动监测是非常必要的。

从技术角度来看,网络舆情监测系统是众多技术结合的成果,基于内容挖掘的网络舆情信息分析[18],涉及较多与自然语言处理相关的研究子领域。

刘毅提出了内容分析法在网络舆情分析中的应用[19],开拓了内容分析在网络舆情监测中的先河。

在网络舆情监测处理过程中,一般包含网络舆情信息提取[20]、舆情自动分类、话题识别与跟踪、文本情感分析等步骤。

下面将分别介绍网络舆情监测中各关键技术的研究现状。

2.1舆情信息提取

理论上讲,网络舆情采集信息源主要来自动态网页,所以在信息采集中,主要采用网络爬虫(WebCrawler)和网页清洗(WebPageCleaning)等技术。

龚海军提出采用正则表达式匹配和MD5加密技术来解决舆情采集问题[21],但他提出的这种方法只适合主题网络爬虫。

郭岩等学者通过运用SrcRank算法来对网络舆情信息源进行重要性排名,在此基础上构建了包含信息源自身的表现力以及网民对事件反馈的舆情信息源影响力评估体系[22]。

目前网络舆情信息采集一般支持自定义URL的数据抓取,但是不能很好实现对网络上所存在的各种类型文件的采集和分析,乃至整个网络的信息采集和分析。

黄晓斌等采用了TextAnalystV2.3文本挖掘软件对热门舆情信息进行搜集[23],但是缺陷是只能针对英文文本进行挖掘。

2.2文本挖掘处理

在进入正式的文本挖掘处理阶段前,要对文本进行规范化预处理,把HTML文档及XML文档进行格式统一化[24]。

此外还要判断采集到的网页是否有冗余,这样能够提高网络舆情处理的效率与准确度。

鉴于网络舆情数据多为非结构化以及半结构化,给预处理增加了一定的难度。

陈京民等人提出了一种基于XQuery的网络舆情关联挖掘方法,在一定程度上提高了挖掘速度[25]。

判断页面内容与主题的相关性主要是采用基于关键词的模型匹配方法;信息主题过滤和聚合主要采用布尔模型和向量空间模型来建立用户索引,然后对语义信息匹配度进行计算。

2.3舆情分类

舆情分类是将收集的舆情进行自动分类,主要是运用自然语言处理中的文本分类和文本聚类等技术。

Web文本自动分类方法大致可以分为基于规则的方法和基于统计的方法[26]。

基于规则的方法是先由专家为每个类别定义一些规则,然后自动把符合规则的文档划分到相应的类别中;基于统计的方法是在训练、学习的基础上形成分类模型。

夏华林等提出了基于规则和统计的突发事件多层次分类,即先形成规则库,利用朴素贝叶斯等分类方法将类别细分[27]。

LiuH等提出了基于K-means聚类算法的网络舆情监测[28],将文本挖掘的信息分成不同的簇,每个中心是按时间序列发掘的热点。

2.4文本表示与主题发现

主题检测与追踪发现是舆情分析的重要技术手段,同时也是自然语言处理和信息检索领域的热点研究课题[29]。

随着信息的快速增长,通过搜索引擎查找特定信息成为获取主题信息的主要方法之一。

目前舆情主题识别技术,正在从传统的线性文本聚类分析,向更注重内容特征的话题标引统计识别技术发展。

蒋凡等通过计算词语在回帖传播链上的影响力,提出综合TF-IDF和词语影响力因子选取特征项以聚类以发现具有影响力的主题。

吴晓元提出面向BBS的层次化关键词抽取方案,提出父关键词和子关键词的概念,结合机器学习的方法进行关键词抽取[30]。

黄伟等人将本体论和语义计算的技术应用于网络舆情群体事件,并验证具有很好的效果。

赵琦等人对于主题发现进行综述,包括主题发现的核心技术以及典型应用系统,并认为一般的主题发现包括主题聚类、主题描述构建以及主题可视化工作。

2.5舆情意见挖掘和观点分析

舆情数据挖掘和观点分析的研究大多数是借鉴电子商务领域中用户对商品意见的挖掘方法[31]。

意见挖掘方法主要是:

通过所挖掘领域本体的构建对所要挖掘的文本进行主题及观点提取;词语的情感倾向通过构建极性词典来进行分析,最终通过多种途径挖掘出文本的情感倾向性[32]。

对文本内容进行分析和自动计算,能识别出文本所包含的情感趋向(开心或痛苦)、观点趋向(赞同或反对),甚至情感随时间的演化规律,这就是所谓的文本情感分析技术[33]。

国内对意见挖掘研究大多集中在通过文本进行意见倾向分析,现有文本倾向性分析有简单统计方法、机器学习方法和细粒度情感相关性方法3种。

段建勇提出了基于句法语义的网络舆论情感倾向性评价技术[34],引入了基于句法语义的情感倾向测评算法,基本思路是以文本中的句子为粒度进行情感分析,在分词的基础上先抽取句子的主干,从中取得句子模型,并实现动态扩展句法树,通过语句分析从而得到整个文本的情感。

3.舆情监测系统的应用

3.1数据挖掘技术的应用

数据挖掘技术的现实应用比较广泛,尤其是在商业中,刘辉等人[35]总结了数据挖掘技术的应用,尤其是在证券行业中的应用。

数据挖掘技术在网络监测中的应用。

这两个单位已初步形成了一套较完整的网络舆情监测理论体系、工作方法、作业流程和应用技术,可以对网络舆情主要载体进行24小时监测,并进行专业的统计和分析,形成监测分析研究报告等成果。

3.2实践上的意义

正确分析公众在大数据的海量信息,对于党和政府及时掌握民情民意,进行科学决策,实施正确的舆论导向具有重要意义,对于构建和谐社会是十分必要的。

但是如何才能从众多信息中及时发现虚假信息、不利于社会稳定的危害信息呢?

数据挖掘技术的应用将给我们提供有效手段。

(1)能够迅速发现敏感话题

网络舆情分析系统主要着眼于网络中的负面信息,应用数据挖掘技术能有效地监测并及时发现负面信息,为有关单位在最短时间内加以控制提供支持。

(2)积极传播正面信息

虽然在网络中信息的发布者是可以匿名的,但是公众的群体效应依然存在,比如群体的羊群效应、沉默的螺旋效应等,网民之间能够互相影响。

一般认为羊群行为是指在信息不对称的环境下,某一行为主体因受他人行为的影响而忽视自己的私人信息,进而采取模仿他人行动的决策行为。

由于羊群行为具有传染性,当这种决策行为存在于多个行为主体之间时就产生羊群效应[36]。

4.目前舆情监测系统需要完善改进的地方

4.1主要依靠人工来完成,监测导致信息收集反馈不及时

目前大部分部门和企业的舆情监测和管理工作主要靠人工来完成。

这样负责网络舆情监测任务的部门和人员承受着巨大的工作压力。

人工进行舆情监测还会遇到很多问题:

√舆情收集不全面

√舆情发现不及时

√舆情分析不准确

√信息利用不便利

因此,经常出现涉及“与我相关”的舆情信息已经在网上快速传播,一些非理性和不切实际的信息传播开来,造成了很坏的社会影响,或者通过其他部门得到反馈[37],甚至领导都知道了,但是我们负责舆情监测的人员却毫不知情,失去了第一时间获取和掌握舆情,进而进行及时处理的时机。

在新的互联网形势下,面对这样的困扰,需要借助互联网舆情监测工具,及时监测、汇集、研判网上舆情,引导舆论方向,化解危机舆论。

跟踪事态发展,及时向有关部门通报,快速应对处理,变被动为主动,使网络舆情成为领导和相关部门决策的重要依据[38],利用舆情监测系统平台,配合相应的舆情工作的开展。

4.2国内外所有的舆情监测分析平台都是基于网络

但是,通过调查发现,国内外所有的舆情监测分析平台都是基于网络,不管是基于新闻监测(新闻发布综合门户网站、官方网站或行业门户网站),平面监测(报纸的网络电子版),还是BBS论坛、博客、新闻跟贴、转贴的社区监测,还是微博监测,或则是针对视频网站视频监测等等,信息源都来源网络,虽然网络信息多,但是针对部分来着传统媒体的信息,纸媒或电视或广播或户外等,它相对还是转载和发布还是比较滞后的,特别对于没有电子版的报纸和电视媒体来说,有些网络媒体发布的信息并不是全面的,甚至是滞后的信息,只有关注的信息才会被人在网络上及时发布,但是不是热门话题却也是不会在网络上发布,但是等发酵到一定程度才有能变成热点被网络关注,所以基于网络舆情监测平台相对有一定的局限性,并不能反映大数据的全面性、及时性和准确性。

全媒体舆情监测

综上的局限性给全媒体舆情监测分析平台带来了发展的机遇,全媒体舆情监测可以对网络、电视、广播、平面(报纸&杂志—纸介)、手机、户外、国外媒体进行全方位、立体智能监测,在信息全面性、及时性和权威性方面充分弥补了传统的网络舆情分析平台发展的不足,为正确建立全面、及时、准确的大数据舆情分析平台奠定了基础。

4.3当前缺少有效的舆情分析手段

舆情事件发生以后,我们也缺乏有效的舆情分析手段,无法提供定性定量的数据用于舆情分析研判;目前完全靠人工进行舆情信息的收集和上报,费时费力效果不好,也无法提供更加有用的舆情统计分析数据[39],为领导提供辅助决策服务。

5业内人士新观点

在舆情监测核心技术的自主创新发展理论研究方面,近年来得到了国内一些学者的关注,全媒体舆情监测专家王剑波认为大数据舆情分析平台竞争力应该体现在核心技术,舆情分析应充分实现全面、快速、准确、及时,在舆情分析核心技术特点、构造以及与创新能力之间的互动机制基础上,为政府及企业提供全面的舆情分析平台。

二、重点难点和创新之处

(1)重点难点

1全媒体/跨媒体数据信息的系统自动采集及舆情的智能识别

舆情信息分析的数据来源决定了思维的高度及决策是否全面、准确,因此对信息来源渠道的是否全面,成为分析一个舆情监测分析平台是否好坏的评分依据,监测渠道单一,那只能反映该渠道信息的一个传播情况及信息影响力度,但不能反映整个社会各界对舆情关注情况及舆情在各种渠道的反馈情况。

网络舆情信息软件漏检是顽疾

其中,网络舆情信息是采用自动信息采集功能。

现有的信息采集技术主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。

目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。

舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务。

然而随着网络安全技术的提升,信息源服务商为防止自己服务器DOS拒绝服务式攻击导致他们服务器相应慢及死机,对防止网络蜘蛛或网络爬虫不间断采集作为信息保护及服务性能提升作为核心目标,他们也使出浑身解数:

采购防火墙、定期更换链接地址、内外链接不规律切换、页面源码加密、编码技术升级及无规律进行站内互换、网站动态验证等等,这种技术的不确定性及动态更新性往往导致传统的舆情软件需要不断的维护与升级来应对这种动态幻化的互联网海量信息,一旦没有更新不及时,往往会导致配置好的数据源无法采集与识别,这也是舆情软件信息漏检及全面的顽疾所在,也是那种只购买软件而不购买服务的最终用户在使用过程中使用的越久,对这种舆情软件越丧失信心,互联网舆情已经火热朝天,而自己的舆情软件却像沉睡的死猪,直到被上级主管及领导严厉批评舆情工作的失职而最终导致舆情软件生命周期的终结,从此又恢复到了原始社会的工作模式:

组建人工舆情团队,开始新的人工信息的读取、采集与分析,效率的提升异常的缓慢会导致加班就像家常便饭,对舆情工作厌恶与反感,会带回到工作中。

而解决舆情软件在这方面的缺陷及提升用户的依赖性,应当是解决问题的重点目标,在应对防火墙、定期更换链接地址、内外链接不规律切换、页面源码加密、编码技术升级及无规律进行站内互换、网站动态验证等技术屏障中,再结合国内外各种先进技术外,采取人工+智能的模式定期改变舆情软件采集信息的规则、改变采集时间间隔和频率、人工定期识别编码、人工定期识别信息源内外链接的模式、人工复查信息源验证码的技术与技术更新,做到系统数据自动采集和信息安全攻防一对一识破及成功采集正确的信息,从而人工一对一的攻防与识别过程中再度终结规律、发现规律,从而再度完善舆情软件系统,为打造全智能舆情软件机器人奠定基础,也是通过这种人工智能对舆情软件机器人的不断完善[40],来更加完善未来舆情软件的技术规范,为同行在舆情信息的抓取提供技术性突破,节约同行在抓取方面的投入,通过技术专利输出,大大提升国内舆情软件行业舆情的监测及信息识别能力。

电视和广播信息监测存难点

再者,电视和广播信息监测也是行业的难点和重点,传统的舆情监测系统电视信息基本都是来自视频网站对电视的转载,覆盖面有限,客户需求千种万变,而此类的视频网站大部分都是个人爱好者或具有商业性质公司的人群上传至视频网站,他们都是目的性和范围都比较单一,所以以视频网站的电视、广播监测来以偏盖全、混淆视听,往往会给不了解舆情行业的人士带来片面的理解,以为天下太平,却打开电视已经是家喻户晓,网络舆情代替不了传统媒体,也撼动不了传统媒体在社会中传播的影响力及传播力,越是高层社会,越注重传统媒体的形象,越注重传统媒体在其发展中所占的分量。

 

平面媒体也类似,它有它赖以生存的土壤和依赖的客户群体,任何放弃传统纸媒监测的舆情监测系统都是不全面、不权威、不准确的。

全媒体舆情监测的优势

因此,全媒体舆情监测颠覆了传统网络舆情的概念及监测渠道,弥补了网络舆情监测的片面性及信息延迟性。

全媒体舆情监测对收集到的信息进行预处理,如格式转换、数据清理,数据统计。

对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。

对于论坛BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。

条件允许时,可直接针对服务器的数据库进行操作。

东方剪报研究团队通过对国内外媒体数据监测的分析与研究,发现国内现有的媒体监测数据都源于网络,对于全媒体数据而言这里只占25-30%,而70-75%的信息,例如平面媒体出于对发行量的考虑,大量信息不会出现在网络版上面;再如大量的广播电视和报刊广告,因为大量占有空间不会长期存在网络上面。

因此,常常出现很多想要的信息在网络上面查询不到,影响到信息的全面性、完整性,从而影响决策的正确性。

这是因特网信息长期以来没有解决,也不可能解决的问题。

因此,需要有一个独立于因特网之外的非网络的人工信息采集渠道和数据编辑统筹与分析系统。

比如:

与在全国各地有人工采集系统,各地图书馆合作系统、集报剪报俱乐部系统,通过采集、剪辑、拍摄、录制等手段大量获取源媒体信息,原始信息,解决因特网难以解决的个性化信息查询问题,率先实现了网络、电视、广播、户外、手机、户外,全方位、多渠道的立体舆情监测系统。

 

 

2全媒体/跨媒体多渠道信息融合与分析

目前国内大多数网络舆情信息监测系统,都是基于客户所需要的需求,定制相关关键词,通过各种技术抓取和人工生产各种监测新闻数据,都是基于信息本身的。

而没有一个是基于媒体分析的,多层次、多角度对媒体数据的内容、语义、描述进行分析,建立媒体分析模型,研究媒体数据的概念表示、事件提取、多角度语义表述、结构组织、内容分析的多层次结构化描述方法,建立超规模媒体内容深度分析的概念模型,为媒体大数据的内容理解奠定基础。

多个渠道采集的信息由于行业及传播渠道的局限性,传播的信息方式各不相同,他们记录和表现的形式更不一样,如此多的渠道、如此多的信息表现形式,因此格式化、标准化各渠道信息显得尤为重要,同时也为全媒体数据分析奠定了基础。

对现实中出现的各种网络舆论,社会管理者应能做出及时反馈,防微杜渐,防患于未然。

因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。

因此研发一套自动化的网络舆情分析系统显得尤为重要。

这样的系统核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。

这些技术一向是国内外信息工作者关注的领域。

其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间.

建立基于媒体的数据分析模型、媒体大数据结构和内容分析的多层次描述方法,实现了超大规模媒体数据内概念分析模型,建立大数据为基础全媒体舆情监测分析系统。

3建立跨媒体的内容深度分析的概念模型

目前国内大多数网络舆情信息监测系统,都是基于客户所需要的需求,定制相关关键词,通过各种技术抓取和人工生产各种监测新闻数据,都是基于信息本身的。

而没有一个是基于媒体分析的,多层次、多角度对媒体数据的内容、语义、描述进行分析,建立媒体分析模型,研究媒体数据的概念表示、事件提取、多角度语义表述、结构组织、内容分析的多层次结构化描述方法,建立超规模媒体内容深度分析的概念模型,为媒体大数据的内容理解奠定基础。

4大数据环境下全媒体/跨媒体数据信息的危机预警与自动预测

危机预警系统,是指实现危机预警功能的系统,即实现预测和报警等功能的系统。

危机预警系统大体上可以分为两大类:

电子预警系统和指标性危机预警系统.

(一)电子预警系统

电子预警系统主要是由电子装置进行信息采集、信息分析、决策和发出警报的,电子预警系统的运作过程基本上依赖于电子装置,是一种自动的预警系统。

(二)指标性危机预警系统

指标性危机预警系统是指对组织中那些不容易根据获得的信息直接判断危机发生与否的危机,将信息转化为一系列较好识别的指标,然后根据指标的异常进行危机预警的系统-这种危机一般无法根据直接获得的信息判断危机发生与否,需要对信息进行加工,使原始信息转化为一系列的指标,然后综合各种指标以判断危机发生与否:

而且,判断也不是直接的,需要有一定的知识和经验,还要结合组织的内外环境,才能做出较为准确的判断,并决定是否发出警报。

舆情等数据分析机构从互联网浩如烟海的数据中挖掘信息、判断趋势、提高效益已有实际应用。

在美国中央情报局,情报人员通过抓取海量数据来追踪恐怖分子和监控社会情绪,首席技术官格斯·汉特称,在“阿拉伯之春”中,大数据分析可以了解多少人和哪些人正在从温和立场变得更为激进,并“算出”谁可能会采取对某些人有害的行动

因此,危机预警系统的要求:

(1)危机预警系统要能采集到危机预警所需要的信息。

(2)危机预警系统能准确地预警危机,既不会对不是危机发生的信号发出错误的预警,也不会忽视危机发生的征兆。

(3)危机警报能被应该接受警报的人接收到,并能被警报的接受者正确地理解。

(4)各种危机警报之间不会相互干扰而影响危机警报的接收。

(5)危机预警系统的建立和使用要经济、合理。

(二)全媒体舆情监测的创新之处

在舆情监测分析系统核心技术自主创新发展研究方面,东方剪报研究团队突破传统思维,摆脱行业束缚,开创了跨媒体的舆情监测分析平台,实现了网络、平面、电视、广播、手机、户外全媒体数据监测服务,多渠道、多方法的智能监测分析与一身的专业服务监测分析平台。

电视信息的信息采样与自动识别、纸介(报纸和杂志)信息的识别、转化与上传、户外信息的传播内容与整合,无疑为全媒体数据分析奠定了基础。

通过该系统,最终实现对全媒体采集到的数据进行多层次、多角度的分析,分析不同数据的表现形式(是以什么形式发布的:

网络(新闻、微博、博客、社区还是其他)、平媒(报刊还是

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2