舆情卫士监测平台技术方案.docx

上传人:b****8 文档编号:9832118 上传时间:2023-05-21 格式:DOCX 页数:19 大小:403.50KB
下载 相关 举报
舆情卫士监测平台技术方案.docx_第1页
第1页 / 共19页
舆情卫士监测平台技术方案.docx_第2页
第2页 / 共19页
舆情卫士监测平台技术方案.docx_第3页
第3页 / 共19页
舆情卫士监测平台技术方案.docx_第4页
第4页 / 共19页
舆情卫士监测平台技术方案.docx_第5页
第5页 / 共19页
舆情卫士监测平台技术方案.docx_第6页
第6页 / 共19页
舆情卫士监测平台技术方案.docx_第7页
第7页 / 共19页
舆情卫士监测平台技术方案.docx_第8页
第8页 / 共19页
舆情卫士监测平台技术方案.docx_第9页
第9页 / 共19页
舆情卫士监测平台技术方案.docx_第10页
第10页 / 共19页
舆情卫士监测平台技术方案.docx_第11页
第11页 / 共19页
舆情卫士监测平台技术方案.docx_第12页
第12页 / 共19页
舆情卫士监测平台技术方案.docx_第13页
第13页 / 共19页
舆情卫士监测平台技术方案.docx_第14页
第14页 / 共19页
舆情卫士监测平台技术方案.docx_第15页
第15页 / 共19页
舆情卫士监测平台技术方案.docx_第16页
第16页 / 共19页
舆情卫士监测平台技术方案.docx_第17页
第17页 / 共19页
舆情卫士监测平台技术方案.docx_第18页
第18页 / 共19页
舆情卫士监测平台技术方案.docx_第19页
第19页 / 共19页
亲,该文档总共19页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

舆情卫士监测平台技术方案.docx

《舆情卫士监测平台技术方案.docx》由会员分享,可在线阅读,更多相关《舆情卫士监测平台技术方案.docx(19页珍藏版)》请在冰点文库上搜索。

舆情卫士监测平台技术方案.docx

舆情卫士监测平台技术方案

 

舆情卫士监测系统

技术方案

 

中国移动通信集团安徽省有限公司安庆分公司

2017年5月

总体需求

1.1建设目标

建设****舆情监测系统,其实质在于利用信息化技术,建立专业的网络信息监测与管理平台,及时、全面、准确收集、分析互联网上一切与教育领域所相关的信息,进而做好研判和处置工作,健全制度、完善机制,及时了解把握情况,准确判断舆情发展趋势,掌握工作的主动权。

建设****舆网络舆情监测系统,以达到舆情监测与分析应对工作全面覆盖、有序管理、多方联动的效果。

提高师范大学网络舆情突发事件的应急处置水平,明确网络舆情突发事件预防、预警、应对的程序,使得可及时、准确发布有关信息,澄清事实,引导舆论,妥善处理。

1.2功能需求

大数据时代,面对海量的互联网数据,要充分挖掘并分析出有用的舆情信息,单纯靠小规模的舆情系统软件已不足以满足要求。

必须要能够利用大数据技术,建立起海量数据中心级别的舆情数据中心,才可以支撑越来越庞大的舆情管理与应用。

数据中心建设应广泛采用集群应用、分布式数据存储、分布式计算等云技术。

可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现。

1.2.1互联网海量信息采集子系统

网络媒体形式全,可以对各类网络媒体进行监测:

1)门户网站:

系统可采集以媒体发布为主的新闻网站的信息;

2)论坛:

各种形式的BBS、贴吧、论坛、社区;

3)博客:

各博客网站的博客信息;

4)微博:

各微博网站信息监测;

5)电子报:

各类报纸的电子报的信息监测;

6)问答:

对问答类网站的采集;

7)视频:

对视频网站文字信息的采集;

8)WAP:

对WAP网站信息的采集;

9)搜索引擎:

对搜索引擎信息的聚合;

10)微信公众账号采集。

1.2.2海量信息存储子系统

实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。

1)可存贮至少三个月的历史数据;

2)可通过统一的系统界面监测所有服务器的运行状况,及时发现并处理出现的任何状况;

3)具有完整的容灾备份方案。

1.2.3海量信息检索子系统

采用分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。

采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。

1.2.4互联网云数据分析处理子系统

信息及数据处理主要是针对采集入库后的数据进行整理、处理。

主要技术和功能包括:

(1)漏斗式过滤技术:

采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。

(2)中文分词:

采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。

(3)要素分析

对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。

(4)数据挖掘:

关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:

1)分析出舆情高发网站及频道;

2)分析出舆情高发人群;

3)推荐网民关注度高的舆情;

4)筛选新词、热门话题;

5)关联性分析:

采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。

1.3性能需求

1)常规监测信息源数量3万个以上;

2)日均采集信息量300万条以上;

3)信息采集效率在30分钟以内;

4)数据中心数据可提供PC端、移动端等不同方式的信息检索,检索效率在5秒钟以内;

1.4其他需求

1)可针对客户要求给出详细的硬件配置方案;

2)基于数据中心的监测平台系统架构图;并详细描述所采用的技术及方法等。

3)系统部署的拓扑图;

4)可以统一管理各服务器的运行并监测其运行状况;

技术方案

1.5翼腾云计算概述

“云计算”是一个很时尚的概念,它既不是一种技术,也不是一种理论,而是一种商业模式的体现方式。

“计算与数据”跷跷板的平衡已发生变化,即已经到“移动计算要比移动数据要便宜的多(Movingcomputationischeaperthanmovingdata)”,透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务,云计算的关键技术:

1.虚拟化技术

虚拟化技术是指计算元件在虚拟的基础上而不是真实的基础上运行,它可以扩大硬件的容量,简化软件的重新配置过程,减少软件虚拟机相关开销和支持更广泛的操作系统方面。

虚拟化技术主要应用在CPU、操作系统、服务器等多个方面,是提高服务效率的最佳解决方案,以PaaS为核心来构建和运营新一代的SaaS应用,通过与移动运营商合作共建SaaS舆情应用系统,解决众多中小企业舆情需求,OpenStack提供了比较成熟的PaaS解决方案。

2.分布式海量数据存储

云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。

冗余的方式通过任务分解和集群,用低配机器替代超级计算机的性能来保证低成本,这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。

使用的数据存储系统是Hadoop团队开发的GFS的开源实现HDFS。

3.海量数据管理技术

云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。

使用开源NoSql数据库Mongodb和Cassandra解决海量文章的存储、检索。

4.编程方式

云计算提供了分布式的计算模式,采用了一种思想简洁的分布式并行编程模型Map—Reduce。

Map—Reduce是一种编程模型和任务调度模型。

主要用于数据集的并行运算和并行任务的调度处理,基于Hadoop集群,使用Map-Reduce解决离线数据的挖掘。

另外针对流式实时运算采用并行编程模型Spout-Bolt,基于开源的JStorm集群实现实时文本挖掘。

5.云计算平台管理技术

云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。

采用Nagios对众多集群进行监控,使用SALT解决大规模服务器的自动化管理。

翼腾数据中心借助于上述5个方面的云计算技术,解决了互联网海量信息的实时检索、海量分析、推荐挖掘等问题,依托于全国众多数据中心,为多个行业、多个地域的SaaS舆情监测平台提供数据支撑,为众多企事业单位提供优质的中文信息监测服务。

翼腾已建成的数据中心使用依托阿里云云平台,每天采集互联网500W以上的海量文章信息,每个数据中心的出口带宽达到10G,每天新增10T以上数据文件,使用分布式文件系统、分布式数据库存储索引、文章等相关信息,使用软件方式解决了数据可靠性问题,翼腾搜索引擎实时的返回各个SaaS平台的检索需求,能够支持上万并发请求。

另外通过实时推送技术,每天推送到客户端的信息量能够达到上百万。

1.6总体设计概述

舆情卫士监测平台是基于大数据平台+行业解决方案+面向服务的整体解决方案,海量数据大都为非结构化的文本数据,使用NoSql技术和Hadoop架构进行有效结合集成,实现在采集、存储、分析、挖掘、检索、展示等方面的具体要求,并针对某个行业做深入开发,以服务的方式提供数据产品。

大数据平台是在大数据环境下,为满足数据处理要求而倾力打造的一款具有革命性架构设计的平台级产品。

大数据管理系统由服务器集群、大数据处理软件、情报产品三部分组成,系统支持PB级海量数据管理,采用高可靠架构设计,兼容Hadoop标准,自有海量全文检索引擎系统,支持水平扩展。

大数处理软件是一款完全分布式、多副本机制、数据分片的集群系统,不存在单点故障或性能瓶颈。

“舆情卫士监测平台”可以分为两个部分来建设。

一是互联网信息数据中心平台。

平台完成各类海量信息的采集、存储、检索等功能,建设完成后可以供不同用户进行舆情信息巡查。

二是基于数据中心平台的舆情应用平台的建设,包括PC端及移动终端的各种舆情管理与应用。

互联网信息数据中心负责从互联网各类网站进行信息采集,同时还支持其他各种信息的收集和存储,比如微信公众账号所发布信息等信息。

数据中心大量进行数据采集、处理和存储,为满足不同用户及业务应用,采用分布式技术进行规划信息检索服务,提高数据检索效率。

不同用户应用平台的信息都来源于数据中心,基于这些数据建立自己的应用平台,本建设实现了中心数据向多用户开放,为将来不同用户根据实际需求定制本用户的信息平台提供数据支撑和平台基础。

舆情卫士监测平台同样是采用大数据、移动互联网等新技术进行建设,一可以保证整体舆情工作效率,同时还为未来应用留下了发展空间。

舆情卫士监测平台是一个整体平台,在平台使用的基础上,基于大数据技术进行了更深一步的数据分析和挖掘。

舆情卫士平台可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现、态势研判和舆论引导,重点栏目信息1-5分钟发现报警。

1.7系统架构图

特点及优势:

★采用分层架构设计,每个功能都有多份系统,不存在单点故障,且可进行水平扩展;

★系统采用嵌入式、多引擎技术,并满足用户定制自己的数据处理逻辑的要求;

★基于索引分区机制,实现内存中高速的索引创建,海量索引数据放入磁盘,解决了快速索引的应用需求,同时有效减少索引匹配范围,缩短检索响应时间;

★采用多副本机制,实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力,每份数据都至少有三块同样的数据做备份;

★支持离线检索模式,适应大量数据检索的应用场景要求,避免了同步检索模式时消耗太多线程资源的问题;

★自有缓存集群,千亿数据提取<10毫秒;

★大数据底层基于Hadoop,充分利用HDFS的可靠性,数据挖掘采用MapReduce分布式运算模型,解决了海量数据挖掘的数量瓶颈问题。

1.8业务流程图

数据中心系统是一个集互联网舆情采集、检索于一体的综合系统,系统通过采集互联网数据,对数据进行过滤分析,向其它舆情产品推送热点数据信息。

数据中心的部署实施需要建立一个舆情信息处理分布式平台和云服务器集群,内容包括服务器、存储等硬件设备,核心业务系统分别使用网络负载均衡技术及服务器群集技术实现高性能与高可用性。

数据存储使用区域存储网络,并使用磁带库进行数据备份,充分保障业务数据的可靠。

基础应用系统分布部署在应用服务器组中,基础服务系统服务器组部署Hadoop、Mongodb、Tomcat、HornetQ、Tomcat等软件系统,信息门户服务器组部署舆情指挥系统等平台软件,统一信息交换服务器部署数据中心程序,数据中心部署文章索引服务、文章采集服务集群,建立应用软件的数据仓库及数据库系统,将关键数据集中存储在SAN存储网络之中,确保实现整个系统应用和数据的可靠性和安全性,以满足数据存储、信息处理等方面的需要。

1.9数据中心简介

数据中心主要包括以下子系统:

互联网海量信息采集子系统、海量信息存储子系统、海量信息检索子系统、展示子系统、信息分析分发子系统、网评子系统、数据存储与容灾备份等。

还包括多对微信、二维码、和视频的采集和分析处理等。

数据中心广泛采用集群应用、分布式数据存储、分布式计算等云技术。

可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现,确保重点栏目信息1-5分钟发现报警;数据检索通过对分布式存储和分布式计算的采用,有效确保了在海量数据的情况下,系统的检索响应速度控制在秒级范围。

2.6.1海量互联网信息采集子系统

海量数据采集子系统实现对互联网信息的采集功能,包括了前端采集信息、搜索引擎信息和人工浏览信息。

采集设备可分布式部署。

支持互联网全网信息采集,云平台可实时监测3万余个网站、超过50万个栏目或频道的实时信息,同时还采用元搜索技术,对上百个搜索引擎的信息通过关键词搜索及采集,日均信息处理量达700万以上。

2.6.1.1通用采集技术

(1)采用定点采集和全网搜索相结合的采集机制。

定点采集可确保第一时间采集到重点网站的信息,全网搜索可进行传播全面性的补充采集;

1)定点采集:

系统内置的50万栏目,采用定点采集方式;

2)全网搜索:

通过关键词对新闻类搜索引擎、论坛类搜索引擎、博客类搜索引擎、微博类搜索引擎及大型网站的站内搜索工具的信息聚合搜索;

3)内嵌脚本执行引擎:

随着Web2.0相关技术的发展,脚本语言越来越多地应用于论坛、新闻评论、博客等类型网站的建设。

内嵌脚本引擎对脚本语言的自动解析和执行,实现对采用脚本语言的论坛、博客以及新闻评论网站的采集;

4)7*24小时不间断采集,5分钟采集频率,信息更新扫描最小间隔为1分钟;

5)对各微博网站实现访问搜索。

6)支持验证码采集;支持多页合并采集。

(2)全媒体采集

网络媒体形式全,可以对各类网络媒体进行监测:

1)门户网站:

系统可采集以媒体发布为主的新闻网站的信息;

2)论坛:

各种形式的BBS、贴吧、论坛、社区;

博客:

各博客网站的博客信息;

4)微博:

国内外微博网站信息监测;

5)电子报:

各类报纸的电子报的信息监测;

6)问答:

对问答类网站的采集;

7)视频:

对视频网站文字信息的采集;

8)WAP:

对WAP网站信息的采集;

9)搜索引擎:

对搜索引擎信息的聚合。

10)微信公众账号采集

实现对微信公众账号信息的监控和数据采集。

系统可自动添加对微信公共账号的关注,形成微信公众账号库,实现对公共帐号信息的实时采集。

2.6.1.2互联网信息采集

通过自动识别技术识别并抽取网页的要素,包括:

标题、来源网站、来源频道、发布人、发布时间、链接(URL)、正文、图片、快照、表格,自动剔除广告(图片或flash)等垃圾部分,存储为统一的结构化信息,供后续分析、检索、查询、统计和展示。

海量子系统实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。

利用MongoDB来一体化解决采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。

具体包括:

(1)解决海量文章信息存储问题(高并发写、高速查询、高速统计分析);

(2)解决海量文章检索问题(高并发写、高速查询、统计分析);

(3)解决存储服务高可用性问题(如负载均衡、线性扩容、故障转移、灾备恢复、服务监测等);

最终目标:

简化现有平台业务流程,减少故障节点,提高存储服务的高可用性。

2.6.2海量信息检索子系统

采用Lucene+Hadoop分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。

采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。

文章经由采集服务器采集,发送到消息队列中,搜索客户端获取文章内容,实时建立索引,并对外提供实时数据检索服务。

对于海量数据建立索引,使用基于HadoopMapper/Reducer分布式运算建立索引。

然后把建立的索引从HDFS分发到各个索引服务器。

因为采集系统采集的网页比较多,每天采集的数量至少在100万篇,所以在索引设计时需要考虑到不同资源的需求,这里面至少有两个因素需要考虑,一个是时效性,另一个是数据量。

时效性指的是一个资源的数据从修改到生效需要的时间,时效性高表示生效时间短,有的资源甚至需要立即生效;而生效时间长的资源也会分成很多档次,有小时级的,有天级的,甚至有更长时间的静态资源。

数据量指的是一个资源的数据规模,从最小的数千条到千万级甚至亿级,不同数据量级别的资源会用不同的方式进行索引构建以及索引检索。

以下简单列举了不同时效性和数据量条件下的索引方式:

实时索引需要实时支持索引的增加以及删除操作,更新操作可以看作是删除操作和增加操作的组合。

对于数据量小的资源,可以将索引完全放入内存,在内存中建立倒排索引,增加操作可以直接在索引拉链的末端添加新的doc_id,注意这里的doc_id是全局分配的,保证索引拉链按照doc_id的升序排序;对于数据量比较大的资源,由于索引无法完全放入内存,需要建立文件索引,但由于文件索引的紧致压缩的特点,无法实时地在倒排拉链中添加doc_id,在这种情况下,解决时效性问题可以有两种办法,一种是尽量缩短建索引时间,例如基于map-reduce的分布式建库技术可以将千万级别的建库时间缩短到10分钟以内,这种索引我们称为伪实时索引;另一种比较复杂的方式是混合索引,即索引的增量部分存于内存中,在检索时需要将内存索引和文件索引合并,这种方式在做检索时处理较复杂,数据中心搜索主要采用的是伪实时索引方式处理大数据量、高时效性资源数据。

对时效性低的数据也有不同的处理方式,对于数据量比较小的资源,单机索引能完全涵盖,此时只需要周期性的构建索引然后进行索引切换就可以了;对于大数据量的资源,单机索引无法涵盖,索引必须分布到多台机器上,数据中心搜索现在是按照doc_id进行切分,一个doc对应的所有term都会分布到同一台机器上。

数据中心搜索的索引构建流程。

对实时内存索引,增加、删除索引都是实时流,但是频繁索引修改会导致索引拉链碎片增多,需要有专门的任务定时整理索引拉链,一方面是清理碎片,紧致排列索引拉链;另一方面也需要对过长的拉链进行截断。

对文件索引,使用分布式建库是个非常高效的方法,数据中心搜索的文件索引建库主要是采用这种方式。

2.6.3大数据分析处理子系统

互联网云数据分析处理子系统包含信息及数据处理和舆情分析。

大数据时代,对数据的解释是关键。

目前,数据的可获得度已经空前提高,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,实现真正的大数据挖掘和分析。

数据的海量、及时、动态、开放,有利于我们完善分析的效度和深度。

同时,大数据也有价值密度低、传播速度快等特点,数据分析的模式是否科学,这将直接影响数据分析的质量。

大数据的异构和多样性,需要舆情分析人员对一些危机事件进行高质量的数据解释。

基于数据分析,能否提炼出独到、高质量的观点,在凌乱纷繁的数据背后找到更符合客户要求的舆情产品和服务,并进行针对性的调整和优化,这是大数据时代舆情最大的变量。

大数据时代,对趋势的研判是目标。

大数据的核心和目标就是预测,具体到舆情服务,舆情工作人员从互联网浩如烟海的数据中挖掘信息、判断趋势、提高效益,虽然获得广泛且实际的应用,但还远远不够。

舆情分析人员要不断增强关联舆情信息的分析和预测,把服务的重点从单纯的收集有效数据向对舆情的深入研判拓展,跟踪关联舆情,不再局限于危机解决,还要辅之以决策参考,从注重“静态收集”向注重“动态跟踪”拓展,从致力“反映问题”向致力“解决问题”拓展,使舆情产品和服务“更高、更快、更强”(视点高、预警快、处置强)。

2.6.3.1信息及数据处理

信息及数据处理主要是针对采集入库后的数据进行整理、处理。

主要技术和功能包括:

(1)漏斗式过滤技术:

采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。

(2)中文分词:

采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。

(3)要素分析

对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。

(4)数据挖掘:

关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:

1)分析出舆情高发网站及频道;

2)挖掘文本中的重要信息,如联系电话、QQ号码、邮件地址等信息;

3)分析出舆情高发人群;

4)推荐网民关注度高的舆情;

5)筛选新词、热门话题;

(5)关联性分析:

采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。

2.6.3.2舆情及敏感信息分析

舆情分析技术是用于舆情信息分类和判断,按照关注的人物、地域、单位、事件、主题等要素进行舆情分类,并对敏感舆情的传播情况包括传播源头、发布人、传播媒体、传播内容、传播路径进行抽取和分析,提供各类统计数据和图表,掌握舆情事件在网络中传播的全貌。

(1)分类技术:

系统内置一套较为科学和完整的舆情分类体系,通过自动分类技术,对用户关注的敏感信息和国计民生的各个重点领域进行实时监控,及时发现负面、有害信息。

系统还提供灵活的多维度信息分类自定义设置,展示给客户丰富的舆情分类浏览:

1)按主题分类:

按关注主题自定义分类,如政法、医疗卫生、教育等,进行常规的监测过滤分析;

2)按照特定的人物分类:

设置关注人名,包括党政机关领导人、政治人物或敏感人,对人的网络活动进行分析;

3)按网站性质分类:

按照网站性质如新闻、论坛等方式分类信息;

4)按特定的机构:

设置各级国家党政机构,以及特定地区的机构;

5)按照地域分类:

按照地域提取各地舆情;

6)按关注网站分类:

设置关注的网站分析相关信息;

7)按有害信息:

如法轮功、色情、民运等反动信息;

8)按定制搜索分类:

设置关注网站和关键词规则进行过滤分析。

敏感信息分析技术:

负面敏感信息分析是本系统最重要的功能之一,通过预警功能在第一时间将负面或敏感信息告知用户。

(1)热点发现与跟踪

热点自动发现:

自动识别热点新闻事件,发现网民的关注焦点和热点,提供1天、3天、7天等时间序列的符合用户精确度要求的分类热点排序。

热点自动追踪:

对热点信息的持续追踪,并通过趋势分析图和传播链分析图等技术帮助用户了解热点事件的报道趋势。

网络热词自动挖掘:

从互联网寻找热度较高的短语,如人名、地名、机构名和其他常见短语,并收录入词库。

(2)专题分析技术:

专题分析技术用于分析舆情事件或热点事件在网络中的传播情况。

根据用户设定的专题条件,自动聚合该专题的相关信息,并对传播媒体、每日传播情况,分析指标包括:

1)总传播量及每日、每时段传播量、设定时间内的传播量及发展趋势;

2)来源报道分布:

新闻报道篇数、主贴数、回贴报道数、博客报道数;

阶段性传播媒体类型分布;

3)汇总发布网站、媒体及个人网络ID;

4)分析专题设计的热点人名、地名机构名;

(3)趋势分析及预警:

根据结构化信息分析热点话题、敏感主题在不同的时间段内,网友和媒体的关注程度,对舆情事件进行跨时间、跨空间综合分析,以图表方式展现主题事件信息量趋势,获知事件发生的全貌并预测事件发展的趋势。

提供实时信息预警机制,可将短时间内发生的突发热点事件以及敏感新闻通过邮件或者APP预警通知用户。

(4)舆情事件语义分析

中心可对主要舆情事件网民观点进行语意分析处理,自动分析主要舆情事件网民观点类型、归纳总结相同观点、统计各观点网民数量、分析网民观点发展走势等。

2.6.4用户权限管理

(1)身份认证:

基于数字证书,采用高强度的加密和数字签名技术。

身份认证系统分为客户端和服务器端两部分,服务器端配置有用于标明平台系统服务器身份的数字证书;客户端则需要登录用户使用本人的数字证书,并能够与浏览器实现无缝的结合。

(2)Web环境的单点登录。

用户必

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 初中教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2