网络舆情监测设计方案Word文档格式.docx

上传人:wj 文档编号:8292903 上传时间:2023-05-10 格式:DOCX 页数:28 大小:365.05KB
下载 相关 举报
网络舆情监测设计方案Word文档格式.docx_第1页
第1页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第2页
第2页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第3页
第3页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第4页
第4页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第5页
第5页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第6页
第6页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第7页
第7页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第8页
第8页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第9页
第9页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第10页
第10页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第11页
第11页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第12页
第12页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第13页
第13页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第14页
第14页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第15页
第15页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第16页
第16页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第17页
第17页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第18页
第18页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第19页
第19页 / 共28页
网络舆情监测设计方案Word文档格式.docx_第20页
第20页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

网络舆情监测设计方案Word文档格式.docx

《网络舆情监测设计方案Word文档格式.docx》由会员分享,可在线阅读,更多相关《网络舆情监测设计方案Word文档格式.docx(28页珍藏版)》请在冰点文库上搜索。

网络舆情监测设计方案Word文档格式.docx

网络舆情监测平台是针对互联网这一新兴媒体,通过对海量网络舆情信息进行实时的自动采集、分析、汇总、监视、并识别其中的关键信息,及时通知到相关人员,从而第一时间应急响应,为正确舆论导向及收集民众意见提供直接支持的一套信息化平台。

第四章本项目涉及的关键技术

4.1网络爬虫概念

网络爬虫又被称为网页蜘蛛、网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

4.1.1网络爬虫工作原理

Web网络爬虫系统一般会选择一些比较重要的、出度(网页中链出链接数)较大的网站的URL作为种子URL集合。

网络爬虫系统将这些种子集合作为初始URL,开始数据的抓取。

由于网页中含有链接信息,通过已有网页的URL会得到一些新的URL,可以把网页之间的指向视为一个森林,每个种子URL对应的网页是森林中的一棵树的根节点。

这样,Web网络爬虫系统就可以根据先广搜索算法或者先深搜索算法遍历所有的网页。

由于先深搜索算法可能会使爬虫系统陷入一个网站内部,不利于搜索比较靠近网站首页的网页信息,因此一般采用先广搜索算法采集网页。

Web网络爬虫系统首先将种子URL放入下载队列,然后简单地从队首取出一个URL下载其对应的网页。

得到网页的内容将其存储后,再经过解析网页中的链接信息可以得到一些新的URL,将这些URL加入下载队列。

然后再取出一个URL,对其对应的网页进行下载,然后再解析,如此反复进行,知道遍历了整个网络或者满足某种条件后才会停止下来。

4.2云计算技术

分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上已经获得证实。

分布式计算包含了分布式存储和并行计算两个层面的内容,而云计算平台提供了分布式文件存储和并行的计算能力,因此很好地解决了这两个层面的内容。

下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据挖掘平台的核心支撑能力。

分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、扩展透明、高容错、高安全、高性能等关键功能。

目前业界比较流行分布式文件系统有Google文件系统(GFS)、分布式文件系统(HDFS)、文件系统(KFS),这3种分布式文件系统都是基于Google提出的分布式文件系统理论进行研发的。

Google提出的GFS就是解决其海量数据存储和搜索、分析等问题,而和KFS是基于GFS理论基础上实现的开源系统,并且在商业和学术领域得到了广泛的应用。

分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。

这样不仅可以提高研发的效率,还可以降低系统维护的成本。

目前典型的分布式计算框架有:

MapReduce是提出的一个并行计算框架,它可以在大量PC机上并行执行海量数据的收集和分析任务。

它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。

同时它又对上层应用提供良好简单的抽象接口。

MapReduce主要应用在搜索、数据仓库、数据挖掘领域。

Pregel是Google提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。

Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB搜索等相关领域。

Dryad是微软硅谷研究院创建的研究项目,主要用来提供一个基于Windows操作系统的分布式计算平台,总体用来支持有向无环图类型数据流的并行程序。

微软于年宣布,停止对Dryad进行版本升级,转投Hadoop即MapReduce计算框架。

目前业界开源的云计算平台包含HDFS和MapReduce,为海量数据挖掘平台提供完备的云计算支撑平台。

4.3舆情智能分析技术

1)自动分类技术

基于内容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达到95%以上。

先设置分类关键词,每一个关键词都设置一个相应的优先级分值。

对收集到的文章内容进行分析,分别对标题和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。

分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。

2)自动聚类技术

基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。

3)相似性排重技术

采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。

采用中文分词技术对文章关键字比较计算,得出文章相似度,相似度高于0.75以上的文章系统默认处理为“已处理”,无需再进行任何操作,相似度位于0.5-0.75之间的相似转载文章需要用户在页面进行再次确认,确保文章无漏处理。

4.4自然语言智能处理技术

1)自动分词技术

以词典为基础,规则与统计相结合的分词技术,有效解决切分歧义。

综合运用基于概率统计的语言模型方法,分词准确性达到99%。

2)自动关键词和自动摘要技术

对采集到的网络信息,自动摘取相关关键字,并生成摘要,并与快速浏览与检索。

3)全文检索技术

全文检索将传统的全文检索技术与最新的WEB搜索技术相结合,大大提升检索引擎的性能指标。

还融合多种技术,提供丰富的检索手段以及同义词等智能检索方式。

4.5网络舆情处理流程

网络舆情监测主要由网络数据采集、数据处理、舆情分析与报告三大部分构成。

舆情信息采集对象主要以新闻门户网站、微博、论坛、博客、贴吧等,从海量的网页中采集数据为舆情分析提供基础数据。

第五章方案设计

5.1平台实现的主要功能

1. 数据采集:

根据用户设置的信息源对数据进行采集。

2. 数据处理:

1) 信息预处理:

去除网页中的广告、图片、链接等无价值、无需关注的信息。

并自动识别标题、来源、作者、发布时间、正文等信息。

2) 二次分析处理:

利用“多重双向数据过滤模型”、知识库引擎、中文分词、全文检索、文本自动摘要等,进行舆情过滤、自动分类、相似性排重、舆情分析。

3) 数据统计:

对信息处理结果作进一步统计分析,以图表方式展现给用户浏览。

3. 信息管理

1) 系统配置:

用于配置检索数据源和检索规则

2) 用户管理:

配置用户登录账户和角色权限

3) 用户自定义设置:

用户根据需要自行设置浏览的信息范围。

4. 舆情浏览:

根据系统配置和用户设置在网页上显示舆情信息。

5. 舆情操作:

用户可以手动操作舆情。

如:

设置属性、加入简报、收藏、上报等。

6. 自动预警:

经过分析出现重大负面信息时,系统将启动预警机制,迅速报警提示。

5.2网络拓扑结构

网络舆情监测平台对目标网站进行舆情采集,通过防火墙将外网与内网隔离,从而保证内网服务器的网络安全;

经过一系列服务器群组对舆情数据清洗、过虑、分析后,最终以网页的方式供用户浏览。

5.3功能架构图

5.4舆情浏览

舆情浏览包含了五个子模块:

分类浏览、舆情来源、本地浏览、信息要素、舆情统计。

l最新舆情

实时展现最新获取到的舆情信息,通过正负舆情研判后,按时间进行倒排。

l分类浏览

根据舆情内容分类,将舆情分类为正面舆情、负面舆情、突发事件等,根据用户选择的分类显示舆情文章,默认显示所有舆情文章。

l舆情来源

根据用户选择的来源网站显示舆情信息;

默认显示所有网站的舆情信息。

l本地浏览

分为本省和省外显示舆情信息。

本省:

为登录账户所在省份,分支为本省所有城市;

默认显示本省所有舆情信息;

可根据用户选择的城市分站点刷新显示舆情。

省外:

分支为除本省外国内其它省份,可根据用户选择显示省外所有或指定省份的舆情信息。

l信息要素

舆情信息分页浏览,每页显示15条记录,通过第一页、上一页、下一页、最后一页进行翻页;

每条记录显示舆情标题、摘要、高频词数、点击数、回帖数、来源网站、相似文章数、相关文章数、发布时间;

点击【查看原文】或者文章标题链接打开文章内容窗口查看详细。

l近期热点

按舆情热度、点击数、回复数、转载数、时间对舆情数据进行排序。

l舆情统计

在每一个舆情浏览都有显示舆情分析图,双击统计图,便可查看舆情统计数据。

5.5专题舆情

专题舆情包含了四个子模块:

专题浏览、专题舆情导出、领导相关舆情、热度分析。

l专题浏览

通过用户自定义的舆情专题列表,用户可以轻松的区分和分类查阅专题舆情。

用户可以依据舆情工作过程中的实际需要,定制完成后系统会对采集到的舆情信息自动进行归类并在后期自动更新相关内容。

通过舆情专题的功能轻松的把各种来源的信息,根据设置的敏感关键字,自动建立关联和聚类。

l专题舆情导出

根据用户设置的过滤条件将舆情文章导出到word文档中,可自定义文件名称和保存路径。

l领导相关舆情

可根据用户选择的领导名字显示相关舆情文章。

l热度分析

用户可以在专题中对很热门的事件进行进一步的细分和管理,比如对其中的某个事件、新闻或帖子热度进行跟踪并通过其阅读和跟帖数量的变化描述其趋势。

5.6趋势分析

专题热度:

专题热度日增量、热度总趋势

站点分布:

所筛选数据的站点分布柱状图,根据每篇对应的站点名称。

载体分布:

所筛选数据的载体分布饼状图,根据每篇文章对应的所属载体。

地域分布:

所筛选数据的地域分布柱状图,根据文章中出现地域词出现的频率。

5.7舆情过滤

舆情过滤包含了五个子模块:

时间过滤、来源过滤、排重过滤、热度过滤、显示过滤、舆情排序。

l时间过滤

根据选择的时间显示舆情信息。

时间可选项:

最近一天、最近三天、最近一周、最近一个月、自定义。

自定义时间:

由用户设置起止时间,默认为所有舆情信息。

l来源过滤

根据选择的来源网站类型显示舆情信息。

来源选项包括:

新闻、微博、论坛、博客、贴吧、搜索引擎,默认为全部。

l排重过滤

按照文章排重显示舆情信息。

可选项:

文章排重、文章不排重。

默认选项为:

文章不排重。

l热度过滤

热度高的舆情信息优先显示,热度根据点击量和回复量来评定。

点击量选项:

全部,点击量>

1000、点击量>

2000、点击量>

10000,默认全部;

回复量选项:

全部,回复量>

1000、回复量>

2000、回复量>

l显示过滤

显示/隐藏舆情信息的来源、摘要、高频词;

显示选项:

隐藏来源、隐藏摘要、隐藏高频词。

默认显示来源、摘要和高频词。

当选择隐藏时,相应的选项变更为显示。

l舆情排序

可根据网站、访问量、回复量、转载量、发布时间、相关文章、相似文章来排序。

5.8舆情操作

舆情操作包含了八个子模块:

设置文章属性、添加到舆情简报、添加到指定专题、添加到指定类别、添加到收藏夹、添加到导控任务、添加到指定账户、上报舆情。

l设置文章属性

可将舆情文章属性设置为:

正面、负面、重大负面、突发事件等。

l添加到舆情简报

将舆情文章加入舆情简报中。

l添加到指定专题

将舆情文章添加到指定的专题下。

l添加到指定类别

将舆情文章添加指定的分类中。

l添加到收藏夹

将舆情文章加入到个人收藏夹中。

l添加到导控任务

将舆情文章加入到指定的导控任务下。

l添加到指定账户

对账户作分析,将舆情文章纳入指定的账户类别下,账户类别分为疑似账户、关注账户、屏蔽账户。

l上报舆情

对负面、重大负面、突发事件舆情文章做上报处理。

5.9舆情报表

舆情报表包含了六个子模块:

舆情日报、舆情周报、舆情月报、舆情年报、舆情简报、简报格式。

l舆情日报

主要是给用户一个当日详细的信息采集来源站点及具体数目,让用户清楚的了解采集到舆情信息都来自哪些网站、各自有多少数量。

l舆情周报

根据用户选择的周报显示舆情信息。

l舆情月报

根据用户选择的月报显示舆情信息。

l舆情年报

根据用户选择的年报显示舆情信息。

l舆情简报

结合用户定义好的舆情模板格式自动生成html浏览,而且用户也可以将这些指定的舆情文件自动生成word文件并下载后编辑、打印。

l简报格式

用户可以根据本单位的工作习惯设置简报标题,字体、颜色、大小、单位名称、批示空行等各种属性。

5.10舆情报警

舆情报警包含五个子模块:

首页报警、敏感报警、本地敏感报警、报警设置、报警任务。

l首页报警

针对舆情信息在首页位置出现的特殊意义和影响,网络舆情监测平台专门针对各大新闻网站(比如:

新浪、搜狐、网易、腾讯、人民网等和本地有名的地方性门户)、知名论坛、微博等首页信息进行高效率监控,以非常迅速的方法扫描这些网站的首页,如果首页中出现了要监控的关键字,则会以醒目的方式进行报警。

l敏感报警

在首页扫描完成后,平台会按照指定的采集任务在采集目标中采集舆情信息,采集到指定关键词的舆情后自动对其中文件的内容进行中文分词并自动比照,如果发现文章中内容涉及到敏感词,则以醒目的方式在“敏感报警“栏目中显示。

l本地敏感报警

用户在使用过程中,往往处于指导意义会采集上级单位的舆情,同时出于借鉴意义会采集同类兄弟单位的舆情,这样舆情的总数就会比较多。

通过用户设置的“地域、人名和机构”关键词分析,对上述这些舆情进行了再次细分,把只与本地下属单位有关的舆情归纳到“本地敏感”栏目中。

l报警设置

可以定义多个邮件、多个手机,可以定义任务启动时间、间隔和报警方式。

l报警任务

用户可以根据自己的工作习惯和工作需要,定制报警任务。

这些舆情的报警在指定的时间以邮件或者短信的方式推送到用户的终端。

5.11用户设置

用户设置包含四个子模块:

方案设置、导出模板设置、修改密码、用户权限。

l方案设置

将用户常用搜索设置保存为搜索模板。

模板内容包括:

方案名称、关键字、排除关键词等。

l导出模板设置

设置文章导出时的格式、内容等规范。

l修改密码

用户修改个人登录密码,退出系统重新登录时将使用新的密码验证登录。

l用户权限

提供用户组管理的概念,系统管理员可以通过设置组织的权限和对组成员的管理来批量管理用户的权限。

5.12舆情关键词维护

舆情关键词维护包含三个子模块:

采集搜索关键词维护、舆情预警关键词维护、排除关键词维护。

l采集搜索关键词维护

设置舆情过滤、权重和用户关键词,对舆情信息搜索采集时的关键词。

l舆情预警关键词维护

用户可根据负面、重大负面、突发事件相应关键词进行设置。

l排除关键词维护

非舆情信息的判定关键词设置。

5.13模块维护

该平台具有非常好的开放性和灵活性,通过“模块维护”可以非常方面的打造一个个性化的舆情监测管理平台。

用户可按专题、类别、收藏夹、领导人名等进行设置和维护。

第六章建设目标及效益

6.1建设目标

我国正处于社会发展的转型期,各种社会矛盾不断涌现。

鉴于交通行业职责特殊性,在与社会各阶层的长期接触中极易被置于矛盾的风口浪尖上。

任何涉及交通方面的负面信息,如果得不到及时有效的处理,在网络环境下都有可能成为舆情风暴,导致交通行业相关部门及工作人员形象受损严重。

关注热点,抓住难点,为领导决策参考服务,如何快速的实现网络舆情搜集处理工作,成为当前舆情工作的当务之急。

针对这些问题,建立网络舆情监测平台成功地实现了:

ü

针对互联网海量舆情自动实时的监测、自动敏感内容分析和自动实时报警的功能。

有效地解决了传统的以人工方式对舆情监测的实施难题。

加快了网络舆论的监管效率,有利于组织力量展开信息整理、分析、引导和应对工作,提高了贵州交通相关部门对网络突发舆情的公共事件应对能力。

有利于全面掌握民意,提高执政水平。

及时了解和掌握社情民意,提高宣传思想工作的预见性、针对性、实效性。

6.2经济和社会效益

6.2.1有效的部署工作人员

在实际工作中,网络舆情监测平台的运用,可以有效的进行工作人员部署,运用网络爬虫和大数据技术替代人工浏览的方式,将会节省大量人力,并将负责分析互联网信息的人员从枯燥的重复性的查看互联网信息的工作中解放出来,把更有效的人力投入到对舆情信息结果的处理和防范等重点上。

6.2.2降低人工对比分析误差

在本项目运用中,通过该平台以大数据挖掘技术为基础,通过信息关联分析与共享、人工经验知识分享与机器自动学习相结合的方式,实现对网络舆情信息的研判与事件综合分析预测,改变以人工操作带来的不便,提高了业务水平和工作效率。

6.2.3提高管理效能

在该平台中针对互联网信息的虚拟性、隐蔽性、发散性、渗透性和随意性等特点,网络舆情基于自然语言理解的文本挖掘技术,提高了交通相关部门对于网络舆情的应对能力和快速反应能力,加强了对社会面信息的全面动态控制能力。

建立网络舆情监测平台,实现了在一定范围内网站信息发布进行全面掌控,能够对各大新闻网站、论坛、博客、微博、贴吧、搜索引擎等实时监测、采集、内容提取及排重;

并且对获取的信息进行全面检索、主题检测、专题聚焦、相关信息推荐;

按照业务需求定制信息分类规则;

为用户辅助编辑提供信息服务。

如重大负面舆情,突发事件预警自动形成网络信息报告、追踪已发现的信息来源,及时发送到指定的监管人员手机或邮件中。

这对于随时随地掌握舆情信息;

获得舆情信息热点、焦点和趋势分析;

合理部署工作人员,提高人员的工作效能;

实时通报最新舆情信息;

更充分了解社情民意都起到一定的推动作用。

6.2.4为领导提供决策依据

网络舆情监测平台对采集到的舆情信息进行趋势分析,舆情分布、影响力查询等快速掌握舆情发展动向,为领导提供决策作用。

第七章网络舆情项目报价

7.1项目总报价

本项目报价包含软件开发、软硬件采购、服务器管理和运维服务等费用。

总报价为各个子系统的总和,各系统报价由工时组成。

项目名称

总报价

预计完成年限

网络舆情项目

¥

3263150

1年

项目总价

人民币:

叁佰贰拾陆万叁仟壹佰伍拾元整

7.2报价明细

产品名称

产品型号

数量

金额

(万元)

软件开发

网络舆情监测系统

1套

105.6

硬件采购

服务器和办公电脑

1批

79.25

软件采购

Oracle12c企业版

80

服务器管理和运维服务费

服务器管理和运维服务费按年计算

61.465

合计:

326.315万元

软件开发工时明细

本项目软件开发共132(人/月)工时,即(105.6)万元

功能模块开发

(人/月)

1.前期调研

可行性分析

1

方案设计

2

2.产品设计

需求分析

2.5

产品原型及UI设计

4

3.架构设计

概要设计

详细设计

物理模块划分

0.5

4.产品开发

数据采集

20

数据处理

28

数据分析

36

前端开发

15

5.产品测试

单元测试

10

集成测试

5

功能测试

6.产品部署

设备安装调试

3

104.8万元

7.3硬件设备采购明细

名称

项目

参数

单价

合计

硬件设备采购明细

服务器

至强六核E5-2630V2(2.6GHz-15M)(最大支持双CPU)/16G*2DDR3(最多支持24个内存插槽)/硬盘600G*5(SAS3.5寸15K)(最大支持12块3.5寸硬盘)/磁盘阵列H710P1G(支持RD0,1,5,6,10,50,60)/单电(750W)(最大支持双电)

25

2.6

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高中教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2