情报检索(公共管理学院).ppt

上传人:wj 文档编号:5242650 上传时间:2023-05-08 格式:PPT 页数:63 大小:1.84MB
下载 相关 举报
情报检索(公共管理学院).ppt_第1页
第1页 / 共63页
情报检索(公共管理学院).ppt_第2页
第2页 / 共63页
情报检索(公共管理学院).ppt_第3页
第3页 / 共63页
情报检索(公共管理学院).ppt_第4页
第4页 / 共63页
情报检索(公共管理学院).ppt_第5页
第5页 / 共63页
情报检索(公共管理学院).ppt_第6页
第6页 / 共63页
情报检索(公共管理学院).ppt_第7页
第7页 / 共63页
情报检索(公共管理学院).ppt_第8页
第8页 / 共63页
情报检索(公共管理学院).ppt_第9页
第9页 / 共63页
情报检索(公共管理学院).ppt_第10页
第10页 / 共63页
情报检索(公共管理学院).ppt_第11页
第11页 / 共63页
情报检索(公共管理学院).ppt_第12页
第12页 / 共63页
情报检索(公共管理学院).ppt_第13页
第13页 / 共63页
情报检索(公共管理学院).ppt_第14页
第14页 / 共63页
情报检索(公共管理学院).ppt_第15页
第15页 / 共63页
情报检索(公共管理学院).ppt_第16页
第16页 / 共63页
情报检索(公共管理学院).ppt_第17页
第17页 / 共63页
情报检索(公共管理学院).ppt_第18页
第18页 / 共63页
情报检索(公共管理学院).ppt_第19页
第19页 / 共63页
情报检索(公共管理学院).ppt_第20页
第20页 / 共63页
亲,该文档总共63页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

情报检索(公共管理学院).ppt

《情报检索(公共管理学院).ppt》由会员分享,可在线阅读,更多相关《情报检索(公共管理学院).ppt(63页珍藏版)》请在冰点文库上搜索。

情报检索(公共管理学院).ppt

情报检索课堂展示公共管理学院,计算机科学与技术前沿问题:

大数据,选题原因,为什么选择大数据?

IBM对大数据四方面特征:

数据量、时效性、多样性、可疑性。

麦肯锡报告,大数据:

创新、竞争和生产力的下一个前沿领域我们进行了热点筛选,然后整合关键词进行了投票排序,一、CNKI数字图书馆中国学术文献网络出版总库中国知网统计计算机软件及计算机应用类期刊中,符合影响因子及综合影响因子均最高的软件学报2015最新期目录。

热点筛选:

二、CNKI数字图书馆中国学术文献网络出版总库计算机软件及计算机应用学科2015年国家级、省部级课题清华大学(国内计算机专业排名第一的大学),三、CNKI数字图书馆中国学术文献网络出版总库计算机软件及计算机应用学科学术热点,四、CNKI数字图书馆中国学术文献网络出版总库全国“计算机软件及计算机应用”学科一年内产出的期刊文献,一轮投票,二轮投票,第一部分大数据的发展进程,1890年,(美)赫尔曼霍尔瑞斯.发明并使用电动卡片识别机器来处理人口普查数据;1943年,英国为快速解开纳粹设置的密码,组织工程师发明机器进行大规模数据处理,并采用了第一台可编程的电子计算机实施计算工作;1960年代,(英)蒂姆伯纳斯李设计超文本系统,命名为万维网;1961年美国国家安全局(NSA)首先应用计算机收集信号自动处理情报,数字化处理模拟磁盘信息;1964年,哈里J格雷和亨利拉斯顿在美国电气与电子工程师协会(IEEE)的电子计算机学报上发表文章,提出信息爆炸概念;1965年,英特尔创始人戈登摩尔(GordonMoore)通过研究计算机硬件得出摩尔定律。

1988年美国科学家马克韦泽(MarkWeiser)指出各种各样微型计算设备能随时随地获取并处理数据,被称为普适计算;2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(ComputingCommunityConsortium)发表了一份有影响力的白皮书大数据计算:

在商务、科学和社会领域创建革命性突破;2011年5月,麦肯锡全球研究院的詹姆斯马尼卡、迈克尔崔等发布了大数据:

下一个具有创新力、竞争力与生产力的前沿领域。

来源:

张兰廷,大数据的社会价值与战略选择,俞立平,大数据与大数据经济学,第二章大数据的应用领域,一、商业智能领域,包括:

企业内部大数据应用和物联网;二、公共服务领域,体现在:

改善安全和执法、群智感知和社交网络-公共预警等领域;三、市场营销领域;四、实体生产领域,包括:

提高医疗和研发水平、优化机器和设备性能和智能电网。

第二章大数据的应用领域,一、商业智能领域大多数传统BI工具的局限:

首先,它们都是“预设-抓取”工具,由分析师预先确定收集什么数据用于分析。

其次,它们都专注于报告“知道问题是什么,然后去找答案。

而大数据会给出一些未知的未知,也就是你没有想到的一些问题的结果。

1.企业内部大数据应用,市场方面销售规划方面运营方面供应链方面来源:

百度文库-大数据的应用现状与展望,1.企业内部大数据应用,案例:

淘宝数据魔方是淘宝平台上的大数据应用方案,通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此进行生产、库存决策,而与此同时,更多的消费者也能以更优惠的价格买到更心仪的宝贝。

而阿里信用贷款(蚂蚁花呗)则是阿里巴巴通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。

来源:

百度文库-大数据的应用现状与展望,2.大数据与物联网,1.物联网的含义:

利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化、远程管理控制和智能化的网络。

物联网是互联网的延伸,它包括互联网及互联网上所有的资源,兼容互联网所有的应用,但物联网中所有的元素(所有的设备、资源及通信等)都是个性化和私有化。

来源:

百度百科-物联网2.二者关系如下:

(1)物联网产生大数据.案例

(2)大数据助力物联网.案例,物联网与大数据,案例:

2012年IDC公司指出在2005年由机器产生的数据占到数据总量的11%,2020增加到42%。

比如说医疗,现在到医院看病都要CT,清晰度很高300多兆,一个病人CT影响往往多大两千幅,数据量已经到了几十个GB,如今中国大城市的医院每天门诊上完人,全国每年住院已经达到了两亿人次,按照医疗行业的相关规定,一个患者的数据通常需要保留50年以上。

大数据助力物联网,案例:

UPS快递为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器GPS。

同时,这些设备也方便了公司监督管理员工并优化行车线路。

UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。

2011年,UPS的驾驶员少跑了近4828万公里的路程。

(来源:

新华新闻-物联网产生大数据大数据助力物联网),二、公共领域,公共服务领域:

一方面,公共机构可以利用大数据技术把积累的大量历史数据进行挖掘利用,从而提供更为优质的公共服务。

另一方面,公共机构也可以通过对某些领域的大数据实时分析提高危机的预警能力,为实现更好、更科学的危机响应提供技术基础。

政府决策领域:

通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。

政府决策领域:

案例:

日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警,并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时发布在了YouTube等网站上。

1.改善安全和执法,大数据被广泛应用于提高安全和执法过程。

美国国家安全局(NSA)在使用大数据分析来对抗恐怖主义活动,甚至用来监控我们的生活。

其他企业则使用大数据技术来检测和阻止网络攻击。

警察还可以使用大数据工具来捉住罪犯,甚至预测犯罪活动,信用卡公司使用大数据来检测欺诈性交易。

(来源:

上方网-大数据分析应用最多的9个关键领域),1.改善安全和执法,案例:

公安部门以“大情报”应用为牵引,提出面向海量信息资源、空间信息、图像资源以及广泛采集的数据进行深度整合和应用的手段。

围绕专项业务领域,构建有层次全方位的视频信息化应用平台,实现公安内部跨警种的匹配信息、检索信息、预测信息共享及协同应用。

初步实现基于公安大数据的事前防范、事后处理为一体的综合应用体系,结合智能视频分析处理功能提高公安机关的业务智能,包括:

特征提取、人车分离、特征比对、内容检索等功能,提高业务人员的工作效率;为案件流程管理、物证分析等提供有效手段,从日常事件管理到立案、侦查取证、分析案件、确定侦查方向、制定侦查方案、认定犯罪嫌疑人、破案,对这一系列业务流程及业务中所产生的相关物证、信息进行管理。

在军事领域的应用:

美国国防部目标是利用大数据将分析人员从任意语言文字资料中提取信息的能力提高100倍。

美国中情局要求利用大数据将分析搜集数据的时间由63天缩短为27分钟。

2.群智感知,随着技术的发展,智能手机和平板电脑等移动设备集成了越来越多的传感器,计算和感知能力也愈发强大在移动设备被广泛使用的背景下,群智感知开始成为移动计算领域的应用热点大量用户使用移动智能设备作为基本节点,通过蓝牙、无线网络和移动互联网等方式进行协作,分发感知任务分发,收集、利用感知数据,最终完成大规模的、复杂的社会感知任务群智感知对参与者的要求很低,用户并不需要相关的专业知识或技能,只需拥有一台移动的智能设备。

2.群智感知,案例:

通过对智能交通系统中产生的海量视频数据、图像数据进行分析处理,监控分析重点车辆轨迹和现场态势,当出现异常活动时,能够及时做出异常行为判断,做到对重要厂所的重点监控。

此外通过对视频、图像等大数据的深度挖掘分析,能够给智能交通诱导及智能交通控制提供更为精确的数据分析支持,从而有效减少路面拥堵,使人们的出行更加便利快捷。

(来源:

李存华,孙志辉.GridOF:

面向大规模数据集的高效离群点检测算法J.计算机研究与展,2013,09(11)),3.社交网络-公共预警,在线社交网络大数据应用可以从以下方面帮助我们了解人的行为,以及掌握社会和经济活动的变化规律:

(1)前期警告:

通过检测用户使用电子设备及服务中出现的异常,在出现危机时可以更快速地应对。

(2)实时监控:

通过对用户当前行为、情感和意愿等方面的监控,可以为政策和方案的制定提供准确的信息。

(3)实时反馈:

在实时监控的基础上,可以针对某些社会活动获得群体的反馈信息。

三、市场营销领域,大数据已经与在线营销交织在一起,其应用可以分为两大类:

1.从线上到线下。

配备了NFC近场通讯技术的智能手机和基于位置的签到正在成为营销人员的最新利器。

他们将能跟踪商场人流,把在线零售的分析优化应用于线下。

2.数据分析工具将更加容易使用(面向中小企业应用的大数据创业非常火爆),中小企业也许没有BI平台,但他们都有平板电脑和智能手机,移动版客户智能分析将会改变企业使用营销工具的方式。

三、市场营销领域,案例:

某食品公司即将推出一种新蛋糕,需要做大量市场调查,传统模式是市场营销部门组建“用户测试组”,让大家品尝这种新蛋糕,然后评价口感,但这种模式的主观性太强,测试组中的用户可能会因为某种原因而不讲实情;而通过社交数据信息收集的对某种产品的评价则相对客观,因为这些信息是用户在与自己社交网络上的好友交流时自然流露出来的。

来源:

百度文库-大数据的应用现状与展望,四、实体生产领域,1.提高医疗和研发2.优化机器和设备性能3.智能电网,1.提高医疗和研发,大数据分析的计算能力使我们能够在几分钟内解码整个DNA,并让我们可以找到新的治疗方法,同时更好地理解和预测疾病模式。

就像所有人能够受益于智能手表和可穿戴设备产生的数据一样,大数据同样可以帮助病人更好地治病。

未来的临床实验将不会仅限于小样本,而是将服务于每个人。

大数据技术已经被用来监视早产婴儿以及患病婴儿。

通过记录和分析每次心跳以及呼吸模式,医生现在可以在任何身体不适症状出现之前预测24小时的情况。

这样,医生就可以更早地救助患病婴儿。

(来源:

上方网-大数据分析应用最多的9个关键领域),2.优化机器和设备性能,大数据分析还可以让机器和设备变得更加智能和自主化。

例如,大数据工具被用来运行谷歌的自驾车。

丰田的普锐斯配有相机、GPS以及强大的计算机和传感器,来在道路上安全驾驶,而不需要人类的干预。

大数据工具还可以用来优化智能电网。

我们甚至可以使用大数据工具来优化计算机和数据仓库的性能。

(来源:

上方网-大数据分析应用最多的9个关键领域),3.智能电网,智能电网,是指将现代信息技术融入传统能源网络构成新的电网,通过用户的用电习惯等信息,优化电能的生产、供给和消耗,是大数据在电力系统上的应用智能电网可以解决电网规划、发电与用电的互动、间歇式可再生性能源接入问题。

第三章大数据技术核心,目前广为接受的一种处理模型是Fayyad等人设计的多处理阶段模型,如图1.,第三章大数据技术核心之大数据的关键技术,一、大数据处理的三大关键技术:

(1)GFS

(2)MapReduce(3)Bigtable迪莉娅.我国大数据产业发展研究J.科技进步与对策,2014,04:

56-60,一、大数据的关键技术,

(1)GFS(GoogleFileSystem)是Google公司开发的一个可扩展的分布式文件系统。

一个GFS集群由一个主服务器(master)和大量的块服务器(chunkserver)构成,并允许多客户端(Client)访问。

客户端在访问GFS时,首先访问Master节点,获取将要与之进行交互的ChunkServer信息,然后直接访问这些ChunkServer完成数据存取。

一、大数据的关键技术,

(2)分布式数据库系统BigTable旨在可靠地处理PB级数据,并且部署到上千台机器上。

它不支持JOIN这样的SQL语法,更像今日的NoSQL的Table-oriented。

BigTable被广泛应用于一系列的Google应用中,如GoogleEarth、GoogleMaps、Gmail、YouTube等等。

一、大数据的关键技术,(3)分布式数据处理系统MapReduce。

MapReduce用于编写可运行于集群上能处理大规模数据集(大于1TB)的并行程序。

其设计思想是将要执行的复杂问题分解为Map(映射)和Reduce(规约)两个操作,从而简化并行程序的开发过程。

二、大数据储存、计算、分析技术,1.大数据存储管理技术2.大数据并行计算技术,1.大数据储存、计算、分析技术,数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。

以往网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,导致在进行数据密集型计算(DataIntensiveComputing)时I/O容易成为瓶颈。

谷歌文件系统(GFS)和Hadoop的分布式文件系统HDFS(HadoopDistributedFileSystem)奠定了大数据存储技术的基础。

与传统系统相比,GFS/HDFS将计算和存储节点在物理上结合在一起,采用了分布式架构,能达到较高的并发访问能力。

存储架构的变化如图所示。

吴章玲,金培权.基于PCM的大数据存储与管理研究综述J.计算机研究与发展,2015,02:

343-361.,1.大数据存储管理技术,(图片来源:

工业与信息化部),2.大数据并行计算技术,传统依赖大型机和小型机的并行计算系统不仅成本高,同时靠提升单机CPU性能、增加内存、扩展磁盘等实现性能提升的纵向扩展(ScaleUp)的方式也难以支撑平滑扩容。

谷歌在2004年公开的MapReduce分布式并行计算技术,是新型分布式计算技术的代表。

2.大数据并行计算技术,图3针对不同计算场景发展出特定分布式计算框架(图片来源:

工业与信息化部),2.大数据并行计算技术,大数据分析的两条技术路线

(1)凭借先验知识人工建立数学模型来分析数据;

(2)通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力。

(来源:

胡波.并行计算技术与数据挖掘J.计算机与网络,2009,08:

65-68.大数据分析技术),2.大数据并行计算技术,

(1)深度学习

(2)知识计算(3)社会计算(4)可视化程学旗,靳小龙.大数据系统和分析技术综述J.软件学报,2014,09:

1889-1908.,

(1)深度学习,深度学习的概念源于人工神经网络的研究。

含多隐层的多层感知器就是一种深度学习结构。

深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。

深度学习的核心思路如下:

无监督学习用于每一层网络的pre-train;每次用无监督学习只训练一层,将其训练结果作为其高一层的输入;用自顶而下的监督算法去调整所有层。

(2)知识计算,知识计算是大数据分析的基础,要对数据进行高端分析,就需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算知识库.代表性的知识库或应用系统有KnowItAll、TextRunner、NELL、Probase、Satori等。

在国内,中文知识图谱的构建与知识计算代表性的有中国科学院计算技术研究所的OpenKN,中国科学院数学研究院陆汝钤院士提出的知件(knowware),上海交通大学最早构建的中文知识图谱平台zhishi.me,百度推出了中文知识图谱搜索,搜狗推出的知立方平台,复旦大学GDM实验室推出的中文知识图谱展示平台等,(3)社会计算,社会计算是面向社会活动、社会过程、社会结构、社会组织和社会功能的计算理论和方法。

以Facebook、Twitter、新浪微博、微信等为代表的在线社交网络和社会媒体正深刻改变着人们传播信息和获取信息的方式,人和人之间结成的关系网络承载着网络信息的传播,(4)可视化,它是一个处于不断演变之中的概念,其边界在不断地扩大。

主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。

三、大数据技术框架,根据大数据处理的生命周期,大数据的技术体系涉及:

1.大数据的采集与预处理;2.大数据存储与管理;3.大数据计算模式与系统;4.大数据分析与挖掘;5.大数据可视化分析;6.大数据隐私与安全;,三、大数据技术框架,图片来源:

孟小峰,慈祥.大数据管理:

概念、技术与挑战J.计算机研究与发展,2013,01:

146-169.,图3.是大数据技术主要架示意,1.大数据采集与预处理,大数据处理的第一步是从数据源采集数据并进行预处理和集成操作,为后继流程提供统一的高质量的数据集。

现有数据抽取与集成方式可分为以下4种类型:

基于物化或ETL引擎方法、基于联邦数据库引擎或中间件方法、基于数据流引擎方法和基于搜索引擎方法。

如图示:

2.大数据存储与管理,大数据环境下,目前最适用的技术是分布式文件系统、分布式数据库以及访问接口和查询语言。

目前,一批新技术提出来应对大数据存储与管理的挑战,这方面代表性的研究包括:

1)分布式缓存(包括CARP、mem-cached);2)基于MPP的分布式数据库;3)分布式文件系统(GFS、HDFS),各种NoSQL分布式存储方案。

各大数据库厂商如Oracle、IBM、Greenplum都已经推出支持分布式索引和查询产品。

2.大数据存储与管理,如图示:

3.大数据计算模式与系统,大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,它的出现有力推动了大数据技术和应用的发展。

例如,MapReduce是一个并行计算编程模型,Bekerley大学著名的Spark系统中“分布内存抽象”、CMU著名的图计算系统GraphLab的“图并行抽象”等。

大数据处理的主要数据特征和计算特征维度有:

数据结构特征、数据获取方式、数据处理类型、实时性或响应性能、迭代计算、数据关联性和并行计算体系结构特征。

3.大数据计算模式与系统,如图示:

4.大数据分析与挖掘,针对大数据环境非结构化或半结构化的数据挖掘问题,文献提出针对图片文件的挖掘技术,文献提出一种大规模文本文件的检索与挖掘技术。

针对传统分析软件扩展性差以及Hadoop分析功能薄弱的特点,IBM公司对R和Hadoop进行集成。

R是开源的统计分析软件,通过R和Hadoop深度集成,可进行数据挖掘和并行处理,使Hadoop获得了强大的深度分析能力。

另有研究者实现了Weka(一种类似R的开源数据挖掘工具软件)和MapReduce的集成,可实现大数据的分析与挖掘。

4.大数据分析与挖掘,如图示:

5.大数据可视化分析,大数据分析结果的特点:

海量、关联关系及其复杂等特点。

目前常用的方法:

1)可视化技术;常见的可视化技术有原位分析InSituAnalysis)、标签云(TagCloud)、历史流(historyflow)、空间信息流(Spatialinformationflow)、不确定性分析等2)人机交互技术。

如图示:

6.大数据隐私与安全,存在的问题:

(1)安全问题

(2)隐私问题。

大数据的优势:

大数据在存储、处理、传输等过程中面临安全风险,具有数据安全和隐私保护需求。

而实现大数据安全与隐私保护,较其他安全问题(如云安全中数据安全等)更为棘手。

李学龙,龚海刚.大数据系统综述J.中国科学:

信息科学,2015,01:

1-44.,1、大数据的安全管理能力挑战海量数据由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。

在大数据时代,信息安全管理所面临的前所未有的挑战。

2、大数据的存储及处理能力挑战数据的爆炸式增长、数据来源的极其丰富和数据类型的多种多样,使数据存储量更庞大,而目前中国传统的数据库还难以存储如此巨大的数据量。

在大数据的分析处理方面必须通过建立高级大数据的分析模型,而这些数据分析能力中国还很欠缺。

第四部分大数据时代给中国带来的挑战,3、大数据的应用能力挑战大数据应用能力所引发的商业模式的改变将直接影响中国企业的竞争能力。

从认识到“大数据能产生价值”,到实现了“从大数据中找到价值”,再到“有效使用大数据产生的价值”,政府目前也只是刚刚起步。

4、大数据的人才培养能力挑战大数据领域技术人才和商业人才的缺乏,是一个全球性的问题。

中国大数据分析专业人才缺口有专家粗略估算至少需要100万人。

第四部分大数据时代给中国带来的挑战,1、去冗降噪技术多源头、动态数据流下,噪声和冗余是大规模数据汇集必然要面临的问题,在未来,大数据将在以人为本的基础上进行信息的筛选和分析,要实现这一点,去冗降噪技术的重要性不言自明。

2、新型表示方法大数据下,所得数据规模更大、种类繁多,且结构极度复杂,经过分析且展现形式友好的数据更容易被用户采纳,由此寻找有效又简易的数据表示方法成为必然。

第五部分大数据展望,3、高效率低成本存储大数据存储方式对后期数据分析处理效率以及存储成本都有极大影响,因此就需要研究高效率低成本的数据存储方式。

4、数据的安全与隐私保护数据的爆发式增长下,网络大数据所面临的风险和威胁也在递增,大量的问题急需得到解决,一些相关的技术领域也随之成为研究热点。

第五部分大数据展望,THANKYOU,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2