气象大数据技术架构思路.docx

资源描述

气象大数据技术架构思路.docx

《气象大数据技术架构思路.docx》由会员分享，可在线阅读，更多相关《气象大数据技术架构思路.docx（35页珍藏版）》请在冰点文库上搜索。

气象大数据技术架构思路.docx

气象大数据技术架构思路

气象大数据应用技术架构

设计思路

二〇一五年五月

文档信息

客户单位:

内部技术机密心

项目:

文档：

.docx

版本：

（150521）

发布日期:

未发布

编者:

姓名

公司

项目职称

日期

邱承国

高级技术经理

2015-05-11

批准:

姓名

公司

项目职称

日期

修订历史

主要修订记录

版本号

修改人

修改内容

修改日期

邱承国

初稿

2015-0-1-1

1引言

在气象行业内部，气象数据的价值已经和正在被深入挖掘着。

但是，不能将气象预报产品的社会化推广简单地认为就是“气象大数据的广泛应用”。

大数据实际上是一种混杂数据，气象大数据应该是指气象行业所拥有的以及锁接触到的全体数据，包括传统的气象数据和对外服务提供的影视音频资料、网页资料、预报文本以及地理位置相关数据、社会经济共享数据等等。

传统的”气象数据“，地面观测、气象卫星遥感、天气雷达和数值预报产品四类数据占数据总量的90%以上，基本的气象数据直接用途是气象业务、天气预报、气候预测以及气象服务。

“大数据应用”与目前的气象服务有所不同，前者是气象数据的“深度应用”和“增值应用”，后者是既定业务数据加工产品的社会推广应用。

“大数据的核心就是预测”，这是《大数据时代》的作者舍恩伯格的名言。

天气和气候系统是典型的非线性系统，无法通过运用简单的统计分析方法来对其进行准确的预报和预测。

人们常说的南美丛林里一只蝴蝶扇动几下翅膀，会在几周后引发北美的一场暴风雪这一现象，形象地描绘了气象科学的复杂性。

运用统计分析方法进行天气预报在数十年前便已被气象科学界否决了——也就是说，目前经典的大数据应用方法并不适用于天气预报业务。

现在，气象行业的公共服务职能越来越强，面向政府提供决策服务，面向公众提供气象预报预警服务，面向社会发展，应对气候发展节能减排。

这些决策信息怎么来依赖于我们对气象数据的处理。

气象大数据应该在跨行业综合应用这一“增值应用”价值挖掘过程中焕发出的新的光芒。

2大数据平台的基本构成

2.1概述

“大数据”是需要新处理模式才能具有更强的、洞察发现力和能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。

换言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。

大数据必然无法用单台的计算机进行处理，必须采用分布式架构。

它的特色在于对进行分布式数据挖掘（SaaS），但它必须依托云计算的、分布式数据库（PaaS）和、（IaaS）。

大数据可通过许多方式来存储、获取、处理和分析。

每个大数据来源都有不同的特征，包括数据的频率、量、速度、类型和真实性。

处理并存储大数据时，会涉及到更多维度，比如治理、安全性和策略。

选择一种架构并构建合适的大数据解决方案极具挑战，因为需要考虑非常多的因素。

气象行业的数据情况则更为复杂，除了“机器生成”（可以理解为遥测、传感设备产生的观测数据，大量参与气象服务和共享的信息都以文本、图片、视频等多种形式存储，符合“大数据”的4V特点：

Volume（大量）、Velocity（高速）、Variety（多样）、veracity（真实性）。

这些信息长期存储于气象各部门的平台上未能加以合理利用。

另一方面，这些数据本身就是分散存储于多个服务器平台上，急需应用分布式平台统一管理。

因此，我们亟需一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。

因为评估一个业务场景是否存在大数据问题很重要，所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。

2.2数据基础决定平台框架

2.2.1从分类大数据到选择大数据解决方案

RDBMS：

关系型数据库；

ETL：

数据清晰、转换、装载的过程；

ELT：

数据清晰、装载、转换的过程；

CDC：

增量数据复制。

有同步和异步两种模式。

数据种类

结构

示例

量

安全性

建模

存储和检索

集成

使用

主数据

事务

分析数据

元数据

结构化

观测数据

中-高

数据库、应用程序和用户访问

预定义的关系建模或维度建模

RDBMS/SQL

ETL/ELT、CDC

应用程序、BI和统计程序

参考数据

结构化和半结构化

交换数据

中-低

平台安全性

灵活可扩展

XML/xQuery

ETL/ELT、消息

使用基于系统

文档和内容

非结构化

预报文件

高

基于文件系统

随意

文件系统/搜索

操作系统级文件移动

内容管理

大数据

-网页

-物联网

-卫星/雷达等传感器

结构化、半结构化、非结构化

云图

视频

语音

网志

高

文件系统和数据库

灵活（键值）

分布式文件系统/noSQL

Hadoop、MapReduce、ETL/ELT、消息

BI和统计工具

结构化数据

半结构化数据“

非结构化数据

2.2.2依据大数据类型对业务问题进行分类

根据气象服务需要，业务问题可分类为不同的大数据问题类型。

以后，我们将使用此类型确定合适的分类模式（原子或复合）和合适的大数据解决方案。

但第一步是将业务问题映射到它的大数据类型。

下表列出了常见的业务问题并为每个问题分配了一种大数据类型。

业务问题

大数据问题

描述

公用事业：

临近天气预报

机器生成数据

依据站点观测数据汇总和国家局下发文件、全球交换数据只做的预报信息

政府决策：

区域天气预警

机器生成的数据

地理信息数据

政府交换数据

图片视频资料

语音播报数据

历史灾害汇总

微博等网页数据

政府机构通过“智慧都市”等平台整合IS关联天气预警产品、预警通知反馈、城区建筑布局与灾害易发分析结果预测预判辖区内的灾情险情，做好防灾避险工作

保险业：

气象相关险种

气象预报

Web与社交媒体数据

依据气象预报信息以及网络媒体调查反馈，开辟“中暑险”、“赏月险”等多个险种

医疗保健：

流行病监控

气象预报生活指数

根据历史气象资料和流行病历史资料结合分析，预判流行病发展趋势，对流行病监控、地区流行病学、药物发明、临床试验数据分析、病人病情分析等起着至关重要的作用

此类分析也可以为医药企业的销售行为提供参考

期货：

农产品灾害预测

气象灾害预警

历史气候对农产品影响分析

-用于气象灾害提醒、农产品价格变化预测

-用于期货市场预测分析

2.2.3使用大数据类型对大数据特征进行分类

按特定方向分析大数据的特征会有所帮助，例如以下特征：

数据如何收集、分析和处理。

对数据进行分类后，就可以将它与合适的大数据模式匹配：

●分析类型—对数据执行实时分析还是批量分析。

请仔细考虑分析类型的选择，因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。

一些用例可能需要混合使用两种类型：

⏹临近分析；分析必须实时或近实时地完成。

⏹历史分析针对战略性业务决策的趋势分析；分析可采用批量模式。

●处理方法—要应用来处理数据的技术类型（比如预测、分析、临时查询和报告）。

业务需求确定了合适的处理方法。

可结合使用各种技术。

处理方法的选择，有助于识别要在您的大数据解决方案中使用的合适的工具和技术。

●数据频率和大小—预计有多少数据和数据到达的频率多高。

知道频率和大小，有助于确定存储机制、存储格式和所需的预处理工具。

数据频率和大小依赖于数据源：

⏹按需分析，与社交媒体数据一样

⏹实时、持续提供（天气数据、交易数据）

⏹时序（基于时间的数据）

●数据类型—要处理数据类型—交易、历史、主数据等。

知道数据类型，有助于将数据隔离在存储中。

●内容格式（传入数据的格式）结构化（例如RDMBS）、非结构化（例如音频、视频和图像）或半结构化。

格式确定了需要如何处理传入的数据，这是选择工具、技术以及从业务角度定义解决方案的关键。

●数据源—数据的来源（生成数据的地方），比如Web和社交媒体、机器生成、人类生成等。

识别所有数据源有助于从业务角度识别数据范围。

该图显示了使用最广泛的数据源。

●数据使用者—处理的数据的所有可能使用者的列表：

⏹业务流程

⏹业务用户

⏹企业应用程序

⏹各种业务角色中的各个人员

⏹部分处理流程

⏹其他数据存储库或企业应用程序

●硬件—将在其上实现大数据解决方案的硬件类型，包括商用硬件或最先进的硬件。

理解硬件的限制，有助于指导大数据解决方案的选择。

2.3数据分类决定应用方案

将不同的数据类型集成后，统一按照大数据进行处理，如下图：

2.4大数据平台的逻辑层次

逻辑构成从框架上展示了各个组件的组织方式。

这些层提供了一种方法来组织执行特定功能的组件。

这些层只是逻辑结构；这并不意味着支持每层的功能在独立的机器或独立的进程上运行。

大数据平台通常由以下逻辑层组成：

1.数据集成层

2.数据存储层

3.数据分析层

4.数据使用层

2.4.1大数据集成层

要全面考虑来自所有渠道的，所有可用于分析的数据。

要求团队中的数据专家阐明执行需求所需的数据。

这些信息包括：

●格式—结构化、半结构化或非结构化。

●速度和数据量—数据到达的速度和传送它的速率因数据源不同而不同。

●收集点—收集数据的位置，直接或通过数据提供程序，实时或以批量模式收集数据。

数据可能来自某个主要来源，比如天气条件，也有可能来自一个辅助来源，比如媒体赞助的天气频道。

●数据源的位置—数据源可能位于企业内或外部。

识别您具有有限访问权的数据，因为对数据的访问会影响可用于分析的数据范围。

2.4.2大数据存储层

此层负责从数据源获取数据，并在必要时，将它转换为适合符合分析方式的格式。

例如，可能需要转换一幅图，才能将它存储在HadoopDistributedFileSystem（HDFS）存储或关系数据库管理系统（RDBMS）仓库中，以供进一步处理。

规范1和治理策略要求为不同的数据类型提供合适的存储。

2.4.3大数据分析层

分析层读取数据改动和存储层整理（digest）的数据。

在某些情况下，分析层直接从数据源访问数据。

设计分析层需要认真地进行事先筹划和规划。

必须制定如何管理以下任务的决策：

●生成想要的分析

●从数据中获取洞察

●找到所需的实体

●定位可提供这些实体的数据的数据源

●理解执行分析需要哪些算法和工具。

2.4.4大数据应用层

此层使用了分析层所提供的输出。

使用者可以是可视化应用程序、人类、业务流程或服务。

可视化分析层的结果可能具有挑战。

3大数据平台的功能架构

3.1组件构成

3.1.1横向层

3.1.1.1大数据集成层

大数据来源：

●企业遗留系统—这些系统是企业应用程序，执行业务需要的分析并获取需要的洞察：

⏹气象网络设备监测系统

⏹气象信息共享系统

⏹MICAPS

⏹网络通信系统CMA-Cast

⏹突发应急系统

⏹气象预报系统

⏹气象服务系统

⏹办公自动化

⏹……

●Web应用程序开发--Web应用程序和其他数据来源扩充了企业拥有的数据。

这些应用程序可使用自定义的协议和机制来公开数据。

●数据管理系统（DMS）—数据管理系统存储逻辑数据、流程、策略和各种其他类型的文档：

⏹Microsoft?

Excel?

电子表格

⏹MicrosoftWord文档

⏹这些文档可以转换为可用于分析的结构化数据。

文档数据可公开为领域实体，或者数据改动和存储层可将它转换为领域实体。

●数据存储—数据存储包含企业数据仓库、操作数据库和事务数据库。

此数据通常是结构化数据，可直接使用或轻松地转换来满足需求。

这些数据不一定存储在分布式文件系统中，具体依赖于所处的上下文。

●智慧设备—智慧设备能够捕获、处理和传输使用最广泛的协议和格式的信息。

这方面的示例包括智能电话、仪表和医疗设备。

这些设备可用于执行各种类型的分析。

绝大多数智慧设备都会执行实时分析，但从智慧设备传来的信息也可批量分析。

●聚合的数据提供程序—这些提供程序拥有或获取数据，并以复杂的格式和所需的频率通过特定的过滤器公开它。

每天都会产生海量的数据，它们具有不同的格式，以不同的速度生成，而且通过各种数据提供程序、传感器和现有企业提供。

●其他数据源—有许多数据来自自动化的来源：

⏹地理信息：

⏹地图

⏹地区详细信息

⏹位置详细信息

⏹经济热点详细信息（工农业旅游交通教育医疗金融等等）

⏹人类生成的内容：

⏹社交媒体

⏹电子邮件

⏹博客

⏹在线信息

⏹传感器数据：

⏹环境：

天气、降雨量、湿度、光线

⏹电气：

电流、能源潜力等

⏹导航装置

⏹电离辐射、亚原子粒子等

⏹靠近、存在等

⏹位置、角度、位移、距离、速度、加速度

⏹声音、声震动等

⏹汽车、运输等

⏹热量、热度、温度

⏹光学、光、成像、见光度

⏹化学

⏹压力

⏹流动、流体、速度

⏹力、密度级别等

⏹来自传感器供应商的其他数据

3.1.1.2大数据存储层

因为传入的数据可能具有不同的特征，所以数据改动和存储层中的组件必须能够以各种频率、格式、大小和在各种通信渠道上读取数据：

●数据获取—从各种数据源获取数据，并将其发送到数据整理组件或存储在指定的位置中。

此组件必须足够智能，能够选择是否和在何处存储传入的数据。

它必须能够确定数据在存储前是否应改动，或者数据是否可直接发送到业务分析层。

●数据整理—负责将数据修改为需要的格式，以实现分析用途。

此组件可拥有简单的转换逻辑或复杂的统计算法来转换源数据。

分析引擎将会确定所需的特定的数据格式。

主要的挑战是容纳非结构化数据格式，比如图像、音频、视频和其他二进制格式。

●分布式数据存储—负责存储来自数据源的数据。

通常，这一层中提供了多个数据存储选项，比如分布式文件存储（DFS）、云、结构化数据源、NoSQL等。

3.1.1.3分析层

这是从数据中提取业务洞察的层：

●分析层实体识别—负责识别和填充上下文实体。

这是一个复杂的任务，需要高效的高性能流程。

数据整理组件应为这个实体识别组件提供补充，将数据修改为需要的格式。

分析引擎将需要上下文实体来执行分析。

●分析引擎—使用其他组件（具体来讲，包括实体鉴别、模型管理和分析算法）来处理和执行分析。

分析引擎可具有支持并行处理的各种不同的工作流、算法和工具。

●模型管理—负责维护各种统计模型，验证和检验这些模型，通过持续培训模型来提高准确性。

然后，模型管理组件会推广这些模型，它们可供实体识别或分析引擎组件使用。

3.1.1.4使用层

这一层使用了从分析应用程序获取的业务洞察。

分析的结果由组织内的各个用户和组织外部的实体（比如客户、供应商、合作伙伴和提供商）使用。

此洞察可用于针对客户提供产品营销信息。

例如，借助从分析中获取的洞察，公司可以使用客户偏好数据和位置感知，在客户经过通道或店铺时向他们提供个性化的营销信息。

该洞察可用于检测欺诈，实时拦截交易，并将它们与使用已存储在企业中的数据构建的视图进行关联。

在欺诈性交易发生时，可以告知客户可能存在欺诈，以便及时采取更正操作。

此外，可以根据在数据改动层完成的分析来触发业务流程。

可以启动自动化的步骤—例如，如果客户接受了一条可自动触发的营销信息，则需要创建一个新订单，如果客户报告了欺诈，那么可以触发对信用卡使用的阻止。

分析的输出也可由推荐引擎使用，该引擎可将客户与他们喜欢的产品相匹配。

推荐引擎分析可用的信息，并提供个性化且实时的推荐。

使用层还为内部用户提供了理解、找到和导航企业内外的链锁信息的能力。

对于内部使用者，为业务用户构建报告和仪表板的能力使得利益相关者能够制定精明的决策并设计恰当的战略。

为了提高操作有效性，可以从数据中生成实时业务警告，而且可以监视操作性的关键绩效指标：

●交易拦截器—此组件可实时拦截高容量交易，将它们转换为一种容易被分析层理解的实时格式，以便在传入数据上执行实时分析。

事务拦截器应能够集成并处理来自各种来源的数据，比如传感器、智能仪表、麦克风、摄像头、GPS设备、ATM和图像扫描仪。

可以使用各种类型的适配器和API来连接到数据源。

也可以使用各种加速器来简化开发，比如实时优化和流分析，视频分析，银行、保险、零售、电信和公共运输领域的加速器，社交媒体分析，以及情绪分析。

●业务流程管理流程—来自分析层的洞察可供业务流程执行语言（BPEL）流程、API或其他业务流程使用，通过自动化上游和下游IT应用程序、人员和流程的功能，进一步获取业务价值。

●实时监视—可以使用从分析中得出的数据来生成实时警告。

可以将警告发送给感兴趣的使用者和设备，比如智能电话和平板电脑。

可以使用从分析组件生成的数据洞察，定义并监视关键绩效指标，以便确定操作有效性。

实时数据可从各种来源以仪表板的形式向业务用户公开，以便监视系统的健康或度量营销活动的有效性。

●报告引擎—生成与传统商业智能报告类似的报告的能力至关重要。

用户可基于从分析层中得到的洞察，创建临时报告、计划的报告或自助查询和分析。

●推荐引擎—基于来自分析层的分析结果，推荐引擎可向购物者提供实时的、相关的和个性化的推荐，提高电子商务交易中的转换率和每个订单的平均价值。

该引擎实时处理可用信息并动态地响应每个用户，响应基于用户的实时活动、存储在CRM系统中的注册客户信息，以及非注册客户的社交概况。

●可视化和发现—数据可跨企业内外的各种联邦的数据源进行导航。

数据可能具有不同的内容和格式，所有数据（结构化、半结构化和非结构化）可组合来进行可视化并提供给用户。

此能力使得组织能够将其传统的企业内容（包含在企业内容管理系统和数据仓库中）与新的社交内容（例如tweet和博客文章）组合到单个用户界面中。

3.1.2垂直层

影响逻辑层（大数据来源、数据改动和存储、分析和使用层）的所有组件的各方面都包含在垂直层中：

●信息集成

●大数据治理

●系统管理

●服务质量

3.1.2.1信息集成

大数据应用程序从各种数据起源、提供程序和数据源获取数据，并存储在HDFS、NoSQL和MongoDB等数据存储系统中。

这个垂直层可供各种组件使用（例如数据获取、数据整理、模型管理和交易拦截器），负责连接到各种数据源。

集成将具有不同特征（例如协议和连接性）的数据源的信息，需要高质量的连接器和适配器。

可以使用加速器连接到大多数已知和广泛使用的来源。

这些加速器包括社交媒体适配器和天气数据适配器。

各种组件还可以使用这一层在大数据存储中存储信息，从大数据存储中检索信息，以便处理这些信息。

大多数大数据存储都提供了服务和API来存储和检索该信息。

3.1.2.2大数据治理

数据治理涉及到定义指南来帮助企业制定有关数据的正确决策。

大数据治理有助于处理企业内或从外部来源传入的数据的复杂性、量和种类。

在将数据传入企业进行处理、存储、分析和清除或归档时，需要强有力的指南和流程来监视、构建、存储和保护数据。

除了正常的数据治理考虑因素之外，大数据治理还包含其他因素：

●管理各种格式的大量数据。

●持续培训和管理必要的统计模型，以便对非结构化数据和分析进行预处理。

请记住，设置处理非结构化数据时的重要一步。

●为外部数据设置有关其保留和使用的策略和合规性制度。

●定义数据归档和清除策略。

●创建如何跨各种系统复制数据的策略。

●设置数据加密策略。

3.1.2.3服务质量层

此层复杂定义数据质量、围绕隐私和安全性的策略、数据频率、每次抓取的数据大小和数据过滤器：

●数据质量

⏹完整地识别所有必要的数据元素

⏹以可接受的新鲜度提供数据的时间轴

⏹依照数据准确性规则来验证数据的准确性

⏹采用一种通用语言（数据元组满足使用简单业务语言所表达的需求）

⏹依据数据一致性规则验证来自多个系统的数据一致性

⏹在满足数据规范和信息架构指南基础上的技术符合性

●围绕隐私和安全的策略

●需要策略来保护敏感数据。

从外部机构和提供程序获取的数据可能包含敏感数据（比如Facebook用户的联系信息或产品定价信息）。

数据可以来源于不同的地区和国家，但必须进行相应的处理。

必须制定有关数据屏蔽和这类数据的存储的决策。

考虑以下数据访问策略：

⏹数据可用性

⏹数据关键性

⏹数据真实性

⏹数据共享和发布

⏹数据存储和保留，包括能否存储外部数据等问题。

如果能够存储数据，数据可存储多长时间？

可存储何种类型的数据？

⏹数据提供程序约束（政策、技术和地区）

⏹社交媒体使用条款（参见?

）

●数据频率

●提供新鲜数据的频率是多少？

它是按需、连续还是离线的？

●抓取的数据大小

●此属性有助于定义可抓取的数据以及每次抓取后可使用的数据大小。

●过滤器

●标准过滤器会删除不想要的数据和数据中的干扰数据，仅留下分析所需的数据。

3.1.2.4系统管理

系统管理对大数据至关重要，因为它涉及到跨企业集群和边界的许多系统。

对整个大数据生态系统的健康的监视包括：

●管理系统日志、虚拟机、应用程序和其他设备

●关联各种日志，帮助调查和监视具体情形

●监视实时警告和通知

●使用显示各种参数的实时仪表板

●引用有关系统的报告和详细分析

●设定和遵守服务水平协议

●管理存储和容量

●归档和管理归档检索

●执行系统恢复、集群管理和网络管理

●策略管理

3.2功能应用

前面提到的技术架构的这些层定义了各种组件，并对它们进行分类，这些组件必须处理某个给定业务用例的功能性和非功能性需求。

本文基于层和组件的概念，介绍了解决方案中所用的典型原子模式和复合模式。

通过将所提出的解决方案映射到此处提供的模式，让用户了解需要如何设计组件，以及从功能角度考虑，应该将它们放置在何处。

模式有助于定义大数据解决方案的架构。

利用原子模式和复合模式可以帮助进一步完善大数据解决方案的每个组件的角色和责任。

3.3原子模式

对于大数据上下文中经常出现的问题，原子模式?

有助于识别数据如何是被使用、处理、存储和访问的。

它们还有助于识别所需的组件。

访问、存储和处理来自不同数据源的多种数据需要不同的方法。

每种模式都用于满足特定的需求：

例如，可视化、历史数据分析、社交媒体数据和非结构化数据的存储。

可以将多种原子模式结合使用，组成一个复合模式。

这些原子模式没有进行分层或排序。

例如，可视化模式可以与社交媒体的数据访问模式直接交互，可视化模式还可以与高级分析处理模式进行交互。

3.3.1数据使用组件

这种类型的模式处理使用数据分析结果的各种方式。

数据使用模式可以满足几个需求。

3.3.1.1可视化组件

可视化数据的传统方式以图表、仪表板和摘要报告为基础。

这些传统的方法并不总是用来可视化数据的最佳方式。

大数据可视化的典型需求（包括新出现的需求）如下所示：

●执行流数据的实时分析和显示

●基于上下文，以

展开阅读全文