商业智能初级知识扫盲之概念篇.docx

资源描述

商业智能初级知识扫盲之概念篇.docx

《商业智能初级知识扫盲之概念篇.docx》由会员分享，可在线阅读，更多相关《商业智能初级知识扫盲之概念篇.docx（12页珍藏版）》请在冰点文库上搜索。

商业智能初级知识扫盲之概念篇.docx

商业智能初级知识扫盲之概念篇

商业智能初级知识之概念篇

商业智能：

商业智能定义

商业智能（BusinessIntelligence，简称：

BI），又称商业智慧或商务智能。

可以认为，商业智能是对商业信息的搜集、管理和分析过程，目的是使企业的各级决策者获得知识或洞察力（insight），促使他们做出对企业更有利的决策。

商业智能组成

商业智能一般由数据仓库、联机分析处理OLAP、数据挖掘、数据备份和恢复等部分组成。

商业智能的实现涉及到软件、硬件、咨询服务及应用，其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。

商业智能过程

商业智能分析设计详述的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行数据清理，以保证数据的正确性，然后经过抽取（Extraction）、转换（Transformation）和装载（Load），即ETL过程，合并到一个企业级的数据仓库里，从而得到企业数据的一个全局视图，在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理（这时信息变为辅助决策的知识），最后将知识呈现给管理者，为管理者提供决策支持。

企业应用商业智能的益处

1、促进企业决策流程：

商业智能增进企业的资讯整合与资讯分析的能力，汇总公司内、外部的资料，整合成有效的决策资讯，让企业经理人大幅增进决策效率与改善决策品质。

2、降低整体营运成本：

商业智能改善企业的资讯取得能力，大幅降低IT人员撰写程式、制作报表的时间与人力成本，而弹性的模组设计介面，完全不需撰写程式的特色也让日后的维护成本大幅降低。

3、协同组织目标与行动：

商业智能加强企业的资讯传播能力，消除资讯需求者与IT人员之间的认知差距，并可让更多人获得更有意义的资讯。

全面改善企业之体质，使组织内的每个人目标一致、齐心协力。

数据仓库

数据仓库定义

数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。

数据仓库特征

1、数据仓库是面向主题的。

操作型数据库的数据组织面向事务处理任务，而数据仓库中的数据是按照一定的主题域进行组织。

主题是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。

2、数据仓库是集成的。

数据仓库中的数据是在对原有分散的数据库数据抽取、数据清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。

数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点（如开始应用数据仓库的时点）到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

3、数据仓库是不可更新的。

数据仓库主要是为决策分析提供数据，所涉及的操作主要是数据的查询；

4、数据仓库是随时间而变化的。

传统的关系数据库系统比较适合处理格式化的数据，能够较好的满足商业商务处理的需求。

稳定的数据以只读格式保存，且不随时间改变。

5、汇总的。

操作性数据映射成决策可用的格式。

6、大容量。

时间序列数据集合通常都非常大。

7、非规范化的。

Dw数据可以是而且经常是冗余的。

8、元数据。

将描述数据的数据保存起来。

9、数据源。

数据来自内部的和外部的非集成操作系统。

数据集市

数据集市定义

数据集市（DataMart），也叫数据市场，是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。

从范围上来说，数据是从企业范围的数据库、数据仓库，或者是更加专业的数据仓库中抽取出来的。

数据中心的重点就在于它迎合了专业用户群体的特殊需求，在分析、内容、表现，以及易用方面。

数据中心的用户希望数据是由他们熟悉的术语表现的。

数据集市就是企业级数据仓库的一个子集，他主要面向部门级业务，并且只面向某个特定的主题。

为了解决灵活性与性能之间的矛盾，数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。

数据集市存储为特定用户预先计算好的数据，从而满足用户对性能的需求。

数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数据集市特征

1．规模小。

2．有特定的应用。

3．面向部门。

4．由业务部门定义、设计和开发。

5．业务部门管理和维护。

6．能快速实现。

7．购买较便宜。

8．投资快速回收。

9．工具集的紧密集成。

10．提供更详细的、预先存在的、数据仓库的摘要子集。

11．可升级到完整的数据仓库。

独立型数据库VS从属型数据库

独立型数据集市直接从操作型环境获取数据，从属型数据集市从企业级数据仓库获取数据，带有从属型数据集市的体系结构。

数据仓库规模大、周期长，一些规模比较小的企业用户难以承担。

因此，作为快速解决企业当前存在的实际问题的一种有效方法，独立型数据集市成为一种既成事实。

独立型数据集市是为满足特定用户（一般是部门级别的）的需求而建立的一种分析型环境，它能够快速地解决某些具体的问题，而且投资规模也比数据仓库小很多。

误区：

多个独立的数据集市的累积可以形成一个企业级数据仓库

就像人们不可能将大海里的小鱼堆在一起就构成一头大鲸鱼，多个独立的数据集市的累积，是不能形成一个企业级的数据仓库的，这是由数据仓库和数据集市本身的特点决定的。

数据集市为各个部门或工作组所用，各个集市之间存在不一致性是难免的。

因为脱离数据仓库的缘故，当多个独立型数据集市增长到一定规模之后，由于没有统一的数据仓库协调，企业只会又增加一些信息孤岛，仍然不能以整个企业的视图分析数据。

如果企业最终想建设一个全企业统一的数据仓库，想要以整个企业的视图分析数据，独立型数据集市恐怕不是合适的选择；从长远的角度看，从属型数据集市在体系结构上比独立型数据集市更稳定，可以说是数据集市未来建设的主要方向。

数据清洗

数据清洗定义

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。

与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。

数据清洗主要类型

1、残缺数据

这一类数据主要是一些应该有的信息缺失，如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。

对于这一类数据过滤出来，按缺失的内容分别写入不同Excel文件向客户提交，要求在规定的时间内补全。

补全后才写入数据仓库。

2、错误数据

这一类错误产生的原因是业务系统不够健全，在接收输入后没有进行判断直接写入后台数据库造成的，比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。

这一类数据也要分类，对于类似于全角字符、数据前后有不可见字符的问题，只能通过写SQL语句的方式找出来，然后要求客户在业务系统修正之后抽取。

日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败，这一类错误需要去业务系统数据库用SQL的方式挑出来，交给业务主管部门要求限期修正，修正之后再抽取。

3、重复数据

对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来，让客户确认并整理。

数据清洗是一个反复的过程，不可能在几天内完成，只有不断的发现问题，解决问题。

对于是否过滤，是否修正一般要求客户确认，对于过滤掉的数据，写入Excel文件或者将过滤数据写入数据表，在ETL开发的初期可以每天向业务单位发送过滤数据的邮件，促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。

数据清洗需要注意的是不要将有用的数据过滤掉，对于每个过滤规则认真进行验证，并要用户确认。

数据挖掘

数据挖掘定义

数据挖掘（英语：

Datamining），又译为资料探勘、数据采矿。

它是数据库知识发现（KDD）中的一个步骤。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘步骤

数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。

数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。

数据挖掘相关问题

1、数据仓库和数据挖掘的关系为何？

若将数据仓库比喻作矿坑，数据挖掘就是深入矿坑采矿的工作。

数据挖掘就是从巨大数据仓库中找出有用信息的一种过程与技术。

2、olap能不能代替数据挖掘？

两者间是截然不同的，主要差异在于数据挖掘用在产生假设，OLAP则用于查证假设。

简单来说，OLAP是由使用者所主导，使用者先有一些假设，然后利用OLAP来查证假设是否成立；而数据挖掘则是用来帮助使用者产生假设。

3、数据挖掘在各领域应用为何？

数据挖掘在各领域的应用非常广泛，只要该产业拥有具分析价值与需求的数据仓储或数据库，皆可利用数据挖掘工具进行有目的的挖掘分析。

一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。

于销售数据中发掘顾客的消费习性，并可藉由交易纪录找出顾客偏好的产品组合，其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例；直效行销强调的分众概念与数据库行销方式在导入数据挖掘的技术后，使直效行销的发展性更为强大，例如利用数据挖掘分析顾客群之消费行为与交易纪录，结合基本数据，并依其对品牌价值等级的高低来区隔顾客，进而达到差异化行销的目的；制造业对数据挖掘的需求多运用在品质控管方面，由制造过程中找出影响产品品质最重要的因素，以期提高作业流程的效率。

近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测都很有兴趣，这些行业每年因为诈欺行为而造成的损失都非常可观，数据挖掘可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易，达到减少损失的目的。

财务金融业可以利用DataMining来分析市场动向，并预测个别公司的营运以及股价走向。

数据挖掘的另一个独特的用法是在医疗业，用来预测手术、用药、诊断、或是流程控制的效率。

OLAP

OLAP定义

联机分析处理（OLAP）系统是数据仓库系统最主要的应用，专门设计用于支持复杂的数据分析操作，侧重对决策人员和高层管理人员的决策支持，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，以便他们准确掌握企业（公司）的经营状况，了解对象的需求，制定正确的方案。

OLAP和OLTP的区别

联机事务处理OLTP（On-LineTransactionProcessing）是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。

联机分析处理OLAP（On-LineAnalyticalProcessing）是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

OLAP特点

联机分析处理的用户是企业中的专业分析人员及管理决策人员，他们在分析业务经营的数据时，从不同的角度来审视业务的衡量指标是一种很自然的思考模式。

例如分析销售数据，可能会综合时间周期、产品类别、分销渠道、地理分布、客户群类等多种因素来考量。

这些分析角度虽然可以通过报表来反映，但每一个分析的角度可以生成一张报表，各个分析角度的不同组合又可以生成不同的报表，使得IT人员的工作量相当大，而且往往难以跟上管理决策人员思考的步伐。

联机分析处理的主要特点，是直接仿照用户的多角度思考模式，预先为用户组建多维数据库，在这里，维指的是用户的分析角度。

例如对销售数据的分析，时间周期是一个维度，产品类别、分销渠道、地理分布、客户群类也分别是一个维度。

一旦多维数据模型建立完成，用户可以快速地从各个分析角度获取数据，也能动态的在各个角度之间切换或者进行多角度综合分析，具有极大的分析灵活性。

数据仓库和OLAP的关系

数据仓库与OLAP的关系是互补的，现代OLAP系统一般以数据仓库作为基础，即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。

ETL

ETL定义

ETL（Extract-Transform-Load）用来描述将数据从来源端经过萃取（Extract）、转置（Transform）、加载（Load）至目的端的过程，是构建数据仓库重要的一环，是商业智能的核心和灵魂。

ETL特色功能

管理简单

采用元数据方法，集中进行管理；接口、数据格式、传输有严格的规范；尽量不在外部数据源安装软件；数据抽取系统流程自动化，并有自动调度功能；抽取的数据及时、准确、完整；可以提供同各种数据系统的接口，系统适应性强；提供软件框架系统，系统功能改变时，应用程序很少改变便可适应变化；可扩展性强。

标准定义数据

合理的业务模型设计对ETL至关重要。

数据仓库是企业唯一、真实、可靠的综合数据平台。

数据仓库的设计建模一般都依照三范式、星型模型、雪花模型，无论哪种设计思想，都应该最大化地涵盖关键业务数据，把运营环境中杂乱无序的数据结构统一成为合理的、关联的、分析型的新结构，而ETL则会依照模型的定义去提取数据源，进行转换、清洗，并最终加载到目标数据仓库中。

模型的重要之处在于对数据做标准化定义，实现统一的编码、统一的分类和组织。

标准化定义的内容包括：

标准代码统一、业务术语统一。

ETL依照模型进行初始加载、增量加载、缓慢增长维、慢速变化维、事实表加载等数据集成，并根据业务需求制定相应的加载策略、刷新策略、汇总策略、维护策略。

拓展新型应用

对业务数据本身及其运行环境的描述与定义的数据，称之为元数据（metadata）。

元数据是描述数据的数据。

从某种意义上说，业务数据主要用于支持业务系统应用的数据，而元数据则是企业信息门户、客户关系管理、数据仓库、决策支持和B2B等新型应用所不可或缺的内容。

元数据的典型表现为对象的描述，即对数据库、表、列、列属性（类型、格式、约束等）以及主键/外部键关联等等的描述。

特别是现行应用的异构性与分布性越来越普遍的情况下，统一的元数据就愈发重要了。

“信息孤岛”曾经是很多企业对其应用现状的一种抱怨和概括，而合理的元数据则会有效地描绘出信息的关联性。

而元数据对于ETL的集中表现为：

定义数据源的位置及数据源的属性、确定从源数据到目标数据的对应规则、确定相关的业务逻辑、在数据实际加载前的其他必要的准备工作，等等，它一般贯穿整个数据仓库项目，而ETL的所有过程必须最大化地参照元数据，这样才能快速实现ETL。

决策支持

决策支持定义

决策支持系统（decisionsupportsystem，简称dss）是辅助决策者通过数据、模型和知识，以人机交互方式进行半结构化或非结构化决策的计算机应用系统。

它是管理信息系统（mis）向更高一级发展而产生的先进信息管理系统。

它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境，调用各种信息资源和分析工具，帮助决策者提高决策水平和质量。

决策支持分类

（1）结构化决策，是指对某一决策过程的环境及规则，能用确定的模型或语言描述，以适当的算法产生决策方案，并能从多种方案中选择最优解的决策；

（2）非结构化决策，是指决策过程复杂，不可能用确定的模型和语言来描述其决策过程，更无所谓最优解的决策；

（3）半结构化决策，是介于以上二者之间的决策，这类决策可以建立适当的算法产生决策方案，使决策方案中得到较优的解。

决策支持进程步骤

决策的进程一般分为4个步骤：

（1）发现问题并形成决策目标，包括建立决策模型、拟定方案和确定效果度量，这是决策活动的起点；

（2）用概率定量地描述每个方案所产生的各种结局的可能性；

（3）决策人员对各种结局进行定量评价，一般用效用值来定量表示。

效用值是有关决策人员根据个人才能、经验、风格以及所处环境条件等因素，对各种结局的价值所作的定量估计；

（4）综合分析各方面信息，以最后决定方案的取舍，有时还要对方案作灵敏度分析，研究原始数据发生变化时对最优解的影响，决定对方案有较大影响的参量范围。

决策往往不可能一次完成，而是一个迭代过程。

决策可以借助于计算机决策支持系统来完成，即用计算机来辅助确定目标、拟定方案、分析评价以及模拟验证等工作。

在此过程中，可用人机交互方式，由决策人员提供各种不同方案的参量并选择方案。

大数据

越来越大、越来越快、越来越复杂，数据特性的演变和发展，催生了一个全新的概念——大数据。

在理解大数据是什么之前，首先要了解三个概念：

结构化数据，半结构化数据以及非结构化数据。

结构化数据：

行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据，多年来一直主导着IT应用；（传统商业智能数据来源）

半结构化数据：

包括电子邮件、文字处理文件以及大量发布在网络上的新闻等，以内容为基础，这也是谷歌和XX存在的理由；

非结构化数据：

广泛存在于社交网络、物联网、电子商务之中。

伴随着社交网络、移动计算和传感器等新技术不断产生，有报告称，超过80%的数据属于非结构化数据。

（大数据数据来源）

理解了这三种数据的区别，也就明白了大数据和商业智能的主要区别在哪。

简单来说，大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

IBM将“大数据”理念定义为4个V，即数量（Volume）、多样性（Variety）、速度（Velocity）及数据的准确性（Veracity）。

本文由FineBI商业智能官网整理，转载请注明出处：

管理驾驶舱

管理驾驶舱定义

管理驾驶舱（ManagementCockpit）是指企业做决策时，所需要的数据以及预警的措施，就像汽车/飞机的仪表盘，随时显示我们关键业务的数据指标以及执行情况；

管理驾驶舱是一组动态的KPI指标,包含“平衡计分卡”模型中的各项指标，这些指标通常直接指向公司的目标和阶段性问题；

管理驾驶舱是以图表的方式直观的显示各项指标，并支持“钻取式查询”，实现对指标的逐层细化、深化分析。

管理驾驶舱是基于ERP的高层决策支持系统。

通过详尽的指标体系，实时反映企业的运行状态，将采集的数据形象化、直观化、具体化。

管理驾驶舱特点

直观性

进入驾驶舱页面就像进入汽车驾驶舱一样，展现在面前的将是各种各样的图形界面，例如压力表盘等，与汽车驾驶舱不同的是这些图形所反映出来的是企业中各种经济指标的具体数据，例如：

成本、产值等，这样管理者就能够更直观、全面地了解到了企业中所有指标的具体情况，从而方便快速地做出下一步决策。

可配置性

管理驾驶舱可以灵活配置，根据用户习惯，选择合适的图形来显示想要了解的具体指标，一个图形可以反映多种指标，一种指标可以由多个图形显示的交叉实现模式，配置更加灵活。

方便性

管理驾驶舱配置完成后，用户可以把这些配置进行保存，要想查看这种配置下的各种指标显示情况，只需进行一步操作就可以实现，真正实现了让用户的操作更加方便的设计思想。

全面性

管理驾驶舱充分考虑到了人们对图形的最佳接受数目，在第一层最多可配置六个图形，并且在每一个图形的基础上都可以形成相同指标，不同条件，不同图形的的第二层显示，确保了用户能够更全面地对公司中的各个指标进行掌握。

多维性

管理驾驶舱真正实现了多用户、不同权限的不同操作，每个有权限的用户都能够配置适合自己的图形，从而能够让各个管理层都能够查看到自己所关心的经济指标，从技术和实现上达到了多用户、多权限、多图形、多指标的多维操作的目的。

展开阅读全文