企业信息化数据管理.docx

资源描述

企业信息化数据管理.docx

《企业信息化数据管理.docx》由会员分享，可在线阅读，更多相关《企业信息化数据管理.docx（16页珍藏版）》请在冰点文库上搜索。

企业信息化数据管理.docx

企业信息化数据管理

数据管理

数据管理包括数据存储、检索和操纵。

为了能够在系统开发和开展业务工作期间有效地与信息服务人员进行联系，用户管理人员应具备本章中所提到有关概念、方法和术语方面业务知识。

一、数据和信息

计算机系统并不存储信息，只存储数据。

数据是获得信息原始材料，为了满足定期存取需要，它们被存储在二级（辅助）存储设备（磁盘和磁带）上。

信息是经过同化、聚合和“加工”后有特定含义数据。

为了突击数据和信息之间差别，我们考察下面例子。

一个部门领导要求每个职工分别在一张纸上写下他们年龄。

每张纸只有一行含义简单数据。

然而经理可以从这些数据中获得信息。

他能够以此确定超过50岁职工有多少、职工平均年龄是多少，最年轻职工年龄是多少等等。

人们经常使用“信息处理”这个词汇容易造成误解，实际上，它真正含义是为了产生信息而处理数据。

二、数据组织层次体系

任何信息系统都有一个数据组织层次体系。

在该层次体系中，每一后继层都是其前驱层数据元组合结果，最终实现一个综合数据库。

处于第一层“位”用户是不必了解，而其它五层则是用户输入和请求数据时合理需要。

数据是一切信息系统基础。

一个高质量计算机信息系统最终用户必须具备数据组织及其处理方面知识。

位

位是主存储器和辅助存储器基本单位。

计算机是电子，因而只能实现两种状态。

从物理上讲，可以通过不同途径来实现这两种状态（电流方向，开关，涂在带上和盘上铁淦氧磁性排列）。

由于每一位只能表示两种状态，因此，必须将位组合才能形成字母数字字符。

由位组合成字母数字字符被暂时存放在主存储器中，或永久地存放在辅助存储器中。

在主存和辅存中存放是字母数字字符内部表示形式（例如，如果采用EBC-DIC编码体制，则11000010表示字母A，而11110001表示数字1）。

在输入时，对字母数字字符进行编码以形成若干位组合，而在输出时进行译码。

目前还没有工业标准编码体制。

最为流行编码体制是六位二进制编码十进制码（BCD），七位ASCII码以及八位扩充二进制编码十进制交换码（EBCDIC-发音为eb-se-dik）。

六位编码最多可以表示64个字符（2?

6）。

七位编码可以表示128个字符，而八位编码可以表示256个字符。

读者可能会问：

既然用六位就可以对一个字符编码。

为什么还要用八位来编码?

这是因为六位码64种可能组合只够表示字母、数字和18个特殊符号。

如果希望有表示大写和小写字母，那么六位编码就不够用了。

因此，就需要具有128种组合七位编码。

目前还难以想象出对128种以上位组合需要。

引进八位编码体制（EBCDIC）是为了利用这一个事实，即只用4位（24-具有16种可能组合）来表示一个数值数据。

因此，一个8位编码实际上可以用来表示两个十进制数字。

由于所存储数据多数是数值数据，所以将两个数字编码压缩成八位可以节省存储空间。

EBCDIC8位组合称之为一个字节。

而BCD六位就构成一个字节。

在BCD和ASCII编码体制中，字节是字符同义词。

在EBCDIC编码体制中，由于可以将两个数字压缩到一个字节中，所以EBCDIC字节与字符间并不一一对应。

然而，在涉及到存储容量时，则经常交替地使用字符和字节。

一个磁盘组可以有800兆字节容量（即800兆字节永久存储器），而一台计算机主存可以有8兆字节（作为处理用兆字节高速临时存储器）。

较小存储设备用千字节（一千个字节倍数来度量）。

通常将兆和千分别缩写“M”和“K”。

在逻辑上讲，一个EBCDIC字节是8位，而实际上它有9位。

由于要将这些位在计算机和外部设备（或远程终端）之间传送，所以在计算机硬件中使用了一种内部校验方法来保证传送数据准确性。

这种构验方法之一是给传送数据附加一位奇偶校验位，用该位来发现在传送过程中是否丢失了一位。

计算机可以采用偶数奇偶校验或奇数奇偶校验法，即每一字符要包含偶数个或奇数个“开状态”位。

假定某台计算机采用偶数奇偶校验法，如果要将一个EBCDIC字母A（它具有奇数个“开”位-11000001）写到磁带上，那么在传送之前为了维持偶校验，则需要增加一位奇偶位（即：

111000001—偶数个“开”位），在将字符写到磁带之前，硬件自动计算“开”位个数。

如果计算机结果是奇数，则说明已经出现了奇偶校验错误，计算机自动向操作员发出警告。

字符（字节）

在通过键盘（光符号识别器或其他输入设备）输入一个字符时，机器直接将字符翻译成某特定编码系统中一串位组合。

一个计算机系统可以使用不止一种编码体制。

例如，某些计算机系统中将ASCII编码体制用于数据通信，而将EBCDIC编码体制用于数据存储。

数据元

描述数据元最好办法是举例说明。

一个人社会保险号、姓名、信用卡号、街道地址和婚姻状况等都是数据元。

在数据层次体系中，数据元是最低一层逻辑单位，为了形成一个逻辑单位，需要将若干位和若干字节组合在一起。

一个日期不一定是一个数据元，它可以是三个数据元：

年、月、日。

对地址来说，也是同样。

一个地址中可以包括州、城市、街道地址和邮政码这四个数据元。

从逻辑上可以把日期和地址都看成是一个数据元，但是输出这种数据元是不方便。

例如，通常在输出时总是把街道地址单写一行，因而应该把一个地址几个数据元分开。

此外，由于姓名和地址文件经常按邮政码排序，因此，需要将邮政码作为一个逻辑实体（数据元）来对待。

根据上下文需要，有时也把数据元称作为字段（记录中字段）。

数据元是泛指，而数据项才是实际实体（或实际“值”）。

例如，社会保险号是一个数据元，而445487279和44214158则是两个数据项。

为了节省输入数据时敲打键盘时间和存储空间，在输入数据时通常将数据元编码。

例如，通常将职工主文件中“性别”数据元编码，这样，数据录入员就可以简单输入“M”或“F”来代替“Male”（男）或“Female”（女）。

在输出时再将“M”和“F”分别翻译成“男”或“女”。

在设计数据元时，可以使一个数据项（如帐号）编码具有特定含义，从而可以向用户提供信息。

例如，可以将一个大学六位帐号编码如下：

表20.6.1

举一个例子，RBI001将表示生物系1另研究项目帐号。

记录

将逻辑上相关数据元组合在一起就形成一个记录。

表20.6.2列举了一个职工记录中可能包含若干数据元，以及作为职工记录一个值若干数据项。

记录是能够从数据库中

存取最低一层逻辑单位。

例如，如果一个人事经理需要知道阿温肥访芩沟幕橐鲎纯觯敲矗桶阉恼黾锹即痈ù嬷腥〕隼床⒋偷街鞔娼写怼£

文件

文件是逻辑上相关记录集合。

职工主文件包含每一个职工记录。

库存文件包含每一种库存货物记录。

应收帐目文件包含每个顾客记录。

“文件”这个词有时也指某台二级存储设备上一块已命名区域，该区域中可以包含程序代码、教材、数据，甚至还可以包含输出报表。

数据库

数据库是一种作为计算机系统资源共享全部数据之集合。

有时根据不同应用领域可将该资源共享数据分成若干段。

例如，财会数据库可以划分为一个应用领域，它可以包含六个不同文件。

读者应该注意到：

用“文件”来组织数据这种方法将带来数据冗余。

也就是说，为了在处理时使用，必须将某些数据元重复地存放在几个文件中。

例如，在一所大学安置办公室、宿舍管理处、财务支持办公室以及注册处等都有可能保存学生文件。

像学生名、校内地址这类数据元几乎在每个文件中都重复出现。

在对开发一个综合学生信息系统进行可行性分析时，一些系统分析员在美国西南部一所规模很大大学中发现有75个计算机文件中都包含学生名和校内地址。

采用先进数据库管理系统比之传统文件系统有较大改进，它使得用户可以将存储数据重复程度减至最小。

三、数据库概念与用途

数据库概念

什么是数据库呢?

当人们从不同角度来描述这一概念时就有不同定义（当然是描述性）。

例如，称数据库是一个“记录保存系统”（该定义强调了数据库是若干记录集合）。

又如称数据库是“人们为解决特定任务，以一定组织方式存储在一起相关数据集合”（该定义侧重于数据组织）。

更有甚者称数据库是“一个数据仓库”。

当然，这种说法虽然形象，但并不严谨。

严格地说，数据库是“按照数据结构来组织、存储和管理数据仓库”。

在经济管理日常工作中，常常需要把某些相关数据放进这样“仓库”，并根据管理需要进行相应处理。

例如，企业或事业单位人事部门常常要把本单位职工基本情况（职工号、姓名、年龄、性别、籍贯、工资、简历等）存放在表20.6.3中，这张表就可以看成是一个数据库。

有了这个“数据仓库”我们就可以根据需要随时查询某职工基本情况，也可以查询工资在某个范围内职工人数等等。

这些工作如果都能在计算机上自动进行，那我们人事管理就可以达到极高水平。

此外，在财务管理、仓库管理、生产管理中也需要建立众多这种“数据库”，使其可以利用计算机实现财务、仓库、生产自动化管理。

J.Martin给数据库下了一个比较完整定义：

数据库是存储在一起相关数据集合，这些数据是结构化，无有害或不必要冗余，并为多种应用服务；数据存储独立于使用它程序；对数据库插入新数据，修改和检索原有数据均能按一种公用和可控制方式进行。

当某个系统中存在结构上完全分开若干个数据库时，则该系统包含一个“数据库集合”。

数据库优点

使用数据库可以带来许多好处：

如减少了数据冗余度，从而大大地节省了数据存储空间；实现数据资源充分共享等等。

此外，数据库技术还为用户提供了非常简便使用手段使用户易于编写有关数据库应用程序。

特别是近年来推出微型计算机关系数据库管理系统dBASELL，操作直观，使用灵活，编程方便，环境适应广泛（一般十六位机，如IBM/PC/XT，国产长城0520等均可运行种软件），数据处理能力极强。

数据库在我国正得到愈来愈广泛应用，必将成为经济管理有力工具。

数据库是通过数据库管理系统（DBMS-DATABASEMANAGEMENTSYSTEM）软件来实现数据存储、管理与使用dBASELL就是一种数据库管理系统软件。

数据库结构与数据库种类

数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。

而不同数据库是按不同数据结构来联系和组织。

1.数据结构模型

（1）数据结构

所谓数据结构是指数据组织形式或数据之间联系。

如果用D表示数据，用R表示数据对象之间存在关系集合，则将DS＝（D，R）称为数据结构。

例如，设有一个电话号码簿，它记录了n个人名字和相应电话号码。

为了方便地查找某人电话号码，将人名和号码按字典顺序排列，并在名字后面跟随着对应电话号码。

这样，若要查找某人电话号码（假定他名字第一个字母是Y），那么只须查找以Y开头那些名字就可以了。

该例中，数据集合D就是人名和电话号码，它们之间联系R就是按字典顺序排列，其相应数据结构就是DS＝（D，R），即一个数组。

（2）数据结构种类

数据结构又分为数据逻辑结构和数据物理结构。

数据逻辑结构是从逻辑角度（即数据间联系和组织方式）来观察数据，分析数据，与数据存储位置无关。

数据物理结构是指数据在计算机中存放结构，即数据逻辑结构在计算机中实现形式，所以物理结构也被称为存储结构。

本节只研究数据逻辑结构，并将反映和实现数据联系方法称为数据模型。

目前，比较流行数据模型有三种，即按图论理论建立层次结构模型和网状结构模型以及按关系理论建立关系结构模型。

2.层次、网状和关系数据库系统

（1）层次结构模型

层次结构模型实质上是一种有根结点定向有序树（在数学中“树”被定义为一个无回连通图）。

例如图20.6.4是一个高等学校组织结构图。

这个组织结构图像一棵树，校部就是树根（称为根结点），各系、专业、教师、学生等为枝点（称为结点），树根与枝点之间联系称为边，树根与边之比为1:

N，即树根只有一个，树枝有N个。

这种数据结构模型一般结构见图20.6.5所示。

图20.6.4高等学校组织结构图图20.6.5层次结构模型

图20.6.5中，Ri（i＝1，2，…6）代表记录（即数据集合），其中R1就是根结点（如果Ri看成是一个家族，则R1就是祖先，它是R2、R3、R4双亲，而R2、R3、R4互为兄弟），R5、R6也是兄弟，且其双亲为R3。

R2、R4、R5、R6又被称为叶结点（即无子女结点）。

这样，Ri（i＝1，2，…6）就组成了以R1为树根一棵树，这就是一个层次数据结构模型。

按照层次模型建立数据库系统称为层次模型数据库系统。

IMS（InformationManage-mentSystem）是其典型代表。

（2）网状结构模型?

在图20.6.6中，给出了某医院医生、病房和病人之间联系。

即每个医生负责治疗三个病人，每个病房可住一到四个病人。

如果将医生看成是一个数据集合，病人和病房分别是另外两个数据集合，那么医生、病人和病房比例关系就是M:

P（即M个医生，N个病人，P间病房）。

这种数据结构就是网状数据结构，它一般结构模型如图20.6.7所示。

在图中，记录Ri（i＝1，2，8）满足以下条件：

①可以有一个以上结点无双亲（如R1、R2、R3）。

②至少有一个结点有多于一个以上双亲。

在“医生、病人、病房”例中，“医生集合有若干个结点（M个医生结点）无“双亲”，而“病房”集合有P个结点（即病房），并有一个以上“双亲”（即病人）。

图20.6.6医生、病房和病人之间关系

图20.6.7网状结构模型

按照网状数据结构建立数据库系统称为网状数据库系统，其典型代表是DBTG（DataBaseTaskGroup）。

用数学方法可将网状数据结构转化为层次数据结构。

（3）关系结构模型

关系式数据结构把一些复杂数据结构归结为简单二元关系（即二维表格形式）。

例如某单位职工关系就是一个二元关系（见表20.6.8）。

这个四行六列表格每一列称为一个字段（即属性），字段名相当于标题栏中标题（属性名称）；表每一行是包含了六个属性（工号、姓名、年龄、性别、职务、工资）一个六元组，即一个人记录。

这个表格清晰地反映出该单位职工基本情况。

表20.6.8职工基本情况

通常一个m行、n列二维表格结构如表20.6.9所示。

表中每一行表示一个记录值，每一列表示一个属性（即字段或数据项）。

该表一共有m个记录。

每个记录包含n个属性。

作为一个关系二维表，必须满足以下条件：

（1）表中每一列必须是基本数据项（即不可再分解）。

（2）表中每一列必须具有相同数据类型（例如字符型或数值型）。

（3）表中每一列名字必须是唯一。

（4）表中不应有内容完全相同行。

（5）行顺序与列顺序不影响表格中所表示信息含义。

由关系数据结构组成数据库系统被称为关系数据库系统。

在关系数据库中，对数据操作几乎全部建立在一个或多个关系表格上，通过对这些关系表格分类、合并、连接或选取等运算来实现数据管理。

dBASEII就是这类数据库管理系统典型代表。

对于一个实际应用问题（如人事管理问题），有时需要多个关系才能实现。

用dBASEII建立起来一个关系称为一个数据库（或称数据库文件），而把对应多个关系建立起来多个数据库称为数据库系统。

dBASEII另一个重要功能是通过建立命令文件来实现对数据库使用和管理，对于一个数据库系统相应命令序列文件，称为该数据库应用系统。

因此，可以概括地说，一个关系称为一个数据库，若干个数据库可以构成一个数据库系统。

数据库系统可以派生出各种不同类型辅助文件和建立它应用系统。

数据库要求与特性

为了使各种类型数据库系统能够充分发挥它们优越性，必须对数据库管理系统使用提出一些明确要求。

1.建立数据库文件要求

（1）尽量减少数据重复，使数据具有最小冗余度。

计算机早期应用中文件管理系统，由于数据文件是用户各自建立，几个用户即使有许多相同数据也得放在各自文件中，因而造成存储数据大量重复，浪费存储空间。

数据库技术正是为了克服这一缺点而出现，所以在组织数据存储时应避免出现冗余。

（2）提高数据利用率，使众多用户都能共享数据资源。

（3）注意保持数据完整性。

这对某些需要历史数据来进行预测、决策部门（如统计局、银行等）特别重要。

（4）注意同一数据描述方法一致性，使数据操作不致发生混乱。

如一个人学历在人事档案中是大学毕业，而在科技档案中却是大学程度，这样就容易造成混乱。

（5）对于某些需要保密数据，必须增设保密措施。

（6）数据查找率高，根据需要数据应能被及时维护。

2.数据库文件特征

无论使用哪一种数据库管理系统，由它们所建立数据库文件都可以看成是具有相同性质记录集合，因而这些数据库文件都有相同特性：

（1）文件记录格式相同，长度相等。

（2）不同行是不同记录，因而具有不同内容。

（3）不同列表示不同字段名，同一列中数据性质（属性）相同。

（4）每一行各列内容是不能分割，但行顺序和列顺序不影响文件内容表达。

3.文件分类

对文件引用最多是主文件和事物文件。

其他文件分类还包括表文件、备份文件、档案输出文件等。

下面将讲述这些文件。

（1）主文件。

主文件是某特定应用领域永久性数据资源。

主文件包含那些被定期存取以提供信息和经常更新以反映最新状态记录。

典型主文件有库存文件、职工主文件和收帐主文件等。

（2）事务文件。

事务文件包含着作为一个信息系统数据活动（事务）那些记录。

这些事务被分批以构成事务文件。

例如，从每周工资卡上录制下来数分批存放在一个事务文件上，然后对照工资清单文件进行处理以便打印出工资支票和工资记录簿。

（3）表文件。

表文件是一些表格。

之所以单独建立表文件而不把表设计在程序中是为了便于修改。

例如，一个公用事业公司税率表或国内税务局税率就可以存储在表中文件。

（4）备用文件。

备用文件是现有生产性文件一个复制品。

一旦生产性文件受到破坏，利用备用文件就可以重新建立生产性文件。

（5）档案文件。

档案文件不是提供当前处理使用，而是保存起来作为历史参照。

例如，国内税务局（IRS）可能要求检查某个人最近15年历史。

实际上，档案文件恰恰是在给定时间内工作一个“快照”。

（6）输出文件。

输出文件包含将要打印在打印机上、显在屏幕上或者绘制在绘图仪上那些信息数值映象。

输出文件可以是“假脱机”（存储在辅存设备上），当输出设备可

用时才进行实际输出。

四、数据操纵和检索——综合数据库管理系统

到目前为止，我们集中讨论了传统文件处理。

此处，文件是作为一个独立逻辑实体来处理，而且通常与某个特定业务领域相联系。

为了把业务上相近那些部门文件综合在一起，必须预先排序记录和合并文件。

这样做可能耗费大量时间，有时甚至是不可能实现。

通常，文件是为了满足特定业务领域某部门专门需要而设计，如果某部门想使用保存在一个文件上部分数据，而该文件是另一部门为自己使用而设计，那么他们必须抽取这些数据并重新整理后才能使用。

大多数部门总是宁愿建立和保持和一个类似（而不同）文件以更好地满足自己使用要求，而不愿兼顾其他部门业务需要。

这样做结果形成了大量带有重复数据文件。

前面例子中已经提到，某所大学就保存了75个独立计算机文件，而每个文件中都包含有学生记录。

每当一个学生结婚了或者改换了住处时，则必须修改75个文件。

数据冗余会使成本提高，而设计一个综合资源共享数据库则可以把数据冗余度降低到最小程度。

综合资源共享数据库把公司看作一个整体来提供服务，而不只是为公司某特殊部门服务。

利用数据库管理系统（DBMS）软件就可能实现一个综合数据库。

早在70年代初期就出现了DBMS技术，但是直到70年代末期仍未得到普遍接受。

早期DBMS“软件包”效率不高，实际上比传统文件处理要求更高硬件能力。

目前DBMS对硬件要求已经降低了，甚至在小型计算机系统上也能运行DBMS软件，造成推迟接受和实现DBMS技术主要原因可能是信息服务人员缺乏专门知识，而且用户管理人员又不愿合作和支持建立一个共享数据库。

目前对于设计和运行DBMS软件已经有了广泛了解，而且部分用户管理人员已经认识到应该把信息作为一个公司资源来看待。

数据库环境好处

1.经济上好处。

通过先进数据结构技术，DBMS提供了最小化数据冗余度可能性。

当然，为了提高处理效率，即使有了DBMS帮助，有时还需要在共享数据库中保留一定重复数据。

由于减少了数据冗余度，从而也简化了收集和更新数据过程。

就前面例子而言，只需要在一处（数据库中）更新学生地址就可以了。

2.数据库技术也给信息服务专业人员带来好处。

综合资源共享数据库为系统分析员打开了崭新大门。

数据库能向系统分析员提供传统文件所不能提供信息。

由于有了DBMS，就更容易得到数据，因此使程序设计任务要比原先更为简单。

此外，数据是独立于程序。

这意味着用户管理人员可以增加数据库中数据、修改库中现有数据或者从库中删除数据，这些并不影响现有程序，而在过去则需要测试和修改几十个（有时几百个）程序。

当然，数据库管理系统还有其它重要优点，但是这些已超出本书范围。

3.信息方面好处。

一个综合资源共享数据库能以有序方式提供一种满足信息要求结构。

实际上，数据库是能够充分利用公司信息资源唯一工具。

由于数据库和DBMS在产生报表方面提供了极大灵活性，因此，也给决策过程带来了同样灵活性。

4.DBMS软件在支持联机系统方面是特别有价值。

共享数据库不仅可供多个用户存取而且还特别能反映出数据当前状态。

对于许多查询来说，及时性是很关键。

例如，某个经理由于设备故障不得不关闭某个工作站，此时他有可能要查询其它工作站状态，并且利用得到信息来改变进行中工作路线。

方法

DBMS克服了传统文件处理局限性。

它依靠灵活多变数据结构（将数据元及记录彼此联系方法）来做到这一点。

基于不同数据结构DBMS之间差别很大。

有三种设计DBMS软件方法

1.数据系统语言会议（CODASYL）设计并发布基于网络或丛形数据结构DBMS指南。

2.IBM信息管理系统（IBS）使用一种层次结构。

3.某些最近设计基于关系数据结构DBMS。

上述每一种方法是基本概念和术语差别都很大。

因此，为了减少混淆和便于理解，以下阐述和讨论只使用网络方法。

库设计

1.数据库设计方法

我们通过下面例子来说明数据库管理系统和一种数据库设计方法原理。

考察下述情况。

某图书馆保存了一个文件，该文件每一个记录都包含了下述数据元：

（1）书名

（2）作者

（3）出版社

（4）出版社地址

（5）类别

（6）出版年份

图书馆馆长希望在获得决策信息方面有更多灵活性。

而现在文件不可能满足其要求。

经过与信息处理人员交换意见之后，他们决定实现一个基于CODASYL数据库管理系统。

检查现有文件发现某些数据重复出现。

每本书（每一书名）都分别有一个记录。

于是，写过几本书作者名字在他写每本书记录中重复出现。

在一个图书馆里可能有某出版社出版数百本，甚至数千本书，但是在该文件每本书记录中都重复地出现出版社名和出版社地址。

2.设立数据库步骤

设计数据库方法之一是使用主题词一属性矩阵作为识别记录和这些记录之间关系一个辅助工具。

以下各步骤描述了这种设计数据库方法。

第一步，在图20.6.10主题词一属性矩阵左边列出了逻辑主题词。

在本例中，这些主题词是：

书名、作者和出版社。

在矩阵顶端列出了所有可能属性。

属性是提供与主题词有关信息任一数据元。

图20.6.10主题词－属性矩阵

第二步：

在属性与主题词之间关系有一对一，一对多或者不存在关系。

例如，一特定书名只有一个出版社。

所以在书名与出版社之间存在一对一关系。

然而，一个书名可以有几个作者。

因而，在书名与作者之间存在一对多关系。

在图20.6.11中用“｜”表示一对一关系，用“M”表示一对多关系，而且空白表示无关系存在。

第三步：

数据库记录类似于传统文件记录，它是相关数据元集合。

可以将记录从数据库中读出来，也可以将记录写到数据库中去。

数据库记录也称为节段。

在这一步，用主题词－属性矩阵来标识记录。

这是通过列出与每个主题词

展开阅读全文