第五章数字媒体及应用考点分析.docx

资源描述

第五章数字媒体及应用考点分析.docx

《第五章数字媒体及应用考点分析.docx》由会员分享，可在线阅读，更多相关《第五章数字媒体及应用考点分析.docx（23页珍藏版）》请在冰点文库上搜索。

第五章数字媒体及应用考点分析.docx

第五章数字媒体及应用考点分析

第5章数字媒体及应用

★考核知识要点、重点、难点精解

★考点:

1西文与汉字的编码

1．西文字符的编码

在计算机中用于表示字符的二进制编码称为字符编码。

目前，国际上使用最多、最普遍的字符编码是ASCII字符编码。

ASCII码的全称是“AmericanStandardCodeforInformationInterchange"，译为：

美国国家信息交换标准字符码。

标准ASCII码是7位的编码，可以表示27=128个不同的字符，每个字符都有其不同的ASCII码值，它们的编码范围是0000000B~1111111B（00H~7FH）。

并且，这128个字符共分为3类，分别是：

（l）数字0~9;

（2）26个大写英文字母和26个小写英文字母；

（3）各种运算符号、标点符号和控制符号等。

其中，数字、大写字母、小写字母都是按照它们的自然顺序进行排列，且小写字母的ASCII码值比其相应的大写字母的ASCII码值大32。

例如：

大写字母D的ASCII码值是68，小写字母d的ASCII码值＝68+32=100。

注意虽然标准ASCII码是7位的编码，但由于字节是计算机中最基本的存储和处理单位，故一般仍以一个字节来存放一个ASCII字符．每个字节中多余出来的一位（最高位b7）,在计算机内部通常保持为“0”，而在数据传输时和用作奇偶校验位。

扩充ASCII码是8位，每个ASCII码字符集分别可以扩充128个字符，这些扩充字符的编码均为高位为1的8位代码（十进制指数128~255），称为扩展ASCII码。

2．汉字的编码

（1）GB2312-1980汉字编码

1国标码

为了适应计算机处理汉字信息的需要，1981年我国颁布了《信息交换用汉字编码字符集·基本集》（GB2312-80）。

简称国标码，又称汉字交换码。

该标准选出6763个常用汉字和682个非汉字字符，为每个字符规定了标准代码，以便在不同计算机系统中间进行汉字文本的交换。

GB2312国际字符集由三部分组成。

第一部分是字母、数字和各种符号，包括拉丁文字母、俄文、日文平假名、希腊字母、汉语拼音等共682个（统称为GB2312图形符号）;

第二部分为一级常用汉字，共3755个，按汉语拼音排列；

第三部分为二级常用字，共3008个，因不太常用，所以按偏旁部首排列。

2区位码

在国标码中，所有的常用汉字和图形符号组成了一个94行94列的矩阵。

每一行的行号称为“区号”，每一列的列号称为“位号”。

区号和位号都由两个十进制数表示，区号编号是01~94，位号的编号也是01~94。

由区号和位号组成的四位十进制编码被称为该汉字的“区位码”,其中区号在前，位号在后，并且每一个区位码对应惟一的汉字，例如：

汉字“啊”的区位码是"1601"，表示汉字“啊”位于16区的01位。

3机内码

区位码中，区号和位号各需要7个二进位才能表示。

每个汉字的区号和位号分别使用1个字节来表示，且都从33开始编号（33~126），字节的最高位规定均为1。

这种高位均为1的双字节（16位）汉字编码就称为GB2312汉字的“机内码”，又称内码。

目前PC机中GB2312汉字的表示都是这种方式。

注意

（1）GB2312国际字符集与区位码转换关系为：

将区位码转换成GB2312国际字符集的方法如下：

①将十进制的区号和位号分别转换成十六进制；

②将转换成十六进制的区号和位号分别加上20H;

③将分别加上20H的区号和位号组合，得到GB2312国际字符集。

（2）汉字内码是由汉字的国标码加上8080H形成，即汉字内码＝国标码＋8080H

【举例】汉字“灯”的区位码是2138，求其国标码。

【分析】①汉字“灯”的区号是21，位号是38，转换成十六进制分别是15H、26H。

②将转换成十六进制的区号和位号分别加上20H，得到15H+20H=35H;26H+20H=46H。

③因此，汉字“灯”的国标码是：

3546H。

（2）GBK汉字内码扩充规范

GBK是我国1995年发布的又一个汉字编码标准，全称为《汉字内码扩展规范》。

它一共有21003个汉字和883个图形符号，与GB2312国标汉字字符集及其内码保持兼容，另外收录了繁体字和很多生僻的汉字。

GBK字符集中的每一个汉字和图形符号也都采用双字节表示，总的编码范围为8140~FEFE，首字节在81~FE之间，尾字节在40~FE之间（剔除xx7F一条线不安排字符），总计23940个码位，共收人21886个汉字和图形符号，未使用的区域作为用户自定义区。

（3）GB18030一2000编码

信息产业部和国家质量技术监督局在2000年联合发布了GB18030一2000汉字编码国家标准，并在2001年开始执行。

GB18030一2000编码标准在GB2312和GBK的基础上进行了扩充，它增加了4字节的编码，使码位总数达到160多万个。

所包含的汉字数目也增加到27000多个，包括全部中日韩（CJK）统一汉字字符集和CJK汉字扩充A和扩充B中的所有字符。

（4）汉字字型码

汉字字型码又称汉字输出码，是用于显示或打印输出汉字的汉字编码。

汉字的字型通常用点阵的方式来表示的。

由于不同字体的汉字有不同的要求，因此汉字的点阵也有所不同。

汉字点阵可有16x16点阵、24x24点阵、32x32点阵、……、128xl28点阵、256x256点阵等。

点阵越大，字型质量越高，同时所占用的存储空间也越大。

对于NxN点阵的字型码而言，一个汉字的每一行有N个点，每一列也有N个点，由于一个字节占用8个二进制位，因此每一行所占用的空间是：

N÷8字节，一个汉字所占用的空间是：

Nx（N÷8）字节。

【举例】

16xl6点阵的字型码，每个汉字所占用的字节数＝16xl6÷8=32。

24x24点阵的字型码，每个汉字所占用的字节数＝24x24÷8=72。

32x32点阵的字型码，每个汉字所占用的字节数＝32x32÷8=128。

★考点2：

数字文本的制作与编辑

1．文本准备

（l）汉字键盘输入

汉字的键盘输入编码方案有几百种之多，能够被广泛接受的编码方案应具有卜列特点：

易学习、易记忆、效率高（平均击键次数较少）、重码少、容量大（可输入的汉字字数多）等。

汉字输入编码大体分为4种，分别是：

1数字编码，这是使用一串数字来表示汉字的编码方法，它们难以记忆，很少使用。

2字音编码，这是一种基于汉语拼音的编码方法，简单易学，适合于非专业人员。

3字形编码，不易掌握。

4音形编混合码，它吸取了字音编码和字形编码的优点，使编码规则适当简化、重码减少，但掌握起来也不容易。

汉字的输入编码与汉字的内码是不同范畴的概念，不能把它们混淆起来。

使用不同的输入编码方法向计算机输入的同一个汉字，它们的内码是相同的。

（2）联机手写汉字识别（笔输入）

联机手写汉字识别输入法以平常书写的习惯，把要输入的汉字写在一块叫“书写板”的设备上，书写板将笔尖的运动（包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等）按时间顺序采样后发送到计算机中，由计算机软件自动进行识别，然后用该汉字（或符号）对应的代码进行保存。

（3）汉语语音识别输入

（4）印刷体汉字识别（汉字OCR）输入

印刷体汉字识别是将印刷或打印在纸上的中西文字输入计算机并经过识别转换为编码表示的一种技术，也叫做汉字OCR（OpticalCharacterRecognition）。

（5）脱机手写汉字识别输入

2．文本分类与表示

文本是计算机表示文字及符号信息的一种数字媒体。

使用计算机制作的数字文本有多种不同的类型：

（l）根据它们是否具有编辑排版格式来分，可分为简单文本（纯文本）和丰富格式文本两大类。

简单文本呈现为一种线性结构，写作和阅读均按顺序进行。

经过排版处理后，纯文本中就增加了许多格式控制和结构说明信息，称为“丰富格式文本”。

（2）根据文本内容的组织方式来分，可以分为线性文本和超文本两大类。

传统的纸质文本其内容的组织是线性（顺序）的，因而读者总是按顺序先读第1页（从第一行读到最后一行），再读第2页、第3页……，这就是线性文本。

超文本（hypertext）概念是对传统文本的一个扩展。

除了传统的顺序阅读方式之外，它还可以通过链接、跳转、导航、回溯等操作，实现对文本内容更为方便的访问。

超文本采用网状结构来组织信息，一个超文本由若干文本块组成，每个文本块中包含了一些指向其他文本块的指针，用于实现文本阅读时的快速跳转。

这些指针称为超链（hyperlink）。

超链是有向的，起点位置称为链源（HTML文档中称为锚）；目的地（目标）称为链宿，它可以是文本块（本机或者网络中其他计算机的一个文件或者程序），也可以是文本块的同一部分。

文本块可以是文字，也可以是图形、图像甚至声音或视频，这就把超文本推广到了多媒体的形式，所以有时也称为“超媒体”（hypermedia）。

（3）根据文本内容是否变化和如何变化来分，可分为静态文本、动态文本和主动文本三类。

1静态文本

一般情况下用得最多的是静态Web文本，静态文本的每次访问都返回相同结果。

静态文本的优点在于它简单、可靠、访问速度快。

它的主要缺点是不灵活，一旦内容变化，就必须人工修改文档，不适合内容频繁变化的应用场合。

2动态文本

动态Web文档的内容是在浏览器访问Web服务器时由服务器创建的，文档的内容是变化的，它能向用户提供最新的信息。

从浏览器的角度来看，动态文档和静态文档并无区别，它们都采用HTML编写，采用同样的方法进行访问，浏览器不知道（也不需要知道）服务器是从磁盘文件还是从计算机程序取得文档的。

动态文档的创建比静态文档复杂，动态文档的创建者需使用脚本语言如VBScript、Javascript及CGI、ASP等编写程序，并使用SQL查询语言通过ODBC、ADO等接口访问数据库。

浏览器访问动态文档需要的时间也会稍长一些，因为服务器需要额外的时间去运行程序创建文档。

动态文档的一个主要缺点是不能显示变化着的信息。

与静态文档类似，动态文档在浏览器取得文档后内容不会再改变，因而文档很快就开始过时。

3主动文档相对于动态文档的优点是它能够访问信息源并连续地更新文档内容。

主动文档能够自动更新文档内容的原因在于，Web服务器传送给浏览器的中包含了一个可以本地执行的小程序（Applet），浏览器会自动启动执行这些VBSCript或JavaSCript等编写的程序，需要时后者能主动与Web服务器进行交互，并改变文档的显示内容。

只要用户让程序保持运行，文档的内容就总在更新。

主动文档的主要缺点是创建和运行这种文档比较复杂，同时缺少安全性。

3．文本编辑与处理

（1）文本编辑

文本编辑的主要功能包括：

1对字、词、句、段落进行添加、删除、修改等操作；

2字的处理：

设置字体、字号、字的排列方向、间距、颜色、效果等；

3段落的处理：

设置行距、段间距、段缩进、对称方式等；

4表格制作和绘图；

5定义超链；

6页面布局（排版）：

设置页边距、每页行列数、分栏、页眉、页脚、插图位置等。

（2）文本处理

文本处理强调的是使用计算机对文本中所含文字信息的形、音、义等进行分析和处理。

文本处理可以在字、词（短语）、句子、篇章等不同的层面上进行。

①在字、词（短语）层面上进行的处理包括字数统计、自动分词、词性标注、词频统计、词语排序、词语错误检测、自动建立索引、简／繁体转换、大陆／台湾编码及术语转换等；

②在句子级别上进行的处理有语法检查、文语转换（语音合成）、文种转换（机器翻译）等；

4在篇章基础上进行的处理有关键词提取、文摘生成、文本分类、文本检索等。

此外，为了文本的信息安全和有效地存储或传输，还需要对文本进行加密、压缩等处理。

在各种文本处理应用中，我们使用最多的是文本检索。

文本检索是将文本按一定的方式进行组织、储存、管理，并根据用户的要求查找到所需文本的技术和应用。

目前常用的Web信息检索系统有Google、Yahoo、Alta、Vista、Infoseek、新浪、天网、XX等，它们也称为搜索引擎。

其基本原理是：

预先使用软件Robot遍历Web，将Web上的信息下载到本地文档库；然后对文本内容进行自动分析并建立索引；在用户提出检索请求时，搜索引擎通过检查索引找出匹配的文本（或URL地址）返回给用户。

4．文本的展现

数字电子文本有两种使用方式：

打印输出和在屏幕上进行阅读、浏览。

由于存放在计算机存储器中的文本是不可见的，因此，不论哪种使用方式，都包含了文本的展现过程。

文本展现的大致过程是：

首先要对文本的格式描述进行解释，然后生成文字和图表的映像，最后再传送到显示器或打印机输出。

★考点3：

常用文本处理软件

下面是几种常用的文本处理软件：

1．面向通信的文本处理软件

包括电子邮件和网络聊天所使用的文本处理软件，它们的文本编辑器功能并不很多，但操作使用方便。

2．面向办公的文本处理软件

目前在PC机上使用的具有代表性的是微软公司Office套件中的Word和我国自行开发的WPS文本处理软件。

3．面向出版的文本处理软件

面向出版的文字处理软件，除了常规的文字编辑处理功能之外，更重要的是它的排版功能，所以这一类型软件也称为“排版软件”。

排版软件的主要功能是将文字、图形和图像等合理地安排在页面内。

方正集团公司的“飞腾”排版软件、美国Adobe公司的PageMaker和PDFWrite都是这一类软件的代表。

4．面向网络信息发布和电子出版的文本处理软件

将文本放在因特网上进行发布的最好方法是制作成网页，即所谓的HTML文件。

用于制作HTML文件的软件有很多，有微软的FrontPage,MacromediaDreamweaver等，使用word也可以产生HTML文件输出。

面向电子出版的最流行的软件是美国Adobe公司的Acrobat。

★考点4*：

数字图像的获取、表示及常用图像文件格式

计算机的数字图像按其生成方法可以分成两类：

一类是从现实世界中通过扫描仪、数码相机等设备获取的图像，它们称为取样图像、点阵图像或位图图像，以下简称图像。

另一类是使用计算机合成（制作）的图像，它们称为矢量图形，或简称图形。

1.数字图像的获取

从现实世界中获得数字图像的过程称为图像的获取。

图像获取的过程实质上是模拟信号的数字化过程，它的处理步骤大体分为四步：

（1）扫描。

将画面划分为MxN个网格，每个网格称为一个取样点。

这样，一幅模拟图像就转换为MxN个取样点组成的一个阵列。

（2）分色。

将彩色图像取样点的颜色分解成三个基色（例如R、G、B三基色），如果不是彩色图像（即灰度图像或黑白图像），则不必进行分色。

（3）取样。

测量每个取样点每个分量的的亮度值。

（4）量化。

对取样点每个分量的亮度值进行A/D转换，即把模拟量使用数字量（一般是8位至12位的正整数）来表示。

通过上述方法所获取的数字图像称为取样图像，它是静止图像的数字化表示形式，通常简称为“图像”。

2．数字图像的表示

从取样图像的获取过程可以知道，一幅取样图像由M（行）xN（列）个取样点组成，每个取样点是组成取样图像的基本单位，称为像素（简写为pel）。

彩色图像的像素是矢量，它由多个彩色分量组成，黑白图像的像素只有一个亮度值。

取样图像在计算机中的表示方法是：

单色图像用一个矩阵来表示；彩色图像用一组（一般是三个）矩阵来表示，矩阵的行数称为图像的垂直分辨率，列数称为图像的水平分辨率，矩阵中的元素是像素颜色分量的亮度值，使用整数表示，一般是8位至12位。

在计算机中存储的每一幅取样图像，除了所有的像素数据之外，至少还必须给出如下一些关于该图像的描述信息（属性）：

（l）图像大小，也称为图像分辨率（包括垂直分辨率和水平分辨率）。

若图像大小为400x300，则它在800x600分辨率的屏幕上以100％的比例显示时，只占屏幕的1/4；若图像超过了屏幕（或窗口）大小，则屏幕（或窗口）只显示图像的一部分，用户需操纵滚动条才能看到全部图像。

（2）颜色空间的类型，指彩色图像所使用的颜色描述方法，也叫颜色模型。

常用的颜色模型有RGB（红、绿、蓝）模型、CMYK（青、品红、黄、黑）模型、HSV（色彩、饱和度、亮度）模型、YUV（亮度、色度）模型等。

从理论上讲，这些颜色模型都可以相互转换的。

（3）像素深度，即像素的所有颜色分量的二进位数之和，它决定了不同颜色（亮度）的最大数目。

【举例】单色图像，若其像素深度是8位，则不同亮度的数目为：

28=256；又如，由R、G、B三基色组成的彩色图像，若三个分量中的像素位数分别为4、4、4，则该图像的像素深度为12，最大颜色数目为：

24*24*24=212=4096。

3．图像的压缩编码

一幅图像的数据量可按下面的公式进行计算（以字节为单位）：

图像数据量＝图像水平分辨率x图像垂直分辨率X像素深度／8

为了节省存储数字图像时所需要的存储器容量，降低存储成本大幅度压缩图像的数据量是非常重要的。

数据压缩可分成两种类型，一种是无损压缩，另一种是有损压缩。

（1）无损压缩是指压缩以后的数据进行图像还原（也称为解压缩）时，重建的图像与原始图像完全相同。

例如行程长度编码、哈夫曼编码等。

（2）有损压缩是指使用压缩后的数据进行图像重建时，重建后的图像与原始图像虽有一定的误差，但不影响人们对图像含义的正确理解。

评价一种压缩编码方法的优劣主要看三个方面：

压缩倍数的大小、重建图像的质量（有损压缩时），以及压缩算法的复杂程度。

注意为了得到较高的数据压缩比，数字图像的压缩一般都采用有损压缩，如变换编码、矢量编码等。

4．常用图像文件格式

目前因特网和PC机常用的几种图像文件的格式如表5.1所示：

表5.1目前因特网和PC机常用的几种图像文件的格式

名称

压缩编码方法

性质

典型应用

开发组织／公司

BMP

RLE（行程长度编码）

无损

Windows应用程序

Microsoft

TIF

RTE,LZW（字典编码）

无损

桌面出版

Aldus,Microsoft

GIF

LZW

无损

因特网

CompuServe

JPEG

DCT（离散余弦变换）

Huffman

无损／有损

因特网，数码相机等

ISO/IEC

JP2

小波变换，算术编码

无损／有损

因特网，数码相机等

ISO/IEC

BMP图像是微软公司在Windows操作系统下使用的一种标准图像文件格式。

不压缩的BMP文件是一种通用的图像文件格式，几乎所有Windows应用软件都能支持。

TIF图像文件格式大量使用于扫描仪和桌面出版，能支持多种压缩方法和多种不同类型的图像。

GIF是目前因特网上广泛使用的一种图像文件格式，它的颜色数目较少（不超过256色）,文件特别小，适合因特网传输，在网页制作中大量使用。

★考点5：

数字图像的编辑处理和应用

1．数字图像处理

使用计算机对图像，进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理，称为数字图像处理。

一般来讲，对图像进行处理的主要目的有以下几个方面：

（l）提高图像的视感质量。

如进行图像的亮度和彩色变换，增强或抑制某些成分，对图像进行几何变换，包括特技或效果处理等，以改善图像的质量。

（2）图像复原与重建。

如进行图像的校正，消除退化的影响，产生一个等价于理想成像系统所获得的图像，或者使用多个一维投影重建该图像。

（3）图像分析。

提取图像中的某些特征或特殊信息，为图像的分类、识别、理解或解释创造条件。

（4）图像数据的变换、编码和数据压缩，用以更有效地进行图像的存储和传输。

（5）图像的存储、管理、检索，以及图像内容与知识产权的保护等。

注意常用图像编辑处理软件有：

美国Adobe公司的Photoshop,Windows操作系统附件中的画图软件和映像软件，office中的软件中的MicrosoftPhotoEditort软件，UleadSystem公司的PhotoImpact软件,ACDSystem公司的ACDSee32等。

2．数字图像的应用

（l）图像通信。

包括传真、可视电话、视频会议等。

（2）遥感。

（3）诊断。

如通过其射线、超声、计算机断层摄影（即CT）、核磁共振等进行成像，结合图像处理与分析技术，进行疾病的分析与诊断。

（4）生产中的应用。

如产品质量检测，生产过程的自动控制等。

（5）机器人视觉。

通过实时的图像处理，对三维景物进行理解与识别。

（6）军事、公安、档案管理等其他方面的应用

★考点6：

计算机图形的概念与应用

1．计算机图形的概念

人们进行景物描述的过程称为景物的建模；根据景物的模型生成其图像的过程称为“绘制”，也叫做图像合成，所产生的数字图像称为计算机合成图像，也称为矢量图形，以区别于通常的取样图像。

研究如何使用计算机描述景物并生成其图像的原理、方法与技术称为“计算机图形学”。

2．计算机图形的应用

使用计算机合成图像的主要优点有：

计算机不但能生成实际存在的具体景物的图像，还能生成假想或抽象景物的图像。

计算机合成图像有着广泛的应用领域。

例如：

（l）计算机辅助设计和辅助制造（CAD/CAM）。

（2）利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等，既可方便、快捷地制作和更新地图，又可用于地理信息的管理、查询和分析。

（3）作战指挥和军事训练。

（4）计算机动画和计算机艺术。

除此之外，计算机合成图像在电子出版、数据处理、工业监控、辅助教学、软件工程等许多方面也有着很好的应用。

★考点7*：

数字声音获取的方法和设备

1．数字声音的获取

声音由振动而产生，通过空气进行传播。

声音是一种波，它由许多不同频率的谐波所组成。

谐波的频率范围称为声音的带宽，带宽是声音的一项重要参数。

多媒体技术处理的声音主要是人耳可听到的20Hz一20kH的音频信

展开阅读全文