数字媒体及应用技术.docx
《数字媒体及应用技术.docx》由会员分享,可在线阅读,更多相关《数字媒体及应用技术.docx(37页珍藏版)》请在冰点文库上搜索。
![数字媒体及应用技术.docx](https://file1.bingdoc.com/fileroot1/2023-6/17/b9239c3b-b56a-4e9f-84f3-30d4e5d02e2d/b9239c3b-b56a-4e9f-84f3-30d4e5d02e2d1.gif)
数字媒体及应用技术
1、文本概述
文字:
一种书面语言,由一系列称为“字符”(character)的书写符号构成。
文本:
文字信息在计算机中的表示形式,是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。
组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。
2、文本处理
文本在计算机中的处理过程:
文本的准备(如汉字的输入)、文本编辑、文本处理、文本存储与传输、文本展现等,根据使用的不同,各个处理环节的内容和要求可能有很大的差别。
5.1.1文本的表示与字符的编码
1、文本的表示
文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。
由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。
2、西文字符集编码
字符集:
常用字符的集合。
西文字符集:
由拉丁字母、数字、标点符号及一些特殊符号组成。
字符的编码:
字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。
(1)标准ASCII编码字符集。
美国标准信息交换码(AmericanStandardCodeforInformationInterchange):
使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。
基本的ASCII字符集共有128个字符,其中包括96个可打印字符(常用字母、数字、标点符号等),32个控制字符。
常用的特殊字符的ASCII码:
空格(32)、A(65)、B(66)、…、Z(90)、a(97)、b(98)、…、z(122)、数字0(48)、1(49)、…、9(57)。
其编码规则为:
用7位二进制数对每一个字符进行编码(字符的ASCII码),在计算机内部则用字符的ASCII码存储和表示该字符。
在计算机中的存储方法是:
用一个字节(8位)来存储一个字符的ASCII码。
每个字节中多出来的最高位一般保持为“0”。
(2)扩充ASCII编码字符集。
标准ASCII字符集只有128个不同的字符,在很多使用中无法满足要求。
按照IS02022标准(《七位字符集的代码扩充技术》)的规定,ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均是高位为“1”的8位代码(十进制数128~255),称为扩展ASCII码。
3、汉字编码字集
(1)GB2312-80汉字编码字符集。
《信息交换用汉字编码字符集·基本集》(GB2312-80),其组成部分包括:
第一部分:
字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)。
第二部分:
一级常用汉字,共3755个,按汉语拼音排列。
第三部分:
二级常用字,共3008个,按偏旁部首排列。
①区位码:
GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。
每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。
每个汉字的区号和位号分别用1个字节来表示。
如:
“大”字的区号20,位号83,区位码是2083,用2个字节表示为:
0001010001010011B(即十六进制1453H)。
②国标交换码:
将GB2312字符集中每个汉字的区号和位号必须分别加上32(即二进制0010 0000,十六进制20H),就可以得到该汉字的“国标交换码”(简称交换码)。
因此,“大”字的国标交换码是:
0011010001110011B(即十六进制3473H)。
③机内码:
把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。
这种高位为1的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。
即将汉字的区号和位号必须分别加上160(即二进制10100000,十六进制AOH),就可以得到该汉字的“机内码”。
如:
“大”字的机内码是:
1011010011110011(即十六进制B4F3H)。
综上所述,可以总结如下公式:
国标码=区位码+2020H,机内码=区位码+A0A0H。
(2)GBK汉字编码字符集。
GB2312-80只有6763个汉字,使用时功能不够。
1995年发布GBK,全称为《汉字内码扩展规范》 GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。
它除了包含GB2312中的全部汉字和符号,还包括繁体字和中、日、韩文字中的大量汉字。
GBK的编码是用2字节编码表示,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”。
与GB2312-80保持兼容。
(3)UCS/Unicode与GB18030汉字编码标准。
①通用编码字符集UCS/Unicode。
全世界约有6800种语言和文字在使用,需要建立一个多文种文字处理环境。
在ISO2022基础上,使用代码页号切换不同字符集的方法过于繁琐,且与其他系统不兼容。
UCS/Unicode实现了所有字符在同一字符集中统一编码。
UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作UCS-4)。
其优点是编码空间极大,能容纳足够多的各种字符集(13亿字符);缺点是4字节的字符编码使存储空间浪费严重。
②GB18030-2000编码。
GB18030-2000汉字编码标准是为了既兼容GB2312和GBK,又尽快向 UCS/Unicode编码标准过渡,而在2000年颁布的汉字编码国家标准。
该标准在GB-2312和GBK的基础上进行扩充,增加了4字节编码,能完全映射UCS/Unicode基本平面和辅助平面中的字符集,收录的汉字达到27000个。
例1:
(单选)在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为()。
A.46H B.66H C.67H D.78H
参考答案:
B
分析:
此题是考查学生对于ASCII编码表的掌握情况,由题目中所给的字母A的ASCII编码为41H这个已知条件,可以推导出a的ASCII编码为61H,再考虑ASCII编码表中字母的顺序是连续的,所以可以得出b的ASCII编码为62H,以此类推可得出f的ASCII编码为66H。
例2:
(单选)下列汉字编码标准中,不支持繁体汉字的是()。
A.GB2312-80 B.CBK C.BIG5 D.GB18030
参考答案:
A
分析:
此题的重点在于考查学生对一些基本知识的记忆,作为不同的汉字编码标准,考生应该熟记每一种编码内的汉字和字符的数目,以及其中主要包括哪些字符(简体中文、繁体中文、日文、韩文等)。
例3:
(判断)西文字符在计算机中通常采用ASCII码表示,每个字节存放1个字符。
( )
参考答案:
对
分析:
西文字符的基本元素是英文字母、数字和符号。
每个字符在计算机中采用二进位编码形式表示。
目前计算机中使用得最广泛的西文字符集的编码称为ASCII码,它一共有128个字符,包括96个可打印字符(常用的字母、数字、标点符号等)和32个控制字符,每个字符使用7个二进位进行编码。
还有一种扩充ASCII码,它是不同地区和国家在ASCII字符集的基础上,为了适应本地区(本国)的需要扩充而成的,共256个字符,每个字符使用8个二进位进行编码。
由于字节是计算机中最基本的存储和处理单位,无论是7位的标准ASCII码还是8位的扩充ASCII码,一个字节只存放一个ASCII字符。
若使用7位标准ASCII码,每个字节多余出来的一位(最高位)通常保持为“0”,在数据传输时它也可作为奇偶校验位使用。
例4:
(判断)采用GB2312、GBK和GB18030三种不同的汉字编码标准时,一些常用的汉字如“中”、“国”等,它们在计算机中的表示(内码)都是相同的。
( )
参考答案:
对
分析:
GB2312、GBK和GB18030是我国从20世纪80年代开始先后制订与发布的三个汉字编码标准,它们的主要区别是字符集中所包含的图形符号和汉字的数目不同,后发布的标准中收录的字符总是涵盖了已发布标准中的所有字符,而且,为了保证已有的大量数字资源仍可方便地继续使用,在三个标准中所包含的相同字符,它们在计算机中的表示(内码)也都保持相同(即保持向下兼容)。
因此,本题的论述是正确的。
需要注意的是,汉字编码标准有多种,GB2312(GBK、GB18030)中的汉字(如“中”、“国”等)在Unicode、Big5或旅美华人使用的HZ码中,代码并不相同。
例5:
(单选)下列有关我国汉字编码的叙述中,错误的是( )。
A.GB2312国标字符集所包含的汉字许多情况下已不够使用
B.GBK字符集既包括简体汉字,也包括繁体汉字
C.GB18030编码标准中所包含的汉字数目超过2万字
D.不论采用上述哪一种汉字编码标准,汉字在计算机中均采用双字节表示
参考答案:
D
分析:
我国制订与发布的汉字编码标准主要有三个:
GB2312、GBK和GB18030,它们的区别在于所收录的汉字和图形符号数量不同。
GB2312仅仅收录了6763个常用汉字,且不包含繁体字在内,因此许多情况下(如人名、地名等)已不够使用。
GBK一共有21003个汉字,除了GB2312中的全部汉字和符号之外,还收录了包括繁体字在内的大量汉字和符号。
GB18030所包含的汉字数目则增加到27000多个,包括全部中日韩(CJK)统一汉字字符集和CJK汉字扩充中的所有字符,能适应出版、邮政、户政、金融、地理信息系统等迫切需要解决的人名、地名用字问题。
至于这三个标准中汉字的编码问题,在GB2312和GBK中,所有汉字在计算机中都使用2个字节表示和存储,但GB18030汉字数量很大,而且还要照顾到进一步扩展的需要,因此多数汉字使用2字节编码(且与GB2312、GBK保持相同),还有少数汉字使用4字节编码。
综上所述,本题的选项应为D。
5.1.2文本的输入
1、文本的输入
文本输入是将文字输入到计算机中,建立文本文件(电子文档)的操作。
2、文字输入方法概述
(1)人工输入。
方法:
键盘输入、手写笔联机识别输入、语音识别输入;特点:
速度慢、成本高,不适合需处理大批量文字的使用。
(2)文字自动识别输入。
将纸介质上的文本通过识别技术自动转换为文字的编码。
方法:
印刷体文字识别输入,手写体文字脱机识别输入;特点:
速度快,效率高,有误差。
3、键盘输入
使用键盘可输入西文字符、汉字、各种符号与控制命令。
汉字键盘输入编码特点有:
易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等。
汉字输入编码大体分成四类:
(1)数字编码。
例如,电报码、区位码。
其优点是无重码;缺点是难记忆。
(2)字音编码。
例如,拼音码、智能ABC、微软拼音输入法。
优点:
简单易学;缺点:
同音字引起的重码多,需增加选择操作,不会读音或发音不准的汉字难以输入。
(3)字形编码。
例如,五笔字形和表形码。
优点:
重码少、输入速度较快;缺点:
编码规则不易掌握,需强记大量拆分规则。
(4)形音编码。
吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少,但掌握起来也不容易。
4、手写体文字联机识别输入
把要输入的文字写在一块叫书写板的设备上,书写板将笔尖的运动(包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等)按时间采样后发送到计算机中,由计算机软件自动进行识别,然后用该文字(或符号)对应的代码进行保存。
5、语音识别输入
语音识别输入是计算机识别人的语音后将其转换为文本并保存下来的过程。
使用语音输入文本的系统也叫做“听写机”或“语音打字机”。
优点:
简单、方便;缺点:
读音不准影响输入的正确率。
目前,语音识别技术对特定人连续语音识别正确率可达90%。
6、印刷体文字识别输入
印刷体文字识别输入是将介质上的印刷体文字经扫描输入或成像到计算机转换为数字图像,再经过识别后将数字图像转换为文字编码(文本)的技术,也叫做OCR。
目前,印刷体文字识别能识别近3万简繁体汉字(GBK和GB18030),基本解决了中西文混排、文字表格混排、多字体多字号的识别问题,识别率达99%。
7、手写体文字识别输入
手写体文字识别输入是将介质上的手写体文字输入到计算机并转换为文字编码的技术。
手写体文字既无笔划特征,又无书写规范,进行识别比较困难,目前仍处于研究阶段。
5.1.3文本文件的类型
文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。
由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。
使用计算机制作的数字文本,根据用途分为:
简单文本、丰富格式文本和超文本三类。
1、简单文本文件(纯文本)
简单文本是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。
这种文本通常称为纯文本或ASCII文本,文件后缀名是TXT。
简单文本的特点是:
呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,不能插入图片、表格等,不能建立超链接。
Windows附件中的“记事本”所创建的文件就是简单文本文件。
2、丰富格式文本文件
文件内容有字符(汉字)的编码、数字图像、数字声音、数字视频信息、标记信息(格式信息、结构信息、链接信息等)。
例如,RTF文件、DOC文件、PDF文件、HTML文件。
RTF格式文件:
RTF是为便于不同的丰富格式文本能在不同的软件和系统中互相交换使用而提出的一种中间格式标记语言,可用Windows写字板程序创建。
PDF格式文件:
PDF格式文件将文字、字型、格式、颜色、图形、图像、超文本链接、声音和视频等信息都封装在一个文件中。
除了能描述复杂版面外,还具有超链、交互和字体仿真等功能。
不仅适合网络和电子出版,也适合印刷出版,它实现了纸张印刷和网络出版的统一,PDF文件在交付印刷的同时,可以直接进行网络发行。
它已经是电子出版领域的一种事实上的标准,被许多文本处理和电子出版软件所采用。
3、超文本文件
超文本也称为非线性文本,文本的组织结构是网状结构,即包含链接信息的丰富格式文本。
阅读时除顺序阅读方式之外,还可以通过跳转、导航、回溯等操作,实现对文本内容更为方便的访问。
例如,Windows中的“帮助”文件或者使用浏览器从Web服务器上下载的网页(html或htm文件)。
超文本文件特点有:
(1)各信息块按照其内容的关系互相连接,这些文本块可以是不同的文本,也可以是同一文本中的若干不同的组成部分。
(2)每个文本块都有一些指向其他文本块或从其他文本块指向该文本块的指针(超级链接),这些指针从文本块内部的某个位置指向另外一个文本块的起始位置,用于实现文本阅读时的快速跳转。
超链是有向的,起点位置称为链源,目的地(目标)称为链宿。
链源可以是节点中的一个标题、句子、关键词、字、一幅图像、一个图标等。
链宿可以是节点,也可以是系统中的一个文件(包括文件的标签)或者程序。
网页中的超文本文件还分静态文档、动态文档、主动文档。
例1:
(单选)下列关于文本的叙述中,错误的是( )。
A.不同文字处理软件制作的丰富格式文本通常互不兼容
B.纯文本的文件扩展名为“.txt”
C.“.doc”文件中不只包含西文字符和汉字,并且含有许多字符属性和格式标记
D.超文本既可以是丰富格式文本,也可以是纯文本
参考答案:
D
分析:
本题所说的文本指的是计算机制作的文本,也称为电子文本或数字文本,它是我们使用得最多的一种数字媒件。
文本的制作除了将字符输入计算机之外,还需要借助于文字处理软件对文本进行编辑排版,使文本清晰、美观、使用方便。
在此过程中,软件会使用某种“标记语言”记录用户对文本的格式和字符的属性所做的设置。
由于不同的文字处理软件采用了不同的标记语言,因此经过编辑排版得到的丰富格式文本即使外观相同,内部表示也未必一致,不经转换相互之间不能交换使用。
例如Word所生成的.doc文件不能用AcrobatReader读出和修改,PDFWriter生成的.pdf文件也不能用Word读出和修改,这种情况称为不兼容。
如果文本仅仅由一连串的字符代码所组成,不包含任何版面格式和字符属性的标记信息,这就是纯文本,或者称为简单文本。
纯文本的文件扩展名为“.txt”,几乎所有的文字处理软件都可以读出和修改纯文本。
超文本虽然强调的是按信息块将文本组织成为网状结构,并没有特别强调文本的外观和格式,但是,它使用的“链源”和“链宿”等均需要在文本中采用特定标记语言进行标记,从这个角度而言,超文本一般都是丰富格式文本,而非纯文本。
综上所述,本题中选项D是错误的。
例2:
(填空)有一本英文小说,它在计算机中用纯文本形式表示,文件扩展名为“.txt”,大小为 35KB,该小说所包含字符(字母、数字、标点符号等)的总数大约是 个。
参考答案:
35840
分析:
在计算机中用纯文本形式表示的英文小说,其中包含的仅仅是采用ASCII码(7位或8位)表示的西文字母、数字和一些标点符号,每个字符使用1个字节进行存储,由于文件扩展名为“.txt”,表示该文件没有进行数据压缩。
因此,这本小说所包含字符(字母、数字、标点符号等)的总数大约是35×1024=35840个。
5.1.4 文本的编辑处理与检索
1、文本编辑的主要功能
(1)对字、词、句、段落进行添加、删除、修改等操作。
(2)字的处理:
设置字体、字号、字的排列方向、间距、颜色、效果等。
(3)段落的处理:
设置行距、段间距、段缩进、对称方式等。
(4)页面布局的处理:
设置页边距、每页行列数、分栏、页眉、页脚等。
“所见即所得”(WhatYouSeeIsWhatYouGet,简称WYSIWYG):
一方面所有的编辑操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果与打印机的输出结果相同。
2、文本处理内容
(1)字数统计、字频统计、简/繁体相互转换、汉字/拼音相互转换。
(2)词语排序、词语错误检测、文句语法检查。
(3)自动分词、词频统计、词性标注、词义辨识、大陆/台湾术语转换。
(4)文本压缩、文本加密、文本著作权保护。
(5)关键词提取、文摘自动生成、文本分类。
(6)文本检索(关键词检索、全文检索)、文本过滤。
(7)文语转换(语音合成)、文种转换(机器翻译)。
(8)篇章理解、自动问答、自动写作等。
3、常用文本处理软件
(1)面向通信的文本处理软件。
计算机网络上最普及的使用是用电子邮件进行通信。
大多数情况下,电子邮件正文的内容一般都是简单文本,因此电子邮件内嵌的文本编辑器功能比较简单,操作使用方便。
例如,微软公司的OutlookExpress,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。
当然,邮件所带的附件并不受此限制。
在互联网上进行聊天所使用的文本处理软件更加简单。
(2)面向办公的文本处理软件。
该类软件要求文本制作要有高效率、高质量,软件面向非专业用户,易学好用,文本处理能力,既功能丰富,又操作简单。
例如,Word、WPS2000。
(3)面向出版的文本处理软件。
该类软件的主要功能是将文字、图形和图像等合理地安排在页面内。
例如,方正集团公司的“飞腾”排版软件、美国Adobe公司的PageMaker和PDFWriter。
(4)面向网络信息发布和电子出版的文本处理软件。
例如,微软的FrontPage、Acrobat软件。
4、文本的检索
文本检索是信息提供方将文本按一定的方式组织、储存、管理,并根据用户的检索要求查找到所需文本的技术和使用。
(1)文本检索过程。
①用户提问。
即给出查询要求(例如,文本的标题、作者、类型、所包含的关键词等),多个提问词可使用“与”、“或”、“非”等逻辑运算进行组合。
②检索软件将用户查询要求与索引数据库中的索引数据进行匹配,找出与查询要求相关的文本的地址。
③系统按地址从文本库中取出对应的一组文本,经过分析后,按照与查询要求的相关程度(从高到低排序)返回给用户。
(2)文本检索系统的类型。
①书目型标引检索系统。
用户提问词是索引(如主题、分类、作者等),检索结果是与索引匹配的所有文本。
例如,国际联机检索系统DIALOG、MEDLINE、OCLC和中国学术期刊全文数据库,中文科技期刊全文库。
②全文检索系统。
用户提问词是文本正文中出现的词或句子,检索结果是所有正文中包含了提问词的文本。
5、Web搜索引擎
Web服务器使用软件robot遍历Web,将Web上的信息下载到本地文档库,然后对文本内容进行自动分析并建立索引,在用户提出检索请求时,搜索引擎通过检查索引找出匹配的文本(或URL地址)并返回给用户。
例如,搜狐(Sohu)、谷歌(Google)、雅虎(Yahoo)、新浪(Sina)、XX(Baidu)等。
5.1.5文本的展现
数字电子文本主要有两种表现方式:
打印输出和在屏幕上进行阅读、浏览。
由于存放在计算机存储器中的文本是数字形式的、不可见的,因此,无论是打印还是屏幕显示,都包含了文本的展现过程。
文本展现的大致过程是:
首先要对文本的格式描述进行解释,然后生成字符和图、表的映像 (bitmap),最后在传送到显示器或打印机输出。
承担上述文本输出任务的软件称为文本阅读器或浏览器。
它们可以嵌入在文字处理软件中,如微软的Word;也可以是独立的软件,如Adobe公司的AcrobatReader、微软公司的IE浏览器等。
数字电子文本虽然有许多优点,但阅读时需要使用专门的设备和软件,成本较高,也不方便,它还容易被修改和复制,版权保护和信息安全不易保证。
此外,限于当前显示器的技术水平,阅读电子文本时人们的信息感知效率较低,容易疲劳。
这些都是有待进一步解决的问题。
5.2.1图形图像的基本概念
1、色光的三基色
色光的三基色是:
红(Red)、绿(Green)、蓝(Blue)。
三基色以不同的比例相混合,可成为各种色光。
自然界中任何一种色光都可由R、G、B三基色按不同的比例(光量)相加混合而成。
三基包不能由其他色光混合而成。
当三基色分量都为0(最弱)时混合为黑色光。
当三基色分量都为K(最强)时混合为白色光。
2、颜料的三基色
颜料的三基色是:
青(Cyan)、品红(Magenta)、黄(Yellow)。
三基色颜料以不同的比例相混合,可产生各种颜色的颜料,但在印刷或者打印时,对黑色的处理有问题,因此需增加黑色。
3、色彩的表达方法
(1)RGB色彩空间(RGB为色光的三基色)。
R——红色(Red),G——绿色(Green),B——蓝色(Blue)。
典型使用是计算机