多媒体技术复习.docx

资源描述

多媒体技术复习.docx

《多媒体技术复习.docx》由会员分享，可在线阅读，更多相关《多媒体技术复习.docx（17页珍藏版）》请在冰点文库上搜索。

多媒体技术复习.docx

多媒体技术复习

1.按国际电信联盟（ITU）标准的定义，媒体标准的定义，分为五类：

①感觉媒体（Perception）

②表示媒体（Representation）

③显示媒体（Display）能够输入/输出信息的工具和设备。

④存储媒体（Storage）用于存放数字化的表示媒体储介质。

如硬盘、磁带CD-ROM、DVD等

⑤传输媒体（Transmission）能够将表示媒体从一处传递到另的物理传输介质，如同轴电缆、双绞线光纤等。

2.多媒体的定义

多媒体（multimedia）是两种或者以上）是两种或者以上感觉媒体（声音、图像形视频动画文字、数据文件等）的组合。

广义:

是指多种信息媒体的表现和传播形式，例如人是一个多媒体信息处理系统。

狭义:

用计算机及其它设备交互处理多媒体信息的方法和手段，或指在计算机中处理多种媒体的一系列技术。

3.多媒体的关键特性

多样化：

文字、数字、声音、图像、图形、视频等。

集成性：

多种信息媒体的集成和处理这些媒体的设备的集成。

交互性：

人的活动（activity）本身能作为一种媒体介入到信息转变为知识的过程。

被动→主动

数字化：

多媒体信息是以数字的形式而不是以模拟信号的形式存储和传输的。

4.多媒体技术的应用

■娱乐■教育与培训■多媒体办公系统■多媒体通信系统■工业领域与科学计算领域■医疗影像与诊断■咨询服务、多媒体设计、广告宣传、创意媒体■电子出版■影视特效、动漫

5多媒体系统是一个能综合处理种信息的计算机统，由多媒体硬件系和软组成。

多媒体计算机硬件系统主要包括采集输入设备、多媒体计算机和输出设备三大部分。

.数字信号处理器DSP。

体积小、功耗低，运算速度快具有内部存储器各种不同类型。

音频与语音基础：

什么是语音，什么是音频（定义）;

语音：

语言的物质外壳，是语言符号系统的载体。

它由人的发音器官发出，负载着一定的语言意义。

音频是个专业术语，人类能够听到的所有声音都称之为音频，它可能包括噪音等。

声音与信息：

声音是传递信息的主要手段，接收到的声音反映了声源和环境的影响；

认识语谱图（例如横坐标是什么，纵坐标是什么？

语谱图里每条竖直切线取出来就是FFT的结果）；

横坐标是时间，纵坐标是频率，坐标点值为语音数据能量n

声音2个物理特性；

频率：

1秒钟内振动的次数；幅度：

声音的强弱（能量）

人耳能听到的声音频率范围；超声波、次声波；声压级；

人耳能听到的声音：

20Hz~20kHz¨超声波:

>20kHz次声波:

<20Hz;

声压级（Soundpressurelevel,SPL）

声压

声音的3个主观心理量；

音高、响度、音色为声音的三要素。

响度是人类主观感觉到的声音的强弱程度，取决于声音的幅度。

频率和响度的关系：

等响度曲线。

音高（音调）取决于声音的频率。

客观上音高大小取决于声波基频的高低。

频率越高，人耳听到的声音就越高，反之亦然，但非线性关系。

单位：

美尔（Mel）

音色（音品）是由混入基音的泛音所决定的，或者说由声音波形的谐波频谱和包络决定。

声音波形的基频所产生的听得最清楚的音叫基音，各次谐波的微小震动所产生的声音叫泛音。

不同发音体所发出的音波都有自己的特异性，可分为纯音（单一频率）和复合音（具有谐波）。

双耳效应与虚拟听觉的概念；等响度曲线以及听阈和痛阈；

双耳效应：

人可以利用两个耳朵接收声音时的强弱差

别和时间差别，判断出发声物的方位和距离，人耳的

这种能力称为双耳效应。

三维听觉显示（3DAudioDisplay）或者虚拟听觉空间（VirtualAuditorySpace）就是根据人类听觉特征，通过双声道播放系统再现声源空间信息的技术。

混响的概念；

混响：

是指声源停止发声后，在声场中还存在着来自各个界面的迟到的反射声形成的声音“残留”现象。

音频数字化（A/D转换）过程；音频文件的大小的计算（采样率、量化位数、通道数）；

数字化实际上就是采样和量化和编码。

采样（抽样，sampling）：

将声音信号在时间上离散化，即每隔一段时间抽取一个信号样本。

采样频率（SamplingRate）

奈奎斯特理论指出：

采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，称为无损数字化。

fs>=2fmax

*电话话音信号最高频率约为3.4kHz，所以采样频率取为8kHz。

量化（quantization）：

将连续的信号幅度离散化。

如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。

编码（Coding）：

是指按一定的格式把经过采样和量化得到的离散数据（脉冲数字信号）记录下来，并在有效的数据中加入一些用于纠错、同步和控制的数据。

脉冲编码调制（PCM，PulseCodeModulation）把模拟信号转换为数字信号的一种调制方式。

量化误差：

模拟信号经过采样和量化，然后用有限个二进制代码代表量化后的幅度，在编码时引入量化误差，在解码时无法消除，即引入了噪声，降低了信噪比（SNR）。

电话采用A率标准，SNR>35dB。

常见音频文件格式；

1.WAV波形文件，文件大小计算公式S=R*D*（r/8）*N

2.VOC3.MP3压缩比达1：

10~1:

124.MP45.RA格式6.CDA激光唱片格式7.AIFF音频交换文件格式8.MIDI9.WMAudio

音频压缩编码：

什么是数据压缩；

数据压缩就是在一定的精度损失条件下，以最

少的数码表示信源所发出的信号

压缩的必要性和好处；PCM；

数据压缩的必要性

多媒体信源引起了“数据爆炸”如果不进行数据压

缩传输和存储都难以实用化。

1分钟数字音频信号需要的存储空间

数据压缩的好处

时间域压缩──迅速传输媒体信源

频率域压缩──并行开通更多业务

空间域压缩──降低存储费用

能量域压缩──降低发射功率

PCM（PulseCodeModulation）

ØPCM编码是对连续语音信号进行空间采样、幅度量化及

用适当码字将其编码的总称。

音频压缩的目的和依据；

目的：

高音质

高可懂度（话音）

低码率

低计算需求

对连续编解码循环的鲁棒性

对传输错误的鲁棒性

高实时性：

低编码/解码延迟

依据：

时域与频域信息冗余

时域信息冗余：

幅度的非均匀分布，样本间的相关，周期之间的相关，基音之间的相关，静音系数，长时自相关

频域信息冗余：

非均匀长时功率谱密度、音频特有的短时功率谱密度，人耳的听觉掩蔽效应，对不同频段声音的敏感程度，对声音信号相位变化的不敏感等听觉原理

话音编码器的分类；

话音（语音）编码器分类

1）. 波形编译码器（Waveform coder）

¨ 不利用生成话音的信号的任何知识，将话音视为一种普通的声音，直接对波形信号进行采样和量化。

例如PCM、DPCM、APCM、ADPCM等。

2）. 音源编译码器（Source coder）

¨ 也叫参数编译码器、声码器（vocoder）。

它从话音波形信号中ᨀ取话音生成模型的参数，使用这些参数通过话音生成模型重构出话音。

3. 混合编译码器（Hybrid coder）

综合使用上述两种技术。

使用的激励信号波形尽可能接近于原始话音信号的波形，例如CELP。

LPC线性预测编码；

听觉掩蔽效应（理解掩蔽效应图）；

掩蔽效应:

一种频率的声音阻碍听觉系统感受另一种频率声音的现象

频域掩蔽（同时掩蔽）:

一个强纯音会掩蔽其附近频率同时发声的弱纯音

时域掩蔽（超前掩蔽和滞后掩蔽）:

在时间上相邻的声音之间也有掩蔽现象

MPEGAudio3层的压缩比；MP3（感官编码技术）的基本原理和压缩比。

音频层根据压缩质量和编码复杂度分为Layer3、Layer2、Layer1三层，它们的压缩比分别为1：

10~1：

12、1：

6~1：

8、1：

l声卡与MIDI：

声卡的构成；AC97规范；

声卡的构成与工作原理

主芯片——数字信号处理器：

声音信息处理、特殊音效与处理、实时音频压缩、

MIDI合成……

混音芯片——CODEC：

数字信号编解码器，采样、编码、解码、混音（A/D、

D/A，AC’97规范）

音乐合成器——MIDI合成（FM或WaveTable）

总线接口和控制器——PC总线与声卡的接口

外部输入输出口——MIC IN、LINE IN、LINE OUT、SPK OUT、REAR OUT、

MIDI/Joystick、SPDIF OUT、 SPDIF IN

什么是MIDI；MIDI音乐的两种合成方式是什么？

为什么MIDI文件很小？

（MIDI文件储存的是一系列指令、不是波形,）

MIDI——MusicalInstrumentDigitalInterface（迷笛），是用来连接电子乐器、或将MIDI设备与电脑连接成系统的一种通信协议。

•MIDI将电子乐器和多媒体计算机相结合。

•MIDI是由软件与硬件组成的系统规范。

•MIDI文件记录的是“乐谱”，使电脑能够用“记谱”的方式进行数字化录音与回放

MIDI音乐合成方式

•FM合成法

数字式频率调制合成法，用数字信号来表示不同乐音的波形，将它们组合起来，

再通过DAC生成音乐播放。

从理论上讲，FM合成方法可以产生任何乐音，但是，

这种“物理式”的合成方法合成出来的声音不够真实。

•波表合成法

乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来，播放时再加以调整、修饰和放大，生成各种音阶的音符。

乐音样本通常放在ROM芯片（硬波表）

或文件形式放于硬盘上（软波表），播放时以查表的方式给出，所以这种合成器又叫做波表（wavetable）合成器。

智能语音技术：

人工智能的里程碑（列举）；

ENIAC（1946）第一台电子计算机、图灵完全机；IBM深蓝战胜国际象棋选手卡斯帕罗夫（1997）；无人驾驶车（2005-2007）；信息检索（2000+）；机器翻译（2006）；IBMWatson在“危险边缘”问答游戏战胜人类选手（2011）；AppleSiri（2011）

语音交互过程（圆环图）；

语音合成（概念、评价标准、合成方法的分类、典型系统构成）;

语音合成技术

•又称为文语转换、Text-to-Speech（TTS）、SpeechSynthesis

•将文本转换成自然语音的技术，即“让计算机说人话”

•评价标准：

可懂度、自然度（如MOS测试）

语音合成方法

发音器官参数合成：

声道模型参数语音合成：

波形编辑合成（拼接式合成）：

。

基于统计参数的合成方法：

Ø 基于隐马尔科夫模型模型的合成方法（HMM-based）

Ø 基于深度学习（神经网络）的统计参数合成

语音合成技术发展方向；

语音识别（概念、评价标准、识别系统的分类方法、典型应用（车载、智能电视、游戏娱乐、家庭助手）典型系统构成、面临的挑战）；

1）语音识别技术

• 又称为语文转换、Speech-to-Text、Speech Recognition

• 将自然语音转换成文字的技术，即“让计算机听懂人话”

• 评价标准：

错误率（如词错误率WER，字错误率CER）

2）语音识别系统分类

Ø 按词汇量分：

小词汇量、中等词汇量、大词汇量

Ø 按使用者限制分：

特定人、非特定人

Ø 按能处理的语音类型分：

孤立词、连接词、连续语音、自发语音

Ø 按使用平台分：

PC机、嵌入式

3）语音识别系统——典型系统构成

4）语音识别技术的挑战:

说话人可变性:

同一说话人内部-状态、说话人方式…

• 不同说话人之间:

环境可变性、环境噪声、信道不匹配、字典容量有限

语音识别系统（理解贝叶斯推理、语言模型的知识，会计算）；见pptaudio3page61

DTW的原理和计算；

DTW：

Dynamic Time Warping，动态时间弯折

Step1:

距离计算; Step2:

动态规划找距离最短路径

说话人识别（概念、两种任务：

辨认和确认、应用举例）、生物识别的分类，常见的生物识别技术。

说话人识别（Speaker Recognition）：

从语音中识别话者身份的技术，是生物识别（Biometrics）技术的一种

说话人辨认（SpeakerIdentification）：

从一个说话人集合中辨认出谁在说话

•说话人确认（SpeakerVerification）：

一个人声称是A，从语音中确认是不是A

•文本相关（text-dependent）:

要求说特定的语句进行身份识别

•文本无关（text-independent）:

说任何语音均可进行身份识别

典型应用：

语音考勤XX声纹解锁

生物识别分类:

生理特性识别、行为特性识别

多媒体检索：

信息检索的一般过程（图）；

下一代搜索引擎的特点；

移动化：

无处不在的搜索

个性化：

真正理解用户需求

社交化：

人联网，搜索社交化

智能化：

语义理解，通晓人类语言与意图

精准化：

不必大海捞针，精准推送

垂直化：

针对某一特定领域或对象，供全面、深入、准确、及时的信息与服务

谷歌、facebook和微软对下一代搜索技术的观点；

搜索引擎的工作过程；

抓取网页（Web Crawling）

网络爬虫、蜘蛛、机器人

建立索引（Indexing）

整理、清理网页

建立索引

搜索（Searching）

用户输入查询

搜索

排序输出

CBR；为什么要进行基于内容的检索；

CBR:

Content Based Retrieval （基于内容的检索）

多媒体数据的急剧膨胀

多媒体丰富的内容以及内容感知难以主观描述清楚

用户对检索颗粒度的要求以及以样本作为检索的需求

传统基于描述搜索（非内容搜索）带来的问题

搜索/查询方式有哪些（给例子，能知道是属于哪一类）；

符号查询：

传统方式，以文本关键字的方式进行查询，利用描述性资料（metadata）；范例查询（QBE）：

提供一个样本，要求系统回应相类似的资料。

片段查询：

提供所需要资料的一个片段，要求找出包含类似信息的资料，典型的如哼唱检索（QBH）。

描绘/语意查询（Semantic Retrieval）：

在没有现存样本的情况下，使用描绘或语义方式进行查询。

如用笔画出需要图片的大致结构对所需要的图片进行查询。

又如在照片查询系统中，在缺乏样本的情况下，人们常常用“大嘴巴、眯眯眼”

这些描绘形式的词进行查询。

渐进式查询：

将查询来的资料，经由编辑、修正和补充，再次作为查询条件，如此重复，逐渐逼近自己所要的资料

建立多媒体检索系统的三个步骤；

多媒体检索系统的建立过程

Multimediafission（多媒体拆分）:

Multimediacategorization（多媒体归类）:

Multimediafusion（多媒体融合）:

什么是弥补语义鸿沟；

在传统的基于文字的查询技术中，不存在这个问题，因为查询关键字基本能够反

映查询意图。

但是在基于内容的图像查询中，就存在一个底层特征和上层理解之间的差异（这也就是著名的semanticgap）

向量空间模型的概念和计算；（pptRetrievalpage48-52）

常见的基于内容的多媒体检索的举例。

基于内容的图像/视频检索

l多媒体存储及接口：

存储的分类；

光盘的物理结构；

光盘包括：

标签层、保护层、反射层、记录层、基底

光盘的写入过程（0和1各自代表的信息）；

凹坑&平面

n0：

数据流中长时间的凹坑和平面

n1：

数据流中凹坑和平面的转变点

RAID名词解释；为什么使用RAID；

中文全称：

磁盘（冗余）阵列

英文全称：

RedundantArrayofInexpensiveDisksn

简介：

将若干硬盘按一定的要求组成快速、超大容量的存储系统，主要应用亍服务器低价格、高性能（数据传输率、高存储空间、数据安全性高、数据稳定性高）

RAID各种模式（层0，层1，层5）等的读写效率和容错能力；

第0级—分割且不具备容错性的磁盘阵列

⏹支持数据分割技术

⏹将文件的存储块分散到许多磁盘

⏹没有冗余

性能提高：

存储速度快、磁盘使用率高

⏹不具备容错能力，可靠性差

⏹一旦驱动器出错，该磁盘的数据丢失

第1级—镜像双工技术

⏹每一台硬磁盘机都有一台镜像硬磁盘机，数据同时写在硬磁盘的相应位置

⏹读出时只有一台工作，发现错误时再度另外一台的记录

⏹可靠性高

⏹但有效容量只有总容量的一半

第5级—校验信息交叉存储

⏹数据按字节和纠错信息分割存储

⏹高性能和较高容错能力

⏹适用于事务处理和联机交易处理

⏹最为广泛使用

常见的计算机与外部设备的接口及标准（USB、HDMI、SCSI、PCI-E）。

USB通用串行总线（英文：

UniversalSerialBus）

HDMI高清晰度多媒体接口（英文：

HighDefinitionMultimediaInterface）

采样率，码率，数据大小容量的计算方法。

图像处理及压缩：

图像数字化过程的关键步骤；

l图像采样:

空间连续坐标（x,y）的离散化

l灰度级的整量（量化）:

幅值f（x,y）的离散化

图像的分类（黑白、灰度、彩色）及各自特点；

黑白图像：

是指图象的每个像素只能是黑或白，没有中间的过渡，故又称为２值图象。

2值图像的像素值为0、1。

灰度图像：

灰度图象是指每个像素的信息由一个量化的灰度级来描述的图象，没有彩色信息。

彩色图像:

彩色图象是指每个像素的信息由RGB三原色构成的图象，其中RBG是由不同的灰度级来描述的。

图像指标（分辨率、颜色数、尺寸）；

三大指标

⏹分辨率

⏹显示分辨率:

即屏幕分辨率，屏幕所能呈现的横向和纵向的像素点数

⏹图像分辨率:

数字化图像的大小，水平和垂直方向的像素点数

⏹颜色深度:

反映构成图像的颜色总数

⏹二值图像的颜色深度为1

⏹灰度图像的颜色深度一般为8

⏹真彩色图像的颜色深度为8x3=24,包含的最大颜色数目为

⏹尺寸

图像存储空间计算（二值、灰度、真彩色、YUV等）；

彩色空间（RGB、YUV、YIQ、HSI）。

Ppt多媒体视觉部分2.第二讲数字图像处理page71

色彩的三要素及人类视网膜的基本组成；

1）彩色视觉是一种明，可用亮度、色调和饱和度描述。

色调和饱和度又合称为色度

u亮度-彩色光引起的人眼对明暗程度感觉（照射光强度）

u色调-光的颜色（光谱成份）

u色饱和度-颜色的深浅程度

人眼的视网膜上有大量的光敏细胞，按其形状可分为杆状细胞和锥状细胞。

这两种细胞在视觉特性上有着不同的性能和作用，两者给出的视觉效应是不一样的。

杆状细胞的感光灵敏度很高，在低照度时，主要靠它分辨明暗，但对彩色不敏感。

锥状细胞感光灵敏度较低，在微弱的光线下不起作用，但在光线较为明亮时既能感知各种明暗层次又能辨别出光的颜色。

多媒体信息压缩的概念及分类；算术编码；RLE+Huffman编码方法；DPCM图像编码过程和原理；

2维DCT变换，直流和交流分量的概念，

JPEG编码过程及原理；

l视频压缩编码：

视频的空间及时间冗余性；MPEG-I和H.261编码原理及过程是什么，它们的主要区别是什么？

什么是I帧、P帧和B帧？

P帧和B帧的编码过程是什么？

什么是运动估计？

运动估计的过程是什么？

MPEG文件的结构是什么？

物体在空间上的位移，用有限的运动参数（如运动向量）加以描述，并和预测误差一同参与编码

l视频处理：

三种标准电视信号主要参数；电视信号数字化过程；数字视频的主要技术指标；电视信号扫描、场、帧等概念；常用彩色电视信号类型（接口）；显卡的功能与分类；什么是非线性编辑，和线性编辑相比其优势是什么？

列举常用非线性编辑软件；常用视频文件格式哪些是流媒体？

展开阅读全文