多媒体技术复习.docx

上传人:b****3 文档编号:11149497 上传时间:2023-05-29 格式:DOCX 页数:17 大小:829.30KB
下载 相关 举报
多媒体技术复习.docx_第1页
第1页 / 共17页
多媒体技术复习.docx_第2页
第2页 / 共17页
多媒体技术复习.docx_第3页
第3页 / 共17页
多媒体技术复习.docx_第4页
第4页 / 共17页
多媒体技术复习.docx_第5页
第5页 / 共17页
多媒体技术复习.docx_第6页
第6页 / 共17页
多媒体技术复习.docx_第7页
第7页 / 共17页
多媒体技术复习.docx_第8页
第8页 / 共17页
多媒体技术复习.docx_第9页
第9页 / 共17页
多媒体技术复习.docx_第10页
第10页 / 共17页
多媒体技术复习.docx_第11页
第11页 / 共17页
多媒体技术复习.docx_第12页
第12页 / 共17页
多媒体技术复习.docx_第13页
第13页 / 共17页
多媒体技术复习.docx_第14页
第14页 / 共17页
多媒体技术复习.docx_第15页
第15页 / 共17页
多媒体技术复习.docx_第16页
第16页 / 共17页
多媒体技术复习.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

多媒体技术复习.docx

《多媒体技术复习.docx》由会员分享,可在线阅读,更多相关《多媒体技术复习.docx(17页珍藏版)》请在冰点文库上搜索。

多媒体技术复习.docx

多媒体技术复习

1.按国际电信联盟(ITU)标准的定义,媒体标准的定义,分为五类:

①感觉媒体(Perception)

②表示媒体(Representation)

③显示媒体(Display)能够输入/输出信息的工具和设备。

④存储媒体(Storage)用于存放数字化的表示媒体储介质。

如硬盘、磁带CD-ROM、DVD等

⑤传输媒体(Transmission)能够将表示媒体从一处传递到另的物理传输介质,如同轴电缆、双绞线光纤等。

2.多媒体的定义

多媒体(multimedia)是两种或者以上)是两种或者以上感觉媒体(声音、图像形视频动画文字、数据文件等)的组合。

广义:

是指多种信息媒体的表现和传播形式,例如人是一个多媒体信息处理系统。

狭义:

用计算机及其它设备交互处理多媒体信息的方法和手段,或指在计算机中处理多种媒体的一系列技术。

3.多媒体的关键特性

多样化:

文字、数字、声音、图像、图形、视频等。

集成性:

多种信息媒体的集成和处理这些媒体的设备的集成。

交互性:

人的活动(activity)本身能作为一种媒体介入到信息转变为知识的过程。

被动→主动

数字化:

多媒体信息是以数字的形式而不是以模拟信号的形式存储和传输的。

4.多媒体技术的应用

■娱乐■教育与培训■多媒体办公系统■多媒体通信系统■工业领域与科学计算领域■医疗影像与诊断■咨询服务、多媒体设计、广告宣传、创意媒体■电子出版■影视特效、动漫

5多媒体系统是一个能综合处理种信息的计算机统,由多媒体硬件系和软组成。

多媒体计算机硬件系统主要包括采集输入设备、多媒体计算机和输出设备三大部分。

.数字信号处理器DSP。

体积小、功耗低,运算速度快具有内部存储器各种不同类型。

音频与语音基础:

什么是语音,什么是音频(定义);

语音:

语言的物质外壳,是语言符号系统的载体。

它由人的发音器官发出,负载着一定的语言意义。

音频是个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音等。

声音与信息:

声音是传递信息的主要手段,接收到的声音反映了声源和环境的影响;

认识语谱图(例如横坐标是什么,纵坐标是什么?

语谱图里每条竖直切线取出来就是FFT的结果);

横坐标是时间,纵坐标是频率,坐标点值为语音数据能量n

声音2个物理特性;

频率:

1秒钟内振动的次数;幅度:

声音的强弱(能量)

人耳能听到的声音频率范围;超声波、次声波;声压级;

人耳能听到的声音:

20Hz~20kHz¨超声波:

>20kHz次声波:

<20Hz;

声压级(Soundpressurelevel,SPL)

P:

声压

声音的3个主观心理量;

音高、响度、音色为声音的三要素。

响度是人类主观感觉到的声音的强弱程度,取决于声音的幅度。

频率和响度的关系:

等响度曲线。

音高(音调)取决于声音的频率。

客观上音高大小取决于声波基频的高低。

频率越高,人耳听到的声音就越高,反之亦然,但非线性关系。

单位:

美尔(Mel)

音色(音品)是由混入基音的泛音所决定的,或者说由声音波形的谐波频谱和包络决定。

声音波形的基频所产生的听得最清楚的音叫基音,各次谐波的微小震动所产生的声音叫泛音。

不同发音体所发出的音波都有自己的特异性,可分为纯音(单一频率)和复合音(具有谐波)。

双耳效应与虚拟听觉的概念;等响度曲线以及听阈和痛阈;

双耳效应:

人可以利用两个耳朵接收声音时的强弱差

别和时间差别,判断出发声物的方位和距离,人耳的

这种能力称为双耳效应。

三维听觉显示(3DAudioDisplay)或者虚拟听觉空间(VirtualAuditorySpace)就是根据人类听觉特征,通过双声道播放系统再现声源空间信息的技术。

混响的概念;

混响:

是指声源停止发声后,在声场中还存在着来自各个界面的迟到的反射声形成的声音“残留”现象。

音频数字化(A/D转换)过程;音频文件的大小的计算(采样率、量化位数、通道数);

数字化实际上就是采样和量化和编码。

采样(抽样,sampling):

将声音信号在时间上离散化,即每隔一段时间抽取一个信号样本。

采样频率(SamplingRate)

奈奎斯特理论指出:

采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,称为无损数字化。

fs>=2fmax

*电话话音信号最高频率约为3.4kHz,所以采样频率取为8kHz。

量化(quantization):

将连续的信号幅度离散化。

如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。

编码(Coding):

是指按一定的格式把经过采样和量化得到的离散数据(脉冲数字信号)记录下来,并在有效的数据中加入一些用于纠错、同步和控制的数据。

脉冲编码调制(PCM,PulseCodeModulation)把模拟信号转换为数字信号的一种调制方式。

量化误差:

模拟信号经过采样和量化,然后用有限个二进制代码代表量化后的幅度,在编码时引入量化误差,在解码时无法消除,即引入了噪声,降低了信噪比(SNR)。

电话采用A率标准,SNR>35dB。

常见音频文件格式;

1.WAV波形文件,文件大小计算公式S=R*D*(r/8)*N

2.VOC3.MP3压缩比达1:

10~1:

124.MP45.RA格式6.CDA激光唱片格式7.AIFF音频交换文件格式8.MIDI9.WMAudio

音频压缩编码:

什么是数据压缩;

数据压缩就是在一定的精度损失条件下,以最

少的数码表示信源所发出的信号

压缩的必要性和好处;PCM;

数据压缩的必要性

多媒体信源引起了“数据爆炸”如果不进行数据压

缩传输和存储都难以实用化。

1分钟数字音频信号需要的存储空间

数据压缩的好处

时间域压缩──迅速传输媒体信源

频率域压缩──并行开通更多业务

空间域压缩──降低存储费用

能量域压缩──降低发射功率

PCM(PulseCodeModulation)

ØPCM编码是对连续语音信号进行空间采样、幅度量化及

用适当码字将其编码的总称。

音频压缩的目的和依据;

目的:

高音质

高可懂度(话音)

低码率

低计算需求

对连续编解码循环的鲁棒性

对传输错误的鲁棒性

高实时性:

低编码/解码延迟

依据:

时域与频域信息冗余

时域信息冗余:

幅度的非均匀分布,样本间的相关,周期之间的相关,基音之间的相关,静音系数,长时自相关

频域信息冗余:

非均匀长时功率谱密度、音频特有的短时功率谱密度,人耳的听觉掩蔽效应,对不同频段声音的敏感程度,对声音信号相位变化的不敏感等听觉原理

话音编码器的分类;

话音(语音)编码器分类

1). 波形编译码器(Waveform coder)

¨ 不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。

例如PCM、DPCM、APCM、ADPCM等。

2). 音源编译码器(Source coder)

¨ 也叫参数编译码器、声码器(vocoder)。

它从话音波形信号中ᨀ取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。

3. 混合编译码器(Hybrid coder)

综合使用上述两种技术。

使用的激励信号波形尽可能接近于原始话音信号的波形,例如CELP。

LPC线性预测编码;

听觉掩蔽效应(理解掩蔽效应图);

掩蔽效应:

一种频率的声音阻碍听觉系统感受另一种频率声音的现象

频域掩蔽(同时掩蔽):

一个强纯音会掩蔽其附近频率同时发声的弱纯音

时域掩蔽(超前掩蔽和滞后掩蔽):

在时间上相邻的声音之间也有掩蔽现象

MPEGAudio3层的压缩比;MP3(感官编码技术)的基本原理和压缩比。

音频层根据压缩质量和编码复杂度分为Layer3、Layer2、Layer1三层,它们的压缩比分别为1:

10~1:

12、1:

6~1:

8、1:

4.

l声卡与MIDI:

声卡的构成;AC97规范;

声卡的构成与工作原理

主芯片——数字信号处理器:

声音信息处理、特殊音效与处理、实时音频压缩、

MIDI合成……

混音芯片——CODEC:

数字信号编解码器,采样、编码、解码、混音 (A/D、

D/A,AC’97规范)

音乐合成器——MIDI合成(FM或WaveTable)

总线接口和控制器——PC总线与声卡的接口

外部输入输出口——MIC IN、LINE IN、LINE OUT、SPK OUT、REAR OUT、

MIDI/Joystick、SPDIF OUT、 SPDIF IN

什么是MIDI;MIDI音乐的两种合成方式是什么?

为什么MIDI文件很小?

(MIDI文件储存的是一系列指令、不是波形,)

MIDI——MusicalInstrumentDigitalInterface(迷笛),是用来连接电子乐器、或将MIDI设备与电脑连接成系统的一种通信协议。

•MIDI将电子乐器和多媒体计算机相结合。

•MIDI是由软件与硬件组成的系统规范。

•MIDI文件记录的是“乐谱”,使电脑能够用“记谱”的方式进行数字化录音与回放

MIDI音乐合成方式

•FM合成法

数字式频率调制合成法,用数字信号来表示不同乐音的波形,将它们组合起来,

再通过DAC生成音乐播放。

从理论上讲,FM合成方法可以产生任何乐音,但是,

这种“物理式”的合成方法合成出来的声音不够真实。

•波表合成法

乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来,播放时再加以调整、修饰和放大,生成各种音阶的音符。

乐音样本通常放在ROM芯片(硬波表)

或文件形式放于硬盘上(软波表),播放时以查表的方式给出,所以这种合成器又叫做波表(wavetable)合成器。

智能语音技术:

人工智能的里程碑(列举);

ENIAC(1946)第一台电子计算机、图灵完全机;IBM深蓝战胜国际象棋选手卡斯帕罗夫(1997);无人驾驶车(2005-2007);信息检索(2000+);机器翻译(2006);IBMWatson在“危险边缘”问答游戏战胜人类选手(2011);AppleSiri(2011)

语音交互过程(圆环图);

语音合成(概念、评价标准、合成方法的分类、典型系统构成);

语音合成技术

•又称为文语转换、Text-to-Speech(TTS)、SpeechSynthesis

•将文本转换成自然语音的技术,即“让计算机说人话”

•评价标准:

可懂度、自然度(如MOS测试)

语音合成方法

发音器官参数合成:

声道模型参数语音合成:

波形编辑合成(拼接式合成):

基于统计参数的合成方法:

Ø 基于隐马尔科夫模型模型的合成方法 (HMM-based)

Ø 基于深度学习(神经网络)的统计参数合成

语音合成技术发展方向;

语音识别(概念、评价标准、识别系统的分类方法、典型应用(车载、智能电视、游戏娱乐、家庭助手)典型系统构成、面临的挑战);

1)语音识别技术

• 又称为语文转换、Speech-to-Text、Speech Recognition

• 将自然语音转换成文字的技术,即“让计算机听懂人话”

• 评价标准:

错误率(如词错误率WER,字错误率CER)

2)语音识别系统分类

Ø 按词汇量分:

小词汇量、中等词汇量、大词汇量

Ø 按使用者限制分:

特定人、非特定人

Ø 按能处理的语音类型分:

孤立词、连接词、连续语音、自发语音

Ø 按使用平台分:

PC机、嵌入式

3)语音识别系统——典型系统构成

4)语音识别技术的挑战:

说话人可变性:

同一说话人内部-状态、说话人方式…

• 不同说话人之间:

环境可变性、环境噪声、信道不匹配、字典容量有限

语音识别系统(理解贝叶斯推理、语言模型的知识,会计算);见pptaudio3page61

DTW的原理和计算;

DTW:

Dynamic Time Warping,动态时间弯折

Step1:

 距离计算; Step2:

 动态规划找距离最短路径

说话人识别(概念、两种任务:

辨认和确认、应用举例)、生物识别的分类,常见的生物识别技术。

说话人识别(Speaker Recognition):

从语音中识别话者身份的技术,是生物识别(Biometrics)技术的一种

说话人辨认(SpeakerIdentification):

从一个说话人集合中辨认出谁在说话

•说话人确认(SpeakerVerification):

一个人声称是A,从语音中确认是不是A

•文本相关(text-dependent):

要求说特定的语句进行身份识别

•文本无关(text-independent):

说任何语音均可进行身份识别

典型应用:

语音考勤XX声纹解锁

生物识别分类:

生理特性识别、行为特性识别

多媒体检索:

信息检索的一般过程(图);

下一代搜索引擎的特点;

移动化:

无处不在的搜索

个性化:

真正理解用户需求

社交化:

人联网,搜索社交化

智能化:

语义理解,通晓人类语言与意图

精准化:

不必大海捞针,精准推送

垂直化:

针对某一特定领域或对象,供全面、深入、准确、及时的信息与服务

谷歌、facebook和微软对下一代搜索技术的观点;

搜索引擎的工作过程;

抓取网页 (Web Crawling)

网络爬虫、蜘蛛、机器人

建立索引 (Indexing)

整理、清理网页

建立索引

搜索(Searching)

用户输入查询

搜索

排序输出

CBR;为什么要进行基于内容的检索;

CBR:

 Content Based Retrieval (基于内容的检索)

多媒体数据的急剧膨胀

多媒体丰富的内容以及内容感知难以主观描述清楚

用户对检索颗粒度的要求以及以样本作为检索的需求

传统基于描述搜索(非内容搜索)带来的问题

搜索/查询方式有哪些(给例子,能知道是属于哪一类);

符号查询:

传统方式,以文本关键字的方式进行查询,利用描述性资料(metadata);范例查询(QBE):

提供一个样本,要求系统回应相类似的资料。

片段查询:

提供所需要资料的一个片段,要求找出包含类似信息的资料,典型的如哼唱检索(QBH)。

描绘/语意查询(Semantic Retrieval):

在没有现存样本的情况下,使用描绘或语义方式进行查询。

如用笔画出需要图片的大致结构对所需要的图片进行查询。

又如在照片查询系统中,在缺乏样本的情况下,人们常常用“大嘴巴、眯眯眼”

这些描绘形式的词进行查询。

渐进式查询:

将查询来的资料,经由编辑、修正和补充,再次作为查询条件, 如此重复,逐渐逼近自己所要的资料

建立多媒体检索系统的三个步骤;

多媒体检索系统的建立过程

Multimediafission(多媒体拆分):

Multimediacategorization(多媒体归类):

Multimediafusion(多媒体融合):

什么是弥补语义鸿沟;

在传统的基于文字的查询技术中,不存在这个问题,因为查询关键字基本能够反

映查询意图。

但是在基于内容的图像查询中,就存在一个底层特征和上层理解之间的差异(这也就是著名的semanticgap)

向量空间模型的概念和计算;(pptRetrievalpage48-52)

常见的基于内容的多媒体检索的举例。

基于内容的图像/视频检索

l多媒体存储及接口:

存储的分类;

光盘的物理结构;

光盘包括:

标签层、保护层、反射层、记录层、基底

光盘的写入过程(0和1各自代表的信息);

凹坑&平面

n0:

数据流中长时间的凹坑和平面

n1:

数据流中凹坑和平面的转变点

RAID名词解释;为什么使用RAID;

中文全称:

磁盘(冗余)阵列

英文全称:

RedundantArrayofInexpensiveDisksn

简介:

将若干硬盘按一定的要求组成快速、超大容量的存储系统,主要应用亍服务器低价格、高性能(数据传输率、高存储空间、数据安全性高、数据稳定性高)

RAID各种模式(层0,层1,层5)等的读写效率和容错能力;

第0级—分割且不具备容错性的磁盘阵列

⏹支持数据分割技术

⏹将文件的存储块分散到许多磁盘

⏹没有冗余

性能提高:

存储速度快、磁盘使用率高

⏹不具备容错能力,可靠性差

⏹一旦驱动器出错,该磁盘的数据丢失

第1级—镜像双工技术

⏹每一台硬磁盘机都有一台镜像硬磁盘机,数据同时写在硬磁盘的相应位置

⏹读出时只有一台工作,发现错误时再度另外一台的记录

⏹可靠性高

⏹但有效容量只有总容量的一半

第5级—校验信息交叉存储

⏹数据按字节和纠错信息分割存储

⏹高性能和较高容错能力

⏹适用于事务处理和联机交易处理

⏹最为广泛使用

常见的计算机与外部设备的接口及标准(USB、HDMI、SCSI、PCI-E)。

USB通用串行总线(英文:

UniversalSerialBus)

HDMI高清晰度多媒体接口(英文:

HighDefinitionMultimediaInterface)

采样率,码率,数据大小容量的计算方法。

图像处理及压缩:

图像数字化过程的关键步骤;

l图像采样:

空间连续坐标(x,y)的离散化

l灰度级的整量(量化):

幅值f(x,y)的离散化

图像的分类(黑白、灰度、彩色)及各自特点;

黑白图像:

是指图象的每个像素只能是黑或白,没有中间的过渡,故又称为2值图象。

2值图像的像素值为0、1。

灰度图像:

灰度图象是指每个像素的信息由一个量化的灰度级来描述的图象,没有彩色信息。

彩色图像:

彩色图象是指每个像素的信息由RGB三原色构成的图象,其中RBG是由不同的灰度级来描述的。

图像指标(分辨率、颜色数、尺寸);

三大指标

⏹分辨率

⏹显示分辨率:

即屏幕分辨率,屏幕所能呈现的横向和纵向的像素点数

⏹图像分辨率:

数字化图像的大小,水平和垂直方向的像素点数

⏹颜色深度:

反映构成图像的颜色总数

⏹二值图像的颜色深度为1

⏹灰度图像的颜色深度一般为8

⏹真彩色图像的颜色深度为8x3=24,包含的最大颜色数目为

⏹尺寸

图像存储空间计算(二值、灰度、真彩色、YUV等);

彩色空间(RGB、YUV、YIQ、HSI)。

Ppt多媒体视觉部分2.第二讲数字图像处理page71

色彩的三要素及人类视网膜的基本组成;

1)彩色视觉是一种明,可用亮度、色调和饱和度描述。

色调和饱和度又合称为色度

u亮度-彩色光引起的人眼对明暗程度感觉(照射光强度)

u色调-光的颜色(光谱成份)

u色饱和度-颜色的深浅程度

人眼的视网膜上有大量的光敏细胞,按其形状可分为杆状细胞和锥状细胞。

这两种细胞在视觉特性上有着不同的性能和作用,两者给出的视觉效应是不一样的。

杆状细胞的感光灵敏度很高,在低照度时,主要靠它分辨明暗,但对彩色不敏感。

锥状细胞感光灵敏度较低,在微弱的光线下不起作用,但在光线较为明亮时既能感知各种明暗层次又能辨别出光的颜色。

多媒体信息压缩的概念及分类;算术编码;RLE+Huffman编码方法;DPCM图像编码过程和原理;

2维DCT变换,直流和交流分量的概念,

JPEG编码过程及原理;

l视频压缩编码:

视频的空间及时间冗余性;MPEG-I和H.261编码原理及过程是什么,它们的主要区别是什么?

什么是I帧、P帧和B帧?

P帧和B帧的编码过程是什么?

什么是运动估计?

运动估计的过程是什么?

MPEG文件的结构是什么?

物体在空间上的位移,用有限的运动参数(如运动向量)加以描述,并和预测误差一同参与编码

l视频处理:

三种标准电视信号主要参数;电视信号数字化过程;数字视频的主要技术指标;电视信号扫描、场、帧等概念;常用彩色电视信号类型(接口);显卡的功能与分类;什么是非线性编辑,和线性编辑相比其优势是什么?

列举常用非线性编辑软件;常用视频文件格式哪些是流媒体?

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 表格模板 > 调查报告

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2