多媒体技术复习.docx
《多媒体技术复习.docx》由会员分享,可在线阅读,更多相关《多媒体技术复习.docx(17页珍藏版)》请在冰点文库上搜索。
多媒体技术复习
1.按国际电信联盟(ITU)标准的定义,媒体标准的定义,分为五类:
①感觉媒体(Perception)
②表示媒体(Representation)
③显示媒体(Display)能够输入/输出信息的工具和设备。
④存储媒体(Storage)用于存放数字化的表示媒体储介质。
如硬盘、磁带CD-ROM、DVD等
⑤传输媒体(Transmission)能够将表示媒体从一处传递到另的物理传输介质,如同轴电缆、双绞线光纤等。
2.多媒体的定义
多媒体(multimedia)是两种或者以上)是两种或者以上感觉媒体(声音、图像形视频动画文字、数据文件等)的组合。
广义:
是指多种信息媒体的表现和传播形式,例如人是一个多媒体信息处理系统。
狭义:
用计算机及其它设备交互处理多媒体信息的方法和手段,或指在计算机中处理多种媒体的一系列技术。
3.多媒体的关键特性
多样化:
文字、数字、声音、图像、图形、视频等。
集成性:
多种信息媒体的集成和处理这些媒体的设备的集成。
交互性:
人的活动(activity)本身能作为一种媒体介入到信息转变为知识的过程。
被动→主动
数字化:
多媒体信息是以数字的形式而不是以模拟信号的形式存储和传输的。
4.多媒体技术的应用
■娱乐■教育与培训■多媒体办公系统■多媒体通信系统■工业领域与科学计算领域■医疗影像与诊断■咨询服务、多媒体设计、广告宣传、创意媒体■电子出版■影视特效、动漫
5多媒体系统是一个能综合处理种信息的计算机统,由多媒体硬件系和软组成。
多媒体计算机硬件系统主要包括采集输入设备、多媒体计算机和输出设备三大部分。
.数字信号处理器DSP。
体积小、功耗低,运算速度快具有内部存储器各种不同类型。
音频与语音基础:
什么是语音,什么是音频(定义);
语音:
语言的物质外壳,是语言符号系统的载体。
它由人的发音器官发出,负载着一定的语言意义。
音频是个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音等。
声音与信息:
声音是传递信息的主要手段,接收到的声音反映了声源和环境的影响;
认识语谱图(例如横坐标是什么,纵坐标是什么?
语谱图里每条竖直切线取出来就是FFT的结果);
横坐标是时间,纵坐标是频率,坐标点值为语音数据能量n
声音2个物理特性;
频率:
1秒钟内振动的次数;幅度:
声音的强弱(能量)
人耳能听到的声音频率范围;超声波、次声波;声压级;
人耳能听到的声音:
20Hz~20kHz¨超声波:
>20kHz次声波:
<20Hz;
声压级(Soundpressurelevel,SPL)
P:
声压
声音的3个主观心理量;
音高、响度、音色为声音的三要素。
响度是人类主观感觉到的声音的强弱程度,取决于声音的幅度。
频率和响度的关系:
等响度曲线。
音高(音调)取决于声音的频率。
客观上音高大小取决于声波基频的高低。
频率越高,人耳听到的声音就越高,反之亦然,但非线性关系。
单位:
美尔(Mel)
音色(音品)是由混入基音的泛音所决定的,或者说由声音波形的谐波频谱和包络决定。
声音波形的基频所产生的听得最清楚的音叫基音,各次谐波的微小震动所产生的声音叫泛音。
不同发音体所发出的音波都有自己的特异性,可分为纯音(单一频率)和复合音(具有谐波)。
双耳效应与虚拟听觉的概念;等响度曲线以及听阈和痛阈;
双耳效应:
人可以利用两个耳朵接收声音时的强弱差
别和时间差别,判断出发声物的方位和距离,人耳的
这种能力称为双耳效应。
三维听觉显示(3DAudioDisplay)或者虚拟听觉空间(VirtualAuditorySpace)就是根据人类听觉特征,通过双声道播放系统再现声源空间信息的技术。
混响的概念;
混响:
是指声源停止发声后,在声场中还存在着来自各个界面的迟到的反射声形成的声音“残留”现象。
音频数字化(A/D转换)过程;音频文件的大小的计算(采样率、量化位数、通道数);
数字化实际上就是采样和量化和编码。
采样(抽样,sampling):
将声音信号在时间上离散化,即每隔一段时间抽取一个信号样本。
采样频率(SamplingRate)
奈奎斯特理论指出:
采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,称为无损数字化。
fs>=2fmax
*电话话音信号最高频率约为3.4kHz,所以采样频率取为8kHz。
量化(quantization):
将连续的信号幅度离散化。
如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。
编码(Coding):
是指按一定的格式把经过采样和量化得到的离散数据(脉冲数字信号)记录下来,并在有效的数据中加入一些用于纠错、同步和控制的数据。
脉冲编码调制(PCM,PulseCodeModulation)把模拟信号转换为数字信号的一种调制方式。
量化误差:
模拟信号经过采样和量化,然后用有限个二进制代码代表量化后的幅度,在编码时引入量化误差,在解码时无法消除,即引入了噪声,降低了信噪比(SNR)。
电话采用A率标准,SNR>35dB。
常见音频文件格式;
1.WAV波形文件,文件大小计算公式S=R*D*(r/8)*N
2.VOC3.MP3压缩比达1:
10~1:
124.MP45.RA格式6.CDA激光唱片格式7.AIFF音频交换文件格式8.MIDI9.WMAudio
音频压缩编码:
什么是数据压缩;
数据压缩就是在一定的精度损失条件下,以最
少的数码表示信源所发出的信号
压缩的必要性和好处;PCM;
数据压缩的必要性
多媒体信源引起了“数据爆炸”如果不进行数据压
缩传输和存储都难以实用化。
1分钟数字音频信号需要的存储空间
数据压缩的好处
时间域压缩──迅速传输媒体信源
频率域压缩──并行开通更多业务
空间域压缩──降低存储费用
能量域压缩──降低发射功率
PCM(PulseCodeModulation)
ØPCM编码是对连续语音信号进行空间采样、幅度量化及
用适当码字将其编码的总称。
音频压缩的目的和依据;
目的:
高音质
高可懂度(话音)
低码率
低计算需求
对连续编解码循环的鲁棒性
对传输错误的鲁棒性
高实时性:
低编码/解码延迟
依据:
时域与频域信息冗余
时域信息冗余:
幅度的非均匀分布,样本间的相关,周期之间的相关,基音之间的相关,静音系数,长时自相关
频域信息冗余:
非均匀长时功率谱密度、音频特有的短时功率谱密度,人耳的听觉掩蔽效应,对不同频段声音的敏感程度,对声音信号相位变化的不敏感等听觉原理
话音编码器的分类;
话音(语音)编码器分类
1). 波形编译码器(Waveform coder)
¨ 不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。
例如PCM、DPCM、APCM、ADPCM等。
2). 音源编译码器(Source coder)
¨ 也叫参数编译码器、声码器(vocoder)。
它从话音波形信号中ᨀ取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。
3. 混合编译码器(Hybrid coder)
综合使用上述两种技术。
使用的激励信号波形尽可能接近于原始话音信号的波形,例如CELP。
LPC线性预测编码;
听觉掩蔽效应(理解掩蔽效应图);
掩蔽效应:
一种频率的声音阻碍听觉系统感受另一种频率声音的现象
频域掩蔽(同时掩蔽):
一个强纯音会掩蔽其附近频率同时发声的弱纯音
时域掩蔽(超前掩蔽和滞后掩蔽):
在时间上相邻的声音之间也有掩蔽现象
MPEGAudio3层的压缩比;MP3(感官编码技术)的基本原理和压缩比。
音频层根据压缩质量和编码复杂度分为Layer3、Layer2、Layer1三层,它们的压缩比分别为1:
10~1:
12、1:
6~1:
8、1:
4.
l声卡与MIDI:
声卡的构成;AC97规范;
声卡的构成与工作原理
主芯片——数字信号处理器:
声音信息处理、特殊音效与处理、实时音频压缩、
MIDI合成……
混音芯片——CODEC:
数字信号编解码器,采样、编码、解码、混音 (A/D、
D/A,AC’97规范)
音乐合成器——MIDI合成(FM或WaveTable)
总线接口和控制器——PC总线与声卡的接口
外部输入输出口——MIC IN、LINE IN、LINE OUT、SPK OUT、REAR OUT、
MIDI/Joystick、SPDIF OUT、 SPDIF IN
什么是MIDI;MIDI音乐的两种合成方式是什么?
为什么MIDI文件很小?
(MIDI文件储存的是一系列指令、不是波形,)
MIDI——MusicalInstrumentDigitalInterface(迷笛),是用来连接电子乐器、或将MIDI设备与电脑连接成系统的一种通信协议。
•MIDI将电子乐器和多媒体计算机相结合。
•MIDI是由软件与硬件组成的系统规范。
•MIDI文件记录的是“乐谱”,使电脑能够用“记谱”的方式进行数字化录音与回放
MIDI音乐合成方式
•FM合成法
数字式频率调制合成法,用数字信号来表示不同乐音的波形,将它们组合起来,
再通过DAC生成音乐播放。
从理论上讲,FM合成方法可以产生任何乐音,但是,
这种“物理式”的合成方法合成出来的声音不够真实。
•波表合成法
乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来,播放时再加以调整、修饰和放大,生成各种音阶的音符。
乐音样本通常放在ROM芯片(硬波表)
或文件形式放于硬盘上(软波表),播放时以查表的方式给出,所以这种合成器又叫做波表(wavetable)合成器。
智能语音技术:
人工智能的里程碑(列举);
ENIAC(1946)第一台电子计算机、图灵完全机;IBM深蓝战胜国际象棋选手卡斯帕罗夫(1997);无人驾驶车(2005-2007);信息检索(2000+);机器翻译(2006);IBMWatson在“危险边缘”问答游戏战胜人类选手(2011);AppleSiri(2011)
语音交互过程(圆环图);
语音合成(概念、评价标准、合成方法的分类、典型系统构成);
语音合成技术
•又称为文语转换、Text-to-Speech(TTS)、SpeechSynthesis
•将文本转换成自然语音的技术,即“让计算机说人话”
•评价标准:
可懂度、自然度(如MOS测试)
语音合成方法
发音器官参数合成:
声道模型参数语音合成:
波形编辑合成(拼接式合成):
。
基于统计参数的合成方法:
Ø 基于隐马尔科夫模型模型的合成方法 (HMM-based)
Ø 基于深度学习(神经网络)的统计参数合成
语音合成技术发展方向;
语音识别(概念、评价标准、识别系统的分类方法、典型应用(车载、智能电视、游戏娱乐、家庭助手)典型系统构成、面临的挑战);
1)语音识别技术
• 又称为语文转换、Speech-to-Text、Speech Recognition
• 将自然语音转换成文字的技术,即“让计算机听懂人话”
• 评价标准:
错误率(如词错误率WER,字错误率CER)
2)语音识别系统分类
Ø 按词汇量分:
小词汇量、中等词汇量、大词汇量
Ø 按使用者限制分:
特定人、非特定人
Ø 按能处理的语音类型分:
孤立词、连接词、连续语音、自发语音
Ø 按使用平台分:
PC机、嵌入式
3)语音识别系统——典型系统构成
4)语音识别技术的挑战:
说话人可变性:
同一说话人内部-状态、说话人方式…
• 不同说话人之间:
环境可变性、环境噪声、信道不匹配、字典容量有限
语音识别系统(理解贝叶斯推理、语言模型的知识,会计算);见pptaudio3page61
DTW的原理和计算;
DTW:
Dynamic Time Warping,动态时间弯折
Step1:
距离计算; Step2:
动态规划找距离最短路径
说话人识别(概念、两种任务:
辨认和确认、应用举例)、生物识别的分类,常见的生物识别技术。
说话人识别(Speaker Recognition):
从语音中识别话者身份的技术,是生物识别(Biometrics)技术的一种
说话人辨认(SpeakerIdentification):
从一个说话人集合中辨认出谁在说话
•说话人确认(SpeakerVerification):
一个人声称是A,从语音中确认是不是A
•文本相关(text-dependent):
要求说特定的语句进行身份识别
•文本无关(text-independent):
说任何语音均可进行身份识别
典型应用:
语音考勤XX声纹解锁
生物识别分类:
生理特性识别、行为特性识别
多媒体检索:
信息检索的一般过程(图);
下一代搜索引擎的特点;
移动化:
无处不在的搜索
个性化:
真正理解用户需求
社交化:
人联网,搜索社交化
智能化:
语义理解,通晓人类语言与意图
精准化:
不必大海捞针,精准推送
垂直化:
针对某一特定领域或对象,供全面、深入、准确、及时的信息与服务
谷歌、facebook和微软对下一代搜索技术的观点;
搜索引擎的工作过程;
抓取网页 (Web Crawling)
网络爬虫、蜘蛛、机器人
建立索引 (Indexing)
整理、清理网页
建立索引
搜索(Searching)
用户输入查询
搜索
排序输出
CBR;为什么要进行基于内容的检索;
CBR:
Content Based Retrieval (基于内容的检索)
多媒体数据的急剧膨胀
多媒体丰富的内容以及内容感知难以主观描述清楚
用户对检索颗粒度的要求以及以样本作为检索的需求
传统基于描述搜索(非内容搜索)带来的问题
搜索/查询方式有哪些(给例子,能知道是属于哪一类);
符号查询:
传统方式,以文本关键字的方式进行查询,利用描述性资料(metadata);范例查询(QBE):
提供一个样本,要求系统回应相类似的资料。
片段查询:
提供所需要资料的一个片段,要求找出包含类似信息的资料,典型的如哼唱检索(QBH)。
描绘/语意查询(Semantic Retrieval):
在没有现存样本的情况下,使用描绘或语义方式进行查询。
如用笔画出需要图片的大致结构对所需要的图片进行查询。
又如在照片查询系统中,在缺乏样本的情况下,人们常常用“大嘴巴、眯眯眼”
这些描绘形式的词进行查询。
渐进式查询:
将查询来的资料,经由编辑、修正和补充,再次作为查询条件, 如此重复,逐渐逼近自己所要的资料
建立多媒体检索系统的三个步骤;
多媒体检索系统的建立过程
Multimediafission(多媒体拆分):
Multimediacategorization(多媒体归类):
Multimediafusion(多媒体融合):
什么是弥补语义鸿沟;
在传统的基于文字的查询技术中,不存在这个问题,因为查询关键字基本能够反
映查询意图。
但是在基于内容的图像查询中,就存在一个底层特征和上层理解之间的差异(这也就是著名的semanticgap)
向量空间模型的概念和计算;(pptRetrievalpage48-52)
常见的基于内容的多媒体检索的举例。
基于内容的图像/视频检索
l多媒体存储及接口:
存储的分类;
光盘的物理结构;
光盘包括:
标签层、保护层、反射层、记录层、基底
光盘的写入过程(0和1各自代表的信息);
凹坑&平面
n0:
数据流中长时间的凹坑和平面
n1:
数据流中凹坑和平面的转变点
RAID名词解释;为什么使用RAID;
中文全称:
磁盘(冗余)阵列
英文全称:
RedundantArrayofInexpensiveDisksn
简介:
将若干硬盘按一定的要求组成快速、超大容量的存储系统,主要应用亍服务器低价格、高性能(数据传输率、高存储空间、数据安全性高、数据稳定性高)
RAID各种模式(层0,层1,层5)等的读写效率和容错能力;
第0级—分割且不具备容错性的磁盘阵列
⏹支持数据分割技术
⏹将文件的存储块分散到许多磁盘
⏹没有冗余
性能提高:
存储速度快、磁盘使用率高
⏹不具备容错能力,可靠性差
⏹一旦驱动器出错,该磁盘的数据丢失
第1级—镜像双工技术
⏹每一台硬磁盘机都有一台镜像硬磁盘机,数据同时写在硬磁盘的相应位置
⏹读出时只有一台工作,发现错误时再度另外一台的记录
⏹可靠性高
⏹但有效容量只有总容量的一半
第5级—校验信息交叉存储
⏹数据按字节和纠错信息分割存储
⏹高性能和较高容错能力
⏹适用于事务处理和联机交易处理
⏹最为广泛使用
常见的计算机与外部设备的接口及标准(USB、HDMI、SCSI、PCI-E)。
USB通用串行总线(英文:
UniversalSerialBus)
HDMI高清晰度多媒体接口(英文:
HighDefinitionMultimediaInterface)
采样率,码率,数据大小容量的计算方法。
图像处理及压缩:
图像数字化过程的关键步骤;
l图像采样:
空间连续坐标(x,y)的离散化
l灰度级的整量(量化):
幅值f(x,y)的离散化
图像的分类(黑白、灰度、彩色)及各自特点;
黑白图像:
是指图象的每个像素只能是黑或白,没有中间的过渡,故又称为2值图象。
2值图像的像素值为0、1。
灰度图像:
灰度图象是指每个像素的信息由一个量化的灰度级来描述的图象,没有彩色信息。
彩色图像:
彩色图象是指每个像素的信息由RGB三原色构成的图象,其中RBG是由不同的灰度级来描述的。
图像指标(分辨率、颜色数、尺寸);
三大指标
⏹分辨率
⏹显示分辨率:
即屏幕分辨率,屏幕所能呈现的横向和纵向的像素点数
⏹图像分辨率:
数字化图像的大小,水平和垂直方向的像素点数
⏹颜色深度:
反映构成图像的颜色总数
⏹二值图像的颜色深度为1
⏹灰度图像的颜色深度一般为8
⏹真彩色图像的颜色深度为8x3=24,包含的最大颜色数目为
⏹尺寸
图像存储空间计算(二值、灰度、真彩色、YUV等);
彩色空间(RGB、YUV、YIQ、HSI)。
Ppt多媒体视觉部分2.第二讲数字图像处理page71
色彩的三要素及人类视网膜的基本组成;
1)彩色视觉是一种明,可用亮度、色调和饱和度描述。
色调和饱和度又合称为色度
u亮度-彩色光引起的人眼对明暗程度感觉(照射光强度)
u色调-光的颜色(光谱成份)
u色饱和度-颜色的深浅程度
人眼的视网膜上有大量的光敏细胞,按其形状可分为杆状细胞和锥状细胞。
这两种细胞在视觉特性上有着不同的性能和作用,两者给出的视觉效应是不一样的。
杆状细胞的感光灵敏度很高,在低照度时,主要靠它分辨明暗,但对彩色不敏感。
锥状细胞感光灵敏度较低,在微弱的光线下不起作用,但在光线较为明亮时既能感知各种明暗层次又能辨别出光的颜色。
多媒体信息压缩的概念及分类;算术编码;RLE+Huffman编码方法;DPCM图像编码过程和原理;
2维DCT变换,直流和交流分量的概念,
JPEG编码过程及原理;
l视频压缩编码:
视频的空间及时间冗余性;MPEG-I和H.261编码原理及过程是什么,它们的主要区别是什么?
什么是I帧、P帧和B帧?
P帧和B帧的编码过程是什么?
什么是运动估计?
运动估计的过程是什么?
MPEG文件的结构是什么?
物体在空间上的位移,用有限的运动参数(如运动向量)加以描述,并和预测误差一同参与编码
l视频处理:
三种标准电视信号主要参数;电视信号数字化过程;数字视频的主要技术指标;电视信号扫描、场、帧等概念;常用彩色电视信号类型(接口);显卡的功能与分类;什么是非线性编辑,和线性编辑相比其优势是什么?
列举常用非线性编辑软件;常用视频文件格式哪些是流媒体?