基于内容的音频信息检索.ppt

资源描述

基于内容的音频信息检索.ppt

《基于内容的音频信息检索.ppt》由会员分享，可在线阅读，更多相关《基于内容的音频信息检索.ppt（58页珍藏版）》请在冰点文库上搜索。

基于内容的音频信息检索.ppt

基于内容的音频信息检索,武港山Tel:

83594243Office:

蒙民伟楼608BEmail:

2023/5/13,WuGangshan:

ModernInformationRetrieval,2,Contents,概述查询方式语音检索音频检索音乐检索,2023/5/13,WuGangshan:

ModernInformationRetrieval,3,1音频检索概述,音频是多媒体中的一种重要媒体。

我们能够听见的音频频率范围是60Hz20kHz。

其中语音大约分布在300Hz4kHz之内，而音乐和其他自然声响是全范围分布的。

声音经过模拟设备记录或再生，成为模拟音频，再经数字化成为数字音频。

数字化时的采样率必须高于信号带宽的2倍，才能正确恢复信号。

样本可用8位或16位比特表示。

2023/5/13,WuGangshan:

ModernInformationRetrieval,4,1音频检索概述,音频是声音信号的表示形式，作为一种信息载体，音频可以分为三种类型：

波形声音对模拟声音数字化而得到的数字音频信号。

它可以代表语音、音乐、自然界和合成的声响。

语音具有字词、语法等语素，是一种高度抽象的概念交流媒体。

语音经过识别可以转换为文本。

文本是语音的一种脚本形式。

音乐具有节奏、旋律或和声等要素，是人声或/和乐器音响等配合所构成的一种声音。

音乐可以用乐谱来表示。

2023/5/13,WuGangshan:

ModernInformationRetrieval,5,音频信息的特征,不同类型的声音具有不同的内在内容。

人们感受到的内容不同。

但从整体看，音频内容分为三个级别：

最低层的物理样本级、中间层的声学特征级和最高层的语义级，如下图所示。

从低级到高级，其内容逐级抽象，内容的表示逐级概括。

2023/5/13,WuGangshan:

ModernInformationRetrieval,6,音频信息的特征,2023/5/13,WuGangshan:

ModernInformationRetrieval,7,级别特征显式表示可否用于检索物理级声学级语义级,音频信息的特征,2023/5/13,WuGangshan:

ModernInformationRetrieval,8,1音频检索概述,基于人工输入的属性和描述来进行音频检索是容易首先想到的方法。

该方法的主要缺点反映在：

当数据量越来越多时，人工的注释强度加大；人对音频的感知，如音乐的旋律、音调、音质等，难以用文字注释表达清楚。

这些正是基于内容的音频检索需要研究和解决的问题。

但同时应该注意到音频检索可以利用的一个优势，那就是语音是一种特殊类型的音频，它与文本可以互相转换，因此，可以利用文本检索技术进行概念检索。

2023/5/13,WuGangshan:

ModernInformationRetrieval,9,基于内容的音频检索,What?

从声学特征和语义特征进行音频信息的检索称为基于内容的音频检索。

困难：

1数字音频是一种不透明的位流，它不显式地包含可识别或可比较的语义实体；2人工输入音频数据的属性和内容描述，工作量极大，注释的准确性依赖于人的水平、经验和工作态度；3人对音频信息（特别是音乐）的感知，如音乐的旋律、音调、音质等，难以用文字表达清楚。

2023/5/13,WuGangshan:

ModernInformationRetrieval,10,2、查询方式:

需求,检索包含特定内容的一段讲话（计算机，互连网，多媒体技术.）检索指定说话人的一段讲话检索指定类型的一段音频（音乐、歌曲、报告、谈话.）检索指定旋律的一段音乐检索指定乐器演奏的一段音乐,2023/5/13,WuGangshan:

ModernInformationRetrieval,11,2、查询方式：

用户表达,示例方式（byexample）也称为拟声方式（onomatopoeia）。

用户使用一个声音例子表达其检索要求，查找出与该声音相似的所有声音。

例如：

用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声检索与飞机的轰鸣声相似的所有声音。

直喻（simile）方式。

通过选择一些声学/感知特性来描述检索要求，如音色、音调等。

2023/5/13,WuGangshan:

ModernInformationRetrieval,12,2、查询方式：

用户表达,主观特征方式。

用描述语言来描述声音，如寻找“欢快”的声音。

这需要预先训练系统理解这些描述语言的含义。

浏览方式。

对数据库中所有的声音逐个审听，寻找所需要的声音。

这需要在分类的基础上进行，最好预先为每一段声音做好摘要。

2023/5/13,WuGangshan:

ModernInformationRetrieval,13,基于内容的检索过程,2023/5/13,WuGangshan:

ModernInformationRetrieval,14,基于内容检索的特点,是一种相似检索，得到的是与用户指定要求相似的一组结果。

检索时可以指定返回结果的数目，或要求检索结果能满足一定的相似度。

可以强调或忽略某些特征，对指定特征施加“less”或“more”等模糊运算。

3语音检索,2023/5/13,WuGangshan:

ModernInformationRetrieval,16,语音检索的对象及应用,检索对象：

语音文档（broadcastradio,TVprograms,videotapes,lectures,voicememo,voicemail,voicephonebook,etc.）查询方式：

textand/orspeech技术：

语音识别技术，应用：

在电台节目、电话录音、会议录音、教学录音的数据管理与应用中极为有用。

2023/5/13,WuGangshan:

ModernInformationRetrieval,17,

（1）利用语音识别技术进行检索,利用自动语音识别技术预先把语音转换为文本（脚本）：

误识率较高，含噪音数据，无格式信息:

标题,段落,标点符号.需添加语音和文本的对齐信息:

time-align含有语音的声学特征信息和感知信息对脚本进行处理，抽取摘要、关键词等信息，采用常规的文本检索方法进行检索。

问题：

OOV（OutofVocabulary）问题,1%是OOV词汇,2023/5/13,WuGangshan:

ModernInformationRetrieval,18,

（2）基于说话人辨认进行检索,辨别出说话人语音的特点，来检索出指定人的录音资料，如某位教授的讲课录音等。

实现：

根据说话人语音的变化分割录音，预先建立录音的结构和索引；这种技术是简单地辨别出说话人话音的差别，而不是识别出说的是什么。

2023/5/13,WuGangshan:

ModernInformationRetrieval,19,

（2）基于说话人辨认进行检索,它在合适的环境中可以做到非常准确。

利用这种技术，可以根据说话人的变化分割录音，并建立录音索引。

用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化，建立索引和确定某种类型的结构（如对话）。

例如，分割和分析会议录音，分割的区段对应于不同的说话人，可以方便地直接浏览长篇的会议资料。

2023/5/13,WuGangshan:

ModernInformationRetrieval,20,（3）基于关键词发现技术进行检索,“关键词发现”（Spotting）技术：

在语音文档中，自动地检测出指定的词或短语的技术，（例如通过“进球”这个关键词可以找到体育比赛实况录音中进球前后的解说）实现：

预先识别出指定集合中的关键词,建立索引。

问题：

关键词集合固定,数量有限;语音数据以特征向量序列表示，索引很不方便.,2023/5/13,WuGangshan:

ModernInformationRetrieval,21,Sub-wordLatticeBasedWordSpotting,子词（Sub-word）单位可以是音素、音节或半音节等.它是语音分析过程中的产物，与语种无关.Sub-wordLattice是一种有向无环图.查询时使用的关键词，实时生成其子词序列,子词序列和Sub-wordLattice的进行相似度匹配（后向搜索）.,2023/5/13,WuGangshan:

ModernInformationRetrieval,22,语音识别技术的应用领域,Growinginterestinthisarea:

Videomailretrieval（Cam,UK）BBCnewsretrieval.Digitallibraryprojects（CMU的Informedia,Michagen的MSU,Sheffield和Cam的THIRLProject,Maryland的VoiceGraph,AT&TSCAN）.ARPAbroadcastnews和TREC6,7,8的SDRWorkshop.,4基于声学特征的音频检索,2023/5/13,WuGangshan:

ModernInformationRetrieval,24,4基于声学特征的音频检索,音频检索是以波形声音为对象的检索，这里的音频可以是汽车发动机声、雨声、鸟叫声，也可以是语音和音乐等，这些音频都统一用声学特征来检索。

虽然ASR可以对语音内容给出有价值的线索，但是，还有大量其他的音频数据需要处理，从声音效果到动物叫声以及合成声音等。

因此，对于一般的音频，仅仅有语音技术是不够的，使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事。

2023/5/13,WuGangshan:

ModernInformationRetrieval,25,4基于声学特征的音频检索,音频数据的训练、分类和分割方便了音频数据库的浏览和查找，基于听觉特征的检索为用户提供高级的音频查询接口。

这里指的音频检索就是针对广泛的声音数据的检索，分析和检索的音频可以包含语音和音乐，但是采用的是更一般性的声学特性分析方法。

2023/5/13,WuGangshan:

ModernInformationRetrieval,26,

（1）声音训练和分类,通过训练来形成一个声音类。

用户选择一些表达某类特性的声音例子（样本），如“脚步声”。

对于每个进入数据库中的声音，先计算其N维声学特征矢量，然后计算这些训练样本的平均矢量和协方差矩阵，这个均值和协方差就是用户训练得出的表达某类声音的类模型。

2023/5/13,WuGangshan:

ModernInformationRetrieval,27,

（1）声音训练和分类,声音分类是把声音按照预定的类组合。

首先计算被分类声音与以上类模型的距离，可以利用Euclidean距离等方式度量，然后距离值与门限（阈值）比较，以确定是否该声音纳入或不属于比较的声音类。

也有某个声音不属于任何比较的类的情况发生，这时可以建立新的类，或纳入一个“其他”类，或归并到距离最近的类中。

2023/5/13,WuGangshan:

ModernInformationRetrieval,28,

（2）听觉检索,听觉感知特性，如基音和音高等，可以自动提取并用于听觉感知的检索，也可以提取其他能够区分不同声音的声学特征，形成特征矢量用于查询。

例如:

按时间片计算一组听觉感知特征：

基音、响度、音调等。

考虑到声音波形随时间的变化，最终的特征矢量将是这些特征的统计值，例如用平均值、方差和自相关值表示。

这种方法适合检索和对声音效果数据进行分类，如动物声、机器声、乐器声、语音和其他自然声等。

2023/5/13,WuGangshan:

ModernInformationRetrieval,29,（3）音频分割,以上方法适合单体声音的情况，如一小段电话铃声、汽车鸣笛声等。

但是，一般的情况是一段录音包含许多类型的声音，由多个部分组成。

更为复杂的情况是，以上各种声音可能会混在一起，如一个有背景音乐的朗诵、同声翻译等。

这需要在处理单体声音之前先分割长段的音频录音。

另外，还涉及到区分语音、音乐或其他声音。

例如对电台新闻节目进行分割，分割出语音、静音、音乐、广告声和音乐背景上的语音等。

2023/5/13,WuGangshan:

ModernInformationRetrieval,30,（3）音频分割处理,通过信号的声学分析并查找声音的转变点就可以实现音频的分割。

转变点是度量特征突然改变的地方。

转变点定义信号的区段，然后这些区段就可以作为单个的声音处理。

例如，对一段音乐会的录音，可通过自动扫描找到鼓掌声音，以确定音乐片断的边界。

这些技术包括：

暂停段检测、说话人改变检测、男女声辨别，以及其他的声学特征。

2023/5/13,WuGangshan:

ModernInformationRetrieval,31,（3）音频分割的好处,音频是时基线性媒体。

现在我们看到的典型音频播放接口是与磁带录音机相似的界面，具有停止、暂停、播放、快进、倒带等按钮。

为了不丢失其中的重要东西，必须从头到尾听一遍声音文件，这样要花费很多时间，即使使用“快进”，也容易丢失重要的片断，不能满足信息技术的要求。

因此，在分割的基础上，就可以结构化表示音频的内容，建立超越常规的顺序浏览界面和基于内容的音频浏览接口。

2023/5/13,WuGangshan:

ModernInformationRetrieval,32,补充:

AudioFeatures,Featuresderivedinthetimedomain:

averageenergyzerocrossingrate（ZCR）:

Itindicatesthefreqofsignalamplitudesignchange.silenceratio:

Thresholdingmaybetricky.Featuresderivedinthefreqdomainsoundspectrum【频谱】bandwidth【带宽】:

Musicusuallyhasahigherbandwidththanspeech.energydistribution【能量分布】:

Musicusuallyhasmorehighfreqcomponentsthanspeech.=spectralcentroid/brightness（midpointofthespectralenergydistribution）harmonicity【调和性】:

Musicisusuallymoreharmonicthanothersounds.pitch【音质】:

Onlyperiodsoundsgiverisetoasensationofpitch.Pitchissubjective,relatedtobutnotequivalenttothefundamentalfreq.Spectrogram【频谱图】Itshowstherelationbetweenfreq,timeandintensity.Musicspectrogramismoreregular.Subjectivefeatures【主观特征】Pitch【音质】,Timbre【音色】,etc.,2023/5/13,WuGangshan:

ModernInformationRetrieval,33,2023/5/13,WuGangshan:

ModernInformationRetrieval,34,2023/5/13,WuGangshan:

ModernInformationRetrieval,35,2023/5/13,WuGangshan:

ModernInformationRetrieval,36,2023/5/13,WuGangshan:

ModernInformationRetrieval,37,2023/5/13,WuGangshan:

ModernInformationRetrieval,38,2023/5/13,WuGangshan:

ModernInformationRetrieval,39,AudioClassification,Hereweconsiderfirstspeechvs.music.Therereofcozothertypesofsound,buttheircharacteristicsvarygreatlyandaredifficulttogeneralize.,2023/5/13,WuGangshan:

ModernInformationRetrieval,40,AudioClassification（contd）,Step-by-stepclassification,（FromLu,2001）,2023/5/13,WuGangshan:

ModernInformationRetrieval,41,AudioClassification（contd）,Feature-vector-basedaudioclassificationValuesofasetoffeaturesarecalculatedandusedasafeaturevector.Duringthetrainingstage,theaveragefeaturevector（referencevector）isfoundforeachclassofaudio.Duringclassification,thefeaturevectorofaninputiscalculatedandthevectordistancesbetweentheinputfeaturevectorandeachofthereferencevectorsarecalculated.Theinputisclassifiedintotheclassfromwhichithastheleastvectordistance.AudioSegmentationAlongsoundtrackusuallyconsistsofamixtureofspeech,musicandothersoundtypes.Wecanusetheaboveclassificationmethodstosegmentalongaudiopieceintospeechandmusicintervals.Theprocedureis:

windowing,classificationandthengrouping.,2023/5/13,WuGangshan:

ModernInformationRetrieval,42,MoreAdvancedAudioFeatures,HighZero-CrossingRateRatio（HZCRR）LowShort-TimeEnergyRatio（LSTER）,2023/5/13,WuGangshan:

ModernInformationRetrieval,43,MoreAdvancedAudioFeatures（contd）,SpectrumFlux（SF）BandPeriodicity（BP）,2023/5/13,WuGangshan:

ModernInformationRetrieval,44,MoreAdvancedAudioFeatures（contd）,NoiseFrameRatio（NFR）LinearSpectralPair（LSP）DistanceMeasure,Rule:

Ifri,j（kp）threshold,thenaframeisconsideredasanoiseframe.,2023/5/13,WuGangshan:

ModernInformationRetrieval,45,MoreAdvancedAudioFeatures（contd）,LinearSpectralPair（LSP）DistanceMeasure（contd）LSPdivergenceshapeisalsoagoodmeasuretodiscriminatebetweendifferentspeakers.DenotethecovarianceforpthandqthsspeechclipisCpandCq.Ifthedissimilarityislargerthanathreshold,thentheretwospeechclipscouldbeconsideredasfromtwodifferentspeakers.,5音乐检索,2023/5/13,WuGangshan:

ModernInformationRetrieval,47,音乐检索,音乐检索是以音乐为中心的检索，利用音乐的音符和旋律等音乐特性来检索。

如检索乐器、声乐作品等。

音乐是我们经常接触的媒体，像MIDI、MP3和各种压缩音乐制品、实时的音乐广播等。

音乐检索虽然可以利用文本注释，但音乐的旋律和感受并不都是可以用语言讲得清楚的。

通过在查询中出示例子，基于内容的检索技术在某种程度上可以解决这种问题。

Thethreebasicfeaturesofamusical,Pitchwhichisrelatedtotheperceptionofthefundamentalfrequencyofasound;pitchissaidtorangefromlowordeeptohighoracutesounds.Intensitywhichisrelatedtotheamplitude,andthustotheenergy,ofthevibration;textuallabelsforintensityrangefromsofttoloud;theintensityisalsodefinedloudness.Timbrewhichisdefinedasthesoundcharacteristicsthatallowlistenerstoperceiveasdifferenttwosoundswithsamepitchandsameintensity.,2023/5/13,WuGangshan:

ModernInformationRetrieval,48,DimensionsoftheMusicLanguage,Timbre（音色、音质）Orchestration（编曲）Acousticssoundquality,ambience,andstyleRhythm（节奏）Melody（旋律）Harmony（和弦）Structure（结构）,2023/5/13,WuGangshan:

ModernInformationRetrieval,49,FormatsofMusicalDocuments,TwoForms：

symbolicscoresaudioperformancesThreeFormatsSymbolicformatsAudioformatsThemusicalinstrumentdigitali

展开阅读全文