算法的基本概念.docx

上传人:b****4 文档编号:4673036 上传时间:2023-05-07 格式:DOCX 页数:32 大小:65.27KB
下载 相关 举报
算法的基本概念.docx_第1页
第1页 / 共32页
算法的基本概念.docx_第2页
第2页 / 共32页
算法的基本概念.docx_第3页
第3页 / 共32页
算法的基本概念.docx_第4页
第4页 / 共32页
算法的基本概念.docx_第5页
第5页 / 共32页
算法的基本概念.docx_第6页
第6页 / 共32页
算法的基本概念.docx_第7页
第7页 / 共32页
算法的基本概念.docx_第8页
第8页 / 共32页
算法的基本概念.docx_第9页
第9页 / 共32页
算法的基本概念.docx_第10页
第10页 / 共32页
算法的基本概念.docx_第11页
第11页 / 共32页
算法的基本概念.docx_第12页
第12页 / 共32页
算法的基本概念.docx_第13页
第13页 / 共32页
算法的基本概念.docx_第14页
第14页 / 共32页
算法的基本概念.docx_第15页
第15页 / 共32页
算法的基本概念.docx_第16页
第16页 / 共32页
算法的基本概念.docx_第17页
第17页 / 共32页
算法的基本概念.docx_第18页
第18页 / 共32页
算法的基本概念.docx_第19页
第19页 / 共32页
算法的基本概念.docx_第20页
第20页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

算法的基本概念.docx

《算法的基本概念.docx》由会员分享,可在线阅读,更多相关《算法的基本概念.docx(32页珍藏版)》请在冰点文库上搜索。

算法的基本概念.docx

算法的基本概念

第1章概论

1.1信息处理

中文信息处理技术作为计算机技术与中国语言文字相结合的一门交叉学科,随着信息处理技术的发展,近年来得到了快速的发展。

语言文字信息处理作为计算机应用技术的一个重要分支,伴随着计算语言学、心理学、数学以及计算机科学的发展,已经成为新世纪信息技术中的一个重要研究领域。

无论是中文信息处理还是语言文字信息处理,都离不开“信息”的概念。

信息(information)既是一种抽象的概念,又是一个无处不在的实际事件。

控制论创始人维纳(NorbertWiener)认为,信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总称。

因此,可以认为,信息是人与外界的一种交互通信的信号量。

信息论奠基者ClauseShannon认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。

该论述第一次阐明了信息的功能和用途,表明了信息是一个可以度量的概念,且指出了信息的度量方法可以依据相应的事件发生的概率进行确定大小。

这样,不同概率实践就包含了不同的影响度(或称信息量)。

RobertM.Losee在1998年11月的《美国社会信息科学学报》上发表了“独立于学科的信息定义”论文,给出的信息定义是“Informationmaybedefinedasthecharacteristicsoftheoutputofaprocess,thesebeinginformativeabouttheprocessandtheinput”。

即信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息。

换句话说,信息可以理解为由过程所生产的特征值或变量。

该特征值或变量是代表了输入和过程的信息。

信息处理就是对信息的接收、存储、转化、传送和发布等。

随着计算机科学的不断发展,计算机已经从初期的以“计算”为主的一种计算工具,发展成为以信息处理为主的、集计算和信息处理于一体的、与人们的工作、学习和生活密不可分的一个工具。

上述概念或许过于抽象。

其实信息在日常生活中无处不在。

例如,在计算机信息处理领域,从计算机能处理的信息形式看,信息可以分为文本信息、多媒体信息和超媒体信息;从信息的结构化程度看,信息可以分为结构化信息、半结构化信息和非结构化信息。

在信息安全领域,信息有公开的信息、一般保密信息和绝密信息等。

因此,信息与我们的日常工作密不可分。

进一步分析计算机信息处理的过程,可以看到,信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地;信息的发布就是把信息通过各种表示形式展示出来。

计算机信息处理的过程实际上与人类信息处理的过程一致。

人们对信息处理也是先通过感觉器官获得的,通过大脑和神经系统对信息进行传递与存储,最后通过言、行或其他形式发布信息。

1.2中文信息处理

中文信息处理,从广义来说,由我们祖先创立中文开始,就一直在进行;从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理(赵伯璋.计算机中文信息处理.北京:

中国宇航出版社,1987)。

按照《计算机科学技术百科全书》(清华大学出版社,1998)中对计算机中文信息处理的定义为:

用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。

它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。

汉字学和汉语语言学中的词法学、句法学、语义学和语用学给中文信息处理的各个层面提供了可靠的理论依据,而人工智能的知识工程、机器学习、模式识别和神经计算,数学中的模型理论、形式化理论和数理统计等构成了中文信息处理的方法论基础。

简单地说,中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科,是计算机科学与语言文字学的交叉学科。

汉字是目前世界上仅存的为数不多的几种象形文字之一,也是使用人口最多的一种文字之一。

从文字的创建到文字的发展和演化,这一过程本身也是文字信息处理的过程。

自从有了字典,人们开始对创建的汉字进行音、形、义和用等方面的描述和规范,并根据汉字本身的属性,提出了按字的笔画、部首和读音等多种分类与查找方法,这些分类本身也是中文信息处理的一个部分。

自从第一台电子计算机的诞生,人们一直不断地在尝试着如何利用计算机本身具有的计算速度快、计算精确度高、具有一定的逻辑推理能力等特点,把语言文字的自动识别、语言翻译、语言理解和语言的生成等工作让计算机进行分担。

然而,由于计算机是由西方人发明的,而西文和中文在文字、语言和语用等多个方面存在着很大的差异。

英文中的所有字(word)可以只用26个字母(character或称字符)组成,因此,英文是一种拼音文字。

英文中的句子由一组字组成,字与字之间通过空格(space)进行分隔。

而汉语中汉字是一种象形文字。

汉语中用词(word或phrase)的概念与英文中的字相对应,一个词至少包含一个汉字字符(ideogram)。

为了区分象形文字中的字符和拼音文字中的字符,在英文中分别用ideogram(或ideograph)和character表示。

在拼音文字中,一个字符(或字母)称为一个character,一个单字成为word;但在象形文字中,一个单字或字母是很难区分的,因此当该字表示字母或字符时,通常用ideograph表示,当它作为一个有含义的字时,通常用character或word表示。

例如,当“漢”作为一个象形文字的字母或字符时,就把它称为一个ideograph,因为在日语、韩语、越南语中都有该字符,它仅仅是一个符号,而一旦把它作为汉语中的一个字时,则就称为一个character。

在汉语中,句子是由词构成,但在表面上看,也可以认为是直接由一串汉字字符组成,因为无论是汉字字符之间还是汉字字词之间都不存在空格。

从上述这些简单的中、英文的组织结构的比较中可以看出,语言本身的特点,加上语言的组成和理解方式的不同,导致了用计算机在处理中文信息时,遇到了前所未有的困难。

在信息输入方面,英文的26个字母可以安排在一个QWERT键盘上,而汉字的数量则数以万计,要让计算机能够处理汉字信息,首要任务就是要解决汉字如何进入计算机的问题。

在信息处理过程中,英文字符由于其数量少,因此在存储、处理和传送等方面要占的计算机存储空间和CPU运算时间要少,而汉字恰恰相反。

在信息输出过程,同样由于英文字符数量少以及每个字符所占用的显示或打印空间要比汉字少等的原因,使得输出设备简单,输出速度快,而汉语由于字形复杂,笔画繁琐,字汇量大,导致信息的输出过程复杂。

然而,汉语信息处理的复杂性并不意味着计算机就无法处理它。

我国的语言文字专家和计算机学界紧密合作,从20世纪50年代开始,就从事计算机中文信息处理的理论与技术的研究,特别自20世纪70年代中期开始,我国在计算机信息处理方面投入了大量的研究开发工作。

从汉字的属性分析研究、汉字键盘输入技术、汉字字模技术、汉字输出技术、汉字编码技术、汉字存储、检索和软件汉化到中文篇章识别、汉语语音识别、手写汉字识别、篇章理解与处理、机器翻译、电子照排、中文平台等多方面,取得了一系列的重大成果,为中文信息处理技术的发展奠定了坚实的基础。

由于受计算机本身的运算过度和存储空间等限制,为了使汉字顺利进入计算机,首先要解决的是如何从成千上万个汉字中挑选出一批常用汉字,通过制定相关的字符编码标准,使其能为计算机所处理。

《信息交换用汉字编码字符集——基本集》GB2312-80是国内第一个汉字字符集标准。

其中共收录汉字6763个,其他图形符号682个。

在GB2312-80标准中,把汉字分为常用字(共3755个汉字)和次常用字(共3008个汉字)。

常用汉字按照拼音次序排列,次常用字按照部首笔画排列。

GB2312-80标准实际上给出了在中文信息处理时,计算机所能处理的基本汉字词汇数量以及每个汉字在计算机内部的编码。

汉字的字符编码只有与汉字形信息库对应后,才能在计算机的显示设备和打印设备上输出。

汉字的字形包括宋体、仿宋体、楷体等多种字型。

书刊报纸上使用最多的是宋体字型。

为此,国家质量技术监督局于1985年发布了与GB2312-80相对应的《信息交换用汉字1516点阵字模集》GB/T5199.1-85和《信息交换用汉字1516点阵字模数据集》GB/T5199.2-85,规定了GB2312-80中图形字符的16点阵字型。

汉字字型采用宋体,主要用于汉字信息的显示输出。

同时,国家质量技术监督局还发布了与GB2312-80相对应的《信息交换用汉字2424点阵字模集》GB/T5007.1-85和《信息交换用汉字2424点阵字模数据集》GB/T5007.2-85,规定了GB2312-80中图形字符的24点阵字型,汉字字型采用宋体。

上述16点阵字型和24点阵字型标准于2001年修订,新标准的名称分别为《信息技术汉字编码字符集(基本集)16点阵字型》和《信息技术汉字编码字符集(基本集)24点阵字型》,标准号分别为GB5199-2001(代替原来的标准号GB/T5199.1~5199.2-1985)和GB5007.1-2001(代替原来的标准号GB/T5007.1~5007.2-1985)。

有了这些基本的字符编码集和图形符号集,计算机处理中文信息就显得容易了。

1.3计算机中文信息处理主要研究对象

计算机中文信息处理包含了多个研究层次。

在计算机操作系统方面,需要解决中文信息在计算机内部的表示,中文信息的输入和输出以及中文信息在Internet上的传输等问题,从而使中文信息在计算机中的处理变得可行。

在语言文字方面,需要解决选择(或规范)多少汉字进入计算机,汉字的字形、字型信息的描述等问题。

在应用方面,需要解决包括机器学习、自然语言处理、计算机翻译等一系列与语言信息处理相关的问题。

1.汉字键盘输入技术

汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术。

早期的汉字键盘输入采用模仿西文键盘输入技术,即通过一个大键盘,用大键盘上的一个键对应一个或几个汉字。

由于这种输入技术的汉字输入速度慢,可扩充性差,因此目前基本被淘汰。

取而代之的是汉字的编码输入。

汉字的编码输入就是用西文键盘上的字符、数字等符号对汉字进行编码。

用户通过输入汉字的编码,然后编码通过计算机内部的汉字键盘输入程序把它转换成机器内部代码,从而达到输入汉字的目的。

汉字编码最早可以追溯到通信领域的电报码。

电报码采用4位十进制数把常用的汉字用“0”~“9”十个数字按次序进行逐个编码。

这样,每个汉字就有惟一的代码。

电报码是一种无理编码,用户使用十分不便,只有专业人员才会使用。

王永武先生发明的四角码虽然是一种汉字检字方法,实际上它就是一种汉字的编码方法。

由于四角码是采用“0”~“9”十个数字键对汉字的四个角的形状进行编码,因此这种编码也称“字形码”。

汉语拼音是在汉字注音的基础上发展成的一种用西文字母对汉字进行注音的方法。

即按照每个汉字的读音,对其进行编码,因此这种编码也称为“音码”。

由于学习汉语拼音有利于推广普通话,推广普通话又是我国的国策。

因此,在全国的中小学中,汉语拼音输入法成为了一种最普及的汉字输入法,在所有的键盘输入法中占有率在90%以上。

汉字编码专家在对汉字编码研究后,还提出了可以采用汉字的字音、字形的一部分属性组合成一种或几种编码,这样构成的汉字编码有的称为“音形码”,也有的称为“形音码”。

汉字键盘输入程序把汉字编码通过计算、查表或映射等方式对应到相应的汉字内码。

由于汉字的字数特别大,因此它不能像西文字符一样用一个ASCII码(7位)来表示。

一般情况下,用2字节、3字节或4字节来表示一个汉字的机器内部码(简称“机内码”)。

为了实现中文与西文及其他文字在机器内部表示的相互统一,国际上成立了相关的组织或联盟专门对世界各国文字在的机器内部的表示进行研究。

例如,国际标准化组织(ISO)、Unicode联盟以及IEEE下属的专门委员会等都有相应的机构研究制定字符编码标准。

这些组织定期会公布最新的同一文字编码方案,提供给各个国家和各个计算机生产厂商参考。

有了文字的统一机内码,信息交换就变得容易。

2.汉字输出技术

汉字的输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出。

因此汉字的输出技术往往与汉字字模(字形)技术紧密结合在一起。

由于汉字是图形字符,汉字信息的存储和输出过程与西文字符有很大的不同。

在汉字字库信息的描述方面,有点阵描述法,这样构成的汉字库就称为“点阵字库”(例如,GB5199.1-2001和GB5007-2001就是典型的16点阵和24点阵字库)。

对字形的描述还可以采用矢量的方法,每个汉字信息用一组矢量进行描述,这种形式构成的汉字库就称为“矢量字库”。

若对汉字的字形线段采用数学函数(二次函数、B-样条、Besier函数等)描述,则构成的汉字库就称为曲线字库。

有了汉字库,汉字输出程序就能把汉字机内码对应的字形信息进行处理(包括还原、放大、缩小等),然后再根据具体的输出设备进行输出。

“所见即所得”是一种典型的输出技术。

它把用户在屏幕上编辑得到的文本、数据及其图形等格式,直接转换成打印设备上一致的输出格式。

在计算机系统中,外部设备(或称周遍设备)的种类日趋繁多。

每一种显示和打印输出的外部设备上,一般都带有不同的处理器。

为此,各个生产厂商在推出每一种不同型号的显示设备或打印设备时,都配备相应的驱动程序。

驱动程序是连接操作系统和设备之间的桥梁,也有的操作系统已经把设备驱动程序作为其重要的一个组成部分。

为了实现汉字信息输出,驱动程序必须支持中西文混合输出。

3.软件汉化技术

软件汉化是把西文软件直接改造成中文软件的一种技术。

分为系统层和应用层两个方面。

系统层的汉化通常是指西文操作系统汉化成中文操作系统,使得系统能够处理中文信息。

应用层的汉化通常是指使西文的应用软件经过汉化后能够具备处理中文的能力。

操作系统的汉化又可以分为内核汉化和外挂汉化两种。

内核汉化就是直接修改操作系统的底层内核模块,使得中文信息能够在操作系统中不受屏蔽地处理。

这种方法一般要先取得操作系统的源代码,静态地修改操作系统的源码,通过编译、连接后,重新生成一个操作系统,因此汉化比较方便,也比较彻底。

外挂汉化通常是在无法获得操作系统的源代码情况下,在操作系统启动后,通过中文补丁程序,动态地修改操作系统中有关信息处理部分的代码。

因此,一般需要对操作系统本身非常熟悉,对操作系统的I/O管理部分在内存中的位置或代码非常了解,需要较高的技术才能完成。

这种方法的汉化比较困难,有时也会出现汉化不彻底的情况。

应用程序的汉化也分为两个方面。

一是用户界面的汉化。

用户界面的汉化较为简单,只要把相应的西文界面信息翻译成中文。

另外一个是应用程序中中文的通行(有时也称“程序汉化”)。

由于在大多数西文应用程序中包含了对诸如非法字符的检测、过滤等,系统层提供的中文信息会被这些程序检测为非法字符,从而被过滤,导致中文信息无法通行。

这方面的汉化需要专门的技术才能完成。

4.汉字字形识别技术

汉字字形识别技术是在对英文、数字识别的基础上,在20世纪60年代首先由日本学者开始研究,70年代有了初步的研究成果,80年代中期,日本的东芝、松下等公司形成了汉字字形识别系统的产品。

我国自20世纪70年末开始对汉字识别进行研究。

目前在印刷体汉字识别、联机手写汉字识别、手写规整汉字识别和特定人手写汉字识别方面都取得了丰硕的成果。

相关产品(例如,汉王系列产品)也打入了美国、新加坡以及我国香港和台湾等地区。

汉字字形识别技术是利用计算机技术对汉字静态(印刷体、手写规整体等)图形和动态(联机手写、特定人手写等)汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码。

汉字的识别大致可以分为联机识别和脱机识别两类。

所谓联机识别,是指用户一边用书写笔(相当于普通笔)在书写板(相当于纸)上写字,机器一边辨别出用户书写的是什么字。

所谓脱机识别,是指机器所要识别的汉字已经在纸上了,计算机为了识别出纸上的汉字,先要把汉字通过扫描装置扫成图像,然后计算机再对图像进行分析处理,最后辨别出纸上的汉字。

汉字字形识别技术包含了人工智能、机器学习、统计学和认知科学等多个领域。

字形的识别过程既是一个学习过程,又是一个理解过程。

简单地分,汉字字形识别的过程一般包括三个阶段:

第一阶段为汉字识别前处理,第二阶段是汉字分类和判别,第三阶段是汉字识别后处理。

汉字识别前处理也称预处理。

它指从扫描一页汉字图形形成灰度值图像数字信号到单字识别之前的全部过程。

脱机识别的前处理通常包括二值化、行切分、字切分、规范化、细化(或抽取轮廓)等。

联机识别的前处理包括区分书写的哪些笔画是同一文字的笔画(字切分)、平滑、去噪声、空间采样、规范化等步骤。

前处理为单字识别创造条件,其质量直接影响到单字识别的正确率。

汉字字形识别的第二阶段是汉字分类和判别。

在汉字分类和判别之前,首先在识别系统中要有对照的汉字识别特征。

汉字识别特征是为识别汉字而对汉字字形进行分析,所提取的表示汉字字形结构特征规律的且是关键性的、稳定的结构、参数或其相关的数学表示形式。

汉字识别特征的选择和抽取是汉字识别技术的关键,是取决汉字识别方法的核心,是一个汉字识别系统成败的主要因素。

和一般模式特征类似,汉字识别特征可以分为统计形式、结构形式和数学形式三种。

汉字识别所抽取的汉字特征主要有:

粗外围特征、错网格特征、复杂指数和四边码、笔画密度特征、汉字特征点、短笔段特征、边框和局部特征、部件模板、笔画方向和轮廓特征等。

这些特征在识别汉字时各有特色,互有优势,可用于粗分类和细分类中。

由于汉字数量大,汉字模式样本多,为了提高汉字识别速度,汉字识别通常采用多级分类识别方法。

其中最后一级分类(即通过该分类就能够识别出汉字)称为细分类,前面的若干级分类称为粗分类。

应用模式识别原理对输入计算机内的汉字进行自动识别的基本方法有统计决策法和句法结构方法。

统计决策方法是提取待识别汉字的一组统计特征,形成该模式的多维特征向量,再依据一定准则决定的决策函数,和已存在计算机内的一批标准识别模式(例如6763个汉字)的多维特征向量集合匹配判别,找出其特征向量最接近的输入模式的标准模式。

该标准模式就作为未知输入汉字的输入模式。

句法结构方法根据汉字的二维图形包含的丰富结构信息特征,把被识别的汉字模式看成是由若干个较简单的子模式按照一定规律构成的集合,这些子模式又可继续按照一定规律分解为更简单的子模式,直到最后分解为基元为止。

基元是组成一个模式的最简单的且不可再分割的子模式。

这种方法和一个句子的分解一样。

因此称为句法结构方法。

汉字字形识别的第三阶段,即后处理是指从辨别出汉字单字代码到汉字识别系统输出正确的文本之间的全过程。

后处理主要利用实际汉字文本的语言知识(通常是上下文关系)对识别结果的代码文件作进一步加工,自动纠正或发现单字是否错误。

对系统拒认、误认字进行人工修改和文本编辑也是使用汉字识别系统后处理的一项任务。

存储在计算机内的标准汉字模式表的集合称为汉字识别字典。

在应用统计决策方法识别汉字时,该字典为标准汉字平均特征集合;在应用句法结构方法识别汉字时,该字典为标准句法规则集合。

标准汉字模式是一个汉字样本的统计平均值。

汉字识别字典包括粗分类字典和细分类字典。

5.汉语语音识别技术

语音识别技术是自然语言处理的一个重要组成部分。

它包括语音的识别、处理和合成等。

语音识别技术也是语音信号处理的一个重要研究方向,是模式识别研究领域的一个分支,它涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等可帮助对方理解的行为动作)等。

语音识别的研究工作大约开始于20世纪50年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

20世纪60年代,计算机的应用推动了语音识别的发展。

该时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

20世纪70年代,语音识别领域进一步取得了突破。

在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

20世纪80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。

HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而易于更多研究者了解和认识。

ANN和HMM模型建立的语音识别系统,性能相当。

20世纪90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。

许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

图1.1语音识别的实现

语音识别技术根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统;根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1.1所示。

语音识别技术与字形识别技术类似,主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

此外,还涉及到语音识别单元的选取。

(1)语音识别单元的选取

选择识别单元是语音识别研究的第一步。

语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。

因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。

原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。

实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。

由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(2)特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?

特征参数提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。

对于非特定人语音识别来讲,希望特征参数尽可能多地反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。

从信息论角度讲,这是信息压缩的过程。

(3)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别中,语音单元被识别后产生合理语句

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2