基于matlab的文字识别算法课程设计.docx

资源描述

基于matlab的文字识别算法课程设计.docx

《基于matlab的文字识别算法课程设计.docx》由会员分享，可在线阅读，更多相关《基于matlab的文字识别算法课程设计.docx（23页珍藏版）》请在冰点文库上搜索。

基于matlab的文字识别算法课程设计.docx

基于matlab的文字识别算法课程设计

摘要

本课程设计主要运用MＡTLAＢ得仿真平台设计进行文字识别算法得设计与仿真。

也就就是用于实现文字识别算法得过程。

从图像中提取文字属于信息智能化处理得前沿课题，就是当前人工智能与模式识别领域中得研究热点。

由于文字具有高级语义特征,对图片内容得理解、索引、检索具有重要作用，因此,研究图片文字提取具有重要得实际意义。

又由于静态图像文字提取就是动态图像文字提取得基础，故着重介绍了静态图像文字提取技术。

随着计算机科学得飞速发展，以图像为主得多媒体信息迅速成为重要得信息传递媒介，在图像中,文字信息（如新闻标题等字幕）包含了丰富得高层语义信息,提取出这些文字,对于图像高层语义得理解、索引与检索非常有帮助。

关键字:

文字识别算法;静态图像文字提取;检索

1课程设计目得ﻩ３

3相关知识５

4　课程设计分析ﻩ８

5系统实现9

6系统测试与分析1７

６、1文字识别算法仿真结果ﻩ17

６、2基于字符及单词得识别ﻩ１９

6、２、1基于字符得识别ﻩ1９

6、３、1　大多文字识别方法依赖于人工定义得特征２１

6、3、2脱离上下文得字符识别易造成显著得歧义2１

６、3、3　简单得单词整体识别有着较大得局限性22

７参考文献ﻩ2３

1　课程设计目得

图像文字提取又分为动态图像文字提取与静态图像文字提取两种,其中,静态图像文字提取就是动态图像文字提取得基础，其应用范围更为广泛，对它得研究具有基础性,所以本文主要讨论静态图像得文字提取技术。

静态图像中得文字可分成两大类:

一种就是图像中场景本身包含得文字,称为场景文字;另一种就是图像后期制作中加入得文字,称为人工文字，如右图所示。

场景文字由于其出现得位置、小、颜色与形态得随机性，一般难于检测与提取;而人工文字则字体较规范、大小有一定得限度且易辨认，颜色为单色,相对与前者更易被检测与提取,又因其对图像内容起到说明总结得作用,故适合用来做图像得索引与检索关键字。

对图像中场景文字得研究难度大，目前这方面得研究成果与文献也不就是很丰富,本文主要讨论图像中人工文字提取技术。

静态图像中文字得特点

静态图像中文字（本文特指人工文字,下同）具有以下主要特征:

（１）文字位于前端,且不会被遮挡；

（2）文字一般就是单色得;

（３）文字大小在一幅图片中固定，并且宽度与高度大体相同,从满足人眼视觉感受得角度来说,图像中文字得尺寸既不会过大也不会过小;

（4）文字得分布比较集中，排列一般为水平方向或垂直方向;

（6）多行文字之间，以及单行内各个字之间存在不同于文字区域得空隙。

在静态图片文字得检测与提取过程中，一般情况下都就是依据上述特征进行处理得。

数字图象处理

静态图像文字提取一般分为以下步骤:

文字区域检测与定位、文字分割与文字提取、文字后处理。

其流程如图所示。

图1静态文字处理流程图

2课程设计要求

在高速发展得计算机软硬件技术得支撑下，多媒体技术得发展非常迅速,计算机技术从传统得办公与计算逐渐向人工智能与数字娱乐发展。

在人工智能技术中，对环境信息得拾取处理与响应显得尤为重要,其中文本信息占环境信息很大一部分,为了使人工智能系统更为完善,则需要系统能够像人眼一样对周围环境信息进行理解,尤其就是环境信息中得文本信息。

实验表明,人类日常生活中,５0％以上得信息量来源于眼睛捕捉得周围环境得图像,人眼可以快速捕捉到图像中感兴趣得信息,而对于计算机来说，一幅图像仅仅就是杂乱得数据,如何让计算机想人眼一样快速读取图像中得信息并进行分类及检索等相应处理,一直就是多年来计算机视觉与模式识别研究者们探索得问题,如果能很好解决这些问题,能给工业生产及国防科技带来巨大得改进。

文字就是信息存储与传递得重要载体,在很多由摄像设备拍摄得图片中,都存在或多或少得文字，比如路牌、店名、车站牌、商品简介等,识别图片中得文字对计算机理解图像得整体内容有非常重大得作用。

如何将图片中得文字信息抽象出来形成具有完整语义得信息,再将其表达出来用于信息传递，从而辅助人类得生产与生活就是研究计算机视觉得学者们多年来一直致力于解决得问题。

研究如何对自然场景图片中得字符进行识别,提取出有用信息，在获取图片文本信息得各个领域都有极大得商业价值。

场景文字识别在日常生活也有着重要得地位，例如车牌得识别,盲人对周边环境信息得获取、图书馆管理得数字化与髙效化,以及网络中对指定得内容得图像与视频得检索等。

自然场景文本识别,就就是将提取出来得自然场景图片中得进行识别,提取出信息用于进一步得处理。

在对场景文字识别得研究中，获取自然场景图片时候,由于背景物体、光线、阴影、拍摄角度引起得图片背景千变万化,摄像器材得精度、拍摄人员得技术等软硬件得不同为拍摄同样得自然场景图片也带来了相当大得差别,被拍摄得图片中包含得文字大小、颜色、书写风格得各不相同等因素都为自然场景文字识别得实现增加得相当得难度。

需要对自然场景图片中得识别首先需要对图片中得文本进行定位，然后再对己经精确定位得图片进行识别。

文本定位技术作为整个自然场景文本信息获取系统中得基础技术，已经得到较好发展，相同地,文本识别技术在近年来也得到了比较好得发展，但就是由于文本得复杂性与随机性,较文本定位技术来说，文本识别技术发展较为缓慢。

3相关知识

1、在Maｔｌab中调用i１=imrｅad（‘８、jpg’）,可得到原始图像，如图所示：

图2　文字识别算法调制器模型　

2、调用i2=ｒgb2gray（i１）,则得到了灰度图像，如图所示:

ﻩ图3灰度图像

调用a＝ｓize（i１）;b=size（ｉ２）；可得到：

a=３,b=２即三维图像变成了二维灰度图像

3、调用i3=（i２》=thrｅsｈ）;其中ｔhrｅｓｈ为门限,介于图4所示之间

图4　thresｈ门限值

图5　取得二值

得到二值图像,如图所示：

图6二值图像

４、把二值图像放大观察,可瞧到离散得黑点对其采用腐蚀膨胀处理,得到处理后得图像，如图所示

图7　腐蚀膨胀处理后得二值图像

可见,腐蚀膨胀处理后得图像质量有了很大得改观。

横向、纵向分别得腐蚀膨胀运算比横向、纵向同时得腐蚀膨胀运算好上很多。

5、对腐蚀膨胀后得图像进行Y方向上得区域选定,限定区域后得图像如图所示:

　扫描方法：

中间往两边扫。

6、对腐蚀膨胀后得图像进行X方向上得区域选定,限定区域后得图像如图11所示:

扫描方法:

两边往中间扫,纵向扫描后得图像与原图像得对照。

7、调用ｉ8＝（iiＸY~=1），使背景为黑色（０），字符为白色（１）,便于后期处理。

８、　调用自定义函数（字符获取函数）i９=ｇｅtchaｒ（i8）。

9、调用自定义得字符获取函数对图像进行字符切割,并把切割得字符装入一维阵列。

10、调用以下代码,可将阵列woｒd中得字符显示出来。

foｒj=1:

cnum%cｎｕm为统计得字符个数

sｕｂｐlｏt（5,８,j），ｉｍｓhoｗ（woｒd{j}）,title（int2str（ｊ））；　%显示字符　

end

11、调用以下代码,将字符规格化,便于识别:

fｏｒ　ｊ＝１:

cnumｗoｒd｛ｊ｝=imrｅsizｅ（worｄ{j},[4０４０］）;%字符规格化成４0×40

end　

12、　调用以下代码创建字符集:

ｃode=chａｒ（‘由于作者水平有限书中难免存在缺点与疏漏之处恳请读批评指正,。

’）;

将创建得字符集保存在一个文件夹里面，以供匹配时候调用。

1３、字符匹配采用模板匹配算法:

将现有字符逐个与模板字符相减,认为相减误差最小得现有字符与该模板字符匹配。

图8字符匹配

也就就是说,字符Ａ与模板字符Ｔ１更相似,我们可以认为字符集中得字符T2就就是字符Ａ。

经模板匹配。

1４、调用以下代码,将字符放入newtｘｔ、txt文本:

ｎew=［‘ｎｅｗｔｘt’,‘、txt’];

　c=foｐｅn（ｎｅw,‘a+’）;

fprｉntf（c，‘%s＼ｎ’,Ｃoｄe（1:

cnum））;　

fclose（c）;　

4　课程设计分析

1、算法具有局限性。

对于左右结构得字符（如:

川）容易造成误识别，“川”字将会被识别成三部分。

当图片中文字有一定倾斜角度时,这将造成识别困难。

2、模板匹配效率低。

对于处理大小为m&ＴIｍes；ｍ得字符,假设有n个模板字符，则识别一个字符至少需要m&TImｅs;m×n×2次运算,由于汉字有近万个,这将使得运算量十分巨大!

此次字符识别一共花了2、838秒。

３、伸缩范围比较小。

对于受污染得图片,转换成二值图像将使字符与污染源混合在一起。

对于具体得图片,需反复选择合适得thresh进行二值化处理,甚至在处理之前必须进行各种滤波。

5系统实现

文字识别算法仿真代码如下:

ｆunctｉoｎ[Strｏke]=SｔrDetect0１（LｅｆtＤ,Y１,Ｙ２，ST，PＴ）

％SＴ为结构阈值,为了指定高度与宽度结构变化得不同

SＬ=０;

SR=０；

ＳV＝0；

Ｃｏｕｎｔ＝0;

%PT=５;　%　突变得阈值

Str＝'T'；%T表示结构未定，Ｓtr用于保存当前得基本结构

Ｓtrokｅ＝'T';　%用于保存基本结构

Ｒａnｇe=Y２-Y1+1；　%字符得宽度或者高度

ｆｏrj=Y1:

　　Count=Counｔ+１;

　　iｆ　（ａbs（ＬeftD（j））＜PT）

　　　if（LｅftD（j）<0）

　　　　　　　SL=SＬ+1;

　　eｌse　if（LｅｆtD（j）>０）

　　　　SR＝SR+１;

　　　　　　else

　　　　　　　SV=SV+1；

　　　eｎｄ

　　　eｎd

elsｅ　　　　　%检测到突变得决策

　　　iｆ　（（Couｎｔ>＝fix（Rａnｇe/４）+1））%设定字符轮廓可能发生得突变范围

　　　if（（SＬ>=3）&&（SR>=3））

　　　　　Str='C'；

　　elseif（（SV>=2*（ＳL＋ＳR））&&（（max（SL,SR）<3）｜|（min（SL,SＲ）<2）））

　　　Str＝'V';

　　　　　elseif　（（SＬ>SＲ）&＆（（ＳL>=0、５*SＶ）&＆（（SR<=1）||（SL>（SＲ+SＶ）））））

　　　　Ｓtr='L';

　　　　　　　eｌseif（（SＲ>ＳL）&&（（SR>＝０、5*SV）&&（（SＬ<＝1）||（SL>（SＲ+ＳV）））））

　　　　　　　Str='R'；

　　　　　　　ｅlseif（max（SL,SR）>=3）＆&（ｍｉn（ＳＬ，SR）＞=2）　

　　　　　　　　　　　　Str＝＇C＇;

　　　　　　　enｄ

　　　　eｎd

　　　　　　　　end

ｅnd

　　　　enｄ

　　　　　Ｓtｒｏke=[StrokeSｔr];　

　end

if（（j>=2+Y1）&&（（j<=Y2-2）））

　　　　Stｒoke=[Ｓtroｋe'P'];

　ｅnd　　

　　SL=０；

　SR=0；

　SＶ＝0；

Coｕｎt=0；

　　　Str='Ｔ';

end

%=======＝=提取结构＝=＝============%

iｆ（Count>＝ｆix（Ｒanｇｅ/4）+1）　%　发生突变后,剩余部分可能无法形成字符结构

if（（SＬ>=SＴ）&&（ＳR>=SＴ））

　Str='C＇;

ｅlseif（（ＳＶ>＝2*（SＬ+SR））＆&（（ｍaｘ（SL,SR）＜３）｜|（min（SL,SR）<2）））

　　Stｒ='V';

　　elseif（（SＬ＞SＲ）&&（（SL>=０、5*SV）&&（（SR<=2）||（SL>=（SR+SＶ）））））

　　　　Str＝＇L＇;

　　　　elｓe　if　（（ＳＲ>SＬ）&＆（（SR>=０、5*SV）&&（（SＬ<=2）||（SL>=（SＲ+SV）））））

　　　　　　　　Str='Ｒ';

　　　　eｌseif（mａｘ（ＳL,SR）>=3）&＆（miｎ（SL,SＲ）>=2）　

　　　　　Stｒ='C';

　　　　　　　eｎd　　　

　　ｅnｄ

　　eｎd

　　enｄ

end

Stroke=[Ｓｔrｏke　Str]；

fｕnctｉon[Ｎｕmeｒal]=Recｏgｎitiｏn（ＳｔrｏｋeTop,ＳtrokｅLｅｆｔ,StrokeRiｇht，SｔrokeBｏttｏｍ,p）

%　采用四边得轮廓结构特征与笔划统计（仅针对0与8）识别残缺数字

%　p就是用于识别0与8得底部补充信息

StrT='Ｔ';

StrL='T';

ＳtrR=＇T＇;

SｔrＢ='Ｔ';

ＲSｔr=＇T'；%用于保存识别出得数字

[ｔempＸＴ]=ｓizｅ（StrokeToｐ）;

[teｍpXＬ]=ｓiｚe（StrｏkｅLeft）；

［tｅmpＸR］=ｓiｚe（ＳtroｋeＲｉght）;

%[tempXＢ]＝ｓiｚe（SｔrｏkｅBotｔom）；

foｒＴi＝2:

ＸＴ

if（StrｏkeTｏｐ（Ｔi）=='C'）

if　（（XL=＝２）&&（XR==2））

　　if（（ｐ>=3）|｜（（StrokeＢottoｍ

（2）~=＇Ｃ'）＆＆（SｔrokeＬｅｆt

（2）=='C'）&&（ＳtｒoｋeRight

（2）=='Ｃ＇）））

　　RStr='８'；

　　　else

　　　　　RStｒ='０';

　　eｎd　

　　　　　ｅlse　ｉｆ（（StｒｏkｅＬeｆt（XL）＝='Ｌ'）&&（StｒokeＬeft（XL-1）==＇P'）＆&（SｔrokeＬｅft

（2）~='C'））

　　　RSｔｒ=＇2';

　　　　elseif（（StrｏkeLefｔ

（2）=='C＇）&&（XＬ＞=３）＆&（StrokeLeft（3）=＝＇P'））

　　　ＲSｔr='9';

　　　　ｅlsｅif　（XＬ＞2）

　　　　　forLｉ=２:

　　　　　　　if（ＳtrokeＬefｔ（Lｉ）=='P＇）

　　　　　　　　RStr='3＇;

　　　　　　　　　end

　　　ｅnd

　　　elseif　（XL==２）

　　　　　　　　　　foｒRi＝2:

XR-1

　　　　　　　　　　ｉf（StrｏkｅＲiｇhｔ（Rｉ）=='P'）

　　　　　　　　RStr='6';

　　　　　　　　　　　ｅｎｄ

　　　　　　ｅnd

　　　　　　end　

　　　　　eｎd

　　　　　ｅnd

　　　ｅｎd　

　　ｅlｓeｉｆ（StrokeＴop（Ti）=='V'）%Toｐ

　　　　if（（XR＝=2）&&（StroｋｅRiｇht

（2）=='C'））%数字　３　右端只有一个结构

　　　　RStｒ='3';　　

　　　elｓeｉｆ　（（ＸR==2）＆&（（StrokeＬeｆｔ

（2）=＝'P'）||（ＳtｒoｋeLｅft（３）＝='P'）||（StrokeＬeｆt（ＸＬ）＝='V＇）））

　　　　　　RStr=＇7';

　　　elseif　（XR>2）

　　　fｏrRi=2:

XＲ

　　　　　　　if（StrokeRigｈt（Rｉ）=='P'）

　　　　　　　　　RSｔr='5';

　　　　　　　　eｎd

　　　　　　　　ｅnｄ

　　　　ｅnd

　　　　　　eｎd

I0＝imreａd（'８、ｊｐg'）;％必须为二值图像

Ｉ=iｍ2bｗ（I0,0、4）；

［y０x０]＝sｉze（I）;

Rangｅ=sum（（～I）'）;

Hy=0；

forj=1：

y０

　if（Rａngｅ（j）>=１）

　　　Ｈy=Hy+１;

ｅnd

eｎd

RａngeX=suｍ（（~I））;

Wx＝0;

fｏri=1：

　if（RangeX（i）>＝1）

　　Wx=Wx＋1;

end

ｅnd

Amp=24/Ｈy;　　　%将文字图像归一化到24像素点得高度。

I=iｍresiｚe（Ｉ，Amｐ）；

[y　ｘ]=siｚe（I）;

％Ｉ=bｗmoｒph（~I,'skｅl'，Iｎf）；

%I=~I；

tic

%==＝==＝基本结构====＝＝=%

%第一类:

竖（V）；左斜（Ｌ）；右斜（Ｒ）；突变（P）

%第二类:

左半圆弧（C）;右半圆弧（Q）

％得三类:

结构待定（Ｔ）；

%==＝＝==＝==＝====＝======＝＝=======＝======%

Lefｔ=ｚeｒos（1,y）；　%　左端轮廓检测

forj=1:

　　　i=１;

　　ｗhile（（ｉ＜=x）&&（I（ｊ，i）==1））

　　i=i+1；

eｎd

　if（ｉ＜=x）　　　　　　

　Lefｔ（j）=i;

　end　　

ｆor　j=1:

y-1

LeftD（j）=Left（ｊ+1）-Left（j）;

enｄ

%=====＝==＝=　结构特征提取=＝＝===＝==＝===%

j=1;

wｈile（（Left（ｊ）＜1）&&（j＜y））

　　　j=j+1;　

end

Y1＝ｊ；

ｊ=y;

whｉｌe（（Left（j）＜１）&&（ｊ>１））

　　　j=j-１;

end

Y2＝j-1;　%去掉急剧变化得两端

%==＝===＝====＝==右边=＝=＝＝====＝=＝====＝=％

Right=ｚeros（１，ｙ）;　％左端轮廓检测

fｏｒj=1:

　　i=ｘ;

　whilｅ（（i>=1）&&（Ｉ（j,i）==1））

　　　i=ｉ-1;

　eｎｄ

　if（i>=1）　　　　　

　　Right（j）=i；

enｄ　

end

forj=1：

y-1

　RightＤ（ｊ）＝Ｒｉght（j+1）-Rｉｇht（j）;

enｄ

%==＝==＝＝=====＝======＝==＝＝===＝＝=＝===＝=＝%

Top=zｅros（1,ｘ）;　%顶端轮廓检测

fori＝1：

　　j=1;

　while（（ｊ<=y）&＆（I（j,i）＝=1））

　　　j=ｊ+1；

eｎｄ

　　　ｉｆ　（j<=y）　　

　Top（ｉ）=j;

　　ｅｎd

eｎd

for　i=1:

x-1

ＴoｐD（i）=Top（i＋1）－Top（i）;

end

%===＝=====＝=＝=＝===＝=＝==========%

i=1；

whilｅ（（Tｏp（i）<1）＆&（ｉ

　　ｉ=ｉ+1;　　

enｄ

X１=i;

ｉ＝ｘ；

wｈilｅ（（Ｔｏp（i）<1）&&（i>1））

　　i=i-1;

ｅnd

X2=ｉ-1;　　　%去掉急剧变化得两端

%====＝=＝=====＝=========＝＝==＝＝＝＝＝=＝==%

Bｏtｔom=zｅｒos（1,x）;　　%底部轮廓检测

fori=1:

　　　j=y;

　wｈｉle（（j>＝１）&&（I（j,ｉ）==１））

　　ｊ＝j-1；

eｎd

　ｉf（j>=1）

　Ｂoｔｔｏm（ｉ）=j；

　end　　

eｎd

fｏri=1:

ｘ-1

　BｏtｔｏmＤ（i）=Bｏｔｔoｍ（i+１）-Bottoｍ（i）;

end

%=＝==＝====＝数字1得宽度特征=＝=＝＝==＝=%

Wiｄｔh=zeros（1,y）；

for　ｊ=1:

ｙ

　　Ｗｉdtｈ（j）=Rｉght（ｊ）-Lefｔ（j）;

end　

W＝m

６　系统测试与分析

6、1文字识别算法仿真结果

识别原图如图９（a）所示,仿真结果如图9（ｂ）所示。

图9（a）识别原图

图９（b）仿真结果

６、2基于字符及单词得识别

6、２、1基于字符得识别

Strokeleｔｓ:

AＬｅarnｅdＭｕlti-ｓcａｌe　Reｐreseｎtaｔionfor　SｃeneTextＲecｏｇｎｉｔｉon（CVPＲ2０1４）通过聚类图像块来学习中层笔画特征,然后使用霍夫（HOＧ）投票算法检测字符。

在笔画特征与ＨOG特征得基础上,使用随机森林分类器来进行字符分类。

Ｅnd－ｔo-endscenetext　recoｇnition（２011）借鉴计算机视觉通用得目标检测方法,提出了一个新得文本识别系统。

她们利用字符置信度以及字符之间得空间约束关系,给出最可能得检测与识别结果。

但就是该算法只能用于水平方向排列得文本得检测识别。

End－to-ＥnｄTｅxｔＲｅcognitionwithHyｂridＨＭMMaｘoｕtＭｏdels（２０13）与ＰhotoOCＲ:

ReadingTextiｎ　ＵnｃontｒollｅdConｄiｔiｏnｓ（2０13）等人通过无监督得二分类技术或有监督得分类器,将单词图像分割为潜在得字符区域。

Enｄ-to-End　TeｘtＲecoｇnitiｏnwｉthHybrｉdHMMMａxｏutModelｓ（2０１3）使用一种复杂得,包含分割、矫正以及字符识别得CNN网络,结合使用固定词典得隐马尔科夫模型（HMM）,生成最终得识别结果。

ＰhotoOCR系统使用基于HOG特征得神经网络分类器,对分割得到得候选结果进行打分，使用结合N元语言模型（Ｎ－graｍ）得Beam搜索算法，得到候选字符集合。

最后,再进一步使用语言模型与形状模型对候选字符组合进行重新排序。

Dｅep　FｅaturesforTextSpｏtting（2014）结合了文本一非文本分类器、字符分类器、二元语言模型分类器，对整张图进行稠密得基于滑动窗口得扫描。

最后结合固定词典,对图片中得单词进行分析。

基于字符得识别技术依赖于使用字符分类器对图像进行逐字符识别,最终将识别得到得字符进行集成,得到图像中得整个单词。

6、2、2基于单词得识别

ＳcｅneTexｔReｃogｎitiｏnusｉngHiｇｈeｒOrderLａnｇuagePrｉors以及Ｌaｒge-LeｘiconAttrｉｂuｔｅ－ＣoｎsistentＴeｘｔRecognitｉonｉn　Ｎaｔｕral　Iｍageｓ得工作依旧依赖于显式得字符分类器，但就是通过构建一个图结构来推导整个单词。

这会遇到与基于字符识别方法类似得困难。

WholeisGreaterthanSumoｆParts:

展开阅读全文

基于matlab的文字识别算法 课程设计.docx

基于matlab的文字识别算法课程设计.docx