基于MATLAB的图片中文字的提取及识别.docx

资源描述

基于MATLAB的图片中文字的提取及识别.docx

《基于MATLAB的图片中文字的提取及识别.docx》由会员分享，可在线阅读，更多相关《基于MATLAB的图片中文字的提取及识别.docx（21页珍藏版）》请在冰点文库上搜索。

基于MATLAB的图片中文字的提取及识别.docx

基于MATLAB的图片中文字的提取及识别

基于MAＴLAＢ的图片中文字的提取及识别

邹浩,余龙，邹勇博，刘宇童,和振乔，李少梅

（西安电子科技大学电子工程学院，西安,710126）

摘要

　随着现代社会的发展，信息的形式和数量正在迅猛增长。

其中很大一部分是图像,图像可以把事物生动地呈现在我们面前，让我们更直观地接受信息。

同时，计算机已经作为一种人们普遍使用的工具为人们的生产生活服务。

从图像中提取文字属于信息智能化处理的前沿课题，是当前人工智能与模式识别领域中的研究热点。

由于文字具有高级语义特征,对图片内容的理解、索引、检索具有重要作用，因此，研究图片文字提取具有重要的实际意义。

又由于静态图像文字提取是动态图像文字提取的基础，故着重介绍了静态图像文字提取技术。

关键词:

MATLAＢ　图像处理　文字提取文字识别

Tｅxt　Ｅｘtractｉｏn　aｎdRecognｉtioninIｍａｇes　Ｂａｓed　onMAＴLＡB

ZＯUＨaｏ,ＹUloｎｇ，ZOUYｏngbo,LIUYutｏnｇ，　ＨEＺheｎqiao,LIShａoｍｅi

（XｉｄｉａｎUnivｅｒｓiｔｙ　EｌectroｎicEｎｇｉnｅｅring　Colleｇe,Xi'aｎ，710126）

Ａbstraｃt

Withｔhedevelｏpmentof　sｏciety，the　formandquａntityofｉｍformaｔｉonareincｒeａsｉｎｇｑuickly.Aｌargeparｔofthemaｒeimａges，wｈichｃａnmake　ｔhingsｖividｌypresｅｎteｄiｎfronｔoｆｕs，letus　ｍoｒeintｕitｉvｅ　toaccｅptｉnｆoｒｍatｉｏn.At　thesaｍｅｔｉｍe,thecoｍpｕter　ｈasbｅeｎａsawiｄeｌｙｕseｄtoolｆorpeople'sｐｒｏdｕction　andｌivｉngservices.Ｅxｔractｉngtexｔ　fromｉmagｅ　bｅlongsto　theｆｒontｉerofｉnｔellｉgｅntｉnfｏrｍatiｏnprocｅｓｓiｎｇ,　anｄ　ｉt　isthe　ｃｕrrｅnthｏtreseaｒcｈtopicｉnthefiｅlｄofarｔｉｆicialintｅlｌigｅnｃe　anｄpaｔtern　rｅcognitioｎ.Ａｓtｈetext　witｈｈiｇh－levｅlsemaｎtｉcｆeatｕrｅaｎdplａysaｎimｐortant　rｏleonundｅｒｓtａｎdｉng,inｄexinｇand　reｔriｅｖａｌiｍａge　cｏntent．Ｔherｅfore,ｔｈｅ　stｕdyoｎｅxtｒactingtextsｆromiｍaｇｅs　hａveimｐortanｔactuａｌｍeaｎings.　And　beｃauseextraｃtiｎgteｘｔｓfromstillimａgｅsis　ｔhebasiｓfor　extractｉｎgｔexｔsｆrom　dynamicｉmaｇeｓ,　tｈe　articｌeemｐhaticaｌly　inｔｒoducｅsthｅtechnｏlｏgyｏf　ｅxtｒactingtｅxts　fｒｏmstillｉｍａｇes.

KeyWｏｒds:

　MAＴLＡB　imageprｏcessiｎgｗｏrd　ｅxtｒaction　　ｗordrecｏgnition

一.引言

随着计算机科学的飞速发展，以图像为主的多媒体信息迅速成为重要的信息传递媒介，在图像中,文字信息（如新闻标题等字幕）包含了丰富的高层语义信息，提取出这些文字，对于图像高层语义的理解、索引和检索非常有帮助。

图像文字提取又分为动态图像文字提取和静态图像文字提取两种，其中,静态图像文字提取是动态图像文字提取的基础,其应用范围更为广泛，对它的研究具有基础性，所以本文主要讨论静态图像的文字提取技术。

静态图像中的文字可分成两大类:

一种是图像中场景本身包含的文字,称为场景文字;另一种是图像后期制作中加入的文字,称为人工文字,如右图所示。

场景文字由于其出现的位置、小、颜色和形态的随机性，　一般难于检测和提取；而人工文字则字体较规范、大小有一定的限度且易辨认，颜色为单色,相对与前者更易被检测和提取，又因其对图像内容起到说明总结的作用,故适合用来做图像的索引和检索关键字。

对图像中场景文字的研究难度大,目前这方面的研究成果与文献也不是很丰富,本文主要讨论图像中人工文字提取技术。

二．静态图像中文字的特点

静态图像中文字（本文特指人工文字，下同）具有以下主要特征:

（1）文字位于前端,且不会被遮挡;

（２）文字一般是单色的；

（3）文字大小在一幅图片中固定,并且宽度和高度大体相同,从满足人眼视觉感受的角度来说,图像中文字的尺寸既不会过大也不会过小；

（4）文字的分布比较集中;

（5）文字的排列一般为水平方向或垂直方向；

（6）多行文字之间，以及单行内各个字之间存在不同于文字区域的空隙。

在静态图片文字的检测与提取过程中,一般情况下都是依据上述特征进行处理的。

三.文字提取、识别的一般流程

　　　静态图像文字提取一般分为以下步骤：

文字区域检测与定位、文字分割与文字提取、文字后处理。

其流程如图1所示。

（图1）

四．文字提取、识别的详细步骤

１.　在Matlab中调用ｉ1=imｒｅaｄ（'字符.jpg'），可得到原始图像，如图2所示：

（图2）

2.调用i2=rｇb2gray（i1），则得到了灰度图像,如图3所示:

（图３）

　调用a=ｓiｚe（ｉ1）;b=sizｅ（i2）；可得到:

a=3，ｂ=2即三维图像变成了二维灰度图像

3．调用ｉ3=（i２＞=tｈrｅsｈ）;其中thresｈ为门限,在[０,255]之间

这里，i2_max=dｏublｅ（max（max（i2）））；　%获取亮度最大值　

　　　　i2_min=ｄｏｕｂle（min（ｍin（i2）））；%获取亮度最小值

　thresh=rｏuｎd（i2_mａx-（（i2_mａｘ-ｉ2_min）／3））;

　得到二值图像，如图4所示:

（图４）

４．　把二值图像放大观察,可看到离散的黑点

　对其采用腐蚀膨胀处理,得到处理后的图像，如图5所示

（图5）

　　　可见,腐蚀膨胀处理后的图像质量有了很大的改观。

横向、纵向分别的腐蚀膨胀运算比横向、纵向同时的腐蚀膨胀运算好上很多,图6可看出差别：

（图6）

5.　对腐蚀膨胀后的图像进行Y方向上的区域选定，限定区域后的图像如图7所示:

　　扫描方法:

中间往两边扫

（图7）

　纵向扫描后的图像与原图像的对照,如图8所示：

（图8）

6.对腐蚀膨胀后的图像进行Ｘ方向上的区域选定，限定区域后的图像如图9所示：

扫描方法:

两边往中间扫

（图9）

纵向扫描后的图像与原图像的对照,如图10所示:

（图1０）

7.调用ｉ8=（ｉiXＹ~＝1）,使背景为黑色（0）,字符为白色

（1），便于后期处理。

　背景交换后的图像如图1１所示：

（图11）

8.调用自定义函数（字符获取函数）i９=getchar（i8），得到图像如图12所示：

（图9）

9.调用自定义的字符获取函数对图像进行字符切割,并把切割的字符装入一维阵列，切割　　过程如图12所示:

（图12）

１0.调用以下代码，可将阵列woｒd中的字符显示出来，如图13所示:

fｏrj=1:

cnum%cnum为统计的字符个数

　　　subplot（5,8,j）,ｉｍshoｗ（worｄ{j}）,ｔiｔｌe（ｉｎt2ｓtr（ｊ））;　%显示字符

　ｅnｄ

（图１3）

　可以看到,字符宽度不一致

1１.调用以下代码,将字符规格化，便于识别：

　　ｆorj=１:

cnuｍ

　ｗorｄ{j}＝ｉmresizｅ（ｗｏrd{ｊ},[4０40]）;　%字符规格化成4０×40的

　eｎd

得到规格化之后的字符如图14所示:

（图１4）

12.调用以下代码创建字符集：

codｅ=char（'由于作者水平有限书中难免存在缺点和疏漏之处恳请读批评指正，。

'）;

将创建的字符集保存在一个文件夹里面，以供匹配时候调用，如图15所示：

（图15）

13.字符匹配采用模板匹配算法:

将现有字符逐个与模板字符相减，认为相减误差最小的现　有字符与该模板字符匹配。

假设:

字符

，模板字符

　　也就是说，字符Ａ与模板字符

更相似，我们可以认为字符集中的字符

就是字符A。

　经模板匹配,可得字符信息如下：

　　　由于读者书评有限书中难免存在缺点和纰漏之处，恳请读者批评指正。

　效果如图16所示:

（图１6）

14．调用以下代码,将字符放入nｅwtxｔ.ｔxｔ文本:

　neｗ=［'newtxｔ','.ｔxｔ'];

　ｃ=fopen（nｅｗ,'a＋'）;

fprｉntｆ（c,'%s\ｎ',Ｃode（1:

cnum））;

　fcｌｏse（c）;

ｎewtｘt．ｔxt文本内容如图１７所示:

（图1７）

五．反思与体会

1.算法具有局限性。

对于左右结构的字符（如：

川）容易造成误识别,“川”字将会被识别成三部分。

当图片中文字有一定倾斜角度时,这将造成识别困难。

2.模板匹配效率低。

对于处理大小为m×m的字符,假设有n个模板字符,则识别一个字符至　少需要m×m×n×２次运算，由于汉字有近万个，这将使得运算量十分巨大！

此次字符识　别一共花了2．83８秒。

3．伸缩范围比较小。

对于受污染的图片,转换成二值图像将使字符与污染源混合在一起。

对于具体的图片，需反复选择合适的thｒesh进行二值化处理,甚至在处理之前必须进行　各种滤波。

4.通过这次数字图象处理的学习和报告的撰写,我们小组发挥了团结友爱的协作精神，大　量的资料查阅丰富了我们的视野，同时使我们对这么课更加感兴趣。

参考文献

[１］樊昀,王润生.从图像中提取文字[J].国防科技大学学报,20０2,24

（1）　:

59-6２.

[2]王健,王晨.基于静态图片的文本提取技术的研究[J］　．延边大学学报（自然科学版）,2０07，33

（2）：

１24－1２8.

[3]夏莹,马少平，孙茂松等．计算机语言学方法在中文文字识别后处理中的应用[J].中文信息,199６，　（２）　:

５0-51.

[4］　郑阿奇,曹戈,赵阳.ＭＡＴＬＡＢ实用教程[M].北京:

电子工业出版社

[５］　程卫国,冯峰，姚东，徐听．ＭATLＡB５．３应用指南[Ｍ].北京:

人民邮电出版社

［6]陈杨.MATLAB6.X图像编程与图像处理［M].西安：

西安电子科技大学出版社

[７]　阮秋琦．数字图像处理[M].电子工业出版社，2００1年.

［８]　徐建华.图像处理与分析[M］.科学出版社，19９9年.

附录

主程序源代码:

%%%%％％%%％%%％%%%％%%%％％%%%%%％%%%%%%%％%％%%％%%%%%%%%%%

%%％%%%％%%%％%%%%数字图象处理大作业％%％%％%%％%%%％%%％%

%％％%％%%％%%%%％%％%％%%%%%％%%%%％%％%％%%%％％％%%%%%％%%％%%%

%————————图片中文字的提取及识别————————％

%%％%%%%%%%%%％%%％%%％%％%%%%%%%%％%%%%%%%%%%%%%%％%%％％%

ｔｉc

Ｉ=imreａd（'字符．jpｇ＇）；　　%打开图片

%figure

（1）;iｍshow（I）；title（'原始图像','cｏlｏｒ','b'）;

I=rgｂ2ｇｒay（Ｉ）;　%RＧB图片转化成灰度图像

％figuｒe

（2）;imshow（I）;tiｔle（＇灰度图像＇,'colｏr＇,'b＇）;

i_ｍax＝double（max（max（Ｉ）））;%获取亮度最大值

i_min＝dｏuｂｌe（min（miｎ（I）））;％获取亮度最小值

tｈresh=rｏuｎd（i＿ｍax－（（ｉ_mａx－i_min）/3））;%计算灰度图像转化成二值图像的门限thresh

I=（Ｉ>=thresh）；%I为二值图像

%figure（3）;iｍshow（I）;ｔitle（'二值图像','ｃｏloｒ','b'）;

sｅY=[1；1;1];　%构造结构元素

I=imｄilate（I,ｓeＹ）;　％腐蚀图像

I=imerｏde（I,seY）;　％膨胀图像

seX=[1１１]；

I=imdilate（I,seＸ）;

Ｉ=imerode（Ｉ,seＸ）;

％figuｒe（4）;ｉmshow（I）；ｔitle（'腐蚀膨胀后的图像','color','b'）；

iｉ=dｏublｅ（Ｉ）;

[ｍ,n]=siｚｅ（ii）;　%获取图像大小信息

%确定文字区域

%纵向扫描

couｎｔY=zeros（m,１）;

fori=1：

　　fｏrj=1:

　　　ｉf　ii（i,ｊ）==0

　　　couｎｔＹ（i,1）=couｎtY（i,１）+1;

　end

　ｅｎd

enｄ

[maxY　ｉndexY]=max（ｃｏuntＹ）;

teｍpY１=indexY;

ｗhｉle（coｕntY（tｅmｐY１，1）>3）&＆　（ｔemｐY1>1）

　　tｅmｐY1=ｔempY1-１;

end

ｔｅmpY2=indexＹ;

wｈiｌe（countY（tempY2，1）>３）　&&（tempＹ2

tｅｍpY２＝tempY2+1;

eｎｄ

tｅmpY1=tｅmpY１-１；

tｅmpY２＝ｔemｐＹ2+1；

iｉY=I（ｔempY１:

teｍpY2，:

）;%确定了Y方向上的文字区域

％fiｇure（5）;imshow（ｉｉY）;ｔitlｅ（'Y方向区域大致确定后的图像','color','b'）；

%横向扫描

coｕnｔX=zｅrｏｓ（1,ｎ）；

foｒｊ=1:

fori=ｔemｐY1：

tｅmｐY2

iｆii（i,j）==0

　cｏｕｎｔX（1,j）＝countX（1,j）+1;

　　　end

ｅnd

ｔemｐX1=1;

while（countX（１,ｔempＸ1）<3）＆&（tempＸ1＜n）

tｅｍpX1=tｅmpX1+1;

end

tempX2＝n;

wｈｉle　（counｔX（1,tempＸ2）<3）＆&　（teｍpＸ2>1）

　tｅmpＸ2＝ｔｅｍpＸ2－1;

end

teｍpX１=tempX1-1;

ｔemｐX２=teｍpX2+1；

iiXY＝ｉiY（:

teｍpX1:

ｔemｐX2）;　％确定了整体的文字区域

%fｉgｕrｅ（6）；imshoｗ（iiXY）;ｔitle（'X、Ｙ方向区域都大致确定后的图像'，＇color'，＇ｂ＇）;

iｉ=（iiＸY～=1）;%黑色背景，白色字体

%figｕrｅ（７）;ｉmshow（ii）；title（＇背景和文字交换颜色的图像'，'coloｒ','b'）;

ii=ｂwａreaｏpen（ii,２00）;%删除面积小于20０的杂质图像

%fｉｇｕre（8）；imｓhow（ｉi）;title（＇删除杂质干扰的图像','cｏlｏr＇,'b'）;

myI=charslice（ｉi）；%限定文字区域

％figuｒe（9）；imshow（iｉ）；titｌｅ（'限定文字区域的图像'，＇ｃolor',＇ｂ＇）;

y1＝1０;y２=0．25；ｆlaｇ＝０；

ｍaxnuｍ=40;k=１;　%maxnuｍ为字符个数限定值，k用于统计实际字符个数

worｄ=cell（１，maxnｕｍ）；%建立单元阵列,用于储存字符

fiｇure（10）

ｗhilｅｓize（ｍyＩ，２）>１0　％当myＩ的长度小等于10，可确定没有字符了

[wｏrｄ{ｋ}，mｙＩ］=ｇetword（myＩ）;　%获取字符

ｋ=k+1;

　　%%%%%%％%%%％％%%％%%％％％%%%%%%％%%%%％%%%%%%%％%%%%%%％%％%％％%%%%%%%%%%%%%%％%%

ｉfｋ==2

　　　　sｕbplot（5,1,1）；imshow（ｍyI）;title（＇第一次切割后的图像','colｏr＇，＇b'）;

　　ｅnｄ

　ｉfk＝＝3

　　　suｂpｌoｔ（５,1，２）;imshoｗ（myＩ）；titlｅ（'第二次切割后的图像',＇coloｒ','b'）;

　ｅｎｄ

ｉfk=＝５

　sｕbｐlｏｔ（５,1,3）;iｍsｈow（myI）;tiｔlｅ（'第四次切割后的图像','color','ｂ'）;

　eｎｄ

iｆ　k==16

　　sｕbpｌot（5，１，４）;ｉmｓhoｗ（myI）；tｉｔlｅ（'第十五次切割后的图像＇,＇ｃｏlor','ｂ'）；

end

eｎd

sｕｂｐｌｏｔ（5,１,５）;imshｏw（ｍyI）;title（'最后一次切割后的图像','color','b＇）;

%%%%％%%%%％%%％%%%%％%%%%%%％%％%%％％%％％％％％%%%%%%%%%%%%%%%%％％%%%%%%%%%%%%%％%%%%

ｃnｕｍ=k－1;%实际字符总个数

%％%%%%%％%%%%%%%%％%％%%％%％%％%%％%％％％%%%％%%%%%％%%%％％%%%%%％%％%%%％%％％%％%%%%%％%％

figure（１1）;

ｆorj=1:

ｃｎum

suｂploｔ（５,8,j）,imsｈｏw（wｏrd{j}）,tｉｔlｅ（int2str（ｊ））；　%显示字符

eｎd

%%%％%%%%%%%％％%%%%%%％%%%％％%%%％%%%%%％%%%%%%％%%%％%%%%%%%%%%％％％%％%％%％%%%％%%％％

foｒ　ｊ=1:

cｎum

　word{j｝＝iｍｒｅsizｅ（woｒｄ{j},[4０4０］）;％字符规格化成4０×４0的

eｎｄ

ｆiｇure（12）;

forj=１：

cnｕm

subpｌoｔ（5,8,j）,imshow（ｗord{j}）,title（int2str（ｊ））；%显示字符

end

forｊ=1：

cnum

imwｒite（ｗord｛ｊ}，[iｎt２str（j）,'.ｊpg'］）;％保存字符

ｅnd

defx＝４0;defｙ=40；

cｏｄe=ｃhａr（'由于作者水平有限书中难免存在缺点和疏漏之处恳请读批评指正，。

'）;％创建字符集

codenum=size（codｅ,2）;　%获取字符集中字符个数

fori=1:

cnuｍ

　　ｃｈ＝iｎｔ2str（i）；％数字转化为字符

　ｔempbw=imread（［ch'．jｐｇ']）;　　％打开预匹配字符

ｆoｒk＝１:

codenum

　　　fｎaｍｅ=sｔｒcaｔ（'Ｃ:

\Users\Admiｎistｒatoｒ＼Ｄesktop\数字图像处理大作业＼字符匹配库＼'，coｄe（ｋ）,'．jpg'）；　%字符匹配库中的字符

　　　sample=imreaｄ（fname）;

ｓubsam＝ａｂs（teｍpbw－saｍｐle）;％作比较

　count＝sum（suｍ（subsam））;　%匹配误差统计

　　　ｅｒr（ｋ）＝ｃｏunｔ;

　enｄ

ｅrｒｏ=err（1：

coｄｅnuｍ）；

　　mｉnｅrrｏr=ｍin（eｒｒo）;　%找出误差最小的模板字符

　findc＝find（erro==mｉnerｒｏr）;　%获取模板字符序号

　Code（i）=code（ｆinｄc）;　%将字符装入Codｅ

end

ｆｉｇｕre（13）；

imsｈoｗ（ｉi）;

tt=ｔitlｅ（['文字信息:

　',　Codｅ（1:

ｃｎum）]，＇Ｃolｏr','b＇）;　%显示字符信息

set（tt,'fｏntsiｚe',2４）;　％设置字体

%％%%％%%%%%%%%%%％%%%%%%%%%%％%%%%%%%%%%%%%%%％%%％％

%将图片文字写入ｎｅwｔxt文本

nｅw=['nｅwtxt','.tｘt＇];

c=fｏpｅｎ（nｅw,'a+'）;　

fprinｔf（c,＇%s＼n'，Ｃodｅ（1：

cnｕm））;

fclｏｓｅ（c）；

t=toc

chａｒslice（字符分割）函数源代码：

%字符分割

fｕｎｃｔiｏny=ｃｈａrslice（ii）

［m,n]=ｓｉzｅ（ii）;

top=1;botｔom=ｍ;lｅft=1;rｉｇｈｔ=n;

ｗhｉle　ｓum（ii（ｔoｐ,:

））==0＆&toｐ<ｍ

ｔoｐ=top+1；

eｎd

ｗhilｅsum（ｉｉ（ｂｏtｔoｍ,:

））＝＝0&＆bottom>=1

　　bｏttom=bｏttom－1;

end

whilesum（ｉｉ（:

left））==０&&ｌｅft<ｎ

leｆt=lefｔ+1；

enｄ

whileｓum（iｉ（：

rｉght））==0＆＆　rigｈt>＝1

　right=riｇhｔ-1；

enｄ

ydiff=ｂｏttoｍ－tｏp；

xｄiff＝ｒight－leｆt;

y=iｍcｒop（ｉｉ,[ｌeft　ｔｏp　xdｉｆfydifｆ]）;

gｅtwｏrd（字符获取）函数源代码:

%字符获取

fuｎcｔion[worｄ,reｓult]=getwoｒd（ii）

wｏrd=[];flａg＝0;ｙ1=8;ｙ2=０．5;

whilｅflａg==0

[m,n］=size（ii）;

　wide=０；

　whilｅｓｕｍ（ii（:

wｉde+1））~=0　＆&wide<=n-２

　　wｉde=widｅ+1；

　　ｅnd

　tｅmp=charｓlicｅ（imcrｏp（ii,［1１ｗiｄeｍ]））;

　[ｍ1,ｎ1]=ｓizｅ（temp）;

ifwｉdｅ＜y1　＆&ｎ1/m1>y２

　　　ii（:

1：

widｅ）=0；

　　　　iｆsum（suｍ（ｉi））～=0

　ii=chａrｓliｃe（ii）;%切割出最小范围

　eｌsewoｒd＝[];flag=１;

ｅnd

　ｅｌｓe

　　　　worｄ=chａｒｓlicｅ（imｃroｐ（ii,[1　1widｅm]））;

　　　ii（:

１:

wide）=0;

　　　iｆ　sum（sum（ii））~=0；

　　　ii＝charｓliｃｅ（ｉi）；

　　　　flａg=1；

　　eｌseｉi=[];

　　eｎｄ

　end

enｄ

resulｔ=ｉi;

展开阅读全文