基于SVM的手写数字识别的应用与实现.docx

资源描述

基于SVM的手写数字识别的应用与实现.docx

《基于SVM的手写数字识别的应用与实现.docx》由会员分享，可在线阅读，更多相关《基于SVM的手写数字识别的应用与实现.docx（41页珍藏版）》请在冰点文库上搜索。

基于SVM的手写数字识别的应用与实现.docx

基于SVM的手写数字识别的应用与实现

摘要

手写数字识别是字符识别的一个分支，虽然只是识别简单的10个数字，但却有着非常大的实用价值。

在文献检索、邮政系统、办公自动化、表格录入、银行票据处理等方面都有着广泛的应用。

手写数字虽然只有10个种类，但很多情况下，对识别的精度要求非常高，而且每个人都有不同的字迹，想要做到准确的识别，就很有难度了。

支持向量机（SupportVectorMachine，SVM）最初于20世纪90年代由Vapnik提出，是基于统计学习理论的一项新技术，是借助于最优化方法解决机器学习问题的新工具，具有许多引人注目的优点和有前途的实验性能，在人脸识别，手写数字识别，网页分类等方面有非常理想的效果。

所以，本文将支持向量机应用于手写数字识别，希望能够得到不错的精度。

手写数字识别一共有10类样本，是一个多分类问题，本文将多个支持向量机的二类分类器组合起来构成一个多类分类器，以便实现手写数字识别。

我们把样本分为训练样本集和测试样本集，训练样本集与测试样本集都要经过预处理得到点阵数据，然后再经过特征提取，用来训练识别器以及进行识别。

【关键词】手写数字识别，支持向量机，分类器，特征提取，预处理

ApplicationandImplementationofHandwriting

NumeralsRecognitionBasedonSVM

Abstract

Handwritingnumeralsrecognitionisabranchofthecharacterrecognition,althoughjustrecognitionsimple10figures,butithasaverybigpracticalvalue.Intheliteratureretrieval,thepostalsystem,officeautomation,formentry,bankbillsareprocessing,etcinawiderangeofapplications.Handwritingnumeralsalthoughonly10species,butinmanycases,theaccuracyrequirementofrecognitionisveryhigh,andeverybodyhasdifferenthandwriting,togetaccurateidentification,isverydifficult.

TheSupportVectorMachine（SVM）intheearly1990s,isputproposedbyVapnik,indataminingisanewtechnology,isafurtheroptimizationmethodofmachinelearningproblemsolvingnewtools,hasmanycompellingadvantagesandpromisingexperimentalperformance,infacerecognition,Handwritingnumeralsidentification,classificationofwebpagesisveryidealeffect.So,thispaperwillsupportvectormachineappliedinHandwritingnumeralrecognition,thehopecanobtaingoodaccuracy.

Handwritingnumeralsidentifyingatotaloftenkindsofsamples,isamultipleclassificationproblem,thispaperwillmoresupportvectormachineclassifieriicombinedformamultitudeofclassifier,inordertorealizeHandwritingnumeralrecognition.Weputthesamplesaredividedintothetrainingsamplesetandtestingsamples,thetrainingsamplesetandtestsamplesarethroughpretreatmentgetbitmapdata,thenafterfeatureextractionandrecognitionusedtotrainidentifier.

【Keywords】HandwritingNumeralRecognition,SupportVectorMachine,Classifier,FeaturesExtraction,Preprocess

摘要II

AbstractIII

1绪论1

1.1研究背景1

1.1.1手写数字识别概述1

1.1.2研究的困难和问题1

1.1.3研究动态2

1.2手写数字识别的一般方法3

1.2.1识别流程3

1.2.2识别方法3

2SVM（支持向量机）的相关研究5

2.1SVM概述5

2.1.1理论背景5

2.1.2SVM简介6

2.1.3SVM的优点7

2.2VC维8

2.3SVM原理8

2.3.1分类问题与机器学习8

2.3.2两类可分问题的线性分类机9

2.3.3非线性支持向量机——核函数方法11

3数字识别预处理过程14

3.1二值化14

3.2平滑去噪14

3.3归一化15

4基于SVM数字识别过程17

4.1SVM分类算法17

4.1.1一对多（One-Versus-All，OVA）算法17

4.1.2一对一（One-Versus-One，OVO）算法18

4.1.3两种分类算法的优缺点比较19

4.2核函数的选择19

4.3实验结果及分析20

4.3.1基于线性核函数的SVM分类器的测试21

4.3.2基于二次核函数的SVM分类器的测试22

4.3.3基于多项式核函数的SVM分类器的测试22

4.3.4基于径向基核函数的SVM分类器的测试23

4.3.5测试结果分析24

5结论25

参考文献26

1绪论

1.1研究背景

1.1.1手写数字识别概述

阿拉伯数字作为唯一被世界各国通用的符号，是人类文明发展的标志之一，也是人类交流沟通的主要媒介。

在人们日常生活当中，离不开数字的使用，我们每天都要进行大量的数字工作处理，比如邮政编码、统计报表、财务报表、银行汇款转账等等，如此繁琐的数字工作处理占去了我们很大一部分时间，空间。

而对于，计算机大范围普及，人工智能高度发展的当今社会，利用手写数字识别系统代替人们进行这样繁重的手工劳动，备受国内外人士的高度重视。

目前，市场上也出现了一些手写体数字识别的应用，在许多范围如税务、财务、金融等领域中都有广泛的应用，有较高的商业价值。

于是数字识别的准确度问题又浮上水面，但是现在还没有哪个手写体数字识别器能达到100%的识别准确率。

因此，进一步提高手写数字识

别系统的识别性能是现在手写数字识别系统研究的重点

[1]

。

数字识别在学科上是图像处理和模式识别领域中的研究课题之一，主要研究利用计算机识别书写在纸上的阿拉伯数字。

数字识别系统一般由图像采集、信号预处理、特征提取、分类识别等几个部分组成，识别系统的识别方式可分为印刷体数字识别跟手写体数字识别，而后者根据书写时间跟识别时间的关系，又可分为联机手写体识别与脱机手写体识别两种，即实时手写体数字识别与非实时手写体数字识别。

其中脱机手写体数字识别由于书写者得关系，其字符的随意性较大，如笔画的扭曲度、粗细，字体的大小、倾斜度等差异，都将影响到字符识别的准确度。

所以，系统的实现具有很大的困单，是字符识别领域内极具挑战性的课题。

1.1.2研究的困难和问题

上文也有提到，数字的类别只有10种，结构也很简单，识别起来似乎也很简单。

但是事实上，数字识别的识别率还不如更加复杂的汉字识别。

也正是因为数字的笔画非常简单，同一数字的写法千差万别，世界各国，各地区的书写习惯、书写方式都有很大不同，很难做到兼顾到各地区各种写法的数字识别系统的高识别率。

而且，数字的字形都很接近，比如：

“1”和“7”，“3”和“8”，由于个人书写习惯不同，书写出来很容易变得很相似，在数字识别系统中，要准确区分开来，就变得很困单。

另外，在实际应用中，手写数字识别的精确度要求也比汉字识别要严格的多。

因为，数字识别常被用到的领域是财会、金融等，这方面的严格性要求不言而喻，往往一字之差，带来的差别与损失是无法估量的。

但是数字识别系统的要求并不仅仅是识别率，需要处理的数据一般都是大批量的，所以，即使有了高的识别率，没有相当的速度也是行不通的。

但是高精度与高速度一般是相矛盾的，因此，研发高性能的数字识别系统是一项挑战性非常高的项目。

1.1.3研究动态

光学字符识别（OpticalCharacterRecognition，OCR）技术就是利用光学技术对文字和字符进行扫描，确定其形状，然后利用字符识别方法将形状翻译转换成计算机内码的过程。

早在50年代，欧美国家就开始了OCR的研究，将浩如烟海的字符材料扫描进计算机，让其进行信息处理。

到了六七十年代，世界各国也相继开始了OCR的研究。

OCR可以说是一种不确定的技术研究，因为牵扯到书写者的书写习惯，识别的方法，训练测试的样本等因素，都会影响到识别的正确率。

其正确率就像一个趋势函数，只能趋近，而不能达到100%，大家都以100%作为研究目标。

世界上第一个将该技术付诸实用的是日本东芝公司研发的手写体邮政编码识别的信函自动分拣系统，之后，随着时间的推移，各种各样的产品、系统相继问世。

中国对于OCR方面的研究起步相对较晚，直到1989年，清华大学率先推出了国内第一套中文OCR软件——清华文通TH一OCR，至此中国的OCR技术正式起步。

随着研究的进展，文字和数字识别市场逐渐稳步扩大，用户遍布世界各地。

近几年来，中国国内对于手写数字识别的研究还是相当成功的，取得了很大的成绩。

手写数字识别技术可以用于邮政编码、统计报表、财务报表、银行票据等信息处理，一旦研究成功并投入应用，将产生巨大的社会和经济效益。

随着信息化的发展，计算机的普及，人工智能的研究，手写数字识别的应用也日益广泛，因此，研究高识别率、高速度的高性能手写数字识别系统有着重大的现实意义。

当然随着这些的发展，市场的推动，手写数字识别技术将会取得更大的进展。

1.2手写数字识别的一般方法

1.2.1识别流程

手写数字识别一般来说，首先把数字图像经过预处理，然后将得到的数据进行特征提取直接输入识别器进行识别得到结果，如图1-1所示。

图1-1数字识别流程图

将数字识别的流程归纳一下，可分为预处理，特征提取跟识别器三个方面：

（1）预处理，通过归一化，二值化，细化等步骤，对图像进行处理，以提高精度。

（2）特征提取，对于已经经过预处理的手写数字图像，形状多样，数量繁多，样本处在一个高维空间中，通过映射到低维空间或者变换的方法来提高精确度与速度。

（3）识别器，经过以上处理的手写数字图像，通过选定的分类器来实现数字识别。

1.2.2识别方法

对手写数字进行前期处理后可以得到一个8×8或是16×l6的矩阵，然后需要对该矩阵的内容进行分类，识别。

在过去的几十年中，研究者们提出了许多种用于识别手写数字的技术。

目前而言最常用的方法有神经网络、决策树和SVM方法。

（1）人工神经网络（ArtificialNeuralNetworks，ANNs）也简称为神经网络（NNs）是一种模拟人脑内部结构，进行分布式并行信息处理的算法数学模型。

他具有良好的容错能力，自学习能力，分类能力等，它可以处理一些环境复杂，背景知识不清，推理机制不明确的问

题，容许样本有较大的缺损和畸变

[7]

。

可以采取具有一个隐含层的BP网络来构造手写数字识别核。

网络的输入、输出应根据应用的具体要求来设定，输入特征数据为32×32的矩阵,转换成1024×1的矩阵,因此神经网络输入神经元数目为1024。

要识别0～9这10个数字,可以对于输出“0”,采用（0,0,0,0）主要的目

标向量来表示,对于输入“1”,采用（0,0,0,1）这样的输出向量来表示…以此类推。

因此,就可以确定输出层的神经元数目,也即输出向量的维数。

训练参数时，为了使BP网络对输入有一定的容错性，利用含有和不含有噪声的输入数据训练网络。

（2）决策树方法最早产生于上世纪60年代到70年代末。

决策树一般都是由上往下来生成的，每个决策都有可能引出两个或两个以上的事件，这种决策分支画成的图形很像一棵树，所以称决策树。

决策树在数据挖掘中是一种经常用到的技术，可以用于分析数据，也可以用来作预测。

决策树算法有分类精度高，成对模式简单，对噪声数据有很好的健壮性等优点，

所以是目前应用最为广泛的归纳推理算法之一，备受研究者的关注

[9]

。

针对某个数字均有着不同的手写体形式，它们有不同的特征属性集。

针对数字0~9的各种手写体数字的异体字来建立一个训练数据集，通过对该训练数据集进行适当的冲突消除和约化，建立数据集，再利用基于分层思想的决策树算法产生决策树。

获取数字图片并预处理之后，扫描图片，提取该数字的属性特征，搜索生成好的决策树，经过层层分类，可以得出该手写体数字。

（3）SVM（支持向量机），是数据挖掘中的一项新技术，是借助于最优化方法来解决机器学习问题的新工具，是克服“维数灾难”和“过学习”等传统困难的有力手段。

本文主要讨论基于SVM（支持向量机）手写数字识别的应用与实现，因此，具体内容将会在下文详细介绍。

2SVM（支持向量机）的相关研究

2.1SVM概述

2.1.1理论背景

支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力即对特定训练样本的学习精度和无错误地识别任

意样本的能力之间寻找最佳的折衷，来获得最佳推广能力

[1]

。

传统统计学的识别方法一般都是在样本数目足够多的前提下进行研究的，现有的学习方法也多是基于此假设，所提出的各种方法也只有在样本数趋向无穷大时其性能才有理论上的保证。

而在实际应用中，样本数目通常都是有限的，因此一些在理论上很优秀的学习方法，实际中的表现往往跟预想中有很大差距。

作为传统统汁学的重要发展和补充，统计学习理论

（StatisticalLearningTheory，SLT）是一种专门研究小样本情况下机器学习规律的理论，为研究有限样本情况下机器学习的理论和方法提供了良好的理论框架，其核心思想是通过控制学

习机器的容量实现对推广能力的控制

[4]

。

该理论针对小样本统计问题建立了一套新的理论体系，在这种体系下的统计推理规则不仅考虑了对渐近性能的要求，而且追求在现有有限信息的条件下得到最优结果。

Vapnik等人从六、七十年代开始致力于此方面研究，随着统计学习理论的不断发展和完善，也由于神经网络等学习方法在理论上缺乏实质性进展，

展开阅读全文