苏h8a939车牌在上海2o13k经典电影网年违章记录

车辆牌照识别系统的研究_伤城文章网
车辆牌照识别系统的研究
北京服装学院 硕士学位论文 车辆牌照识别系统的研究 姓名:李保平 申请学位级别:硕士 专业:机械电子工程 指导教师:韩润萍
北京服装学院硕士学位论文车辆牌照识别系统的研究摘要由于智能交通管理的迫切需要,车辆牌照识别系统应运而生。目前它已成为机器视觉和人工智能领域中的一个研究热点,众多企业和研发机构相继展开了这方面的研究。本文主要研究了车辆牌照识别系统中车牌字符分割、特征提取以及字符识别等关键技术。首先对车牌照图像进行了预处理,在此基础上结合车牌字符特点,使用投影变换的方法完成了车牌字符分割。其次综合提取了车辆牌照字符的统诗特征与轮廓特征。然后研究了基于Bp神经网络和基于支持向量机(SvM)的两种字符分类算法,设计了相应的分类器,实现了字符识别。最后对字符识别系统进行仿真,结果表明该系统对车牌照字符具有较好识别 效果。关键词:车牌照识别,特征提取,分类器,神经网络,SⅥ订 北京服装学院硕士学位论文RESEARCH oN VEHICLE LICENSE PLATE RECoGNITIoNSYSTEMABSTRACTBecau辩of the urgcm need of intelligent tramc,thc veIlicle license platesystefn is dcVelop。d.―Lt p陀scnt,arecogIlition(LPR)agro响g n啪ber of e11tclprises拙d R&D institlltioIls pay 10t ofa蹴mio鹏0n thc LPR s)rstc:IIl rese虮札州ch is hotsI斌in tlle field ofmacIline vision觚daanificial intelligencc. h tlle thesis,lhe cha豫nerarcscgmen枷on,feattIreex协重ction锄dcbaractcrreco鲥tiD如嘶11ichkcy technologies 0ftheU)Rsystem,are rc∞archcd.Firstly’tlle charact盯∞gIneIltation ofmcpr印∞cessedbascdontllechar删sticsVehiclc licen∞pIate image iscompl鼬cd谢tlltheprojection乜柚sfomlation metllodareof t11e vetlicle liceme chafactcrs.Secondly,tlIe chamctcr fe曲lrescontollrc】(饥b删,wIlich combines the statistical f妇tIlrcs andmachm(SVM)缸ea11alyzed,柚d mefe批softhe vellicle licenSe pla钯.I协l&classi&ation a190谢眦of me BP neI蝴l删work(BPNN)勰well觞the s叩port vec研designcd,州ch fillally 浏izes the chafac锄。recognition.Simulation of tlle d唧∞衄’reco蛳tion system is p曲med,co盯cspond堍claSsifiersare越ld the reslllts ch砌.acte陪.indicate matme systcm h勰good rccog出tion e珏毫cts ml 1嘴llicle liocn辩KEY WORDS:LPR,Featu代Extmc“on,CIassi6eb N蛐raINetworI‘,SVMII 原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所 取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或 撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:亏孵签字臼期:力p7年瑚胆日学位论文版权使用授权书学位论文作者完全了解北京服装学院有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京服装学院。学校有权保留并向国家有关部 门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅:学校可以公布学位论文 的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书)学位论文作者签名:撕签字日期:力P7年,2月/2日学位论文作者毕业后去向 工作单位: 通讯地址:剔磁名’砰}闰珲签字日期:上-p7年fz月,z日电话: 邮编: 北京服装学院硕士学位论文第一章绪论1.1课题研究的意义和背景当今社会已进入信息时代,随着计算机技术、通信技术以及人工智能技术的发展,自 动化信息处理能力得到前所未有的发展和提高,并在人们的社会生活以及生产中起到越来 越重要的作用。在这种情况下,作为信息来源的自动检测、图像处理以及机器视觉等技术 日益受到人们的高度关注。另一方面,随着中国国民经济的发展,汽车拥有量呈持续快速 增长的态势,据权威部门预测,到2010年,我国汽车产量将达到800万辆,届时机动车 拥有量达将到1.3亿辆之多。汽车数量的增加,带来了交通拥堵、交通事故、环境污染、社会效率低下等一系列问题。为了解决因交通快速发展所引发的各种问题,智能交通系统(Intellig蚰ce Tr纽spon撕on systeIn,简称lTs)的研究被提到了重要位置。近年来,ITS在中国有了长足的发展I”。1999年,由科技部牵头,联合建设部、交通 部、公安部等多个相关部委,组织成立了全国智能交通系统(ITS)协调小组,为推动交通系 统的智能化发展提供了组织机制保障。2000年,完成了中国ITS体系框架研究和标准规范 的制定。“十五”期间,科技部将rrS作为科技规划的重大专项项目予以实施,并将以示 范工程为弓l导。加快技术开发与产业化,促进相关技术的全面发展。目前,国内已经涌现 出一批Ⅱs的科技成果和产品,有些已经得到了广泛的应用。一些国有大企业、上市公司、 民营企业纷纷看好rrS领域,大量投入资金、人力和物力。而车牌照识别(Li咖sc Plate Rcco鲥60n,简称LPR)作为n’s的核心嘲,起着举足轻重的作用,它在高速公路、城市道路和停车场等项目管理中占有重要地位。LPR系统研究内 容涉及到图像的实时采集、处理和分析,是一个综合的计算机视觉系统p-4】。它跨越了数 学、计算机科学、自动化技术以及电子信息工程技术等多个学科,不仅与人工智能、神经 网络、遗传算法、模糊逻辑等多种理论密切相关,而且和数学、计算机科学、物理学、神 经生理学、电子学等许多的学科相互借鉴。它的发展可应用于生物医学、交通管理、遥感、 通信、军事侦察、工业自动化等许多的领域。因此作为智能交通的重要组成部分,LPR技 北京服装学院硕士学位论文术的发展不仅能大大加快ITs进程,而且有着更为广泛的应用价值。LPR在以下几种场合 有着广泛应用: (1)高速公路收费和小区停车场收费 在高速公路以及小区,实现不停车收费,提高交通道路的畅通性。尤其对于高速公路,在收费出入口完成车牌照号码识别和车牌照匹配工作,可以及时发现车辆的换卡行为,收费员的舞弊行为,规范收费程序。 (2)交通道路监控和车辆追踪 建立公路布控系统,采用车牌照识别技术,实现对重点车辆的自动识别、快速报警处 理。不仅可以有效防止机动车辆被盗,而且为公安、监察机关对犯罪嫌疑人所驾车辆的自 动监控和跟踪提供了高科技手段。 (3)车流统计和智能交通管理 在主要交通路口设立监控站点,根据实时车流量调整红绿灯的通行时间,以此提高交 通运行的效率。目前北京等一些城市的主交通路口已有该系统的应用,并且取得了良好的 交通疏导效果。1.2国内外研究现状1.2.1LPR系统的研究概况在国外,车牌照自动识别的研究最早出现于上世纪gO年代,这个阶段的研究还没有 形成完整的系统体系,而是就车牌照识别中的某一个具体问题进行讨论。通常是采用简单 的图像处理技术来解决。识别过程是使用工业电视摄像机(1ndus岫alTVCaIllera)拍摄汽车的正前方图像,然后交给计算机进行简单处理,最终仍需要人工干预。进入90年代,由于 计算机视觉技术(computcrvisionTecllIlique)的发展,LPR系统已趋近成熟吼车牌照识别率可达到95%以上。例如以色列的Hi.Tech公司研制的See圮ar system,新加坡的Optasia 公司研制的vLPRSH系统等。 国内的LPR的研究到90年代才刚刚开始,起步较晚,总体上说我国汽车牌照识别还 处于研究阶段,用于实际的系统还不多。已有的部分用于实际的系统。车牌照识别率也仅 达到90%左右。识别时间在O.5~1秒之间。目前,国内使用比较多的有中科院自动化所2 北京服装学院硕士学位论文汉王公司的“汉王眼”,浙江大学的“车牌通”,香港的舡iaVision1K11Ilolog)r的VECON等。另外中科院沈阳自动化所的沈阳聚德公司,深圳市吉通电子有限公司,中国信息产业部下属的中智交通电子有限公司等也都有自己的产品。同时国内许多重点大学和科研院所也纷纷开展相关研究.1.2.2LPR关键技术的研究就LPR系统的关键技术而言,包括车牌照定位以及车牌照字符识别两个部分。车牌照 定位,它的任务是从一幅含有车牌照的图像中,准确建找到其牌照区域,它是LPR系统处 理流程的第一步,是后续车牌照字符识别的基础。现在定位效果比较好的方法主要有,根 据车牌照颜色信息进行定位I”,基于车牌照区域形态学分析fsl,以及根据车牌照位置投影 信息定位方法19l等。 车牌照字符识别包括汉字、英文字母和数字的识别技术,一般来说车牌照字符识别问 题属于印刷体字符的识剐阕题【101,但是由于受噪声等情况的影响,实际得到的车牌照图像 中的字符常常出现噪声、笔画断裂、字体模糊、形状相似的情况,因此使用传统的印刷体 字符识别方法难以得到满意的效果。目前用于车牌照字符识别的主要方法有:统计决策、 结构模式识别、模板匹配、人工神经元网络等模式分类方法Ill-”】. (1)统计决策法 统计决策以概率论和数理统计为基础,它包括参数方法和非参数方法。参数方法主要 以贝叶斯决策准则为指导,其中最小错误率和最小风险贝叶斯决策是最常用的两种决策方 法。在贝叶斯决策的基础上,根据各种错误决策造成损失的不同,人们提出基于贝叶斯风 险的决策。实际上对于具体的模式识别问题,先验概率和类条件概率密度很难精确知道a 图像处理往往与图像的结构信息有关,因此对于很复杂的图像,采用统计决策的方法很难 实现其分类。 (2)结构模式识别 结构模式识别是利用模式的结构描述与句法描述之间的相似性对模式进行分类。每个 模式由它的各个子部分(称为子模式或模式基元)的组合来表示。对模式的识别常以句法分 折的方式进行。结构模式识别主要用于文字识别、遥感图形的识别与纹理图像的分析中。 该方法的特点是识别方便,能够反映模式的结构特征,能描述模式的性质,对图像畸变的 北京服装学院硕士学位论文抗干扰能力较强。(3)模板匹配法 模板匹配法又分为简单模板匹配法、外围轮廓匹配法以及穿线法等,各种模板的提取 特征又有所不同。简单模板匹配法不经过粗分类直接用于模板与字符图像的逐点匹配,匹 配时采用汉明距离。外围轮廓匹配法采用外围轮廓特征,记录字符边框上各点到达框内字 符的最短距离。识别时将待识别字符的特征与预先得到的模板相比较,两者差距由欧氏距 离衡量。穿线法也属于字符识别方法中模板匹配的一类,但涉及了字符拓扑结构方面的信 息。其基本思想是用一组或几组与水平成一定角度的平行线贯穿字符,提取字符与水平线 的交点信息作为识别依据。(4)人工神经元网络方法20世纪50年代,研究人员开始模拟动物神经系统的某些功能,建立了神经元模型, 并以其为基本单元构建了互联的拓扑网络,即人工神经网络。人工神经网络是由大量简单 的基本单元相互连接而成的非线性动态系统,每个神经元的结构和功能都比较简单,但由 其组成的系统却可能非常复杂,它具有人脑的某些特性,用于联想、识别和决策。神经网 络的主要特点在于其具有信息处理的并行性、自组织和自适应性、具有很强的学习能力和 联想功能以及容错性能等,在解决一些复杂的模式识别问题中显示出其独特的优势。因此 人们正在深入探讨人工神经元网络用于模式识别的潜力。 除了上述介绍的几种方法之外,还有~些新兴的模式分类方法被用于字符识别,比如 基于zadch提出的模糊集理论113】的模糊识别方法,以及基于对传统的统计决策法改进的支 持向量机分类器法等。1.3车牌照识别系统及其工作流程按照系统的组成,车牌照识别系统可以分为两个模块,即图像采集模块和车牌照识别 模块。车牌照识别系统的一般组成如图l所示。4 北京罪装学院硕士掌位论文-…….…_?-----图l车牌照识别系统的组成上图中箭头标葫了车戆熙系统觞工作流程,其串整缘采集模块包括两个部分。车体感 应器和图像采集设备。车体感应器的作用是当待识别车辆驶入摄像头标定区域时及时检测 到车辆的进入。触发图像采集模块进行图像采集。图像采集设备包括ccD摄像头和图像 采集卡。图像采集模块一般是通过雷像采集卡或者透遘直接箭数据总线(奶l££豇394, usB2.O,c删嘲谢ink)直接抓取图像。然后把获得的图像送下~模块,即车牌照识别模块进行处理。车牌照识射模块主要由牌照定位,字符切分和字符识别三个部分组成,在牌照定位之 前一般要对牌照图像进行预处理,为了便于操作人员观察可以把图像实时显示出来。牌照 定位后,对牌照进行字符切分,然后送字符识别模块,进行字符识别。系统得到的牌照输 出信息,可以存入数据库迸行lTs的相关处理。1.4车牌照识刘系统率鹩研究难点LPR系统研究内容涉及到图像的实时采集、处理和分析,是一个综合的计算机视觉系 统。LPR系统对实时性、鲁捧性以及抗干扰性均有很赢的要求.由于取样环境复杂多交, 例如多数情况下待识别车辆并非静止,而是处于运动状态,这就要求图像采集系统对运动 物体有相应的措施;同时受车牌照的整洁程度、光照条件等因素影响,获取的字符样本很 可能出现较严重的模糊、顿斜、缺嵌等铸提。这些思索都绘车牌照的字符识别带来7匿难. 在我国,除了上述一股性难点之外,由于国内车辆的实际情况,给研发工作造成许多 托京鼹装学院硕士学位论文特殊困难,主要有以下几点: (1)我国标准汽车牌照是由汉字、英文字母和阿拉伯数字组成.汉字的识别与字母和 数字的识别有很大的不同,从而增加了识别难度;(2)国外许多国家汽车牌照的底色和字符颜色通常只有对比度较强的两种颜色(例如韩国.其车牌照底色为红色,车牌照上的字符为白色),而我国汽车牌照的底色和字体部有多 种颜色; (3)其他国家的汽车牌照格式(如汽车牌照的尺寸大小,牌照上字符的排列等)通常只有 一种。而我国则根据不同车辆、车型、用途。规定了多种牌照格式(例如分为军车、警车、 普通车等);(4)由于环境、道路或人为因素造成汽车牌照污染严重,这种情况在国外发达国家不允许汽车上踌。而在我国仍允许上路行驶: (5)我国汽车牌照的悬挂位置不统一。 这些都给车牌照的识别造成了困难,如何在这样复杂的环境下既达到较快的识别速 度。又取得段商的识别率是本系统的研究难点所在,目前国内的车牌照识别技术有持进一步提高,相信随着理论研究的深入,以及计算机科学的发展,车牌照识别技术肯定会逐步走向成熟。1.5本文的主要工作和内容安排本文以车牌照图像为研究对象,主要运用图像处理和模式识剔等学科方面的基本知 识,在车辆牌照定位的基础上,致力于车牌照字符分割、字符特征提取以及字符识别算法 的研究,在车牌照字符识别部分着重分析7神经网络以及支持向量机在车牌照识别中的应用。在研究谭厢的过程中,本人查阅了有关车牌照识别技术方面的中外文献,’比较了以往车牌照字符识别算法的性能,在此基础上提出了一种基于投影变换和神经网络的字符识别方法。该方法对车牌照字符识别具有良好的效果。 针对课题的研究内容,本文的组织结构如下:第一章,酋先介绍了本课题的研究背景和研究意义,然后详细分析了车牌照识别系统的研究现状,给出了系统的框桨结构和工作流程。接着分析了LPR的研究难点.比铰了现 有的几种字符识别方法,讨论了其优缺点,最后说明了本论文的主要研究内容和框架结构。第二章,首先介绍了车牌照字符分割的相关技术,给出了车辆牌照图像的预处理方法,6 北京服装学院硕士学位论文包括灰度拉伸,噪声去除和图像二值化等。在分析了车牌照的先验知识的基础上,结合投 影法,完成了车牌照的字符切分。 第三章,主要讨论了字符特征的提取方法,说明了特征提取的三个基本要求。分别介 绍了字符结构特征提取和统计特征提取两种基本方法,在分析了其优缺点的基础上,结合 车牌照字符自身的特点,使用结构特征和统计特征相结合的方法,提取字符特征向量作为后续章节中分类器的输入。第四章,研究了基于神经网络的字符识别方法,首先介绍了神经网络的基本原理, 然后分析了BP神经网络的构造特征,指明了其缺陷和改进措施,在此基础上,结合第三 章的字符特征提取方法,提出了一种基于投影变换和神经网络的字符识别方法。 第五章,研究了基于支持向量机的模式识别方法。支持向量机是一种新兴的机器学习 方法,本章首先介绍了其理论基础,然后分析讨论了组成支持向量机的线性分类器。介绍 了支持向量机对非线性可分样本处理的核映射技巧,在此基础上研究了支持向量机在字符 识别中的应用,最后建立了基于支持向量机的字符识别系统。 第六章,总结了本文工作,指出了存在的不足和改进方向。7 北京服装学院硬士学位论文第二章车牌字符分割2.1引言车牌字符识别系统由三个部分组成:字符分割、字符特征提取以及分类器的设计,字 符分割是特征提取和实现字符正确识别的基础,因此是该系统的关键组成部分。在字符分 割之前,有必要对车牌图像进行预处理。首先介绍本文使用的车牌图像预处理方法,然后 结合车牌的先验知识实现字符分割。2.2车牌图像的预处理本文处理的对象是经过定位提取出来的车牌照图像,车辆牌照摄取的过程中可能引入 诸多的噪声干扰,首先拍摄现场光照不均可能影响原有的灰度信息,比如遭受阳光直射以 及夜晚的光线不足都会淹没原有的灰度信息;再有就是车辆牌照的污损,如果车牌照部分 字符缺失,这将给字符识别带来更大的处理难度;字符的粘连也会影响字符的识别。因此 在字符分割之前。要对车牌照图像进行预处理。 首先将彩色图像转换为灰度图像,然后进行灰度拉伸、图像去噪以及图像的阈值化处理。2.2.1灰度拉伸受夜晚的光照度不够或者白天的阳光直射等因素影响,会引起成像过程的曝光不足, 造成图像灰度的动态范围狭窄。这种情况下得到的图像,在进行灰度转换后往往会出现对 比度不足的情况,这将直接影响到图像的后续处理结果,因此需要增强图像的对比度。 本文选用灰度拉伸的方法增强图像的对比度,所谓灰度拉伸是这样一个过程,有选择 地拉伸或压缩某段灰度区间以增强灰度的变化范围、丰富灰度层次,达到增强图像对比度 的目的。经过灰度拉伸处理,使得车牌照图像明暗鲜明,这将大大有利于车牌照的字符分盘 北京服装学院硕士学位论文割和识别。这种操作可以看成一种基于点运算的图像增强方法,灰度拉伸是对图像进行分 段线性变换.该线性变换函数的表达式为: 且工.五y=/(工)=嚣(一)哪桕≤屯“… ;;;二导(x一屯)+儿,x>而 255一矗、‘(2一1)交换原理可以用图2中的折线表示。255咒少IO五恐255原灰度图2灰度拉伸原理图上图中的灰度分布区间k,而】由图像本身特征决定?从图中可以看出灰度拉伸之后,对比度得到了增强。实际情况也是如此,图3给出了处理前后的图像效果对比。彩色图像 灰度匿像 灰度拉伸后的圈像彩色酉像灰度图像灰度拉伸盾的圈像图3灰度拉伸后的车牌照图像2.2.2图像去噪所谓噪声是指混杂在信源信号中的干扰信号,一般会影响对信源信号的理解。噪声通9 北京服装学院硕士学位论文常是随机产生的,一般用概率统计方法来处理。数字图像的噪声主要源于图像的获取和传 输过程。图像获取过程中的噪声主要源于图像传感器和环境因素,如图像获取中的传感元 器件自身的质量和环境条件等。图像在传输过程中的噪声主要源于所用的传输信道的干 扰,比如通过无线网络传输的图像可能会因为光或者其他大气因素的干扰被污染叫。 噪声对图像分割效果的影响往往较大。所以在对图像进行分割前进行去噪处理是必要 的。滤波可以达到图像去噪的目的,所谓滤波是指从被干扰的信号中将有效信号提取出来 的一种方法。形态学操作也能起到分离干扰信号的作用,因此在某种程度上也可称之为滤波。滤波操作的方法可以分为空间域方法和频率域方法。亦可以分为全局处理和局部处理 方法,也可以按线性滤波、非线性滤波和自适应滤波来区别。线性滤波具有完善的理论基 础,数学处理简单,对高斯噪声有较好的平滑作甩,但对脉冲噪声摔制效果较差并且会使 图像的边缘模糊,不能很好地保护图像的细节;而非线性滤波则能抑制非高斯噪声,较好 地保护图像的细节和边缘。本文对比研究了以下几种滤波方法: ∞均值滤波 局部均值滤波是一种线性平滑滤波,这种滤波器对去除高斯噪声有很好的效果,且在 大多数情况下,对其它类型的噪声也有较好的效果㈣。所谓均值滤波,即每一个像素的灰度值,用其局部邻域Ⅳ内各像素灰度的均值g(x,y)来代替,均值计算公式如下:g(w)2玄莓巾?y)理时,常通过滤波模板来实现,常用的滤波模板如表l所示; 表l均值滤波模板(2。2)式中肘是邻域Ⅳ内的像素个数,,(x,J,)是邻域Ⅳ内点(墨J,)处的灰度值。在进行滤波处a(一1,一1)口(一1,o) 口(o,o)口(一1,1) 口(o,1) 口(1,1)位(o,一1) 口(1,一1)4(1,o)上圈中为3×3的滤波模板,其中40,歹)为模板参数?由于均值滤波取的是均值,虽然能够去除图像中的高斯噪声,但滤波后会模糊图像中10 北京服装学院硕士学位论文的尖锐处、边缘处、不连续的点和细节部分,造成图像信息的丢失。因此需要考虑一种既能消除噪声又能保持图像的边缘信息的滤波方法。中值滤波器恰好能满足这种要求。 (2)中值滤波中值滤波是空间域法中的一种非线性信号处理方法,已被用来抑制图像中的噪声。在 一维的情况下,中值滤波器是一个滑动的窗口,它含有奇数个象元。窗口中心的象元灰度 值用窗口中各灰度值的中间数值来代替. 中值滤波器可以从一维推广到二维。二维中值滤波的窗口形状和尺寸对滤波效果影 响较大。不同的图像内容和不同的应用要求,往往采用不同的窗口形状和尺寸。常用的窗 口形状有线状、方形、圆形、十字形以及圆环形等。窗口的尺寸一般先用3x3再取5×5 逐渐增大,直到其滤波效果满意为止。就一般经验讲,对于有缓变的较长轮廓线物体的图 像,采用方形或圆形窗口为宜,对于包含有尖顶角物体的图像,适宜用十字形窗口。而窗 口大小则以不超过图像中最小有效的细线状物体为宜。如果图像中点、线、尖角细节较多, 不宜采用中值滤波。 车牌照图像滤波的目的是要最大限度地消除噪声。突出车牌且标。故采用方形滤波器。在图像中以当前像素位置(x,y)为中心切出一个m×作(例如3×3)的像素邻域,滤波后的灰度值为埘×一个像素灰度值序列的中间值。表2给出了3×3的中值滤波器模板。 表2中值滤波模板厂O―l,y―1) /(ty―1) ,O+l,y一1)(3)维纳滤波/O―l,J,) /(x,y) 厂O+l,J,)厂(x~l,y+1)/(工,J,+1) ,(工十1,y+1)维纳滤波又称最小均方差(Lcast Mc觚square,简称LMs)滤波。在这种滤波器设计 方法中,将信号和噪声都视为随机信号,在对这些随机信号进行统计分析的基础上设计出 符合均方差最小准则的滤波器。维纳滤波器的原理可用式(2.3)表示:如E{(,_夕)2}㈣式中E{哼是误差的期望值,Jr是原图像,夕是对它的估计。该式通过求解P2的最小值,使它们之间的均方误差最小,以此达到噪声滤除的目的。这里噪声类型为加性噪声,估计的 北京服装学院硕士学位论文灰度值是退化图像灰度值的线性函数。在上述条件下,式(2.3)中误差函数的最小值,在频域用下列表达式计算:其中,户(“,v)是对原图像的估计,该值即为滤波器的输出结果,G(“,v)是退化图像的变换, 日(”,v1是退化函数的变换,即∽=[南雨黥卜V,㈤1日(“,v)12=日‘(Ⅳ,v)Ⅳ(“,v),其中Ⅳ.(“,v)是复数量日(“,v)的共轭,最(“,V)是图像中干扰噪声的功率谱, 舅(甜,V)是未退化图像的功率谱,这就是众所周知的维纳滤波。当处理白噪声时,噪声功率谱%(“,V)为一常数,这就 大大简化了处理过程。但是未退化图像的功率谱墨(“,V)很少是已知的。当这些值未知或不能估计时,经常使用的方法是下面的近似表达式:即∽=‰嵩特卜V,这里K是一个常数。 前后的效果对比图。㈣,比较上述三种滤波器,均值滤波在平滑图像的同时也淹没了细节,后两者均能保留细 节,但是维纳滤波在计算量上要大于中值滤波,在滤波效果差别不大的情况下,考虑到LPR 系统的实时性要求,本文选择中值滤波作为车牌照的灰度图像去噪算法,图4为中值滤波直接阈值化的二值匝德跨浚后闻僵化的:值图像图4中值滤波效果图12 北京服装学院硕士学位论文2.2.3图像二值化二值化方法是图像分割的一个重要方法,它的目的是将图像中有意义的特征或者需要 应用的特征提取出来。这些特征可以是图像场的原始特征,如物体占有区的像素灰度值、 物体轮廓线和纹理特征等,也可以是空间频谱或直方图特征。 二值化处理就是利用图像中要提取的目标物体与背景之间灰度上的差异计算出一个阈值(豫M幽。髓),用以把原始图像分为前景和背景两部分。设图像,(x,),),其灰度级范围为【zl,Z2】,在Zl和Z2之间选择一个合适的灰度阈值r,则二值化后的图像g(x,y)可以表示为:咖∽=忙舅跺;或者㈤ ㈣删=忙巍籍经过二值化处理后,车牌照图像就被分为黑白两部分,选择不同的阈值就会得到不同 的分割结果。常用的阈值选取方法主要有整体阈值法、局部阈值法和动态阙值法三种。经过理论分析与实验,本文的车牌照图像的二值化处理选用锄“算法(又称大津法),伪纽算法属于动态阈值法【l‘1。动态阙值化算法从整个灰度图像的像素分布出发,寻求一个最佳的阈值,它是在最小二乘法的基础上推导出来的。在这种方法中,设一幅图像的灰度值范围为【zl,Z2】,以阈值r把图像分成目标像素(暗)c0和背景像素(亮)cl两类,其中co包含的灰度级为(zl,zl+l,...,r),cl包含的灰度级为∽+1,r+2,...,z2)。定义啊是灰度值为f的像素点个数,则主要的统计量及其运算公式为: 图像的总像素数:^r=∑珥灰度值f的概率:(2-7)P(栌景(2-8a) 北京服装学院硕士学位论文目标的概率:纯=∑JP(1)j-五(2―8b)背景的概率:z'毯=艺.P(j)目标像素的灰度平均值:(2―80盹:争强盟 胪萎-等l=zl“,o(2.9a)背景像素的灰度平均值:鸬=姜。一掣图像的灰度平均值: 缛=%鳓+熟段目标像素的方差:(2―9b)(2―9c)%=妻譬攀皿‘l(2-10a)一0背景像素的方差:铲,条。―焉_j-r+1―.÷(卜“)2P(f)wI(2.10b)由上述基本统计量,得到如下三种方差作为求取阈值的主要依据,即: 图像的总体方差:听=釜。一所)2JP(f)类间方差:(2?1la)%=嘞(胁一所)2+q∽一所)2类内方差:(2-1l”%=‰%+q吒(2-11c)根据类内方差露、类间方差蠢和总体方差刃的相互关系,引入如下三个等效的度量14 北京服装学院硕士学位论文参数:2:乓听(2.1砩(2.12b)茁:乓%,7:善听(2.12c)当取某一图像的阈值r使得当前准则中变量五或r或玎取得最大值时,得到的r即为 最佳阈值。鉴于计算量的考虑,人们一般通过优化第三个准则获取阈值。本文采用其简化 的计算公式:仃(?)=%(岛一所)2+q(一一所)2(2-13)其中,盯(丁)为两类间最大方差。即阈值r将图像分为目标和背景两类,当两类总方差盯p)取最大值时,r即为最佳阙值。这种二值化算法不论图像的直方图有无明显的双峰,都能 得到较为满意的效果。因此这种方法是阅值自动选取的较好的方法,阂值化操作的效果如图5所示。彩色啊像衰度圈像 二值图像影色曩像灰度匣银二擅曩像图5阚值化效果圉2.3字符分割车牌字符分割是车牌识别中的重要一步,字符分割就是把多字符图像中的每个字符从 整个图像中切割出来成为单个字符。本文的研究中,采用车牌照二值图像投影特征,结合 车牌字符的先验知识进行分割。15 北京服装学院硕士学位论文2.3.1车牌的先验知识本文用到的车牌特征主要是车牌照的尺寸和字符的尺寸,以及二者的比例关系,目前 我国汽车使用较多的是92式车牌,图6所示即为这种车牌的尺寸特征。船Tlll图692式车牌针对这种车牌照,其字符分布有如下先验知识可以利用: (1)标准的民用车辆牌照(军车、警车、教练车、领事馆车除外)上均有七个字符,首位 为省名缩写(汉字),次位为英文字母,再次位为英文字母或阿拉伯数字,末四位字符均为 阿拉伯数字。 (2)车牌照字符分布在车牌照的中心区域,均为规则的印刷体字,字符的高度、字符 的宽度、间隔符、字符间距以及车牌的长度等都有严格的规定。(3)车辆牌照上7个字符和一个间隔符横向水平排列,字符高度为90Il眦,宽度为45mm,间隔符宽度为10mm,字符和字符之间或字符和间隔符之间的距离为12mm。实际上,每个字符是居中分布在一个高为90lnm、宽为45蚴的矩形范围内,但具体字符并不一定充满这个矩形区域。 (4)使馆车牌照的间隔符在第四和第五个字符之间,其余的车牌的间隔符在第2个和 第3个字符之间。由于使馆车牌照出现概率很小,将之视为小型车牌照的一种变形情况,不单独处理。 北京服装学院硕士学位论文2.3.2字符分割算法2.3.2.1车牌照上下边界的确定为了便于处理,首先把车牌照图像统一转化为字符为前景(亮点),底色为背景(暗 点)的图像。通过先验知识得知,字符分布在车牌照的中心区域,与上下边框之间都存在 着一定的空隙。因此,对车牌照图像进行水平方向的投影操作,必然会得至Ⅱ存在两个较大 梯度变化值的投影图,如图7所示,这两个较大的梯度变化所对应的就是字符与边框存在 的空隙,据此,我们就能确定字符的上下边界。原始皤假 衰度翻转膳竹蕾馕水平投影图7车牌的水平投影 最后除去上下边框后的图像为原圈像 上下边框去掉盾的啊慑图8除去上下边框后的车牌图像 2.3.2.2车牌照左右边界的确定 从上图可以看到,车牌照的上下边界基本确定,这时需要确定的就是车牌照的左右边 界了。首先从左向右扫描车牌照图像的垂直投影图,找到第一个大于阙值r(本文取垂直投 影最大值的l/5)的投影,跟踪投影直到小于r的波谷,当出现陡变为波峰的位置即为车牌照的左边界(记为础一Z妒,即第一个字符的左边界)。通过前面对车牌照上下边界的确定,我们可以得到车牌照的高度(记为p缸耙一艇t咖f。也即单个字符的高度),根据车牌的先验17 北京殿装学院硕士学位论文知识,可以估算出车牌照的宽度(记为p抽耙一w幼^),约为4.43。p缸据一^P£咖,。考虑到误差的存在,在衄钯一£够+加纪一w础是周围【-s,5】像素范围内寻找波谷位置,即为车牌照的右边界(记为p肠把一,堙断,也即最后一个字符的右边界)? 车牌照的垂直投影特征如图9所示,图10显示的是去除边框后的图像。阏僮化圈馕 竖直摄影匡画lJIl-.jII---lIj图9车牌照字符的垂直投影特征边椎去豫蜃的的叠慑 边括去陡后的酉像的垂直挠影图lO除去边框后的图像 2.3.2.3字符分割算法的实现 根据上面的直观描述,采用投影法,并借助车牌照字符固定宽度、问距的固定比例关 系等先验知识,设计程序实现字符的分割。该程序的流程如下: (1)分析车牌图像在水平方向的投影,结合车牌照的先验知识。确定其上下边界: pla把一l节和pl硪e―d0Wn。(2)分析车牌图像的垂直投影,根据先验知识,首先确定车牌照的左端边界p触一幻},然后根据计算得到的p触一w础矗,最后搜寻车牌照右端边界p船一,增胁。 (3)根据实际字符高度和先验比例关系,计算单一字符宽度。甜一w蝴,字符间距劭∥一#即卯以及第二字符和第三字符间距c栅一印叩口23,考虑光照不均匀和阅值化误差的因素,实际的二值化车牌照图像中,字符宽度和间距与上述计算值有l口2个像素点的浮 动。其中;C栅一w埘场=,妇一厅e‘g^f×45/90(2-14)lg 北京服装学院硕士学位论文Ch甜一space=pldte―heighlxl2f90(2?15)啦。l∞a榭一印卯P23=p2d把一抛i驴fx34,90(4)对去除上下边框后的字符图像作垂直投影。由于最稳定的是第二字符和第三字符间距硼盯一掣23,因此首先从投影图上检测这一间距,得到第二字符右边界锄钟一ri咖,【2】和第三字符的左边晃∞钟一z咿【3】,根据∞胛一w础矗并以硼盯一,留珩[2】为 起点向左检测第二字符的左边界G妇一幻?【2】,并以a衙一幻}【2】为新的起点检测第一字 符的右边界,同理,以∞甜一坦声【3】为起点向右检测第三到第七个字符。 (5)根据检测出来的七个字符的左右边界∞甜一幻}【f】(其中f∈【1,7】)和cAnr―r瑶咖【司分割出单一字符,算法结束。 图ll-a给出了车牌照中单个字符的垂直投影特征,图11.b为根据投影特征分割出来 的单个字符。经过上述方法处理,基本上可以将字符分割出来。_▲0▲U--图11.a字符的垂直投影团圜固囝囝囝固图11.b分割出的单个字符2.4小结车辆牌照的识别包括字符分割、特征提取和分类器设计三个部分,做为其中一个关 键步骤,字符分割对后续的特征提取和最终的字符识别起着重要的作用。本章首先对车牌 照图像进行预处理,包括图像灰度拉伸,图像的滤波以及阈值化等。在此基础上根据车牌 照图像特征和车牌照先验知识相结合的方法,设计算法,实现了车牌照字符分割,为后续操作打下了基础。19 北京服装学院硕士学位论文第三章字符的特征提取3.1引言本章介绍字符识别中的特征提取部分,特征提取是字符识别系统中的关键一步。本章 的处理对象是经过第二章的字符分割得到的单个字符图像,在进行字符特征提取之前仍要 进行必要的预处理,其中包括去除噪声的形态学滤波以及字符的归一化操作。介绍了两种 字符特征提取方法,在分析了两种字符特征提取方法的优劣的基础上,将字符结构特征和 统计特征相结合。作为后续操作用到的字符特征向量。3.2字符特征提取前的预处理3.2.1形态学滤波阊值化后的字符图像还可能会存在一些噪声干扰,比如一些孤立韵点,这恰好可以通 过形态学【3l操作进行滤除。首先介绍膨胀(dil a_哟和腐蚀(erosion)的定义,然后使用开运算处 理图像,达到滤除噪声的目的。3.2.1.1膨胀下面先进行直观描述,然后给出数学公式。对于两幅图像:初始凰像厶和结构元素厶, 令A和B为有序对集合,分别由无和厶中各自的前景像素坐标组成。定义4,表示集合A关于集合B中元素6的平移操作。图12给出了膨胀操作的一个实例,用符号以。tll表示集合A对于B中元素(o,1)的操作, 这种操作是把A向上平移一个单位:符号A0,o)表示零操作,即集合A保持不动,不进行任何平移操作。将两个操作的结果求并集,其最终结果即为初始图像无关于结构元素厶膨 北京服装学院硕士学位论文胀,记做无。厶,得到的结果如图12-c所示。■■图12-a初始图像厶图12-b结构元素磊图12。cAo'o)图12-d^。J)图12_c膨胀操作的结果关于膨胀的数学说明,定义A关于B的膨胀运算为:彳。口={口+6I口∈彳,6∈曰}则在形式上,该式等同于对A的所有平移结果取并集(3一1)40丑=U43.2.1.2腐蚀(3―2)定义腐蚀为膨胀的逆运算,用下式表示:枷=mk嚣(3-3)式中雪是指集合曰的反对称集。该式的含义是,图像正关于图像五的膨胀,相当于 图像无的前景像素集A对图像石的前景像素集B的反对称集中每一个元素分别作平移操 作,最后对这些平移操作的结果取交集。图13给出了腐蚀操作的过程,图13-f所示即为2l 北京服装学院硕士学位论文得到的最终结果。}l,‘,●,±l O目图13-b结构元素厶图13?c五的反对称集,8 76,●,:,O屠描隅A叩)图13.e以¨,o)图13?f腐蚀操作的结果图13-d3.2.1.3开运算和闭运算 将膨胀积腐蚀操作相结合。根据先后次序的不同,可得开运算衣闭运算,两者分别定义如下:无关于一个结构元素厶的开运算细嫩lillg)可表示为:兀Q磊=(无e如)o厶无关于一个结构元素兀的闭运算(closing)可表示为:(3.4a)厶%=(厶毋兀)%(3删开运算和闭运算均能起到消除孤立噪声点的作用,主要原因在于其中包含了腐蚀操 作。在图14中可以看到,形态学操作对于二值图像的去噪具有很好的效果,因此本文选 择使用形态学开运算滤除车牌照字符的噪声。 jt哀服装学院硕士学位论文灰度重像二值啊像形奋擘滤涟盾的二值瞳像图14形态学滤波3.2.2字符尺寸的归一化对不同大小的字符做变换,使之成为同一尺寸大小的字符,这个过程被称作大小归一 化。在归一化过程中,如何选取合适的大小,使得变化后的图像既保持了原有图像的特征 又能够减少计算量是一个非常关键的问题。实验结果表明,lO×18像素的字符点阵就能保 持输入字符的形状和基本特征【…,而且减少了计算量,加快了识别速度。如果继续减小字 符点阵,则会使汉字变得模糊,影响识别的准确率。如果仅仅识别英文字符和阿拉伯数字, 则可以将归一化尺寸减小到4×5像素118】。由于本文设计的识别器是针对车牌中的所有字 符,放选用10×18像素作为归一化尺寸。 字符尺寸的归一化分两步进行,首先是坐标变换,然后是灰度级赋值。坐标变换原理如下:嘲=[台删∞,式中(%+”,%+V)为原图像中像素点的坐标,“,M)为目标图像中像素点的坐标,取(而,%)为某整数值,砧,V为【o,1)半开半闭区间内的实数。把原图像中点的坐标分解为整数和小数和的形式表示,是为了便于插值操作的原理分析。式中Z和工的计算方法如下:…”… p6曲正=d隔=号警 ‘=d勰=号警“归一化后的图像宽度lO即归一化后的图像高度18㈣…~7 北京服装学院硕士学位论文上述坐标变换中,根据目标图像中像素点的坐标“,M)变换得到原图像对应像素点的坐标 (‰+“,蚝+v),然后进行灰度赋值。由于(黾+甜,%+V)不一定是精确的整数值,所以有必要应用插值算法取近似值,根据取值的方法不同,可分为最近邻插值法和双线性内插法两种算法M。3.2.2.1最近邻插值法 最近邻插值法又称近邻取样法,图15给出了这种操作的原理。HHU=:lHJ,t5 yJ,/空间变换 (而,yI),,7――\=J奠J5V,,,\、/\\、\灰度级赋值\●.砩+“, yo+///\k %)图15最邻近插值法在最邻近插值算法中,首先将目的空间中像素点坐标(‘,乃)通过反向变换得到的原空 间中像素点坐标(而+甜,儿+V),对其进行简单取整,然后将取整后的坐标对应的灰度值赋给点(葺,期)即可,即,“,M)=g(,D堋d(而+“),,D删(%+V))。可见,最邻近插值简单直观,计算量也不大,但得到韵图像质量不高。如果用这个方法进行图像放大,那么在比例 较大的情况下就出现图像扭曲的现象。可以用更完善的技术得到较平滑的结果,例如,立 方卷积内插等,但使用这种技术将会带来很大的计算开销。 3.2.2.2双线性内插法 鉴于最邻近算法的缺点.本文采用双线性内插法进行图像插值。该算法虽然复杂度稍 高,但得到的图像质量较好。在双线性内插法中用4个最近邻点,通过下列计算得到目的空间中像素的灰度值。对于一个目的像素“,乃),首先依其坐标通过变换得到原空间中像素点坐标(而+”,%+v),则该点像素的灰度值由其4个最近像素点的灰度值确定,即点(%,%)、(而+1,%)、(而,%+1)和(%+l,%+1)的灰度值,计算式如下:24 北京服装学院硕士学位论文“”虬胪…三。S紧糯2黜i%胪D+“(1一V)g(确+l,%)+zn苫(而+1,%+1) 厂(五,咒)=g(而+",%+V)值。双线性内插法的原理鲡图16所示。目的! !阃,b y1p乃、 ’(3―8)其中g(‰,儿)为原图像中点(‰,儿)处的灰度值,,“,M)为目的图像中点(而,月)处的灰度“,咒)//≮磊、图16双线性内插原g !间g(五y./‰,J a)\/I(而+“,, 乍+v)\/\奎壁墨壁竺//双线性插值虽然比普通的最邻近插值计算量要大,但是缩放后图像的质量较高,因此 本文的归一化过程采用了该方法。归一化后的字符图像可以送入字符识别模块进行识别操 作。3。3常用字符特征提取方法用于字符识别的分类特征应满足以下要求: (1)有较强的分类能力,类内各样本距离应尽量小,类间距离应尽量大。 (2)具有较高的稳定性和鲁捧性,尽量减少笔划断裂或粘连的影响。 <3)易于提取,在保证系统性能稳定的前提下,特征的维数不宜过高,以减少运算量 和存储复杂度。 但是一般情况下,上述三点很难同时满足。在字符识别中,字符特征可分为两种.即 结构特征和统计特征,它们各有优缺点。3.3.1字符结构特征在光学字符识别(O―cal cllar∞ter R∞o弘ition,简称OcR)技术发展初期,结构方法 北京服装学院硕士学位论文得到了广泛的研究,其基本思想是把字符图像分割为若干基元,如笔画、拓扑点、结构突变点等,与模板比较,根据基元的有无判断所属的类别。结构特征提取方法的重点在于怎么样得到以基元表示的结构信息。目前常用的结构特征提取方法主要有基于骨架特征的方 法,基于轮廓特征的方法和基于笔画特征的方法等【”。“。3.3.1.1基于骨架特征的方法基于骨架的方法是结构特征提取的主流方法。字符的骨架是经过细化得到的,细化有 迭代剥离和直接获取两种方法。迭代剥离是通过搜索图像边缘,反复考察边缘点的连通度 并结合相应的规则来决定点的去留。直接获取法根据每条扫描线的黑游程中点得到中轴。 基于骨架的结构特征包括特征点、端点、交叉点、转折点等。骨架特征的提取极大地依赖 于图像细化质量。由于现有的细化算法都或多或少的出现一些拓扑结构的改变,如Y形分 叉、毛刺、断线等。这就要求后续识别分类器有较大的规则灵活性。目前以骨架特征为主 要描述特征识别系统已很少,往往只用于小类集内的区分或附加判别的依据。 3.3.1.2基于轮廓特征的方法 轮廓也可以反映字符图像的结构。轮廓提取方法简单,结果确定。因而它不失为一种 好的结构信息。轮廓大致有两种描述方法:其一,类似骨架用结构点和弧构成图的方法来 描述,识别也与骨架相同;其二,用标准化后的轮廓的最远、最近点和最大、最小突变点 得到一系列结构特征,构成识别规律。轮廓相对于骨架。带入了更精确的位置信息,也节 省了细化的运算量,但它易受到笔画宽度和断线的影响。需要注意的是,预先设定的规则 中有很多涉及位置参数,恰好车辆牌照中字符的结构和轮廓相对固定,因此在车牌照字符 中,用轮廓特征对其特点有较强的描述能力。本文中选取轮廓特征作为字符特征的辅助描述特征。3.3.1.3基于笔画特征的方法 字符的笔画特征也具有较强的抽象能力,在这方面也有不少的科研论文发表,贾婧等 在其文章㈨中提出了基于字符的横、竖、撇、捺和弧线等结构基元的笔画特征提取方法, 该方法具有较快的运算速度,但是在字符分辨率不高的情况下,对存在弧线结构的字符有 可能会造成误分;宋加涛等提出了一种基于字符细节点特征和拐点的特征提取方法㈨,这26 北京服装学院硕士学位论文种方法虽然具有较好的描述能力,但是涉及到字符的细化和骨架提取,计算量相对较大。3.3.2字符统计特征统计特征是从原始数据中提取与分类最相关的信息,这种方法的指导思想是使类内差 距极小化,类间差距极大化,因此从出发点上就契合了对特征提取的基本要求,是一种很 好的特征度量方式。统计特征应对同一类字符的形变尽量保持不变,另外统计特征可以分 为全局特征和局部特征。3.3.2.'全局统计特征全局特征是对整个字符图像进行变换,提取的可以是字符的欧拉数(Euler Numb哪特 征、外围轮廓特征和矩特征等,进行的变换诸如KL变换,Fol|rier变换、小波(w打elct)变 换等。几种常用的全局特征提取方法为如下几种: 欧拉数特征:是针对字母和数字的网孔所采取的一种粗分类的方法,它可使字符快速 地分为网孔数为0,l,2的三类,可作为提取特征值的一部分。 矩特征:该类特征具有线性映射不变性,与人的视觉特点相符。实验表明当选取10.15 个特征构成特征向量时,才能有效分类。 KL变换:又名主元分析法(PrincipalcomponemAnalySis,简称PcA),通过变换将信息集中于最小维数的特征向量。当变换后截取的维数一定时,KL是变换前后方差最小 的变换。 离散Fo谢盯变换(DFD:是一种常用的数学变换,已经开发出快速变换方法(拶rFl), 且变换性质有清晰的理论描述,已得到广泛应用。 小波变换:是一种新兴的信号信息分析方法,是图像分析和图像压缩的重要分析工具, 小波变换的多尺度分解特性更加符合人类的视觉机制,与计算机视觉中的由粗到细的认识 过程十分相似,更加适于图像的信息处理。因此一些研究者将该方法用于字符的特征提取,并且取得了较理想的效果。3.3.2.2局部统计特征 局部特征是在特定的位置对特定大小的窗内图像进行变换,主要包括局部灰度特征、 投影特征、方向线素特征等。对这些特征分析如下: 北京服装学院硕士学位论文局部灰度特征:又称粗网格特征,它通过将标准化图像划分成固定或弹性的网格并求 出每个网格中的平均灰度或目标像素点的个数,就可以得到维数为网格数目的特征向量。 投影特征:通过对标准化的图像求水平方向和垂直方向的投影得到M维和Ⅳ维特征 向量(肘和Ⅳ由图像自身的尺寸决定),投影特征计算简单,用于粗分类时有较好的分辨 性。因其具有很低的计算复杂度,所以在实时性上表现出众,本文用来作为车牌照字符的主描述特征。方向线索特征:它首先将轮廓划分为一定的网格,在各个网格中将每个点的不同方向 的相邻目标像素点分为若干类。方向线素在一个局部邻域内各个方向的多寡反映了笔画在 该邻域内的走向。由于网格位置包括了笔画的分布信息,因此,方向线素能比较全面地代 表图像信息,具有较好的特征描述能力。3.4轮廓结构和统计特征相结合的特征提取由于字符的识别问题是类别数日较大的分类问题,所以在构造一个高性能的识别系统 的过程中,如何选择有效的描述特征显得非常重要。任何一个特征都是从某一个角度刻画 图像的,在对识别对象的本质不能完全掌握的情况下。很难轻易取得高识别率。我们只能 根据图像类别和环境特征决定特征提取的方法。 针对车辆牌照字符识别的实际情况,本文选择了轮廓特征和统计特征相结合的方法完 成特征提取。轮廓特征选取二值图像中每行(每列)第一个白点和最后一个白点的距离, 统计特征选用投影法提取每行(每列)的投影特征。3.4.1轮廓特征提取轮廓可以反映字符图像的结构,轮廓提取方法简单,结果确定,因而它是一种很好的 结构信息。经实验验证,该特征对车牌照字符的特点有较强的描述能力。 结合图17说明提取过程如下,下面均以该图为例说明。 北京服装学院硕士学位论文图17-a字符“F”的二值图像图17.b字符“F”对应的矩阵在图17中,首先计算得每行的第一个灰度值为l的点和最后一个灰度值为l的点间 的距离,然后计算每一列第一个灰度值为l的点和最后一个灰度值为1的点间的距离。由 此可以得到两个描述轮廓特征的量,这里规定如果该行(列)没有l值则距离为O,如果 该行(列)有1个1值则距离为l。则在图例中,行和列的特征向量分别为:‰=(0,6,8,7,3,3,4,7,8,7,3,2,2,2,2,2,O,0);瓦严(O,14,15,lO,9,9,9,9,7,O)。3.4.2投影特征提取投影变换提取字符在不同方向上的像素特征,由于该方法提取的是字符的全局统计特 征,因此对字符的局部笔画特征以及噪声干扰并不敏感,而且算法复杂度不高,故本文选 择投影特征作为字符的主描述特征。 如第3.4.1节所述,本文处理的字符图像是灰度值为l和O的二值图像,@,力,设其大小为肘×Ⅳ。对其进行如下操作,则可得行投影向量‰和列投影向量圪,:ⅣP脯=∑/以力村(3.9a)岛=∑,(x,力,Il(3.9b)其中x=l,2,...,肘,J,=l,2,...,Ⅳ. 经过上述操作,得到的图17.a所示字符的两个投影向量分别为: C。;(0,6,8,6,3,3,4,7,8,7,3,2,2,2,2,2,O,o);29 北京服装学院硕士学位论文,■=(O,14,15,lO,7,5?6,6,2,O)a3.4.3字符特征的综合把通过3.4.1节和3.4,2节介绍方法得到的字符特征综合起来,作为该字符的特征描述。 为了后续处理的方便,一律表达为向量形式,即特征向量。则图例中字符“F”的综合特征向量为:矿=(‰r如,‰,匕)=(0,6,8,7,3,3,4,7,8,7,3,2,2,2,2,2,0,0,O,14,15,lO,9,9,9,9。7,O,O,6。8,6,3,3。4,7,8,7。3,2,2,2。2,2,O,0,O,14,15,10,7,5,6,6,2,O)3.5小结本章首先讨论了图像特征提取前的预处理操作,然后针对车辆牌照字符的特点,提取 字符轮廓特征和统计特征向量,作为分类器的输入特征。在后续章节的字符识别中,显示 出了这种字符特征提取方法的有效性。 托京罪装学院硕士擎位论文第四章基于神经网络的字符识别4.1引言本章研究了车牌照字符识别的分类器设计方法,主要介绍了基于BP神经网络分类器 的字符识别方法。经过第二章介绍的图像预处理等步骤,以及第三章介绍的特征提取,把 得到的特征量送入分类器进行识别。 本章首先介绍了人工神经网络的产生以及基本原理,指出了通用神经网络存在的缺 陷,并对其进行改进,提出了一种基于投影变换和BP网络的字符识别新方法,建立了基 于神经网络的字符分类器,实现了车牌照字符的识别。4.2神经网络的基本原理4.2.1生物神经元入类具有高度发运的大蕊。大秸是思维活动钓物质基础,而器维是入类智能的集中俸 现。长期以来,脑科学家想方设法了解和揭示人脑的工作机理和思维的本质。研究表明人 脑约由101L1012个神经元组成,其中,每个神经元约与104 ̄105个神经元通过突触连接, 形成极为锗级复杂而且又灵活多交的神经网络。图18是两个生物神经元的连接情况。 可以看出神经元主要由三部分组成:树突、细胞体和轴突。树突是树状的神经纤维接 收网络,它将电信号传送到细胞体;细胞体对这些输入信号进行整合并进行阈值处理;轴 突是单根长纤维,它把细胞体的输出信号导向其他神经元。~个神经细胞的轴突和另一个 神经细胞树突的结合点称为突触。神经元的排列和突触的强度(由复杂的化学过程决定)决定了神经网络的功能。 图18生物神经元模型大脑具有通过其自组织(Self:O玛蛆豳ion)、自学习(Self-Lean如曲,不断适应外界环境的变化的能力。所谓学习就是在神经元之间建立新的连接或对已有的连接进行修改,并把 这些变化存贮在神经元及其之间的连接上的过程。大脑的自组织、自学习性,来源于神经网络结构的这种可塑性(P1枷city),它主要反映在神经元之间联接强度是可变的。4.2.2人工神经元模型目前人们提出的神经元模型已有很多,其中提出最早也是影响最大的,是1943年美 国心理学家win姐Mcculloch和数学家walter Pitcs提出的M.P人工神经元模型【25l。该模 型经过不断的改进后,形成目前广泛应用的神经元模型。其结构可以用图19表示。图19人工神经元模型 图中,而表示这个神经元的输入,即其他神经元和这个神经元联系;%是这种联系的强度;∑表示神经元对输入信号的处理,通常是加权处理; 北京服装学硫硕士学位论文,(曲是神经元的激活函数; y,就是该神经元的输出。 其中f=1,2,...,刀,以是和该神经元建立的连接总数;.,=l,2,...,册,肌是该层神经网络中神经元的总数。这是一个多输入/单输出的非线性信息处理单元。该模型的主要特点是把神经元输入 信号的加权和其阈值相比较,以确定神经元的输出。如果加权和小于阈值,则神经元输出 为零;如果加权和大于阈值.则神经元输出为l。神经元,的输出y。可以表示为:乃=礁巧旬\f=1 /㈩,,(砖是神经元钓激活函数<Ac垃v撕p玎Fnn西饼1),也称交换函数。不同裨经元的数学模型的 主要区别之一在于采用了不同的变换函数,从而使神经元具有不同的信息处理特性。4.2.3人工稗经两络神经细胞是构成神经系统和大脑的基本单元,神经网络就是通过对人脑的基本单元的 建模和连接,来模拟人脑的掉经系统功能特性,其{壬务就是构造具有学习、联想、记忆和 模式识别等智能信息处理功能的人工系统。简单的说一个神经网络是一个由简单的处理单 元构成的大规模的并行分布式处理器【拍1。研究表明决定神经网络模型整体性能的有三大要 素,这些因素分别为:(1)神经元(信息处理单元)的特性;(2)神经元之间相互联接的形式――拓扑结构;(3)为适应环境而改善性能的学习规则。下面就分别从这三个方面介绍人工神经网络的构成。 4.2。3,’神经元鹤特憧 神经元的信息处理特性是决定人工神经网络整体性能的三大要素之一,因此变换函数 的砑究具有重要的意义。常用的有以下四种变换函数。(1)阈值型变换函数 北京服装学院硕士学位论文阈值型变换函数采用了阶跃函数,由下式定义:胁{:=::=典的M.P模型就是属于这一类。 (2)分段线性变换函数 线性变换函数的输出等于输入,即J,;/(J)=x㈤具有这种作用方式的神经元称为阈值型神经元,这是神经元模型中最简单的一种,经(4―3)单极性分段线性变换函数fO并<0 os上≤c),=八工)={x(4川【l双极性分段线性变换函数f―Ix>l工<一1y=厂(曲={a lsx≤‘x>l(4-5)【l线性变换函数如图20所示:,(x)l0∥Xc厂(x)l工一一l图20-b双极性分段线性函数/“∥xcx图20-a单极性分段线性函数 (3)非线性变换函数非线性变换函数中常用的是si卸∞id函数,简称S型函数,其特点是函数本身及其导 数是连续的,因而在处理上十分方便.单极性s型函数定义如下:m)2寿双极性S型函数的形式为 八力‘4石)@ 力等” 北京摄装学院硕士学位论文这两种函数的图形如图21所示:k,(善)。l,(x)。/,工l/,//O,/。图2I.b双极性s型交换函数图21.a单极性s型变换函数 (4)概率型变换函数图22所示的是概率型变换函数,又称高斯型函数,可以表示为:/(力=P-(,居2,JqJ。/‘ ‘\。图22概率型变换函数 4.2.3.2两络的拓朴结构 决定人工神经网络整体性能的另一大要素是神经元的连接形式,即网络的拓扑结构。 根据神经元的连接方式可将神经网络分为两大类,即层次型结构和互联型结构。(1)层次型结构层次型结构中,神经网络将神经元按功能分成输入层、中间层(也称隐层)和输出层 等若干层,各层顺序相连。可细分为三种典型的结合方式,即单纯型层次网络结构、输出 层到输入层有连接的层次网络结构以及层内有互联的网络结构。分别如图23和图24以及图25所示(见下页)。在图23所示的层次型结构中,各层神经元接收翦一层输入并输出到下一层,层内神 经元之间不存在连接通路。在图24所示的层次型结构中,输入层神经元可以接收输出层 的反馈。在图25所示的层次型结构中,层间神经元有连接关系,增强了神经元网络的可控性。 北京服装学院硕士学位论文图23单纯型的层次型结构图24输出层到输入层有连接的层次型结构图25层内有互连的层次型结构(2)互联型结构 互联型结构中,任意两个结点之间都可能存在连接路径。因此可以根据网络中结点的 互连程度将互联型网络结构细分为三种情况。即:全互联型、局部互联型以及稀疏互联型。 另外根据网络内部的信息流向,可以分为两种类型。即前馈型神经网络和反馈型神经 北京服装学院硕士学位论文网络。多层前馈神经网络是由简单神经元构成的具有明显层次结构的网络模型,因其网络 的信息处理方向是从输入层到各隐层再到输出层逐层进行而得名。它具有良好的非线性品 质,灵活而有效的学习方式,完全分布式的存储结构,能进行大规模并行信息处理,对非 线性系统具有较强的模拟能力。理论与应用研究表明,用前向神经网络能较好地满足函数逼近的有关要求f27J。图23即是一种前馈型神经网络。目前应用最为广泛的BP网络,就是一种前馈型的神经网络。 反馈型神经网络顾名思义,一般情况下凡包含反馈连接的网络均称为反馈网络。反馈 连接即是一层韵输出通过连接权值送雷到同一层或前一层的输入l捌。图24和图25所示的 均为反馈型神经网络。 4.2.3。3神经网终的学习规则 神经网络的学习规则是决定其整体性能的另一大要素。通常的学习是指根据与环境的 相互作用而发生的行为改变。其结果导致对外界刺激产生反应的新模式的建立。所谓神经 网络的学习足指,通过对样本的学习训练,不断改变神经网络的连接权值以及拓扑结构, 以使网络的输出不断地接近期望输出的过程。 由于神经网络的学习规则不仅反映权值调整策略,而且与神经网络的指导信号有关。 所以首先介绍根据指导信号类型的一种分类方法,根据指导信号类型可将神经网络的学习 算法归纳为三类,即;有导师信号的学习、无导师信号的学习以及灌输式学习。然后介绍 权值调整的规则。这些规则包括:Hebb学习规则、感知器学习规则、最小均方学习规则、 胜者为王学习规则等。 有导师信号的学习也称监督学习,这种学习模式采用纠错机制。在学习的过程中需要 不断地给网络成对地提供输入模式和正确的输出模式,即导师信号。将神经网络的实际输 出与期望输出进行比较,当网络的输出与期望的导师信号不符时,根据差错的方向和大小 按一定的规则调整权值,以使下一步网络的输出更接近期望结果。经过一定步数的迭代,完成网络的学习。无导师信号学习也称无监督学习,在学习的过程中,需要不断地给网络提供动态输入 信息,网络根据特有的内部结构和学习规则,在输入信息流中发现任何可能存在的模式和 规律,同时根据网络的功能和模式信息调整权值,这个过程称为弼络的自组织,其结果是 使网络能对属于同一类的模式进行自动分类。在这种学习模式中,网络的权值调整不取决37 北京服装学院硕士学位论文于外来教师信号的影响,可以认为网络的学习评价标准隐含于网络的内部。 灌输式学习是指将网络设计成能记忆特别的例子。以后当给定有关例子的输入信息 时,例子便被回忆起来。灌输式学习中的网络值不是通过训练形成的,而是通过某种设计 方法得到的。一旦设计好之后就不再变动。 根据权值调整的策略将学习算法分为以下几种方式,下面以图26为例进行说明。o影,● ● ,、●t 【 t勺吒图26权值调整过程(1)Hebb学习规则 1949年心理学家D.O.Hebb提出了神经网络联想式学习规则,后来被称为Hebb学习 规则。在这种规则下,学习信号简单地等于神经元的输出。,=,(∥,x)权向量的调整公式为:(4?9)△矿』=7,(∥,z)z权向量中每个分量的调整由下式给出:(4-lo)△wj,,=,7.厂(町石)而(4-11)其中,iI锈…,弗,j=o'…,臃。,l和拼分别为输入神经元的个数以及输出神经元的个数,r即该神经元的输出,/是作用函数,孵表示连接权值向量,x是输入向量,,7是比例因子。Hebb学习规则代表一种纯前馈、无导师信号学习.该规则至今仍在各种神经网络模 型中起着重要作用。 (2)感知器学习规则lB 北京服装学院硕士学位论文感知器(Perc印∞n)是1958年美国学者Fmnk Ro锨lblan首次定义的一种具有单层计算单元的神经网络结构。在这种模型中,学习信号等于期望输出(教师信号)与实际输出之差。,.=嘭一巳(4.12)式中西是期望豹输出;巳是实衔;输出,等于,(■x)?感知器的变换函数为:叫耻洲和:0。嚣因此权值调整公式为:㈤,(4_14)A%=玎[乃一sgn(吖石)]x则单个的权值调整为:△w∥=印【西一吲彳】砑(4.15)感知器学习规则代表一种有导师信号学习。由于感知器理论是研究其他神经网络的基础, 所以该规则对于神经网络的有导师信号学习具有极为重要的意义。 (3)最小均方学习规则 最小均方规则是1962年BerIlardWidrow和M甜ci姐H0行提出的一种学习规则,它能 使神经元实际输出与期望输出之间的平方误差最小,因此得名。 LMS的学习信号为:r=4一∥石权向量调整量为:(4?16)△彬=J7(西一町z)x(4.17)其中△彤的各分量为:△坳=,7瞄?彤2xk(4.18)该学习规则与神经元采用的变换函数无关,因而不需要对变换函数求导数,不仅学习速度 快,而且具有较高的精度,权值可初始化为任意值。 “)胜者为王学习规则 胜者为王(winn盯.Takc.A11)学习规则是一种竞争学习规则,用于无导师信号学习。39 北京服装学院硬士学位论文做法是,将网络的某层确定为竞争层,对于一个特定的输入X,竞争层的所有_,个神经元 均有输出响应,其中响应最大的神经元工为在竞争中获胜的棒经元,即彬Ⅳ=m缸(形。柳,f=1,2,…,疗只有获胜的神经元才有权调整其权向量,调整量为:△阡,一=口(Ⅳ一降■)(4-19)(4-20)其中O<口<l,是一个小的比例常数,一般随着学习的进展而变小。这种网络具有很 好的分类效果,在反复的竞争学习过程中,竞争层的各神经网络所对应的权向量被逐渐调 整为输入样本的聚类中心。取值也可初始化为任意值。 (5)其他学习规则 上面是四种常用的学习规匝!j,另外的学习规则,比如相关学习规则,外星学习规则等 很少用到,这里就略去不再介绍。 以上介绍了神经网络的三个组成部分,即神经元(信息处理单元)的特性,网络拓朴结 构以及学习规慰。三个部分钓不同组合就构成了具有不同功能类型的神经网络,4.3BP神经网络4.3.1多层感知器神经网络1958年,美国心理学家F删[1l【Ro辩nblatt提出了一种具有单层计算单元的神经网络,称为PerceD们n,即感知器。感知器的研究其对神经网络的发展起了重要的推动作用,但是随着研究的深入,发现单计算层感知器只能解决线性可分问题,而大量的分类问题是线 性不可分的。后来Kolmogofov指出,双隐层感知器足以解决任何复杂的分类问题。在1986 年,融lInelhan和Mccelland等在《平行分布处理》一书中,首次对非线性连续变换函数的 多层感知器的学习算法进行了详尽的分析,实现了M扛蟮ky关于多层网络的设想。 多层感知器神经网络由三部分组成,即输入层、一个或多个隐层以及输出层。图27 给出了包含单隐层的感知器神经网络以及隐层神经元的模型。40 北京服装学院硕士学位论文图27.a单隐层感知器神经网络图中,f=0,l,…,以,.,=O,l'…,m,七=l,…,,:图27.b隐层神经元的模型疗、所、,,分别为神经网络的输入层、中间层和输出层神经元的个数; 而,儿均为一1,是为引入阈值而设的; 薯,表示这个神经元的第f个输入:%,是连接第f个输入和第,个神经元的输入权值;∑,表示神经元对输入信号的加权处理;,(∞,是神经元的激活函数; 只即第,个神经元的输出,可表示为:y,;厂(砉v.)其中厂(工)通常取单极性sigmoid函数?4.3.2标准BP算法j㈣对于误差反馈的作用,人们早已有了深刻的认识,并且已经应用到了诸多领域,比如 在控制领域中,利用输出信号的反馈实现对设备的控制;在电路系统中,利用输出电信号 韵反馈实现信号放大等;多层感知器神经网络,是其中一个经典应用领域。 在多层感知器网络中,误差反馈调节(ErrDrBack慨撕0n)算法简称为BP算法。下面以三层感知器为例介绍标准的BP算法。该算法分为两个阶段.第一阶段是正向传播, 第二阶段是反向传播。在正向传播过程中。对于输入信号,要先向前传播到隐结点,经过 作用函数后,再把隐结点的输出信息传播到输出结点,最后给出输出结果,其中每一层神4l 经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望输出,则转入反向传 播,将误差信号沿原来的连接通路返回,通过修改各层神经元的权值,使得误差达到期望 值,即完成训练过程。(1)信号正向传播过程以4.3.1节中介绍的多层感知器为例,在图27中。设网络的输入结点数为月,隐层结 点数为m,输出层结点数为,。为了便于叙述,把各层的信号用向量形式表示,其中权值 为矩阵形式。则: 输入向量:z=(xl,x2,...,x『’...,x。)1, 隐层输出向量:y=(蜘儿,...,”,...,%)’, 输出层输出向量:0=(Dl,D2,...,D∥..,D,)7,期望输出向量:d=(盔,d:,…,反,..。,矾)7,输入层到隐层的权值矩阵:y=(巧,吃,...,巧,...,圪),隐层到输出层的权值矩阵;矽=(彬,%,...,%,¨.,形), 其中矿是隐层第_,个神经元对应的权向量,%为输出层第七个神经元对应的权向量?则对 于输出层,感知器的输出: D。=,(疗PfI),后=I,2,...,,(4。22a)其中,le‘为输出层第七个神经元的输入加权和:以ef}=∑wmy,, netk。乙w JIyj,J=OR2l,j厶…,l Ii}=l,2,...,,(4-22b)对于隐层有:y/=,(”Pf』),,=l,2一.,珊(4-23a)其中朋‘为隐层第_,个神经元的输入加权和:胛订f=∑%一, ne|J5乙vqxl, 扫O_,=1,2,...,肌 j 21,j2…?'m(4?23b)那么,当网络的输出与期望输出不相等时,即存在输出误差,则定义网络的第女个输 出神经元的误差函数臣为: 北京服装学院硕士学位论文乓=去似一q)2则网络的能量函数(总的输出误差)为:件24)E;昙壹(畋一吼)2(2)误差反向传播过程(4.25)利用误差反馈,通过调整权值和阙值,使当能量达到最小时,网络趋于稳定状态,学 习结束。求解无约束最优化方程(4―25)的常用方法有:牛顿迭代法、拟牛顿迭代法、最佳 檬度下降法等。但前两种方法涉及矩降求逆。其计算量大,医此本文采用后一种方法调整权值。首先推导出能量函数与隐层和输出层之间权值的关系,将式(4?22)代入能量函数表达 式(4.25),则有E=吉∑(以一,(疗P‘))2={∑I吃一厂(∑%乃)l(4-26a) E:昙圭似一,(疗e‘))2:昙壹I吃一厂(芝%乃)l(铊6a)二J-l 二I_ll,。OI迸一步将其展开至输入层,将式(4.2j)代入(4-26a),可得西=三喜p一厂陲%,(哟)]}2=三喜p一,匡吖陲吩薯)])2(4-26b)可见能量函数E是各层间权值%和屹的函数,那么调整权值即可改变误差E?使用梯度下降法对其进行调整,对Mk和~分别求偏导啦:要:要警 嵋2瓦2丽茁△M:=巾―――-o 战:要:.要警5如口阮t|avq睁27a) (4.27a)睁2砌l斗。Z,DJ1 ‘显然权值调整的原则是误茬不断减小,因此应使调整量为梯度下降的方向。则在网络训练 过程中,各层权值的诵整量为△w。:1≤生宴堕 △%叫丽茁‘4。2聊 (4-28a)‰:1要警 嘶叫面i睁弱∞ (4-28” 北京服装学院硕士学位论文瓦甲负号表不梯厦F降的方同,常数O<,7<1为调整的步长,驯嗍络训练中的学习运翠?将式(4.28a)进行整理,把其表达为物理意义更明确和更易于实现的形式。如果在上述网络隐含层和输出层中,激活函数均使用单极性sigmoid函数,(工)=l/(1+P。)那么,‘(曲=厂(工)[卜,(明由式(4-22a),将激活函数引入输出层得(4-29)矗2,‘慨)2q(1一。t)而能量函数对于输出层输出的导数(4-30)罢--(咖)则有(蝴)鲁:要鲁:一(瓯吨)%(1一吼)孙etk∞k翮elk、I”‘、I’(4.32)、‘同时,输出层输入对于隐层权值的导数篑=乃那么。将式(4.32)和(4.33)代入(4―28a),则有㈣(4?34a)△_%=可瓯乃=叮(喀一吼)吼(卜‘吼)乃由同样的方法对(4―28b)处理,可得厂,Lt-I 1△%=,}岛t=蟹l∑溆一%)呸(1一吼)、%l乃(1一y,)tJ(4.34协其中4表示输出层的误差,t表示隐层的误差,有磊=一盖=(喀一q)吼(1一吼)(4.35a)铲盖=阻-o^)0I(1训%M一的)(4.3sb)这就是在标准BP算法下,多层感知器的学习过程中网络权值的调整方式。式“.34) 北京服装学院硕士学位论文是网络权值的调整量。可以看出BP学习算法中参数由三部分构成,即:学习速率叩、本 层输出的误差信号万以及本层输入信号。4.3.3使用标准BP算法的感知器神经网络应用误差反传学习算法例的多层感知器神经网络,被称为BP神经网络,该网络可将 一组样本的I,O问题转化为一个非线性优化问题,并可近似实现从输入到输出的任意连续 的非线性映射。 对于BP网络,按照第4.3.2节中的导出的权值修正方式修正网络权值,进行学习训练, 当系统的能量达到最小时,网络趋于稳定状态,学习结束。 本文设计的BP网络训练过程为: (1)初始化 将权值、阊值初始化为O~1之阃的随机值,样例计数器P和训练次数计数器碍置l, 误差E初始化为O,设定学习速率,7为O~l之间的小数。 (2)选择训练样例首先标定训练样例,方法是选取输入向量墨,..,,以,然后将与此对应的期望输出为标记为嘎,...,以。最后选择一定数目的调练样例即可。 (3)计算网络的输出误差 设共有,对训练样例。网络对于不同的训练样例具有不同的误差E9=√∑:,。(群一《)2?将全部样本输出误差的平方(∥)2进行累加再开方,采用均方根误差E眦2括∑二(明2作为网络的总误差。(4)计算各层的误差信号 应用式(4-35a)和(4_35b)计算各层的误差信号。 (5)根据误差信号调整权值 应用式(4.34a)和(4.34b)计算输入层和隐层之间权值矿以及隐层和输出层之间的权值矿中各个分量。(6)检查是否所有的样例都使用过一次 北京服装学院硕士学位论文着p<户(JP为训练样例的个数),计数器,和g各增1返回(2),否则进行下一步。 (7)检查网络的训练精度及训练终止条件当完成一轮训练之后,如果E。。<玩。,则训练达到精度,算法终止。其中£二。为要求的训练精度。否则作如下几个判断:(1)训练次数是否达到预先设定的最大值;(2)是否达 到最大训练时间:(3)能量函数梯度降是否达到最小值;(4)连续验证失败次数超过最大次数。 如果满足任意一个,则算法终止,否则返回(2)。4.4BP神经网络算法的缺陷和改进4.4.1标准BP算法存在的缺陷神经网络的信息处理能力不仅取决于神经元之间的连接强度,而且与网络的拓扑结构 有关。BP算法本质上可以看作是LMS准则在多层前馈神经网络中的应用,它采用的是非 线性无约束极值问题求解方法中最基本的方法――梯度法(最速下降法)。因此,BP算法存 在一些限制与不足,其主要表现在下面几个方面:(1)易形成局部极小,而得不到全局最优BP算法采用的是梯度下降法,可能存在局部极小问题,即BP算法可使网络权值收敛 到一个解,但它并不能保证所求的解为误差超平面的全局最小解,很可能是一个局部极小 解。在用它解决稍复杂的问题时,误差函数可能陷入一个局部极小区域,由此点向各方向 变化均使误差增加,从而使网络训练无法跳出这一局部极小值,致使学习过程失效。 (2)学习效率低 其原因有三:一是网络的学习速率太小所造成的;二是当输入量过大或过小时应用梯 度下降法训练网络,其梯度数量级也会很小,从而使得权值和阈值的调整范围很小,常常会使网络陷入“瘫痪”状态。三是标准BP算法采用的误差函数%=√∑:。(∥)2/P,随着学习的进行,误差越来越小。也使得学习速度减慢。 (3)网络隐含层节点数及初始权值的选取 这些参数的选取对网络的收敛有较大影响,但它们的确定缺乏足够的理论指导,通常 是根据经验选取。因此往往受设计者的经验影响较大。 “)新加进的学习样本会影响已有的学习效果。“‘。。●_____●-。。。。。。●●_●_-_。。_。一 北京服装学院硕士学位论文4.4.2对BP算法的改进如上所述,由于BP算法存在一些缺陷,针对这些问题,近几年来不少学者在如何加速 BP网络的收敛速度和尽量避免陷入局部最小等方面作了大量的工作,本文主要采用以下三 种方式对算法进行改进。(1)加动量项在修正网络权值时,不仅考虑误差在梯度上的作用,而且考虑在误差曲面上变化趋势 的影响。标准BP算法在权值调整中,只按t时刻误差的梯度降方向调整。而没有考虑t 时刻以前的梯度方向,从而常使训练过程发生振荡,收敛变慢。为了提高网络的训练速度,可以在权值调整公式中增加一动量项。△形(f)=枷X+a,△形O―1)(4.36)式中,口称为动量系数,一般有O<口<l。从前一次权值调整量中取出~部分叠加到本次 调整量中,口影响这个调整量的大小,对于t时刻的调整起到阻尼的作用。现在,BP算法 中都增加了动量项,有动量项的BP算法已成为一种新的标准算法。(2)动态改变学习速率动态改变学习速率有利于缩短学习时间。学习速率选得太小,收敛太慢;学习速率选 取得太大,则有可能修正过头,导致发散。因此出现了自适应调整的改进算法,学习速率 的改变方法很多,其目的都是使其在整个训练过程中得到合理调节,下面给出本文使用的方法。令水t+1)=∥衣t)“一37)上式表示两个时刻学习速率的关系,式中p是指学习速率的改变量。设定一初始学习 速率,若经过一批次权值调整后使总误差变大,则本次调整无效,减小学习速率值;若经 过一批次权值调整后使总误差变小,则本次调整有效,适当增大学习速率值。 (3)弹性梯度下降法 标准BP网络的隐含层通常采用sigmoid型作用函数。但是这类函数在应用的时候存在 很大的缺陷,当输入量过大或过小时应用梯度下降法训练网络,其梯度数量级也会很小, 从而使得权值和阔值的调整范围很小,常会造成即使没有达到最优值训练也会终止的后 果。基于此,本文对标准的BP网络算法进行了改进,使用弹性梯度下降法(RPROP)对47 北京强装学院硕士学位论文网络进行训练。在弹性梯度下降法中,权值修正取决于误差函数导数的正负号.而不受导数大小的影响,因此能够防止因调整过缓而导致的网络训练终止。其原理如下,权值变化的大小由不同的修正值决定。当两次训练时的导数的正负号没有改变时,权值和阈值的修正值增加; 当两次训练时导数的符号有改变,则权值和阈值的修正值减小;如果导数为O.则修正值 不变。这样调整的结果是,权值的变化呈振荡趋势,不过权值变化量逐渐减小。如果权值 变化连续几次都在同一个方向,则增加权值变化的数量级130J。4.5基于改进的BP网络的字符识别系统设计目前,常用的神经网络主要有BP神经网络、Hopfield网络、KDhonen网络等。网络类 型的选取依据主要是待分类样本的类型和数量。出于对车牌照字符特点的考虑,本文采用 的是BP神经网络。本文结合第三章介绍的字符特征提取方法,提出了一种基于投影变换 和弹性BP神经网络的字符识别方法。根据这种方法设计字符分类器,构建字符识别系统。4.5.1字符识别系统的构成在第二章中介绍过,目前中国境内使用的多是92式车牌,最近部分地区推出的个性 化车牌,由于其不具有普遍性,所以文中没有进行专门研究。 92式这种车牌字符由汉字,英文字母和数字组成,所以如果将所有的字符混合在一起 分类,一方面会使识别率降低,另一方面训练时间会很长。但是根据规定,车牌字符有这 样一个特征;第一个字符是汉字,为各省市的简称,如:“京”、“冀”、“鲁”等,第二个 字符是大写英文字母,如“A”、‘‘B’’等,第三个字符是英文字母或者是阿拉伯数字,第四至第七个字符均为阿拉伯数字。因此本文将子分类器分为四个:汉字分类器,英文字母分类器。英文字母和数字混合分类器以及数字分类器,这种神经网络设计可以有效简化网络结 构,提高识别精度和速度,多分类器的系统的构成如图28所示。49 托京服装学院硕士学位论文――一汉字分类器卜―一I车牌【字符 字符 特征 提取l图像一字母分类器 b l字母和数字 f 1混合分类器 rj字 符 识别 结 果―――一数字分类器卜―一图28多分类器系统框图在众多应用环境中,特征提取、分类器和多分类器集成是整个识别系统的核心。本文 的特征提取使用一种综合特征。把第三章介绍的基于投影交换的字符特征提取方法和字符 行列特征综合,做为分类器的输入。分类器的集成方式如上圈所示,这就完成了字符识另哩 系统的构造。4.5.2字符识别算法流程根据改进的BP网络算法,结合本文提取的字符特征,给出本文程序的流程图,如图29所示(见下页)。在MAl阻AB中编程实现该算法。将程序流图中的关键步骤说明如下:(1)程序入口处 的初始化是指权值和阁值以及相应计数器的初始化;(2)网络训练成功后,程序的返回数 据为该BP网络的权值和阙值;(3)关于条件判断,第二个判断指示训练是否成功,满足该 判断条件则认为网络训练成功,第三个判断指示训练是否失败,这些条件是一系列的网络 训练终止条件,其中包括最大训练次数限制、最大训练肘闯限制、能量函数梯度降最小值 以及连续验证失败次数限制,满足其中任何一个,则终止网络训练,同时认为训练失败; (4)关于误差反馈过程,此处进行权值的调整,本文在这个地方加入了对BP神经网络的改进算法。 北京服装学院硕士学位论文图29 BP算法的程序流图4.5.3网络参数的选取在自组织神经网络中,其结构和参数是可以自学习的。但是在BP神经网络的讽练过 程中恰恰相反,很多参数需要预先设定,因此网络参数的选取是个十分重要的环节。如上 所述,本文设计了多分类器字符识别系统,因此应针对每个分类器设计相应的参数。下面 给出参数的选取情况。 (1)输入层神经元节点数 输入层神经元节点数根据所提取的字符特征量的维数来确定。在第三章中提取的车牌50 托京驻装学院硕士掌位论文照字符特征向量为56维,故这些分类器的输入层节点数均为56个。 (2)输出层神经元节点数 输出层神经元节点数由待分类模式的总数决定。针对各个分类器的识别任务不同,节 点数也不相同。字母分类器24个(车辆牌照中的字母为除“I”、“O”之外的其他24个字 母),字母数字混合分类器34个,数字分类器lO个。对于汉字分类器,由于车辆牌照中 的汉字为车辆登记的地名等信息,在每个地区均具有该地区的聚集性,因此在北京取得的 样本中绝大多数均为“京”字。为了兼顾样本的丰富性,尽量地采集了其他地区的车辆牌 照。比如。冀”、“鲁”、“蒙”、。辽”、。津”、“苏”、“吉”和“黑”等。一共9种字符,故 汉字分类器的输出节点数为9个。 (3)隐层个数 神经网络的许多特性正是由于隐含层的存在才具备。通常隐含层为一层到二层时具有 最好的收敛性质,没有隐含层和隐含层层数太多的收敛效果均比较差。虽然双隐层的BP 网络能够解决任何复杂的分类问题,但是由于多隐层BP网络需要较长的训练时间,所以 本文采用了具有~个隐含层的三层BP神经网络。 (4)隐含层神经元数目 当用神经网络实现映射时,确定隐含层神经元数是至关重要的。隐含层神经元个数的 过少或过多将导致神经网络的学习能力不够或归缡能力下降;隐含层神经元数县较少对, 网络每次学习时间相对较短,但有可能因网络映射容量不够而使网络不能很好学习,从而 导致权值疲千来回调整而无法达到全局最小,网络训练精度也不高;隐含层神经元数目较 大对,学习缝力褥烈增强,但飘绍每次弧练所需的学习时阊榴对较长。甄络所需的存储容 量也随之变大。另外,网

我要回帖

更多关于 三星2o13主板多少钱 的文章

 

随机推荐