模式识别理论的研究与应用
摘要:通过对模式识别系统的简要评述, 对近年来几种基本的模式识别方法进行了总结, 并对模式识别在字符识别方面的应用原理作了介绍。字符识别技术属于模式识别的范畴,本文首先介绍模式识别的基本理论和基本方法,然后阐述了模式识别技术在光学识别技术上的应用,并将其应用到角铁字符识别系统上。实践证明,采用模式识别!能减轻人工操作的复杂性和失误。
关键字:字符识别;模式识别;凹凸字符;OCR(光学字符识别);特征抽取
Research and Application of Pattern
Recognition Theory
Abstract: In this paper components of pattern recognition system were introduced. Several basic pattern recognition methods which were frequently utilized are summed up. Finally Chinese character recognition which is a application of pattern recognition were introduced.Character recognition technology belongs to the category of pattern recognition, this paper first introduce the basic theory and basic methods of pattern recognition, and then expounds the application of pattern recognition technology in optical recognition technology! And apply it to the Angle iron character recognition system. Practice has proved that using pattern recognition! To reduce the complexity of manual operation and failure. KeyWord: Character Recognition; Pattern Recognition;Protuberant Characters;Optical Character Recognition;Feature Extraction
引言
字符识别是模式识别领域的一项传统课题,其中汽车车牌及手写字体、印刷字体等的识别研究己经取得了很大的进展并且得到了广泛应用,但是对于“无色差字符”(即字符与背景的材质相同)图像的研究远不如前者多,在研究成果和应用上也就相应产生了差距。这主要是由于这种“无色差字符”是靠凸、凹字模对压形成突出或者凹进表面的字体,在光学成像时,字符的轮廓是靠其表面不同强度的反射光,而不是靠材质对光线的不同吸收程度而形成的,比较有代表性的就是角铁、轮胎、标牌等。但是提高这种“无色差字符”的识别率,在诸多行业中,例如冶金、建材等均具有重要意义。对于车牌等字符识别的研究也均有极大的参考价值。
1模式识别技术的基本理论
模式识别是信号处理与人工智能的一个重要分支。人工智能是专门研究用机器人模拟人的动作、感觉和思维过程与规律的一门科学,而模式识别则是利用计算机专门对物理量及其变化过程进行描述与分类,通常用来对图像、文字、相片以及声音等信息进行处理、分类和识别。它诞生于20世纪,20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在60年代初迅速发展为一门科学。它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视与应用,推动了人工智能系统的发展,扩大了计算机应用的可能性。我们在生活中时时刻刻都在进行模式识别,如识物辨声辨味等行为均属于模式识别的范畴。模式识别技术在社会生活和科学研究的许多方面有着巨大的现实意义,己经在许多领域得到了广泛应用。 随着计算机技术和人工智能、思维科学研究的迅速发展, 模式识别技术正在向更高、更深的层次发展。
计算机出现后,人们企图用计算机来实现人或动物所具备的模式识别能力。当前主要是模拟人的视觉能力、听觉能力和嗅觉能力,如现在研究比较热门的图像识别技术和语音识别技术。这些技术己被广泛应用于军事与民用工业中。模式识别的理论和方法还广泛应用于工业控制系统、地质地理、气象、化工、环境、生物医学等领域中去。
1.1模式识别的基本概念
一个模式识别系统可分为四个主要部分,其框图如图一所示:
分类器设计数据获取预处理特征提取和选择分类决策图一 模式识别系统的组成
通常, 把通过对具体个别事物进行观察所得到的,具有时间和空间分布的信息称为模式,而把模式所属的类别或同一类中模式的总体称为模式类。 一个模式识别系统主要由 4个部分组成: 数据获取、 预处理、 特征提取和选择、 分类决策,其基本职能就是对系统所要处理的模式究竟属于哪一类别做出判别。 把输入模式转换成适合于机器处理的形式,这就是数据获取的过程。 预处理的目的是去除噪声,加强有用的信息,并对由输入设备或其他因素造成的退化现象进行复原,以利于特征提取的进行。经过预处理后的数据维数很高,为了有效地实现分类识别, 需要对原始数据进行变换,得到最能反映原始模式本质的特征向量。把原始数据组成的空间叫做测量空间, 把分类识别赖以进行的空间叫做特征空间。
通过变换可以把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式,这就是特征的提取和选择。 一组稳定的、 具有代表性的特征, 是一个识别算法的核心, 因此,采用不同特征的识别算法尽管分类策略相同也应属于不同的算法。分类决策是在特征空间中用所设计的分类器把被识别对象归为某一类别。构造一个模式识别系统包括两个方面: 一是系统设计,二是系统的实现。首先需要从每一类别中找出能代表该类的样本, 作为训练集,利用这些样本进行分类器的设计,然后再利用设计好的分类器对输入模式进行识别。
广义上说,模式(pattern)是供模仿用的完美无缺的标本,通常,把通过对具体的个别事物进行观察所得到的具有时间和空间分布的信息称之为模式;而把模式所属的类别或同一类中模式的总体称为模式类。模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系