光学字符识别
光学字元辨识(英语:Optical Character Recognition,OCR)是指对文字资料的图像档案进行分析辨识处理,取得文字及版面资讯的过程。
过程
输入
对于不同的图像格式,有着不同的储存格式、不同的压缩方式,目前有OpenCV、CxImage等。
前期处理
二值化
如今数位网路摄影机拍摄的图片,大多数是彩色图像,彩色图像所含资讯量巨大,较为不适用于OCR技术。
对于图片的内容,我们可以简单的分为前景与背景,为了让电脑更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景资讯与背景资讯。二值化也可以简单地将其理解为「黑白化」。
图像降噪
对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,称为降噪。
倾斜校正
由于一般使用者,在拍照文件时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软体进行校正。
中期处理
版面分析
将文件图片分段落,分行的过程称为版面分析,由于实际文件的多样性、复杂性,此步骤目前仍待最佳化。
字元切割
由于拍照、书写条件的限制,经常造成字元粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR效能。因此需要进行字元切割,即:将不同字元之间分割开。
字元辨识
早期以模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。
版面还原
人们希望辨识后的文字,仍然像原始文件图片那样排列,段落、位置、顺序不变地输出到Word文件、PDF文件等,这一过程称为版面还原。
后期处理
根据特定的语言上下文的关系,对辨识结果进行校正。
输出
将辨识出的字元以某一格式的文字输出。
发展历史
OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。后来美国科学家Handel也提出了利用技术对文字进行辨识的想法。中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。日本在20世纪60年代开始研究OCR辨识理论,开发了邮政编码辨识系统。