服务热线:
13556800578
联系我们
服务热线
13556800578
电话:13556800578
传真:0755-23227627
地址:深圳市龙华新区大浪白云山新村明兴动力C栋9F
在字符识别中的应用及案例—晶新科技
作者: 发布日期:2017-05-27
在字符识别中的应用及案例晶新科技
OCR的英文全称为Optical Character Recognition(光学字符识别),是指通过扫描等光学输入方式将报刊、书籍、票据及其他印刷品上的文字转化为影像信息,在利用识别技术将影像中的文字转换成文本格式,以便计算机进行编辑处理的一种系统技术。
 
 OCR技术原理
     OCR识别系统的目的很简单,只是要将影像作一个转换,使得影像内的图形继续保存,有表格则表格内的资料及影像中的文字,以便减少影像资料的储存量,识别出的文字可再使用及分析,节省因键盘输入的人力与时间。从工作流程分析,OCR识别系统须经过影像输入、影像预处理、版面分析、行字切分、特征提取、比对识别、字词校正,到最终结果输出几个过程,如图6-42所示。
https://shop1479314641484.1688.com/
http://www.jingxinsztech.com/
 
(1)影像输入
通过各种光学输入方式,如扫描仪、传真机或DC等摄影器材,将票据、报刊、书籍、文稿及其他印刷品的文学转化为图像信息到计算机中。通常OCR影像输入使用平台型扫描仪或掌上型扫描仪,将欲识别的文件先行扫描成图形格式文件。扫描的分辨率越高,越有利于文字的识别工作。
(2)影像预处理
  由于输入文件的表面不干净,或是扫描仪本身扫描时造成的失真现象,可能使得输入的影像存在一些污点或独立点,这样会影响到文字的正确识别。因此,在文字识别前,需对获取的文件影像进行倾斜校正、彩色处理并清除影像上的污点或独立点。

https://shop1479314641484.1688.com/
http://www.jingxinsztech.com/
 
(3)版面分析
  版面分析完成对文本图像的总体分析,区分出排版顺序、文本段落及图形、表格的区域。对于文本区域将进行识别处理;对于表格区域进行专用的表格分析及识别处理;对于图像区域进行压缩或简单存储。
(4)行字切分
行字切分是将大幅的文字影像先切割为行,再从影像行中分离出单个字符的过程。由于扫描仪本身造成的失真,或由于扫描分变率太低,会导致扫描后的字体发生不完整的现象,如字符的不连续与锯齿状以及字体内有破洞等,进而造成文字识别的错误。智能型OCR软件会针对文件中的部分文字笔画不连接的情况,正确地进行行文字切割或合并。
(5)特征提取
特征提取是OCR识别整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程。提取的特征的稳定性及有效性,直接决定了识别的性能。简易的区分可分为两类:一类特征为结构特征,在文字细线化(所谓细线化是将中文字体薄皮剔肉的动作,让字体只剩下骨架,因此这项技术又称骨架化。细线化程序可以保留中文字体的信息,并且消除不必要的资料量)后,取得字的笔画端点、交叉点的数量及位置,或以笔划段为特征,配合特殊的比对方法进行比对。而另一类为统计的特征,如文字区域内的黑/白点数比,当文字区分为几个区域时,这一个个区域黑/白点数比的联合,就成了空间的一个数值向量。在比对时,基本的数学理论就足以应付了。
https://shop1479314641484.1688.com/
http://www.jingxinsztech.com/
(6)比对识别
当提取文字特征后,无论是用统计或结构特征,都必须有一比对数据库或特征数据库来进行比对识别。数据库的内容应包含所有欲识别的文字字集,以及根据与输入文字一样的特征抽取方法所得到的特征群组。对比识别模块应用了数学运算理论,根据不同的特征特性,选用不同的数学距离函数,较知名的比对方法有:欧式空间的比对方法、松弛比对法、动态程序比对法,以及类神经网络的数据库建立及比对、等方法。
(7)字词校正
  OCR的识别准确率是无法达到百分之百的,因此除错及更正的功能也成为OCR系统中必要的一个模块,这包括字词后处理和人工校正。字词后处理即利用比对后的识别文字与其可能相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,作更正的功能。而人工校正则是OCR最后的关卡,通过对照当前字符的原始图像校正识别结果,替换或修改识别有误的字符。对于OCR软件而言,除了一个稳定的影像处理及识别核心以降低错误率外,
人工校正的操作流程及功能,同样也影响OCR的处理效率。
(8)输出结果
最后,将识别结果输出为需要的格式进行保存,或者通过导出命令输出到其他应用程序中。
https://shop1479314641484.1688.com/
http://www.jingxinsztech.com/

Copyright @ 2011-2017 深圳市晶新科技有限公司 All Rights Reserved. 版权所有备案号:粤ICP备12345678号
电话:13556800578传真:0755-23227627
地址:深圳市龙华新区大浪白云山明兴动力C栋9F公司主营产品:视觉检测设备CCD机器视觉点胶机灌胶机
晶新科技是专业从事机器视觉检测、非标自动化设备的设计与研发,制造与生产,销售与服务的系统方案提供和增值服务的厂商,欢迎来电咨询!