包装机械

 

 

 

 

 

OCR 光学字符识别技巧


基本概念

OCR是英文 Optical Character Recognition 的简写,中文译为“光学字符识别”。

OCR是指电子设备(譬如:扫描仪)或传感器 (譬如:视觉传感器) 先通过检测印刷字符明、暗确定字符形状,然后再用字符识别方法将字符形状翻译成计算机文字的过程。即:针对印刷字符,采用光学方式将纸质文档文字转换成黑白点阵图像文件,再通过自动识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑、处理的技术。

OCR识别文本时,图片质量一般建议150dpi以上。

OCR对彩色图片识别较差,黑白图片识别较好;因此,建议采用黑白图片。OCR对印刷字体识别较好,手写识别较差。

如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)名词也因此而产生。

衡量一个OCR系统性能好坏的主要指标,包括:

拒识率、误识率、识别速度、用户界面友好性、产品稳定性、易用性及可行性等。


发展历程

OCR概念由德国科学家 Tausheck 于1929年最先提出,之后,美国科学家 Handel 也提出了利用技术对文字进行识别的想法。

而最早对印刷汉字识别进行研究的是 IBM 的 Casey 和 Nagy,1966 年他们发表了第一篇关于汉字识别的文章,采用模板匹配法识别了 1000 个印刷体汉字。

60、70 年代世界各国开始对 OCR 进行研究;初期,多以研究文字识别方法为主,且识别文字仅为 0 至 9 的数字。

以同样拥有方块文字的日本为例,1960年左右开始研究OCR基本识别理论,初期以数字为研究对象,直至 1965 至 1970 年才开始有一些简单产品。譬如:印刷文字邮政编码识别系统,能识别邮件上的邮政编码,帮助邮局进行区域分信作业。因此,邮政编码至今一直是各国所倡导的地址书写方式。

20 世纪 70 年代初,日本学者开始研究汉字识别,并做了大量工作。


OCR 中国

中国在OCR技术方面的研究工作起步较晚,70 年代开始对数字、英文字母及符号的识别进行研究,70 年代末才开始进行汉字识别的研究,到 1986 年我国提出 “863” 高新科技研究计划,汉字识别研究进入一个实质性阶段。

此时,清华大学的丁晓青教授和中科院分别开发研究,相继推出了中文OCR产品,现为中国最领先汉字OCR技术。

早期的OCR软件,由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,运行速度慢,也没有达到实用程度。只有个别部门,譬如:信息部门、新闻出版单位等使用OCR软件。进入 20 世纪 90 年代后,随着平台式扫描仪的广泛应用,及我国信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发展,OCR识别正确率、识别速度满足了广大用户的要求。



使用技巧

01、分辨率

分辨率的设置是文字识别的重要前提。一般扫描仪能提供很多图像信息,识别软件比较容易得出识别结果。

但也不是扫描分辨率设得越高识别正确率就越高。选择 300 dpi 或 400 dpi 分辨率,适合大部分文档扫描。

注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。

02、亮度、对比度

扫描时适当调整亮度、对比度值,使扫描文件黑白分明。

这对识别率的影响最为关键,扫描亮度和对比度值的设定,以观察扫描后图像中汉字的笔画较细但又不断开为原则。

进行识别前,先看扫描得到的图像中文字质量如何。如图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应增加亮度值;如文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度。


03、软件

一款好的扫描软件。选一款好的适合自己的 OCR 软件是做好文字识别工作的基础,一般不要使用扫描仪自带的 OEM 软件,OEM 的 OCR 软件功能少、效果差,有的甚至没有中文识别功能。

再选一款好的图像编辑软件。因为,OCR 软件不能识别所有扫描仪;其次,也是最关键的,利用图像编辑软件的扫描接口扫描出来的图像便于处理。

04、文字样式

若要识别的文本是带格式的,如粗体、斜体、首行缩进等,部分 OCR 软件识别不出来,会丢失格式或出现乱码。

如必须扫描带有格式的文本,事先要确保使用的识别软件是否能支持文字格式扫描。也可关闭样式识别系统,使软件集中注意力查找正确字符,不再顾及字体和字体格式。


05、透明、半透明稿件

在扫描识别报纸或其他半透明文稿时,背面文字透过纸张混淆文字字形,对识别会造成很大障碍。

遇到该类扫描,要在扫描原稿背面盖一张黑纸,扫描时,增加扫描对比度,即可减少背面模糊字体对识别的影响,提高识别正确率。

06、扫描模式、阀值

一般文本扫描原稿都为黑、白两色原稿,但是在扫描设置时却常将扫描模式设为灰度模式。

特别是在原稿质量较差时,使用灰度模式扫描,并在扫描软件处理完后再继续识别,这样会得到较好的识别正确率。

值得注意的是:OCR 识别软件可自动确定阀值,几个百分点的阀值差异,就会影响识别的正常运行。当然,得到的图像文件的大小就会比黑白文件大很多。在进行大批量文稿扫描时,必须对原稿进行测试,找到最佳的阀值百分比。


07、图文稿件

遇到图文混排的扫描原稿,首先明确使用的识别软件是否支持自动分析图文这一功能。

如支持的话,在进行这类扫描识别时,OCR 软件会自动算出文本内容、位置、先后顺序。文字部分可按照标示顺序正常识别。

08、扫描区域

手动选取扫描区域会有更好识别效果。设置好参数后,先预览一下,然后开始选取扫描区域。

不要将要用的文章一股脑儿选在一个区域内,因为现在的文章排版为追求更好视觉效果,使用图文混排的较多,扫成一幅图像会影响 OCR 识别。因此,要根据实际情况将版面分成 N 个区域,怎么划分区域呢?每一区域内的文字字体、字号最好一致,没有图形、图像,每一行的宽度一致,遇到长短不一,再细分,一般一次最多可扫描 10 个选区。根据不同情况,合理设置识别区域顺序。不要嫌这个过程太烦,那可是提高识别率的有效手段。注意各识别区域不能有交叉,做到一切觉得完好以后再进行识别。

这样的话,一般识别率会在 95% 以上,对于识别不正确的文字进行校对后,就可进入相应的文字处理软件进行所需处理。


09、放置原稿

在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。

同时应保护扫描仪玻璃的干净和不受损害。文字有一定角度的倾斜,或是原稿文字部分为不正规排版,必须在扫描后使用旋转工具,进行纠正;否则 OCR 识别软件会将水平笔划当做斜笔划处理,识别正确率会下降很多。

建议用户尽量将扫描原稿放正,用旋转工具纠正会降低图像质量,使字符识别更加困难。

10、预览阀值

先 "预览" 整体版面,选定要扫描的区域,再用 "放大预览" 工具,选择一小块进行放大显示到全屏幕,观察其文字的对比度,文字的深浅浓度,根据情况调整 "阀值" 的大小,要求文字清晰,不浓 (文字成团) 不淡 (文字断笔画),一般在 "阀值" 80 左右为宜,最后再扫描。


11、微调

用工具擦掉图像污点,包括原版页面中无需要识别的插图、分隔线等,使文字图像中除了文字没有一点多余的东西;这可提高识别率并减少识别后的修改工作。

12、扫描特殊原稿

如要扫描印刷质量稍差一些的文章 (譬如:报纸),扫描结果可能不会黑白分明,会出现大量黑点,且在字体笔画上还会出现粘连现象。这两项可是汉字识别的大忌,将严重影响汉字识别的正确率。

为获得较好识别结果,必须仔细进行色调调节,反复扫描多次才能获得比较理想的结果。另外,由于报纸很薄且大部分纸质不高,导致扫描仪上盖板不能完全压住报纸 (有缝隙);所以,一般情况下报纸的扫描识别效果没有杂志的效果好。解决办法是在报纸上压一至两本 16K 的杂志,效果还是不错的。