文字识别的过程详细介绍

作者：专题点击：169次评论：0次标签：文字识别

在学习生活中经常会使用一些文字识别软件去提取一些文字，那么文字识别的过程是什么呢？这里给大家带来的是文字识别的过程详细介绍，一起来看看吧。

经常用扫描仪的朋友可能对OCR并不陌生．OCR即Optiotd Character Recognition．中文含义就是光学字符识别的意思，就是将图像作一个转换，使图像内的图形继续保存．将文字识别出来．这样使人们从繁重的键盘录入的劳动中解脱出来。目前几乎所有扫描仪都附带有OCR识别软件．但遗憾的是即使是同一个OCR软件识别的正确率差距也较大。目前比较常见的OCR软件有清华紫光和尚书六号。

扫描仪的一个重要功能就是通过OCR软件（即文字识别软件）将扫描后的文字图像转换成文本格式的文件，使文字处理软件能够调用处理。这样可以大大提高文字录入速度，极大地提高工作效率。目前，文字识别软件主要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。不过，我们在进行文字识别时经常会遇到识别率低的问题，其原因除了被识别稿件有问题外，主要还是我们没有掌握好扫描及OCR识别软件的使用技巧。那么进行文字识别时有哪些技巧呢？

一、根据识别稿的质量进行处理

进行扫描识别时，在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿，识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。对一般的印刷稿、打印稿等质量较好的文稿进行识别，只要掌握好方法与技巧，其识别率一般可达到98％以上。而对报纸、杂志等清晰度不佳的原稿进行识别，无论使用何种识别软件都难以达到很高的识别率。

1.对一些带有下划线、分隔线等符号的文本原稿，有些OCR软件是识别不出的，一般会出现乱码。如果必须扫描带有这些符号的原稿，一是要确保使用的识别软件能够识别这些符号。二是使用工具擦掉这些特殊符号，使识别软件能正确识别这些文字。如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号，可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除，同时将图像上一些杂点也一并去除。使图像中除了文字没有多余的东西，这可以大大提高识别率并减少识别后的修改工作。

2.在扫描识别报纸或纸张较薄的文稿时，扫描时稿件背面的文字通常会透过纸张造成错字或乱码，使识别率大大降低。在对这类原稿扫描时，我们可以在原稿的背面覆盖一张黑纸，在进行正式扫描时，适当增加扫描对比度或亮度，即可有效提高识别率。

3.对于一些图文混排的原稿，扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。我们可以根据实际情况将扫描后的版面切分成多个区域后再识别，切分区域的原则是：将图形、图像排除在区域之外（图1），尽量把文字字体、字号一致的划在一个区域内，不要嫌这个过程烦琐而选用自动切分区域，手动选取扫描区域会有更好识别效果，还应注意各识别区域不能有交叉情况。

二、扫描识别稿的操作技巧

1.首先要保持工作环境的清洁，扫描仪的玻璃板以及若干个反光镜片及镜头，其中任何一部分脏污都会影响扫描文字图像的效果。因此，保持扫描仪的清洁是确保文字图像扫描质量及识别率较高的重要前提。

2.扫描仪在刚开启时，光源的稳定性较差，而且光源的色温也没有达到正常工作所需的色温，所以开始扫描以前最好先让扫描仪预热一段时间。

3.在放置扫描原稿时，把扫描的文字材料摆放在扫描起始线正中，可以最大限度地避免由于光学透镜导致的失真而影响识别率。

4.扫描后的文字图像经常会有一定角度的倾斜，出现这种情况必须在扫描后使用自动或手动旋转工具进行纠正，OCR软件一般都设有自动纠偏和手动纠偏工具。否则OCR识别软件会将水平笔画当作斜笔画处理，识别率会下降很多。如果扫描后的文字图像倾斜角度超过15°，倾斜校正会产生较大的失真和误差，从而严重影响识别率，这种情况建议摆正原稿重新扫描。

三、扫描参数的设置

扫描参数的设置主要包括分辨率的设置及亮度和对比度的设置。

1.一般来讲，分辨率越高识别率也就会越高。但这也不是绝对的，对于一些过大过粗的字体，设置过高的分辨率，识别率可能会降低，而且设置高分辨率后，扫描速度会大大降低。根据实际经验，1、2、3号字的文稿推荐使用200dpi，4、小4、5号字的文稿推荐使用300dpi，小5、6号字的文稿推荐使用400dpi，7、8号字的文稿推荐使用600dpi

2.扫描时适当地调整好亮度和对比度值，对识别率的高低影响很大，在进行扫描亮度和对比度的设定时（图3），以扫描后的图像中文字的笔画较细、均匀，且没有明显断点为准。如果扫描后的文字图像存在黑点、黑斑或文字线条很粗很黑，分不清笔画，说明亮度值太小，应该增加亮度值再重新扫描。如果文字线条凹凸不平，有断线甚至图像中汉字轮廓严重残缺时，说明亮度值太大，应减小亮度后再重新扫描。如果要扫描质量比较差的文稿，比如报纸，扫描出的图像可能会出现大量的黑点，而且在字体的笔画上也会出现粘连现象，为获得较好的识别结果，必须仔细进行亮度和对比度值的调整，反复扫描多次才能获得比较理想的效果。

四、识别后的处理工作

1.文字校正

文字校正是OCR识别工作中比较烦琐的一步。一般OCR软件对可能出现错误的文字，会显示出蓝色标记，请用户确认。但在没有提示出错的地方，也有可能出错。所以大家在校对时应该通读一遍，以提高文字录入的准确率。

2.识别后文本的保存

如果把识别后的文本简单复制粘贴到Word中保存处理，就需要去掉多余的硬回车，这样会非常麻烦。正确方法是：先将识别后的文本存盘，在存盘时设置为软回车就行了。对于《紫光OCR》，则需要在识别完成后，选择文件菜单下的导出命令，将存储类型选为TXT，段内回车字符选为无。注意：一定不要直接存盘，否则不能自动去掉文章的硬回车。《尚书OCR》、《汉王OCR》和《紫光OCR》都提供了段内去除硬回车的功能。

PDF文字提取软件
手机图片文字识别软件
文字识别软件

: (12)PDF文字提取软件; PDF文字识别软件相信有不少人都是想要的，这种软件其实是非常多的，一般的只需要上传或者是通过相机进行扫描就可以扫描出正确的文字出来！现在为大家带来众多PDF文字识别软件！每一个都是可以扫描pdf文件的！
...更多>>

下载
白描app2.2.1 安卓手机版
10-06 / 13.9M
推荐理由：白描app是一款免费的手机ocr文字识别软件，支持的语言非常多，有中文、英文、日语、韩、法、德、俄等等，使
下载
带有OCR的PDF扫描仪手机版1.0.0 安
01-18 / 25.0M
推荐理由：带有OCR的PDF扫描仪手机版是一款pdf扫描仪软件，可以直接的让你的手机变成扫描仪，可以快速的把你的文件以及
下载
文字扫描识别软件(文字扫描王)1.4.
08-15 / 13.2M
推荐理由：图片自动转换成文字识别，可以对错误文字修正。文字扫描王不需要pdf和打印文件了。节约成本的同时提升了办公
下载
图片文字识别(OCR app)1.0.16 安卓
01-15 / 1.8M
推荐理由：有些图片上会有很多的文字，想要获取上面的文字除了一个个手打外，今天小编知道一个快捷的方法，那就是用OC
下载
快证通拍照识别文字app1.0.1.1 手机
12-31 / 9.9M
推荐理由：通过拍一张照片就可以自动获取证件里面的信息，快证通拍照识别文字app为用户带来了极大的方便，再也不用一个
下载
apus文字识别手机版2.0.187 去广告
12-22 / 1.7M
推荐理由：apus文字识别手机版软件是一款手机上的图片识别文字神器，帮助用户快速识别图片上的文字信息，可以支持多种

: (6)手机图片文字识别软件; 一张图片上的文字，想要COPY下来是不可能的，那么如何才能将图片上的文字转换成文档呢？东坡小编为大家推荐手机图片文字识别软件，智能识别图片上的文字，并可以形成文档格式保存，非常方便，欢迎来下载使用！
...更多>>

下载
文字扫描识别软件(文字扫描王)1.4.
08-15 / 13.2M
推荐理由：图片自动转换成文字识别，可以对错误文字修正。文字扫描王不需要pdf和打印文件了。节约成本的同时提升了办公
下载
图片文字识别(OCR app)1.0.16 安卓
01-15 / 1.8M
推荐理由：有些图片上会有很多的文字，想要获取上面的文字除了一个个手打外，今天小编知道一个快捷的方法，那就是用OC
下载
apus文字识别手机版2.0.187 去广告
12-22 / 1.7M
推荐理由：apus文字识别手机版软件是一款手机上的图片识别文字神器，帮助用户快速识别图片上的文字信息，可以支持多种
下载
图片文字语音识别软件9 快速转换版
11-25 / 1.7M
推荐理由：图片文字语音识别软件是一款功能强大的智能识别工具，可以识别图片上的文字，还可以将文字转换为语言，帮助
下载
手机ocr文字识别软件1.0 免费版
11-25 / 257KB
推荐理由：手机ocr文字识别软件为网友们提供高效、精准的文档识别服务，免费使用，可拍照上传也可本地上传图片，欢迎来
下载
拍照识别文字软件4.11 安卓手机版
11-25 / 16.0M
推荐理由：拍照识别文字软件是一款功能实用的手机工具，网友可以通过手机拍照来识别图片上的文字信息，可自动识别文档

: (6)文字识别软件; 文字识别软件现在也是很不多的朋友都是非常的需要使用到的，那么现在小编就给你介绍下目前世面上的一些文字识别软件识别率高的，以及还是免费版下载的，有这方面需要的朋友现在小编就给你介绍下面的这些吧！赶快来下载试试看！
...更多>>

下载
Na文字识别软件1.2.3 绿色版
10-19 / 418KB
推荐理由：Na文字识别软件是一款使用十分方便的文字识别软件，该软件占用内存小，操作简单，能够快速帮用户对图片进行
下载
丹青中英文辨识系统(ocr文字识别)v
07-17 / 164.9M
推荐理由：丹青中英文辨识系统是一款功能强大的ocr文字识别软件。软件可以快速读取ocr格式的文档资源，支持文档重新编
下载
ABBYY FineReader 14 OCR(文字识别
05-05 / 509M
推荐理由：ABBYYFineReader14是一款功能强大的图片文字识别软件。该软件能准确快速的将扫描文件、pdf格式转换成可编辑
下载
互盾OCR文字识别软件1.0 官方版
01-16 / 664KB
推荐理由：将图片中的问题提取出来如果依靠手打就很慢，互盾OCR文字识别软件是一款文字识别软件，直接提取图片中的文字
下载
图片文字提取(识别看看TryOCR)6.5
03-10 / 15.7M
推荐理由：这是一款非常不错的从图片中获取文字的小软件，识别速度快，提供一秒识别的功能。提供文档识别，框选识别，
下载
coco文字识别软件1.0.0.1 免安装破
12-18 / 57.3M
推荐理由：很神奇的软件,功能很实用,开发者是真的动了脑筋的. 功能详解：核心功能：快速截取图像，把图像里的文字转