OCR是什么?
假设你想要数字化一本杂志的文章或印刷合同。你可能须要花时间从新输入,而后纠正错字。或者,你可使用扫描仪(或数码相机)和光学字符识别软件只须要花费几分钟转换成数字格式的全部材料。 学习
到底什么是OCR呢? 设计
光学字符识别,简称OCR,是一种可使你转换不一样文档的技术,好比将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成能够编辑的文档。 图片
假设你得到了一个纸质文件-好比,杂志、彩页或者你合做伙伴发给你的PDF合同。很明显,光是一台扫描仪是不足以让这些文档转变成能够编辑的文档,也就是Microsoft Word。扫描仪能够作的只是建立图片或者一张黑白或者彩色的图像文档。为了从扫描文档、PDF或者数码图片中提取文字和数据,你须要OCR软件识别图片上的信息,从单词到句子,而后变成整个能够编辑的文档。 文档
OCR背后是什么技术? get
人类识别物体的机制还须要继续探索,可是3个基本的原则已经被科学家所掌握,集成性(integrity), 有明确目的性(purposefulness)和适应性(adaptability)统称为 (IPA*)。这也是ABBYY FineReader 实现的技术核心所模仿和遵循的原则。 产品
让咱们来看一下FineReader OCR是如何识别一个文档的。首先,这个程序分析文档图片的结构。它将文档分红一些基本元素,好比文档块,表格,图片等。这些线分割成单词,再分割成字母。一旦这个字母已经被识别出来,这个程序将和一些模板图片进行对比。他将进行大量的逻辑分析这个字母是什么。基于这些逻辑,程序将分析单词和字母。进行完大量的可能性分析后,这个程序最后将判断并呈现出识别的文档。 it
另外,ABBYY FineReader 提供支持36种语言的字典。这将有助于在第二个层面分析文档的元素。在字典的支持下,能够进行更加精确分析和文档识别,下降未来识别结果的校验。 模板
FineReader OCR的基本原理 原理
最早进的识别系统,好比ABBYY FineReader OCR, 是模仿人工识别。在核心,这些系统遵循3个基本的原则:集成性(integrity), 有明确目的性(purposefulness)和适应性(adaptability)。实际的意思是说观察物体必须考虑到这个物体的内部相关性。目的性是指数据的表达都有必定目标性。适应性是指程序必须具备自学习能力。 软件
每一个人不须要成为OCR专家,并了解OCR内部的IPA。这些规则只是提供类最大的灵活性和智能性,并最大可能模板人工识别。
通过多年的研究,ABBYY能够将IPA原则运用到OCR产品中。
识别数码相片
数码相机拍摄的图片和扫描文档和PDF文档有所不一样。他们经常有所扭曲,昏暗,不利于OCR正确识别文档。ABBYY FineReader 最新版本支持适应性识别,特别为处理数码图片而设计。它提供了一系列功能特性来提升图片质量,使你能够充分使用您的数码设备。
OCR将为你带来什么好处。
使用ABBYY FineReader,识别出来的文档就像是原始文档同样。先进的、强大的OCR软件将帮助你节省大量的时间和精力,使你免于建立、处理不一样的文档。使用ABBYY FineReader,你能够扫描文档以备未来编辑、并与你的同事共享。你能够从书籍、杂志中抽取信息,并为你本身的研究提供资料和素材,而不须要从新打字输入。利用数码相机和OCR,你能够捕捉公告栏、海报和时间表上捕捉信息,知足你使用的须要。同时,你能够捕捉报纸和书籍信息,甚至在手边没有扫描仪的时候也能够完成捕捉。另外,你还可使用OCR软件建立可搜索式的PDF文档。
从初始纸质文档、图片和PDF文件和数据转换的整个过程只须要一分钟,识别完的结果几乎和原始的几乎同样。
如何使用OCR软件?
使用ABBYY FineReader OCR很是容易,过程由3个步骤组成:打开或者扫描文档,识别,而后保存成你须要的格式(DOC, RTF, XLS, PDF, HTML, TXT 等等.) 或者直接输出数据到office应用,好比Microsoft Word, Excel or Adobe Acrobat。
另外,最新版本ABBYY FineReader支持自动任务模式,这将对您平常工做大有帮助。有了这个功能,识别任务将自动运行,而不须要人工干预。更有ABBYY FineReader mac版供免费下载!
原文来自:http://www.twain100.com/xinwen/626转载请注明出处