OCR：精准、稳定、易用的文字识别

时间 2019-12-07

标签 ocr 精准稳定易用文字识别繁體版

原文原文链接

OCR：精准、稳定、易用的文字识别算法

你们好，今天给你们介绍精准、稳定、易用的文字识别应用服务OCR。
OCR是英文光学字符识别的缩写，一般叫法为文字识别。它的工做原理是经过扫描仪或数码相机等光学输入设备来获取纸张上的文字图片信息，利用各类模式识别算法，分析文字形态特征，判断出合适的标准编码，而后按照通用的格式，存储在文本文件中。因而可知OCR其实是让计算机认字，实现文字的自动输入，它是一种快捷、省力、高效的文本输入方法。
文字识别的基本三要素就是O、C、R。O表明光学，即识别的是光线给出的文字，而不是声音，或者人体的触感等等。那为何会有光呢？主要是由于光的反射和物理会吸取光线。其次还要求字的颜色和背景是不同的。那一样它对于输入的图片的话，尽量的要保证图片的清晰度。第二个要素就是C，也就是字符的意思。你们须要注意的是，字符是信息的一种编码，不是字体。字符主要是实现信息的编码，好比说你们看到一张苹果的图片，那咱们第一反应它能够表明中文的苹果这两个字符，或者对应到英文的apple这个字符。所谓的文字其实就是一种字符，好比说你们经常使用的汉字，那就是中国人的字符。计算机显然也是须要对应到一个编码字符。好比说咱们经常使用的GBK、Unicode、UTF-8等等，那这时候就会产生一个问题，若是有的字的图像在计算机编码里面没有对应的信息，那是否是说这个文字就没办法被识别呢？答案是，的确如此。因此说咱们所使用的文字编码级，必定要尽量的覆盖咱们所要识别的字符。文字识别第三个要素就是R，它表明了识别的意思。刚刚咱们了解到了，O和C它分别表明了光学的图片和对应的字符。那如何将光学的图片映射到计算机编码呢？目前关于如何将图片字符转换到光学字符，有两种方法，一种是传统方法，还有一种是基于深度学习的方法。在咱们华为云学院的课程中会给你们作一个详细的介绍。须要注意的是OCR是指文字识别，可是OCR所采用的技术不只仅是适用于文字识别。
那么对于企业来讲，为何要使用OCR技术呢？举个例子，你们出差以后须要进行报销，报销的时候须要填写不少的信息，一样公司的财务人员须要花费一个较长的时间来进行INVOICE的一次次审核，有可能一个报销单须要通过三个或者说更多的财务人员进行一次次的审核校对。那即使如此，在咱们平常报销中，也多多少少会出现一些人为的错误。那么OCR技术可不能够帮助咱们实现INVOICE的快速准确的读取呢？答案是确定的。因而可知，OCR技术能够对于企业来讲，它能够减小相关人员审核所产生的成本，以及减小审核所须要的流程。总结一下企业为何须要使用OCR技术，第一，是为了下降重复性的劳动成本。第二，它能够提升业务效率，第三，它可以提升文本识别的精确度。
OCR在企业中主要运用于哪些场景呢？这里作了一个总结。第一文档场景，它主要用于印刷文档的识别，翻译文字的识别，搜索识别，涂抹识别。第二，电商场景，主要用于电商用户身份的绑定，实名认证，商家身份认证。第三，图片反做弊场景，它主要识别图像和视频中的一些违规文字，进行一些违规的处理和风险管控。第四，办公场景，主要会用于企业证件、年报、财报、piao据识别。而后接着是金融场景，它主要会用于客户的身份识别，身份绑定，我的信息核实。最后一个就是视频场景，主要是会用于视频字幕的识别，视频标题的识别，视频反做弊，图像反做弊，评论反做弊等。
文字识别的技术难点主要存在如下几个方面，第一就是图像质量差，不少场景待识别的文本图片的质量每每都不好，它存在严重的一些干扰曲线，倾斜、暗光或者曝光扭曲。好比说咱们经常使用的一些海关的报关的扫描单据。第二它对精确度要求特别高，在某些场景，用户对于数值的精确度要求特别高。好比说文本中的一些税率、金额、币种等文字的精确度要求高达百分之百。第三就是识别内容较为复杂，文本内容的复杂多样性，例如说一个文本中有可能存在不一样的字体和颜色，小数点近似的英文数字，特殊的字符，特殊的符号链接词以及数字的内容，它的识别难度会很大，很容易被漏识，或者误识。第四就是语言的种类的繁多，随着全球化如今愈来愈扩大，每家公司多多少少都会涉及到多个国家，这时候就要求OCR技术可以支持多语言多字符。
以上对文字识别进行了简要的介绍，访问华为云学院（https://edu.huaweicloud.com/），报名学习《文字识别服务》课程，了解更多文字识别关键技术及应用实践。华为云学院现已发布推出《智能表单和证件文字识别》微认证，微认证结合OCR服务，让您体验智能识别带来的效率提高！app