文字识别引擎试用：tesseract-ocr

时间 2019-11-17

标签文字识别引擎试用 tesseract ocr 繁體版

原文原文链接

tesseract-ocr是一个OCR引擎，在1985年到1995年由HP实验室开发，后来由google开发而且开源，支持多平台，支持多达40种语言，其中包括中文，支持训练，tesseract-ocr是一个命令行程序，可是也提供多种语言的包装器，如.Net 、Python、Ruby、C、Java，方便集成到程序中使用。测试

命令行调用很简单：字体

tesseract.exe <image> <outputName> [-l lang] [configs]google

<image>：要识别的图片路径spa

<outputName>：命令行模式下，tesseract会把识别出来的文字结果保存在一个文本文件中，outputName是该文件的名字，若是值为“lixin”，那么结果会保存在程序根目录下的lixin.txt文件中。命令行

[-l lang]：默认状况下自带了英文的字典，若是想识别中文或者其余语言，须要在下载相应的语言包，并存放在程序“/tessdata”目录下，例如我下载了一个简体中文包，文件名为“chi_sim.traineddata”，解压到“tessdata”目录下，而后该值为：“-l chi_sim”。code

[configs]：配置项。图片

调用的例子： tesseract.exe d:\test.jpg resultFile –l chi_sim开发

通过测试，英文的识别率仍是比较高的，但在字体比较小的状况下，识别率不好，我在记事本上输入本身的手机号码，10px字体，而后截图测试，发现识别错误，接着我把原图进行放大到200%，再进行测试，则识别正确；测试中文时，识别率没有英文高，并且一样存在字体不够大时识别错误率高，经过放大图片或者字体均能提升识别率，常规的验证码识别没问题，可是连体字符则没法识别。get