OCR4:Tesseract 4

Tesseract OCR 该软件包包含一个OCR引擎 -  libtesseract和一个命令行程序 -  tesseract。 Tesseract 4增长了一个基于OCR引擎的新神经网络(LSTM),该引擎专一于线路识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎经过识别字符模式来工做。经过使用Legacy OCR Engine模式(--oem 0)启用与Tesseract 3的兼容性。它还须要训练有素的数据文件,这些文件支持传统引擎,例如来自tessdata存储库的文件python

tesseract 4.0已经加入LSTM了,在用命令行执行的时候,添加 “–oem 1”参数便可,可是pythonocr模块里并无提供使用oem参数的init函数,查看tesseract的源码,capi.cpp定位到257行有git

在外部调用的时候,只须要将之前的github

  • handle = tesseract_raw.init(lang='eng')

修改为:api

  • handle = tesseract_raw.init(lang='eng', oem=1)

便可。下载最新支持lstm的tessdata数据包,识别结果会比以前有大大的提升!如何在调用API的时候使用多语言,就如同命令行下的 -l eng+chi这种,还在摸索中网络

tesseract 4.0: https://digi.bib.uni-mannheim.de/tesseract/函数

安装包:https://github.com/UB-Mannheim/tesseract/wiki测试

安装完后测试:spa

  •  

参考资料.net


相关文章
相关标签/搜索