tesseract的简单使用

时间 2019-12-07

标签 tesseract 简单使用繁體版

原文原文链接

Tesseract 是一个开源的 OCR 引擎，能够识别多种格式的图像文件并将其转换成文本，最初由 HP 公司开发，后来由 Google 维护。下载地址：https://digi.bib.uni-mannheim.de/tesseract/html

其中文件名中带有 dev 的为开发版本，不带 dev 的为稳定版本。测试

安装时能够添加支持的语言包，以下界面最后一个选项点开选择，咱们能够选择简体中文 Chiness(Simplified)。htm

安装完成后还须要将安装路径添加至环境变量。blog

打开 cmd，输入命令 tesseract -v，看到输出版本信息即表明安装成功。图片

识别命令：tesseract 图片路径结果文件名 -l 语言开发

一、将 cmd 切换到图片所在路径，则能够只输入图片名，不然须要全路径get

二、结果文件名不能够加后缀，一定会自动加 .txt 后缀，若是结果文件名写 a.txt，则最后输出的文件名为 a.txt.txt。cmd

三、-l 是英文字母L，不是数字1，language的意思。it

四、语言英文为 eng，简体中文为 chi_sim变量

截了个谷歌的图片来测试

输入命令：tesseract 1.png a -l eng，结果以下，识别正确

咱们尝试用简体中文试试

识别就有误了。

中文的识别能够另外截图试试，只是正确率并不高。

我 tesseract 是安装在 C 盘的，在 C 盘运行命令识别没问题，但在 D 盘打开 cmd 运行命令就报错了：

Error opening data file ….

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.

Failed loading language ‘eng’

Teseract couldn’t load any languages!

Counld not initialize tesseract

意思就是要将 tessdata 的父文件夹路径设置为名为 TESSDATA_PREFIX 的环境变量值。设置完成以后须要重启电脑，不然依然报错。