Tesseract-OCR-03-图片文字识别
本篇介绍使用 Tesseract-OCR 作图片文字识别,识别手写文字的时候,正确率能达到 90%,当训练后正确率是极高的。这里介绍的图片文字识别,能够识别英文,数字和中文等spa
Tesseract-OCR 图片文字识别
- **Tesseract:**一款由HP实验室开发由Google维护的开源OCR,咱们能够不断的训练的库,使图像转换文本的能力不断加强;若是团队深度须要,还能够以它为模板,开发出符合自身需求的OCR引擎
- 若是尚未安装 Tesseract-OCR 请参考:
- 固然配置环境也都下载上面那篇文章了,一步一图很详细
正题 图片文字识别
tesseract num1.jpg num1.net
- 这里 -l eng 是设置语言,不写的话,默认是 eng 也就是英语

- 结果:

- 注意:
识别手写英文
- 识别图片 eng2.jpg

- 输入命令:保存为 eng2.txt

- 咱们对比一下结果:

- 这里是识别错了一个字母,把 ig 错误的识别成 S,包括上面那张 数字也是错了一个
- 那也就是咱们要努力的方向了
识别中文
- 这里识别中文只须要将 -l 参数改为 chi_sim 例如:
- 对 有中文文字的图片 chi1.jpg ,进入图片路径,使用一下命令:
**tesseract chi1.jpg chi1 -l chi_sim **3d
识别英文和数字夹杂验证码
- 例如:
- 对 图片 timg.jpg ,进入图片路径,使用一下命令:
tesseract timg.jpg timgblog
Tesseract 训练:
- 咱们能够经过重复的训练,用更多的数据去训练,就能够达到更多高的识别正确率
- 咱们使用 jTessBoxEditor 训练
- 因为 jTessBoxEditor 的安装和训练,内容比较多,我再整理一篇
<hr>- 本笔记不容许任何我的和组织转载图片