Python2.7+pytesser图片文字识别功能

时间 2019-11-11

标签 python2.7+pytesser python pytesser 图片文字识别功能栏目 Python 繁體版

原文原文链接

原文地址：http://blog.csdn.net/lanfan_11/article/details/45558573python

原文已经写的很详细了，结合本身操做中的一些错误和感悟，整理了一下，造成了下面的文章。数据库

-----------------------------------------------------------------------------------------------------------------函数

测试中须要将图片上的数字提取出来，和数据库的数字比较，判断图片上的数字是否正确。工具

网上查了下相关资料，了解到pytesser是谷歌OCR开源项目的一个模块，在Python中导入这个模块便可将图片中的文字转换成文本。测试

pytesser调用了tesseract。当在Python中调用pytesser模块时，pytesser又用tesseract识别图片中的文字。故安装的时候不须要安装tesseract。网站

具体安装步骤以下：google

首先，安装Python2.7版本
而后，安装PIL工具，下载的地址是：http://www.pythonware.com/products/pil/，pytesser的使用须要PIL库的支持。选择安装python对应的版本。
接着下载pytesser，下载的地址是：http://code.google.com/p/pytesser/downloads/listspa

因为code.google.com网站关闭了，因此，只能在csdn上下载了。下面是csdn的下载网址：http://download.csdn.net/download/pyliang_2008/5564135.net

最后，安装pytesser ：
一、解压pytesser ，将解压后的文件复制到Python安装目录的Lib\site-packages下，直接使用，好比个人安装目录是：C:\Python27\Lib\site-packages。
二、把2个目录添加到环境变量之中。注：若不添加环境变量，仅仅是执行第3步，执行import pytesser的时候能够导入成功，可是不能使用模块的任何函数，使用时会报函数错误。
C:\Python27\Lib\site-packages
C:\Python27\Lib\site-packages\pytesser-v0.0.1 调试

三、还要在C:\Python27\Lib\site-packages下面添加.pth 文件（pytesser-v0.0.1.pth），这个文件里面，只有 “pytesser-v0.0.1”字符串。

注：若只执行第2步，不执行第3步，则import pytesser时会提示没有此模块。

另外：为了美观，能够将pytesser-v0.0.1修改成pytesser。可是对应的相关位置都须要进行修改。

完成以上步骤以后，就能够编写图片文本识别的Python脚本了。

新建一个test.py的文件，复制下面的代码：

from pytesser import *
im = Image.open('D:\\fonts_test.png')
print im
bg = Image.new("RGB",im.size,(255,255,255)) #转换图片格式，不转换提示错误
print bg
bg.paste(im,im)
print im
text = image_to_string(bg)
print text
#如下代码存在问题，未调试经过。
text = image_file_to_string('fonts_test.png', graceful_errors=True)
print "Using image_file_to_string():"
print text

将pytesser路径下的fonts_test.png 图片复制到test.py的存放位置，能够执行下试试效果。