Windows下安装tesserocr

时间 2019-12-10

原文原文链接

很难受，因为这两天重装了系统，又得从新配置环境了，而我在安装tesserocr的时候踩了一些坑，因而想写出来分享一下。python

一.安装tesseract

要安装tesserocr，首先要下载tesseract，它是给tesserocr提供支持的。下载地址为：https://digi.bib.uni-mannheim.de/tesseract/。git

打开以后能够看到有不少文件，带dev的为开发版本，不带dev的为稳定版本，咱们选择下载不带dev的版本，好比最新的这个：tesseract-ocr-w64-setup-v4.1.0.20190314.exe。下载完成以后运行安装，一直点击next，直到出现以下页面：github

在Additional language data中包含了OCR支持识别的各国语言包，能够根据状况选择，我这里就选择了中文的：windows

以后的过程就不用赘述了，这里由于我只选择了中文语言包，因此下载起来仍是很快的。ui

使用pip install tesserocr进行安装。我在安装的时候碰到了下面这个问题：spa

解决办法：code

1）下载对应版本的whl包进行安装，下载地址：https://github.com/simonflueckiger/tesserocr-windows_build/releases。blog

好比个人Python版本是3.7，电脑是Windows64位，因此我下载的是：tesserocr-2.4.0-cp37-cp37m-win_amd64.whl。下载完以后使用pip进行安装：图片

2）安装Visual Studio，好比VS2017。这个怎么说呢，虽然它里面包含了不少包，安装起来也很简单，可是若是你想卸载就很蛋疼了，并且这个软件会占用C盘几个G的空间，因此我我的是不推荐使用这个办法的。ip

首先找到你tesseract安装的目录位置，好比E:\Tesseract-OCR，而后将该路径添加到环境变量path中：

以后新建一个系统变量TESSDATA_PREFIX，对应的值为：E:\Tesseract-OCR\tessdata：

下面是一个简单的示例，使用的图片为：

代码很简单，以下：

1 import tesserocr
2 from PIL import Image
3 
4 
5 img = Image.open("test.jpg")
6 print(tesserocr.image_to_text(img))

在第一次运行的时候可能会出现下面这个错误：

RuntimeError: Failed to init API, possibly an invalid tessdata path: E:\Python\/tessdata/

解决办法：将tesseract安装目录下的tessdata文件夹复制到你的Python安装目录下。

最终运行结果为：@ python’

咱们能够看到tesserocr在不处理图片直接使用的状况下，识别的效果实际上是比较差的，若是咱们想要提升OCR识别的准确度，能够进行相应的识别训练。