ubuntu安装tesseract
sudo apt-get install tesseract-ocr
默认没有安装识别中文语言,因此要想识别中文就要安装chi_sim库(只里就是只简单方法)
安装中文库chi_sim
sudo apt-get install tesseract-ocr-chi-sim # 这里是chi-sim 不是下划线哦!!!
python
ubuntu下安装很是简单,不过速度可能比较慢。git
$ apt-get install tesseract-ocr
默认的安装目录是:/usr/share/tesseract-ocr/
,后面要安装中文文字库,则就在该目录下的 tessdata/
文件夹。github
能够参考下面这篇文章上:ubuntu
由于个人依赖都是装好的,若是发现有依赖没装,则参考以下的依赖列表:bash
sudo apt-get install g++ sudo apt-get install autoconf automake libtool sudo apt-get install autoconf-archive sudo apt-get install pkg-config sudo apt-get install libpng12-dev sudo apt-get install libjpeg8-dev sudo apt-get install libtiff5-dev sudo apt-get install zlib1g-dev ### 训练工具须要下面的依赖 sudo apt-get install libicu-dev sudo apt-get install libpango1.0-dev sudo apt-get install libcairo2-dev
除了上面的依赖,你还须要编译安装 Leptonica
:工具
$ wget http://www.leptonica.org/source/leptonica-1.72.tar.gz $ tar xvzf leptonica-1.72.tar.gz $ cd leptonica-1.72/ $ ./configure $ make && make install
完成了 Leptonica
以后,下载 tesseract
,而后进入 tesseract
目录:字体
$ ./configure && make && make install
以后进行 tessdata
字体库的安装:spa
以中文字体库举例,下载改字体库(下面有连接)。.net
$ wget https://github.com/tesseract-ocr/langdata/tree/master/chi_sim](https://github.com/tesseract-ocr/langdata/tree/master/chi_sim
将字体库放在 /usr/local/share/tessdata/
文件夹下便可code
调用方式
import pytesseract from PIL import Image # open image image = Image.open('test.png') code = pytesseract.image_to_string(image, lang='chi_sim') print(code)