中文识别 tesseractor

时间 2019-11-24

标签中文识别 tesseractor 繁體版

原文原文链接

ubuntu安装tesseract
sudo apt-get install tesseract-ocr
默认没有安装识别中文语言，因此要想识别中文就要安装chi_sim库（只里就是只简单方法）

安装中文库chi_sim
sudo apt-get install tesseract-ocr-chi-sim # 这里是chi-sim 不是下划线哦！！！

python

ubuntu下安装很是简单，不过速度可能比较慢。git

$ apt-get install tesseract-ocr

默认的安装目录是：/usr/share/tesseract-ocr/，后面要安装中文文字库，则就在该目录下的 tessdata/ 文件夹。github

CentOS 下编译安装：

能够参考下面这篇文章上：ubuntu

http://blog.csdn.net/diandianxiyu_geek/article/details/50522582

由于个人依赖都是装好的，若是发现有依赖没装，则参考以下的依赖列表：bash

sudo apt-get install g++ 
sudo apt-get install autoconf automake libtool
sudo apt-get install autoconf-archive
sudo apt-get install pkg-config
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev
sudo apt-get install zlib1g-dev

### 训练工具须要下面的依赖

sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev

除了上面的依赖，你还须要编译安装 Leptonica：工具

$ wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
 $ tar xvzf leptonica-1.72.tar.gz
 $ cd leptonica-1.72/
 $ ./configure
 $ make && make install

完成了 Leptonica 以后，下载 tesseract，而后进入 tesseract 目录：字体

$ ./configure && make && make install

以后进行 tessdata 字体库的安装：spa

以中文字体库举例，下载改字体库（下面有连接）。.net

$ wget https://github.com/tesseract-ocr/langdata/tree/master/chi_sim](https://github.com/tesseract-ocr/langdata/tree/master/chi_sim

将字体库放在 /usr/local/share/tessdata/ 文件夹下便可code

调用方式

import pytesseract from PIL import Image # open image image = Image.open('test.png') code = pytesseract.image_to_string(image, lang='chi_sim') print(code)