Python图形验证码识别

一,OCR  

  OCR,即Optical Character Recognition,光学字符识别,经过扫描字符,分析形状,而后将其翻译成电子文本的过程。tesserocr是Python的一个OCR识别库,但实际上是对tesseract作的一层封装。安装tesserocr以前须要先按照tesseract。git

二,准备工具

  安装库tesserocr,windows下安装前须要下载安装tesseract,github

  tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/windows

    

  图中有不少版本,其中带dev的为开发版本,不带dev的为稳定版本,推荐下载稳定版本。app

    

  安装时勾选Additional language data选项来安装OCR识别支持的语言包,能够识别多国语言。而后一直点击Next便可。工具

  接下来,安装tesserocr便可:pip3 install tesserocr pillowui

  whl安装包下载连接:https://github.com/simonflueckiger/tesserocr-windows_build/releasesspa

  选择合适的版本下载   运行翻译

  pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl

code

3、代码blog

import tesserocr
from PIL import Image

image = Image.open('code.png')
res = tesserocr.image_to_text(image)
print(image, res)
# 二值化
image = image.convert('L')
threshold = 127
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)

image = image.point(table, '1')
image.show()

result = tesserocr.image_to_text(image)
print(result)
相关文章
相关标签/搜索