python基于万象优图识别图片中的中文

时间 2019-12-01

标签 python 基于万象识别图片中文栏目 Python 繁體版

原文原文链接

最近一直在研究光学字符识别，即OCR。最开始在谷爹那里了解到了开源的Tesseract，能够拿来识别简单的英文和数字。可是识别中文的准确率并不高。python

而后从Tesseract到Tesseract.js，通过屡次尝试研究，最后发现腾讯爹的万象优图识别率是最高的。趁如今是公测免费期，赶忙尝试了一把。json

下面来讲一说我是怎么用python实现中文识别的。服务器

首先百度万象优图登陆吧，腾讯的。。。大家懂得。。。。进去后，建立一个bucket，而后能够选择上传图片app

这些准备工做作好之后，就开始写代码吧dom

首先若是是识别身份证，名片，标签等图片的话，强烈建议直接使用万象优图提供python sdk，详情请见https://cloud.tencent.com/document/product/460/7991post

咱们这里，是作图片通用印刷体识别，因此就只有被迫用万象优图提供的API：（本来我是更喜欢用SDK的，由于简单，可是目前SDK不支持）加密

万象优图OCR接口采用http协议，支持指定图片URL和上传本地图片文件两种方式。url

根据用户提供的图片，返回识别出的字段信息。spa

接口：http://recognition.image.myqcloud.com/ocr/general3d

这里有三点须要注意：

(1) 每一个请求的包体大小限制为6MB。

(2) 全部接口都为POST方法。

(3) 不支持 .gif这类的多帧动图。

而后我用能够使用requests模块来发http请求。

这里最麻烦的就是要定制请求头，否则腾讯云是解析不到的，笔者才疏学浅在这里研究了一下午才正肯定制出了请求头。。。。

先来看看请求头的规则：

参数名	值	描述
Host	recognition.image.myqcloud.com	服务器域名
Content-Length	包体总长度	整个请求包体内容的总长度，单位：字节（Byte）
Content-Type	Application/json或者Multipart/form-data	根据不一样接口选择
Authorization	鉴权签名	用于鉴权的签名，使用屡次有效签名。详情

这里的难点就是这个鉴权签名，直接点击表格里面的详情去看吧，我这里不作复制粘贴。

关于请求参数：

使用image则使用 multipart/form-data格式

不使用image则使用 application/json格式

参数名	是否必须	类型	参数说明
appid	必须	string	项目ID
bucket	必须	string	空间名称
image	可选	binary	图片内容
url	可选	string	图片的url,image和url只提供一个便可，若是都提供，只使用url

好了，如今开始正式开始吧

先写一下请求头涉及到的变量

而后依次把他们拼接起来

我这里采用的是单次

而后再根据要求进行 HMAC-SHA1加密

这里强调一下，官方的说法是

根据个人研究，转换出来的不是二进制，而后我还特地去转成了二进制。。。。。。发现其实根本不用，转出来的在pycharm里面是个乱码，能够直接用的

最后，加密的数据和以前的拼接数据再拼在一块儿作base64转码

这样签名就完成了，后面的基本不难，主要就是签名这里有坑，下面直接上代码：

# coding=utf-8
# /usr/bin/python
# coding=utf-8
# create by 15025463191 2017/10/11

import requests
import hmac
import hashlib
import base64
import time
import random
import re

appid = "1254602529"
bucket = "imgregnise"
secret_id = "AKIDZx72kFVBPRF4324234234o8C1auynPezyl"  #我更改了，不要复制个人
secret_key = "h9NUN1RbZIm11mJbUt2v32432Zx"  #我更改了，不要复制个人
expired = time.time() + 2592000
onceExpired = 0
current = time.time()
rdm = ''.join(random.choice("0123456789") for i in range(10))
userid = "0"
fileid = "tencentyunSignTest"

info = "a=" + appid + "&b=" + bucket + "&k=" + secret_id + "&e=" + str(expired) + "&t=" + str(current) + "&r=" + str(
    rdm) + "&u=0&f="

signindex = hmac.new(secret_key, info, hashlib.sha1).digest()  # HMAC-SHA1加密
sign = base64.b64encode(signindex + info)  # base64转码

url = "http://recognition.image.myqcloud.com/ocr/general"
headers = {'Host': 'recognition.image.myqcloud.com',
           "Content-Length": "187",
           "Content-Type": "application/json",
           "Authorization": sign
           }

payload = {
    "appid": appid,
    "bucket": bucket,
    "url": "http://imgregnise-1254602529.picsh.myqcloud.com/123456.png"
}

r = requests.post(url, json=payload, headers=headers)
responseinfo = r.content

r_index = r'itemstring":"(.*?)"'  # 作一个正则匹配
result = re.findall(r_index, responseinfo)
for i in result:
    print i

我这里用图片试验了一次，准备率仍是很高的，就是中间少了一个“餐。”

可是这样的识别率已是很高了

最后预祝各类识别成功！