辰哥今天来分享一篇办公干货文章：用Python批量识别发票并录入到Excel表格。对于财务专业等学生或者公司财务人员来讲，将报帐发票等汇总到excel简直就是一个折磨。python

尤为是到年末的时候，公司的财务人员面对一大堆的发票简直就是苦不堪言。正好咱们学会了Python，咱们应该将Python的优点发挥起来。$#json

01.场景描述

这里有以四张发票为例（辰哥网上搜的），将发票图片放到pic文件夹下。函数

随便打开一张发票ui

提取目标：金额、名称、纳税人识别号、开票人。url

最后将每一张发票的这四个内容保存到excel中：3d

02.准备环境

须要用到的库以下：excel

from PIL import Image as PI
import pyocr
import pyocr.builders
from cnocr import CnOcr

安装的命令以下：code

pip install pyocr
pip install cnocr

发票中含有中文内容，咱们须要对图片中的中文进行识别，那么 cnocr 是一个不错的选择。对象

提示：安装好上面的库以外，还须要安装额外的exe文件，否则会出现下面这种错误blog

须要安装的exe文件：

1. ImageMagick

2. tesseract-OCR

这两个软件的安装过程就再也不赘述了，你们能够自行搜索教程进行安装。

03.提取内容

下面以其中一张图片为例，讲解如何提取目标内容：金额、名称、纳税人识别号、开票人。

读取图片：pic/pic1.jpg

tool = pyocr.get_available_tools()[0]
img_url = "pic/pic1.jpg"
with open(img_url, 'rb') as f:
    a = f.read()
new_img = PI.open(io.BytesIO(a))

1.提取金额

须要截取到发票中金额的位置

## 金额
left = 741
top = 420
right = 850
bottom = 445
image_text1 = new_img.crop((left, top, right, bottom))
#展现图片
image_text1.show()

这里的left、top、right、bottom的数值是经过屡次修改定位而来。你们根据本身的发票内容去定位便可。

接着将图片中的数字提取出来

一样的，下面继续提取：名称

2.提取名称

left = 155
top = 450
right = 450
bottom = 470
image_obj2 = new_img.crop((left, top, right, bottom))
image_obj2.show()

这里的名称是中文的，我们不能再像提取金额（数字）操做。须要使用到cnocr去将图片中的中文取出。

image_obj2.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

3.提取纳税人识别号

#纳税人识别号
left = 155
top = 470
right = 450
bottom = 490
image_text3 = new_img.crop((left, top, right, bottom))
#展现图片
image_text3.show()

txt3 = tool.image_to_string(image_text3)
print(txt3)

将图片中的纳税人识别号提取出来，结果以下：

4.提取开票人

left = 528
top = 550
right = 670
bottom = 600
image_obj4 = new_img.crop((left, top, right, bottom))
image_obj4.show()

image_obj4.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

因为有中文，我们这里一样和提取名称同样，使用cnocr将图片中的中文取出。

ok这样咱们就将发票中的四个目标内容提取出来，接着将文件夹pic下的全部发票，进行识别将内容保存到excel。

04.批量识别发票并保存到excel

在读取图片以前，先将上面的四个操做封装成函数，方便每一种发票对象进行调用。

读取文件夹下的全部图片。

filePath = 'pic'
pic_name = []
for i,j,name in os.walk(filePath):
    pic_name = name
for i in pic_name:
    print(i)

开始进行识别，并将结果写入到excel中。

for i in pic_name:
    img_url = filePath+"/"+i
    with open(img_url, 'rb') as f:
        a = f.read()
    new_img = PI.open(io.BytesIO(a))
    ## 写入csv
    outws.cell(row=count, column=1, value=text2(new_img))
    outws.cell(row=count, column=2, value=text3(new_img))
    outws.cell(row=count, column=3, value=text1(new_img))
    outws.cell(row=count, column=4, value=text4(new_img))
    count = count + 1
outwb.save("发票汇总-李运辰.xls")  # 保存结果

最后保存为：发票汇总-李运辰.xls，其结果以下：

05.发票验证真伪

在辰哥的交流群里，和小伙伴聊到这个内容时，小伙伴建议能够加一个功能：发票验证真伪。

全部在上面的开始识别以前（本身公司的发票可能不须要查验这步），先调用一下第三方的接口，对发票进行识别，识别经过以后再将其提取发票中目标内容。

1.申请百度AI应用

2.获取token

# client_id 为官网获取的AK， client_secret 为官网获取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'
response = requests.get(host)
if response:
    print(response.json()['access_token']

这里的client_id 为官网获取的AK， client_secret 为官网获取的SK，是上面申请好应用便可获取

3.查验

咱以这张图片为例，进行查验

其中的发票类型对应以下：

结果以下：

感受这个结果查询不是很好（不详细）。下面还能够去税务局查询

4.税务局查询发票

一样以这张图片为例，进行查验

填写好信息点击查验，结果以下：

再税务局查验更加清晰。读者能够根据本身的状况去选择本身的方式去查验。

06.小结

本文基本就成功实现目标要求，从效果来看仍是很是不错的！完整源码可由文中代码组合而成（已所有分享在文中），感兴趣的读者能够本身尝试！

必定要动手尝试****！必定要动手尝试****！必定要动手尝试！

最后想说的是，其实本文的案例能够应用再其余方面，例如

批量计算发票金额汇总
根据发票类型批量分类
........

办公利器！用Python批量识别发票并录入到Excel表格