OCR版面分析痛点

当前OCR以后的版面分析工做你们都是规则写的，本身也深受规则之苦,看到ocr输出的一大堆文字和坐标就头皮发麻。最近受了chineseocr做者模板引擎的启发，作了两个端到端的版面分析算法，但愿可以帮到各位ocrer。github git

算法设计初衷

最开始的想法是在检测网络上增长类别判断，预测位置的同时加上box类别的判断，可是这样通用性就大大下降了,违背不干预原始的OCR算法的初衷，版面分析的算法应该和OCR算法无缝衔接，因此模型输入应该是OCR输出的box坐标和相应文本。
基于此，延伸出两个思路，一个是忽略box间的位置关系，直接将box坐标和文本编码,送入分类器，即基于xgboost的分类方案。另外一个考虑box间的相互关系，将版面分析当成一种翻译任务，即基于seq2seq的翻译方案
github

数据增广策略

其次标注数据不能太多，若是标注投入过大就有些得不偿失了，算法设计初衷就是但愿只标注一些具备表明性的版面，所以增广策略就显得特别重要。增广策略有如下几条：算法

随机扰动检测框坐标点1~3个像素
随机切分检测框，并随机拆分文本
随机替换数字、日期等文本内容
随机丢弃3~5检测框

两种端到端的方案

一、基于xgboost的版面分析算法

编码方案
- 1）文本使用doc2vec无监督训练句向量50dim（可选）
  将OCR识别后的文本收集起来加上外部数据能够利用gensim的doc2vec训练一个该版面的句向量，也曾尝试用字向量作加权平均，可是感受上会丢失信息，后续会补上相关实验。向量为度选取50dim,这样每一个box的文本均可以编码为50dim的向量。在实验过程当中，发现基于机器学习的方法比较吃人工特征，加上句向量后提高大约0.5个点。因此该项是可选项。
- 2）文本的数字比例、英文比例、符号比例、其余比例4dim
  这部分算是特征工程吧，统计每一个单元格数字占比、英文占比、符号占比、其余字符占比一共四个维度信息。还能够根据自身业务提取更多人工特征信息
- 3）box坐标点8dim
  文字检测输出的四边形，一共四个顶点，8个数值
- 4）三个类别信息相拼，一共50+4+8=62维信息，做为模型输入
模型输出
- onehot编码
  每一个格子按照业务需求进行类别划分，将解析问题转化为分类问题。好比：发票一共有18个关键字段，加上其余类别，一共19个类别，对这19个类别作onthot编码做为模型输出。
模型选择
既然是分类问题，可选的方案就不少，线性回归、随机森林、SVM等，这里只尝试了xgboost,你们能够在本身的业务场景多多尝试。鉴于传统机器学习代码过于简单，sklearn几行就能够搞定，这里就不提供开源代码了。

二、基于seq2seq的版面分析算法

刚开始想既然考虑格子的位置关系，那不是得用图算法么，最近也有人开源了PICK,正要去尝试，做者撤销了代码，并且工业中基于图的算法应用很少。后来灵机一动，lstm不也是一种图么，只不过是线性图，要作的就是把box拉伸排序成线性，不就能够解决了么，天然而然的想到了seq2seq，绝配！网络

编码方案
- 1）文本编码方案同xgboost，只不过维度增长为100维
- 2）box坐标点由于维度太小，作了维度拉伸，8个坐标点暴力复制8遍
- 3）最终每一个格子的编码为100+8*8=164维度
- 4）须要注意的是，xgboost是每个格子看成一个训练样本模型输入维度为1维（62），seq2seq是整版的格子看成一个训练样本。在发票场景中，整版格子不超过100，因此选取100为最长输入序列，一个样本的维度为2维（100*164）
模型输出
- onehot编码同xgboost
seq2seq模型修改
- 1）不用teacher forcing的训练方式
  最开始尝试的时候，一直使用基于teacher forcing的训练方式，这但是seq2seq的标配，试的过程一直不收敛，一直觉得是数据量小的问题。后来抱着试试的想法，把teacher forcing干掉了，索性把上一个格子的类别替换成当前格子编码，损失降低嗖嗖的。想一想也是，翻译的时候前一个字对后一个字影响很大，这个场景中依赖就没那么大了，对类别判断影响比较大的是位置信息和文字信息，歪打正着。
- 2）去除起始符和终止符
  在翻译的场景由于不知道第一个字如何开始，因此加入了起始符号，可是版面分析中是能够提供原始信息的，所以删除了这两个占位符。（能够保留终止符，减小没必要要计算）
- 3）模型结构示意图

结语

两种方案目前在发票的版面分析中都取得了不错的结果，其中xgboost的方案在版式比较固定的时候表现比较适用，seq2seq的方案在任意拍照场景中比较适用。须要注意的是，若是文字检测把一些无关的文字和关键字段框到一块儿的话，还须要稍微作些后处理。机器学习