场景文本识别模型综述

时间 2020-12-23

原文原文链接

一、数据集的分析 (一) 训练数据集大多数自然场景文字识别算法使用合成数据进行训练。两个常用的合成数据集是 MJSynth(MJ) 和 SynthText(ST) ，分别包含890万和550万张训练样本。图1 不同比例的训练数据集（MJ+ST）与算法识别性能结论：自然场景文字识别算法的性能随着数据量的增多而改善。在不同训练数据集下训练的模型，彼此不具有可比性。数据的多样性比数据量更加重