基于Tesseract—OCR技术的文字识别优化

  一、需求分析 对天猫平台的企业信息采集下来进行结构化处理,提取出文字信息后汇总进Excel作为交付文件。 主要的功能设计如下: 1、程序能够自动读取企业工商信息图片所在的文件夹路径,并从文件夹路径中顺序取出图片进行识别,最终的识别结果以一份汇总的Excel交付。 2、因为天猫平台公示的图片内容没有固定格式,所以需要程序能匹配不同格式的图片内容提取信息。 3、能够提取出图片中的企业注册号、企业名
相关文章
相关标签/搜索