“ 等不到风中你的脸颊java
眼泪都美到很融洽git
等不到掩饰的雨落下github
个人眼泪被你察觉 ”apache
听着循环的歌曲,写着久违的bug。好吧,仍是一天。正好一个小伙伴说,要不要作个工具站玩一下。我就随意的找了个工具站,看了下,发现不少都有文字的OCR识别功能。所以,我想起来以前了解的很是流行的开源的OCR大神级别的项目,Tesseract OCR。markdown
官网以下所示app
简洁明了,挂在github上的网站。工具
详细的再也不介绍,感兴趣的,能够进入同志网站:github.com/tesseract-o… ,观摩学习。oop
要想在开发中使用,仍是须要接入对应的API。学习
对于开发者来讲,提供了众多的Wrapper,来实现Api调用。
对于Java一名小开发,来说,仍是使用tess4j,做为Api来使用。官网以下:
能够直接下载jar包,或者采用Maven依赖下载。
<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.5.3</version>
</dependency>
复制代码
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.example</groupId>
<artifactId>test-textocr</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.5.3</version>
</dependency>
</dependencies>
</project>
复制代码
package ocr;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
/** * ocr测试. * * @author huc_逆天 * @since 2021/1/12 17:42 */
public class TestTextOcr {
public static void main(String[] args) throws IOException {
// 建立实例
ITesseract instance = new Tesseract();
// 设置识别语言
instance.setLanguage("chi_sim");
// 设置识别引擎
instance.setOcrEngineMode(1);
// 读取文件
BufferedImage image = ImageIO.read(TestTextOcr.class.getResourceAsStream("/2.jpg"));
try {
// 识别
String result = instance.doOCR(image);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
}
}
复制代码
TESSDATA_PREFIX=F:\tessdata ,变量名,固定,值为官网下载文件 github.com/tesseract-o…
结果以下:
可能识别模式,不是很合适,切换下
instance.setOcrEngineMode(0);
复制代码
是否是舒服多了,哈哈。识别率瞬间上涨。
你们能够自行测试。
好了,今天就到这了。技术在于折腾。多学习,让本身武装起来,变强大。