验证码破解技术四部曲之使用Tesseract（二）

时间 2019-12-06

标签验证码破解技术四部曲使用 tesseract 繁體版

原文原文链接

代码下载

本节的代码能够经过此处进行下载。git

首先看验证码的样子，

github

能够看到这几个验证码最大的特色就是字母比较深，而周围的背景很浅，把图像转换成黑白颜色，能够显示的更加的明显。
spa

//按黑白读取图像
Mat mat = imread("test1.jpg", 0);
cv::imshow("initial_mat", mat);
cv::waitKey(0);

能够看到全部背景的灰度值，都会小于字母的灰度值，为了让tesseract更准确的识别，能够把图像进行二值化，也就是把背景都改为纯白色，把字母都搞成纯黑色。那么如何肯定分割的阈值呢？比较好的方法是画出图像的直方图。
code

//画出直方图
Histogram1D histogram1d;
cv::imshow("histogram1d", histogram1d.getHistogramImage(mat));
cv::waitKey(0);

直方图的横坐标表明灰度值，纵坐标表明指定灰度值的点数。图片

接下来，开始对图像进行阈值，这里选择的灰度值位150，灰度下于150的设置为白色，灰度大于150的设置为黑色。ip

//阈值
Mat threshold_mat;
cv::threshold(mat, threshold_mat, 150, 255, cv::THRESH_BINARY);
cv::imshow("threshold_mat", threshold_mat);
cv::waitKey(0);

把图片进行阈值后，就能够进行识别了，直接调用tesseract的API就行了。rem

//使用tesseract识别
char buffer[255];
OCRDecoder decoder;
decoder.decodeGrayMat(threshold_mat, buffer);
cout<<"result:"<<buffer<<endl;

运行程序，能够看到识别出告终果：

get