转眼就变成大四狗了,大学期间作的比较深刻的技术是爬虫,可是爬虫也有不少高级的技术没有涉及,好比说验证码的破解即是其中之一,再加上我对其很是感兴趣,因而乎,开始苦学图像处理、学习机器学习,验证码破解也有了些眉头。 python
如下是我破解的几种验证码。c++
直接使用tesseract库识别。git
使用K近邻算法识别。github
使用卷积神经网络训练识别。算法
项目源码:https://github.com/nladuo/cap... (能够帮我点个star(^__^))
开发语言:python(编写爬虫),c++(编写图像处理部分以及机器学习算法)
开发环境:ubuntu 14.04
依赖库:
Python:PIL、BeautifulSoup四、requests
C++:boost、opencv二、tesseract-ocrshell
sudo apt-get install build-essential cmake libgtk2.0-dev pkg-config python-dev python-numpy libavcodec-dev libavformat-dev libswscale-dev wget https://codeload.github.com/Itseez/opencv/zip/2.4.12 unzip opencv-2.4.12.zip cd opencv-2.4.12 ; mkdir release ; cd release cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local .. make -j8 sudo make install
sudo apt-get install tesseract-ocr tesseract-ocr-dev
sudo apt-get install libboost-all-dev
sudo apt-get install python-imaging
sudo apt-get install python-pip sudo pip install bs4 sudo pip install requests
git clone https://github.com/nladuo/captcha-break.git