点击上方“AI算法与图像处理”,选择加"星标"或“置顶”javascript
重磅干货,第一时间送达java
本期咱们将一块儿学习如何使用计算机视觉技术识别棋子及其在棋盘上的位置
python
咱们利用计算机视觉技术和卷积神经网络(CNN)为这个项目建立分类算法,并肯定棋子在棋盘上的位置。最终的应用程序会保存整个图像并可视化的表现出来,同时输出棋盘的2D图像以查看结果。git
(左)实时摄像机进给的帧和棋盘的(右)二维图像github
咱们对该项目的数据集有很高的要求,由于它最终会影响咱们的实验结果。咱们在网上能找到的国际象棋数据集是使用不一样的国际象棋集、不一样的摄影机拍摄获得的,这致使咱们建立了本身的数据集。我使用国际象棋和摄像机(GoPro Hero6 Black以“第一人称视角”角度)生成了自定义数据集,这使个人模型更加精确。该数据集包含2406张图像,分为13类(请参阅下文)。总结:这花费了咱们不少时间,可是这使得训练图像尽量地接近在应用程序中使用时所看到的图像。算法
自定义数据集的细分微信
为了构建该数据集,我首先建立了capture_data.py,当单击S键时,该视频从视频流中获取一帧并将其保存。这个程序使我可以无缝地更改棋盘上的棋子并一遍又一遍地捕获棋盘的图像,直到我创建了大量不一样的棋盘配置为止。接下来,我建立了create_data.py,以使用下一部分中讨论的检测技术将其裁剪为单独小块。最后,我经过将裁剪后的图像分红带标签的文件夹来对它们进行分类。网络
对于棋盘检测,我想作的事情比使用OpenCV函数findChessboardCorners复杂的多,但又不像CNN那样高级。使用低级和中级计算机视觉技术来查找棋盘的特征,而后将这些特征转换为外边界和64个独立正方形的坐标。该过程以Canny边缘检测和Hough变换生成的相交水平线、垂直线的交点为中心。层次聚类用于按距离对交叉点进行分组,并对各组取平均值以建立最终坐标(请参见下文)。app
完整的棋盘检测过程编辑器
项目伊始,咱们想使用Keras / TensorFlow建立CNN模型并对棋子进行分类。可是,在建立数据集以后,仅考虑CNN的大小,单靠CNN就没法得到想要的结果。为了克服这一障碍,我利用了ImageDataGenerator和transfer learning,它增长了个人数据并使用了其余预训练的模型做为基础。
建立CNN模型
为了使用GPU,我在云中建立并训练了CNN模型,从而大大减小了训练时间。快速提示:Google Colab是使用GPU快速入门的简便方法。为了提升数据的有效性,我使用了ImageDataGenerator来扩展原始图像并将模型暴露给不一样版本的数据。ImageDataGenerator函数针对每一个时期随机旋转,从新缩放和翻转(水平)训练数据,从本质上建立了更多数据。尽管还有更多的转换选项,但这些转换选项对该项目最有效。
from keras.preprocessing.image import ImageDataGeneratordatagen = ImageDataGenerator( rotation_range=5, rescale=1./255, horizontal_flip=True, fill_mode='nearest')test_datagen = ImageDataGenerator(rescale=1./255)train_gen = datagen.flow_from_directory( folder + '/train', target_size = image_size, batch_size = batch_size, class_mode = 'categorical', color_mode = 'rgb', shuffle=True)test_gen = test_datagen.flow_from_directory( folder + '/test', target_size = image_size, batch_size = batch_size, class_mode = 'categorical', color_mode = 'rgb', shuffle=False)
咱们没有从头开始训练模型,而是经过利用预先训练的模型并添加了使用个人自定义数据集训练的顶层模型来实现转移学习。我遵循了典型的转移学习工做流程:
1.从先前训练的模型(VGG16)中获取图层。
from keras.applications.vgg16 import VGG16model = VGG16(weights='imagenet')model.summary()
2.冻结他们,以免破坏他们在训练回合中包含的任何信息。
3.在冻结层的顶部添加了新的可训练层。
from keras.models import Sequentialfrom keras.layers import Dense, Conv2D, MaxPooling2D, Flattenfrom keras.models import Modelbase_model = VGG16(weights='imagenet', include_top=False, input_shape=(224,224,3)) # Freeze convolutional layers from VGG16for layer in base_model.layers: layer.trainable = False# Establish new fully connected blockx = base_model.outputx = Flatten()(x) x = Dense(500, activation='relu')(x) x = Dense(500, activation='relu')(x)predictions = Dense(13, activation='softmax')(x)# This is the model we will trainmodel = Model(inputs=base_model.input, outputs=predictions)model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['categorical_accuracy'])
4.在自定义数据集上训练新层。
epochs = 10history = model.fit( epochs=epochs, verbose = 1, validation_data=test_gen)model.save_weights('model_VGG16.h5')
当咱们使用VGG16或VGG19做为预训练模型建立模型时,因为验证精度更高,所以选择了使用VGG16的模型。另外,最佳epochs 是10。任何大于10的数均不会使验证准确性的提升,也不会增长训练与验证准确性之间的差别。总结:转移学习使咱们能够充分利用深度学习在图像分类中的优点,而无需大型数据集。
为了更好地可视化验证准确性,我建立了模型预测的混淆矩阵。经过此图表,能够轻松评估模型的优缺点。优势:空-准确率为99%,召回率为100%;白棋和黑棋(WP和BP)-F1得分约为95%。劣势:白骑士(WN)-召回率高(98%),但准确性却很低(65%);白主教(WB)-召回率最低,为74%。
测试数据的混淆矩阵
该应用程序的目标是使用CNN模型并可视化每一个步骤的性能。咱们建立了cv_chess.py,它清楚地显示了步骤,并创建了cv_chess_functions.py,它显示了每一个步骤的详细信息。此应用程序保存实时视频流中的原始帧,每一个正方形的64个裁剪图像以及棋盘的最终2D图像。
print('Working...') # Save the frame to be analyzed cv2.imwrite('frame.jpeg', frame) # Low-level CV techniques (grayscale & blur) img, gray_blur = read_img('frame.jpeg') # Canny algorithm edges = canny_edge(gray_blur) # Hough Transform lines = hough_line(edges) # Separate the lines into vertical and horizontal lines h_lines, v_lines = h_v_lines(lines) # Find and cluster the intersecting intersection_points = line_intersections(h_lines, v_lines) points = cluster_points(intersection_points) # Final coordinates of the board points = augment_points(points) # Crop the squares of the board a organize into a sorted list x_list = write_crop_images(img, points, 0) img_filename_list = grab_cell_files() img_filename_list.sort(key=natural_keys) # Classify each square and output the board in Forsyth-Edwards Notation (FEN) fen = classify_cells(model, img_filename_list) # Create and save the board image from the FEN board = fen_to_image(fen) # Display the board in ASCII print(board)# Display and save the chessboard image board_image = cv2.imread('current_board.png') cv2.imshow('current board', board_image) print('Completed!')
代码连接:https://github.com/andrewleeunderwood/project_MYM
下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,便可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工做的总结分析
下载2:leetcode 开源书
在「AI算法与图像处理」公众号后台回复:leetcode,便可下载。每题都 runtime beats 100% 的开源好书,你值得拥有!
下载3 CVPR2020
在「AI算法与图像处理」公众号后台回复: CVPR2020 ,便可下载1467篇CVPR 2020论文 我的微信(若是没有备注不拉群!) 请注明: 地区+学校/企业+研究方向+昵称
以为不错就点亮在看吧
![]()
本文分享自微信公众号 - AI算法与图像处理(AI_study)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。