Vision - 活动弹窗识别和定位

背景

在移动端的UI自动化测试过程当中,机器可能会遇到在代码设计流程以外的页面状态,常见的有活动弹窗和页面报错。活动弹窗通常出如今页面启动过程,由活动内容和取消按钮组成,页面的测试过程须要点击取消活动弹窗。咱们想让机器能以接近人理解的方式,“看到”得到弹窗自动点击取消按钮完成处理过程,这样会比基于驱动XML数据的操做元素ID方法更通用和稳定。活动弹窗取消按钮的识别和定位在机器视觉领域属于物体识别和定位的问题。由于这个场景没有现成的标注数据,手工设计特征成本比较高,因此咱们基于R-CNN模型设计了适用于业务需求的神经网络模型。git

模型设计

训练数据少会使模型容易过拟合,咱们在准备数据的时候作了简单的处理:github

  • 模型计算以前进行图像特征预处理算法

  • 使用数据加强来生成更多的训练数据网络

其中图像特征预处理至关于让机器理解一些“常识”知识,预先给机器一些经验,好比训练数据的前景提取,定义候选框的大小和形状。参考迁移学习的思想,有时候咱们帮助机器提早学习好部分知识,在这个基础上去学习更新参数,能够给模型的表现带来很好的收益。机器学习

而后另外一个方法是控制模型的表征能力,包括只使用3层Convolution-maxpooling提取图像特征,在全链接层加了L2 正则,改善训练过拟合的状况。训练后模型预测的Precision和Recall在90%以上,1080p分辨率的输入图像计算时间须要10s,主要计算时间在Selective Search生成候选框的部分。候选框的生成没有使用Faster-RCNN的RPN是由于Selective Search的实施更简单,在没有高质量和足够数量的训练数据条件下更适合当前的场景。学习


                                                                 活动弹窗识别和定位测试

相关连接

使用机器学习R-CNN模型的活动弹窗识别定位算法:Vision
spa

相关文章
相关标签/搜索