准确率99.9%!如何用深度学习最快找出放倒的那张X光胸片(代码+数据)

医学图像数据的质量一直是个老大难题。难以清理的数据制约着许多深度学习的应用。app

而实际上,深度学习自己就是清洗医疗数据的好帮手。机器学习

今天,咱们就来说一个案例,展现如何用深度学习迅速清洗一个杂乱的医疗图像数据集。学习

案例的主角是胸部X光图像。blog

因为设备制造商的不一样,胸部X光的图像有多是水平的,也多是垂直翻转的。他们可能会倒置像素值,也可能会旋转。问题在于,当你处理一个庞大的数据集(好比说50到100万张图像)的时候,如何在没有医生查看的状况下发现畸变?图片

你能够试图编写一些看似优雅高效的解决方案,例如:深度学习

在许多胸部X射线图像的两侧有黑色边框(由于大多数图像的高度大于宽度),因此若是当底部有超过50个黑色像素行的时候,这幅图像可能被旋转了90度。可视化

这个规则看起来很是靠谱,但在实际运用中却常常犯错。原理

9052e76d4e92c26316147486062e4e59078fcde4

上面三幅图中,只有中间的图像存在“黑色边框在两侧”的状况,于是上面这一方案并不实用。方法

这些人为制定的规则并不能解决咱们的问题。im

那么,咱们是否是能够利用机器学习来构建咱们没法手写代码的解决方案呢?实际上,找出像图片旋转之类问题对机器来讲是其实很是简单的。像人类同样,机器能够很容易、而且几乎完美地解决这些问题。

因此,使用深度学习来修复咱们的数据集是显而易见的解决方案。

下面,我将向你展现这些技术的工做原理,以及如何用最少的时间和精力完成这些工做,并介绍一些正在使用的方法实例。

在这个案例中,我将使用CXR14数据集,这个数据集通过很是精心的策划管理,但仍然包含了一些“坏图”。因此我还会给你新的包括430种标签的数据集,这样你就不用担忧其中暗藏的异常图像了!

数据集连接:

https://nihcc.app.box.com/v/ChestXray-NIHCC

机器学习真的能解决这个问题么?

开始以前,让咱们先想想,这个问题对于机器学习来讲真的很简单么?

考虑到大多数图片都是正常的,你须要很是高的精度来防止排除过多正常的图片。咱们的目标准确率是99.9%。

这难不难处理呢?咱们不妨问问本身:你可否想出一个简单的可视化规则来解决这一问题?

显然,区分猫狗这个问题就很难用一个简单的可视化规则处理,这也是为何咱们须要ImageNet数据集了。因为图像之间的区别可能很是大,区分猫狗的问题有太多复杂的因素须要考虑。

相关文章
相关标签/搜索