医学模型深度学习训练的挑战

做者|Rishiraj Acharya
编译|VK
来源|Medium算法

在医学数据集的训练算法期间面临的许多问题中,这三个最多见:网络

  1. 类别不均衡
  2. 多任务
  3. 数据集大小

对于这些问题,我将分享一些解决问题的技术。机器学习

类别不均衡挑战

在现实世界中,咱们看到的健康人比患病的人要多得多,这也反映在医学数据集中。健康和患病类别的例子数量并不平均。这反映了疾病在现实世界中的频率。在医疗数据集和信用卡欺诈数据集中,你可能会看到正常样本的数量是异常样本的一百倍。函数

结果,很容易被误认为是模型表现出色,而实际上却并不是如此。若是使用accuracy_score准确度这样的简单度量,就会发生这种状况。准确度对于这类数据集来讲不是一个很好的度量标准,由于标签严重倾斜,因此一个只输出正常标签的神经网络的准确率甚至还能略高于90%。性能

解决方案:

咱们能够定义更有用的指标,例如F1度量或"精确度/召回率"。精度定义为"真正例个数/(真正例个数+假正例个数)"。假正例不少时这是一个很好的度量。另外一方面,召回率定义为"真正例个数/(真正例个数+假反例个数)"。当假反例本不少时这是一个很好的度量。医疗领域的大多数模型就是这种状况。可是,咱们常常须要同时考虑假正例个数和假反例个数,这就是F1度量的功能。它在精确度(Precision)和召回率(Recall)之间取得均衡,由公式2 * ((Precision*Recall) / (Precision+Recall))给出。学习

处理类不均衡的另外一种流行技术是"重采样"。这是从多数类(样本过多的那一类)中删除示例(称为欠采样)或在少数类中添加示例(称为过采样)以在这两个类之间取得均衡的行为。尽管它们能够经过使用复杂的重采样技术来解决,但它们具备本身的缺点,如信息丢失和过拟合。优化

多任务挑战

在现实世界中,一般仅预测健康或患病是不够的。咱们常常须要将医疗数据分为多个类别或标签。例如,仅从心律中检测出心律失常并无那么有市场,对患者进行分析判断获得哪一种心律失常更有价值。例如病状多是房颤,室上性心动过速或任何其余类型。.net

从理论上讲,能够为须要分类的每一个标签训练单独的神经网络模型,可是这对于写代码来讲很是不切实际。若是咱们能够将全部这些分类模型组合到一个返回多个预测的单个深度神经网络中,就比较有价值。3d

解决方案:

咱们使用一种称为"多类别分类"或"多标签分类"的方法来应对这一挑战,它们之间略有不一样。在多类别中,数据样本的类别是互斥的,而在多标签中,数据样本能够属于多个类别。在医学领域,咱们一般使用多标签分类,由于若是患者被诊断为肺不张(肺的膨胀不全),则并不意味着他/她就不会有心脏肥大。咱们将模型最后一层的分数再传递给Sigmoid激活函数。这会把最后一层的每一个分数转换为0到1之间的值,而与其余分数无关。orm

对于多标签分类,咱们选择的损失函数变为binary_crossentropy,其中因为咱们使用了Sigmoid激活函数,所以每一个标签都被视为独立的伯努利分布。在须要多类的状况下,能够用损失函数设置为categorical_crossentropy的softmax激活函数来替换Sigmoid激活函数。

数据集大小挑战

处理医学数据集的主要挑战是这些数据集的大小。大型训练数据除了具备良好的体系结构外,还对模型的性能起着重要的做用,而且可用于疾病的患者数据数量每每不够。低数据集大小是致使高误差和高方差的主要缘由。这致使模型的推广和优化困难。

解决方案:

为了解决模型优化的困难,咱们使用一种称为"迁移学习"的方法,其中咱们使用从相关网络较低层中学习来训练较高层,而无需它们从头开始学习。因为先前的训练,较低的图层能够用做良好的特征提取器,所以咱们能够根据数据集对其进行微调。该技术优化速度更快,并减小了训练新模型所需的数据量。

为了解决模型泛化的困难,咱们使用一种称为"数据加强"的技术,将数据提供给模型以前,不是复制相同的示例,而是对示例进行一些随机转换。这样,咱们可使模型对于大小或亮度等微小变化保持不变。诸如水平或垂直翻转图像,更改图像的亮度或对比度,将图像旋转或缩放到必定程度之类的作法都有助于数据扩充。此技术在小型数据集中避免过分拟合很是有用。

原文连接:https://medium.com/aiformedicine/challenges-of-training-models-on-medical-data-7ecc03db2d65

欢迎关注磐创AI博客站:
http://panchuang.net/

sklearn机器学习中文官方文档:
http://sklearn123.com/

欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/

相关文章
相关标签/搜索