知识蒸馏:如何用一个神经网络训练另一个神经网络

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:Tivadar Danka 编译:ronghuaiyang 导读 知识蒸馏的简单介绍,让大家了解知识蒸馏背后的直觉。 如果你曾经用神经网络来解决一个复杂的问题,你就会知道它们的尺寸可能非常巨大,包含数百万个参数。例如著名的BERT模型约有1亿1千万参数。 为了说明这一点,参见下图中的NLP中最常见架构的参数数量。 各种模型结构的参数
相关文章
相关标签/搜索