BERT轻量化探索—模型剪枝(BERT Pruning)—Rasa维度剪枝

      因为BERT参数众多,模型庞大,训练与推理速度较慢,在一些实时性要求较高应用场景没法知足需求,最近开始探索BERT轻量化部署git BERT轻量化的方式:github 低精度量化。在模型训练和推理中使用低精度(FP16甚至INT八、二值网络)表示取代原有精度(FP32)表示。 模型裁剪和剪枝。减小模型层数和参数规模。 模型蒸馏。经过知识蒸馏方法[22]基于原始BERT模型蒸馏出符合上线
相关文章
相关标签/搜索