《SWALP:Stochastic Weight Averaging in Low-Precision Training》

摘要:这种方式可以使得所有数字均量化至8-bit,同时表示为SWALP任意收敛于二次目标的最优解,在强凸条件下使噪声球渐近小于低精度SGD。 SWALP的处理将梯度累加模块也变为8-bit   (Stochastic Weight Averaging)SWA的介绍: https://blog.csdn.net/leviopku/article/details/84037946 多次求平均值,SWA
相关文章
相关标签/搜索