GPU架构中的半精度fp16与单精度fp32计算

时间 2020-02-12

原文原文链接

GPU架构中的半精度与单精度计算因为项目缘由，咱们须要对darknet中卷积层进行优化，然而对于像caffe或者darknet这类深度学习框架来讲，都已经将卷积运算转换成了矩阵乘法，从而能够方便调用cublas 库函数和cudnn里tiling 过的矩阵乘。html CUDA在推出7.5的时候提出了能够计算16位浮点数据的新特性。定义了两种新的数据类型half和half2. 以前有师弟