1、前言html
FPGA以擅长高速并行数据处理而闻名,从有线/无线通讯到图像处理中各类DSP算法,再到现今火爆的AI应用,都离不开卷积、滤波、变换等基本的数学运算。但因为FPGA的硬件结构和开发特性使得其对不少算法不友好,以前本人零散地总结和转载了些基本的数学运算在FPGA中的实现方式,今天作一个系统的总结概括。算法
2、FPGA中的加减乘除ide
1.硬件资源函数
Xilinx 7系列的FPGA中有DSP Slice ,叫作“DSP48E1”这一专用硬件资源,这是一个功能强大的计算单元,单就用于基本运算的部分有加减单元和乘法器。详见参考文献1.优化
所以能够直接用HDL语言中的加、减、乘符号实现变量与常量间运算操做以及变量与变量间操做。而四则运算中的除法没有基本的逻辑计算单元能够对应,所以计算除法须要调用除法器IP核。ui
2.确认数据的表示范围spa
有符号数:(补码)-2^(N-1) ~ 2^(N-1)-1 如N = 8,则表示范围是:-128 ~ 127.设计
无符号数:0~2^N-1 如N = 8,则表示范围是:0~255.code
定点数:2Q13 范围是:-4~4-2^(-13) 精度是:2^(-13)htm
3.结果有效位宽
首先讨论结果位宽问题。在FPGA中每每采用定点运算替代浮点运算来下降硬件资源占用率和计算延迟,其中的精髓就是精度与资源的权衡。若按照保留计算结果的所有精度,N bit数与Mbit数相加结果须要N+1bit(N>M)。N bit数与M bit数相乘之积须要N+M bit。而减法能够转化为加法,除法则转换为乘法和加减法的组合。若是操做数是定点小数,则在知足以上准则的前提下,A与B相加(A小数点位数>B小数点位数),结果小数点位数与A相同;A与B相乘(小数点位数分别为p和q),结果小数点位数是p+q。
4.定点运算步骤
然而(话锋一转),在大多数场合下,不须要以上这么多位来保留计算结果,由于咱们在进行数学运算时,已经知道输入数据的大体范围,一个数除以1000和除以1结果数据所需最小位宽能同样么?加减运算的操做步骤是先对齐小数点位数,后加减。而乘法是先计算后取小数点。这实际上与十进制运算一致,咱们看看具体的计算步骤:
整数之间加减以及乘法的统一步骤:预估结果位宽N --> 按照结果位宽扩展操做数符号位以防止溢出 --> 运算取低N位。
定点小数加减运算步骤:预估结果位宽N --> 获得结果小数点后位数 --> 对齐操做数整数位和小数位,肯定扩展位宽M(M≥N) --> 加减运算取低M位。
定点小数乘法运算步骤:预估结果位宽N --> 获得结果小数点后位数 --> 扩展操做数位宽 --> 相乘取低N位
5. 变量与常量运算化简
以上讨论的均是两变量之间的运算规则,固然结果位宽及格式准则是适用的。变量与常量的运算的优点在于,能够将乘除法转换成加减以及移位运算实现,从而下降计算复杂度和延迟。当常数项C为2的整数次幂(C = 2^p),则乘C等于变量左移p位,除以C等于变量右移p位。几个在书中看到的几个简单示例:A*16 = A <<4 A*20 = A<<4 + A<<2. A除以2 = A >>1 A除以3 = A*(0.25+0.0625+0.0156) = A>>2+A>>4+A>>6 A除以5 = A*(0.125+0.0625+0.0156) = A>>3 + A>>4 + A>>6.其中乘法彻底等价对应的移位相加操做,而除法的移位代替会损失精度。
3、如何计算特殊函数
FPGA内部的DSP Slice能够直接进行最基本的加法和乘法运算,可是对于其余好比对数、指数、三角函数、开根号等特殊函数就无能为力了。这时须要借助算法对这些特殊函数进行变换和简化。FPGA实现复杂函数的经常使用手段一个是级数展开,再一个就是CORDIC算法。关于CORDIC的理论知识和具体内容详见参考文献2,这里主要阐述CORDIC的IP核调用以及应用示例。CORDIC算法就是经过必定的手段,将不少复杂的特殊函数变为相加移位运算,这一点对于硬件芯片实现来讲很是友好。CORDIC分为旋转模式和矢量模式,配合圆周坐标、线性坐标和双曲线坐标会有六种组合,具体见下表:
从表中发现,基本的乘除法、三角函数、反三角函数、双曲函数、反双曲函数、开根号都可以直接求得,那其余函数怎么办?
常见的函数计算需求基本都能知足,虽上述变换式对自变量定义域有限制,但一样能够分析输入数据的取值范围并利用简单的数学变换获得想要的结果。Xilinx同时提供了浮点IP核以及CORDIC IP核,前者调用简单但占用资源大,延迟高,所以利用CORDIC算法计算函数是个较好的选择。
4、CORDIC计算e^x Demo
1. 算法仿真分析
要计算e^x数值须要让CORDIC工做在双曲坐标的旋转模式下,经过e^x = sinhx+coshx关系式间接求得。首先看下sinh和cosh函数的曲线,有个直观认识。
咱们用MATLAB绝不费力地验证一下公式正确性:
在设计后也一样要借助MATLAB进行仿真验证。
2. CORDIC IP核
如今经过查看user guide得知CORDIC IP核的接口及主要特性。
接口包括输入笛卡尔数据输入通道、相位输入通道、全局信号以及数据输出通道。该IP核有两种结构:串行和并行,可根据数据吞吐量需求选择,并行结构能够每一个时钟输出一个计算结果。若是计算sinh和cosh,要向phase通道输入相位信息,X_OUT是cosh(phase),Y_OUT是sinh(phase).输入phase必须知足数据范围,不然出现不可预计结果。输出帧结构及数据范围以下:
其中输入数据格式为2QN,输出则是1QN。因为均是有符号数,也就是输入整数部分3bit,输出整数部分2bit。接下来对IP核进行配置,重点是第一页,此处将其配置为计算sinh和cosh模式,采用并行优化的流水线结构。相位以角度为单位,输入输出位宽设置成16bit。
3.HDL代码设计及仿真验证
设计代码:
1 `timescale 1ns / 1ps 2 3 module cordic_ex#(parameter DIN_W = 16, 4 DOUT_W = 16) 5 ( 6 input clk, 7 input [DIN_W-1:0] din,//2Q13 8 input din_vld, 9 10 output reg [DOUT_W+1-1:0] dout = 0,//2Q14 11 output reg dout_vld = 0 12 ); 13 14 15 wire [DOUT_W*2-1 : 0] m_axis_dout_tdata; 16 wire m_axis_dout_tvalid; 17 wire signed [DOUT_W-1:0] sinh,cosh; 18 19 // ex = sinhx + coshx <1Q14+1Q14 = 2Q14> 20 always @(posedge clk)begin 21 dout <= sinh + cosh; 22 end 23 24 assign sinh = m_axis_dout_tdata[DOUT_W*2-1 -:DOUT_W]; 25 assign cosh = m_axis_dout_tdata[DOUT_W-1 -:DOUT_W]; 26 27 always @(posedge clk)begin 28 if(m_axis_dout_tvalid)begin 29 dout_vld <= 1'b1; 30 end 31 else 32 dout_vld <= 0; 33 end 34 35 cordic_0 cordic_cosh_sinh ( 36 .aclk(clk), // input wire aclk 37 .s_axis_phase_tvalid(din_vld), // input wire s_axis_phase_tvalid 38 .s_axis_phase_tdata(din), // input wire [15 : 0] s_axis_phase_tdata 39 .m_axis_dout_tvalid(m_axis_dout_tvalid), // output wire m_axis_dout_tvalid 40 .m_axis_dout_tdata(m_axis_dout_tdata) // output wire [31 : 0] m_axis_dout_tdata 41 ); 42 43 endmodule
用MATLAB产生两组数据,并将角度值定点化后做为设计模块数据激励:
testbench:
1 `timescale 1ns / 1ps 2 3 module cordic_ex_tb(); 4 5 parameter CYC = 20; 6 7 reg clk; 8 reg [16-1:0] din; 9 reg din_vld; 10 11 wire signed [17-1:0] dout; 12 wire dout_vld; 13 14 cordic_ex#(.DIN_W(16), 15 .DOUT_W(16)) 16 uut( 17 .clk (clk) , 18 .din (din) ,//2Q13 19 .din_vld (din_vld) , 20 .dout (dout) ,//2Q14 21 .dout_vld (dout_vld) 22 ); 23 24 initial begin 25 clk = 1; 26 forever #(CYC/2) clk = ~clk; 27 end 28 29 initial begin 30 #1; 31 din = 0; 32 din_vld = 0; 33 #(CYC*10); 34 35 din_vld = 1; 36 din = 16'b0001010000011011;//pi * 1/5 37 #(CYC*1); 38 din = 16'b1110011011011110;//-pi * 1/4 39 #5; 40 $stop; 41 end 42 43 endmodule
仿真结果:
仿真波形代表,计算结果与MATLAB浮点运算相近,知足通常计算需求。若想提升精度,能够增长CORDIC输出数据位宽。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
参考文献:
1 ug479 7 Series DSP48E1 Slice User Guide.
2 Xilinx CORDIC算法(很是经典)_图文_百度文库 https://wenku.baidu.com/view/6c623aa8910ef12d2bf9e732.html