1、CORDIC算法git
CORDIC(Coordinate Rotation DIgital Computer)是一种经过迭代对多种数学函数求值的方法,它能够对三角函数、双曲函数和平面旋转问题进行求解。github
在CORDIC以前,要对特殊函数求值,最天然的方法即是级数展开,例如利用泰勒展开来逼近目标函数,只要阶数取得足够大,就能够无限逼近目标函数。级数展开在数学上是完美的,但运用到计算机时,咱们很快就会发现问题:级数展开本质是用多项式函数来近似目标函数,这其中包括大量复杂浮点运算,对于没有硬件浮点运算单元的平台,只能经过软件浮点实现,效率很低。算法
CORDIC的出现解决了这个问题。该算法利用迭代逼近的方法,仅仅经过加/减和移位操做,便可求出特殊函数的值,极大的方便了计算机实现。函数
本文所作的工做:
工具
1、从CORDIC算法正向角度分析三角函数(sin, cos, tan)对任意角的求值;优化
2、从CORDIC算法逆向角度分析反三角函数(arcsin、arccos、arctan)对任意角的求值、向量模的求值;spa
3、分析定点运算的实现及软件模型的创建设计
4、经过Verilog HDL设计硬件。3d
本文代码仓库详见:https://github.com/sci-dev-git/CORDIC-all-in-one-verilog 调试
2、核心思想
正如该算法的名字所说,CORDIC最初是为一种用来进行坐标轴旋转的专用计算机开发的(其原型硬件于1959年成功应用于实时导航)。既然只是坐标轴旋转,算法最先的出发点也许是解决旋转问题。追根溯源,早期研究者是如何想到这个算法的呢?它与函数求值究竟有什么关系?这正是接下来笔者尝试说明的问题。
【1】、从算法的正向角度(对于肯定的点,已知旋转角,求旋转后的坐标)分析:
假设如今咱们要将一个直角坐标系中的点P(x0, y0)绕原点逆时针旋转z0角度,则变换后的点P1(x1, y1)坐标以下:
咱们发现这个转换式中涉及三角函数,但如今假设机器还不能求任意三角函数值,那么可否改进?
能够考虑查表实现,但查表法要求数据必须是离散的,这样旋转角只能取有限个值。如何对任意的旋转角求解?
简单,利用迭代逼近,把目标角度分红若干个小角度,每次迭代只旋转一个特定角度并靠近目标,经过若干次迭代后,点就被旋转到了近似的位置上。关键点是,经过特定的分割,使得每次旋转的角度都是特定角,若是将些特定角的三角函数值固化到列表中,就能够利用查表绕开三角函数的计算。对计算机而言虽然须要迭代屡次,但每次都是简单运算,整体速度快于复杂的三角求值。通常该算法的结果只是近似值,但经过设置迭代次数就能够控制精度,迭代次数越多,精度越高,并最终趋于稳定。
例如:将点P0旋转z = 50°到P‘,求P’坐标。
首先说明:对全部问题来讲,z的取值都是[0,90°],所以假设每次旋转的角度都是90°的n分之一,这样便于制做三角函数表。
第一步正向旋转45°变换到P1,发现没有达到目标角度;所以又继续将P1正向旋转22.5°变换到P2,发现超出了目标角度;因而继续逆向旋转11.25°变换到P3,也超出了目标角度;再逆向旋转5.625°,到达P4,这时咱们发现P4已经很趋近答案了,在该精度内能够用P4近似表示P’坐标。
这个算法基本上解决了旋转变换中三角函数的问题,但并不完美:每次迭代都须要进行4次浮点乘法运算,由于旋转角z的正余弦都是复杂的浮点数,例如cos 22.5° ≈ 0.923879,浮点运算的开销比较明显。
继续观察旋转变换式,能够变造成:
上式仍然涉及两个三角函数,可是cos被放到了一边,因而重点研究tan。将角度z微分为n个小角度,若是像下面这样特殊选取z,使tan z刚好只与2的幂有关,则本来复杂的乘tan zn运算就能够经过右移n位实现(xn,yn都是整数,相关问题在后面讨论),这对二进制计算机是很是天然的。经过这种方法成功地消除了乘法。
结合上面的变换式子,并把cosz隐藏到系数P中,咱们就有了递推关系(其中n表示当前迭代次数,n+1则表示下一次迭代。这里只写出了逆时针旋转的状况,顺时针旋转改变1/2n项的符号便可。)
因为n是离散的,而且z = atan(1/2n)能够提早计算,因此可用查表的方法快速得出z的值,这样系数Pn也能够经过查表求出,但系数Pn还是浮点数。
到这里,原先算法的4次浮点运算,被成功减小到了只有2次,咱们离真正的CORDIC算法已经很近了。
但问题尚未结束,若是迭代n次的话,仍须要进行2n次浮点运算,有没有优化的余地呢?引发2n次浮点运算的缘由是每次都须要与系数Pn相乘,这样作真的有必要吗?
构造辅助三角形,能够得出:
所以Pn的取值只与n有关,而与别的变量没有关系。Pn彻底能够在全部迭代都完成后单独计算,在最后将结果乘P=ΠPn便可。
对于根据迭代较少的状况,能够将P的不一样取值固化到表格中,经过查表快速求出。
而对于迭代次数较多的状况,能够将P看做常数近似处理,这是由于随着n的增长,P逐渐稳定下来:
经过数值统计,咱们能够看出具体多少次迭代之后开始能够将P看做常量。从图中能够看出从n=8开始比较合适。当n<3时P的取值变化较大,但事实上小于3次的迭代基本上是没有意义的(求解特殊角除外)。
到这里整个算法只需在最后进行一次浮点运算,而每次迭代都只涉及简单的加/减和位移运算了!!!
虽然有了这个快速旋转变换算法,但咱们的最终目标并不在于此,而是求三角函数的值,如何经过旋转求三角函数?
简单。借助单位圆这个工具,在直角坐标系中将点(0, 1)绕原点旋转至α角上,则旋转后的点的横纵坐标对应的正是cosα、sinα的值,tanα也能够利用比值求出,这正是利用CORDIC求三角函数的核心思路。下图显示了CORDIC算法的迭代过程。
上述算法可用伪代码描述以下:
1 For n=0 to i-1 2 If (Z(n) >= 0) Then 3 X(n + 1) := X(n) – (Yn >> n) 4 Y(n + 1) := Y(n) + (Xn >> n) 5 6 Z(n + 1) := Z(n) - atan(1/2^n) 7 Else 8 X(n + 1) := X(n) + (Yn >> n) 9 Y(n + 1) := Y(n) – (Xn >> n) 10 11 Z(n + 1) := Z(n) + atan(1/2^n) 12 End if 13 End for
【2】、从算法的逆向角度(对于肯定的点,已知旋转后的点坐标,求旋转角)提及。
从正向分析或者逆向分析,角度不一样,解决的问题也不一样。
仍然在单位圆内,假设已知正弦或余弦中的一个值,如何求对应的反三角函数?这里以求反正弦函数为例说明,已知反正弦函数自变量为S,咱们将点(1, 0)逆时针旋转,若是转到某个角度该点的纵坐标恰等于S,说明这个角度就是反正弦函数的值;同理反余弦函数也可用用相似的方法算出。
接下来继续分析反正切的状况,已知正切值,则能够得出对应的单位圆上的点P0(x0, y0)。若是将点P0旋转一个角度,使旋转后的点纵坐标变成0,那么这个角度正是反正切函数的值。
以上即是利用CORDIC求反三角函数的全部思路。
如今留下的问题是到底旋转多少角度才合适。CORDIC一样以迭代逼近的方法解决这个问题。
以求反正切函数为例:这里只讨论z在0到90°范围内(即x0, y0都为正)的状况。咱们能够先将原始点旋转atan(-1/2)角度进行试探,旋转完成后发现点纵坐标仍然大于0,因而继续旋转atan(-1/4)、atan(-1/8)到达图中草绿色终点,这个时候发现纵坐标小于0,说明旋转过头了,因而再反方向旋转atan(-1/16)角度到达蓝色终点,若此时点的纵坐标在规定精度内接近0则迭代结束,能够经过累加全部迭代中旋转的角度增量求出α的具体数值,这个总角度α正是atan的值。
经过第一小节的讨论能够看出,递推式中系数P在几何上的效果是缩放了旋转半径(点到坐标原点的距离)。因为求反正切函数过程当中只用到旋转角,而旋转角与旋转半径与无关,因此不须要考虑系数P。
上述算法可用伪代码描述以下:
1 A := 0 2 For n=0 to i-1 3 If (Y(n) >= 0) Then 4 X(n + 1) := X(n) + (Yn >> n) 5 Y(n + 1) := Y(n) - (Xn >> n) 6 7 A := A + atan(1/2^n) 8 Else 9 X(n + 1) := X(n) - (Yn >> n) 10 Y(n + 1) := Y(n) + (Xn >> n) 11 12 A := A - atan(1/2^n) 13 End if 14 End for
理解了求反正切函数的思路后,咱们就能够着手考虑反正弦和反余弦函数的求值。比较可知,旋转过程当中,对反正切函数要求旋转点的纵坐标趋于0,而对反正弦函数要求旋转点纵坐标趋于特定值S(函数自变量的取值)。能够发现,前者所涉及的的旋转是后者的一种特殊状况,这样只需简单修改前者就能够得出适用后者的旋转算法。
1 limP := 0.607253 2 A := 0 3 B := S / limP 4 For n=0 to i-1 5 If (Y(n) >= B) Then 6 X(n + 1) := X(n) + (Yn >> n) 7 Y(n + 1) := Y(n) - (Xn >> n) 8 9 A := A + atan(1/2^n) 10 Else 11 X(n + 1) := X(n) - (Yn >> n) 12 Y(n + 1) := Y(n) + (Xn >> n) 13 14 A := A - atan(1/2^n) 15 End if 16 End for
须要解释的是B := S / limP,这里为何须要将S放大1/limP倍呢?缘由很简单,因为在每次迭代时都忽略了系数Pn<1,这会致使Y(n)比未忽略系数时大出1/Pn倍。为了使Y(n)与S可以进行比较,须要将S同比例放大1/Pn倍,这样每次迭代又将引入浮点运算。直接近似Pn = limP虽然会引入细微的精度损失,但避免了大量浮点运算。
同理,也能够得出旋转点横坐标趋于特定值的算法。
1 limP := 0.607253 2 A := 0 3 B := S / limP 4 For n=0 to i-1 5 If (X(n) >= B) Then 6 X(n + 1) := X(n) - (Yn >> n) 7 Y(n + 1) := Y(n) + (Xn >> n) 8 9 A := A - atan(1/2^n) 10 Else 11 X(n + 1) := X(n) + (Yn >> n) 12 Y(n + 1) := Y(n) - (Xn >> n) 13 14 A := A + atan(1/2^n) 15 End if 16 End for
至此全部关于利用CORDIC求三角和反三角函数的分析就结束了。
借鉴上面求反正切角函数的思路,咱们也能够看出向量求模的运算方法。直角坐标系中,将目标向量V的起点平移到坐标原点,终点用坐标(x0, y0)表示。若是把这个点旋转到x轴(或y轴)上,则旋转后的点对应的横坐标(或纵坐标)正是该向量的模长|V|。
该算法的核心与求反正切函数基本相同,这里再也不赘述。
除三角反三角函数和向量模外,CORDIC能够完成的运算还有不少,本文再也不重点讨论。
3、定点运算实现及软件模型创建
若是能用整数表示浮点数,则能够经过整数运算完成实数运算。在必定精度内,定点数与浮点数能够经过比例放缩互相转换。
首先肯定整数位宽,这里以16位为例,
一、量化角度:在直角范围内,能够将正整数的取值区间均分为coeff = 2^14 / 90 = 182个单位,则一个单位对应角度的数量级为10^-2。任意给定浮点角度Z°,其对应的定点角度为floor(Z * coeff);
二、量化坐标(x, y):将原始坐标放大coeff倍并取整便可得出定点坐标。但若坐标取值较大则存在溢出风险,需另选系数。
上述两点措施完成了算法输入的定点量化;而对于算法的输出,只需将定点数缩小coeff倍便可获得最终的浮点结果。
如今终于能够开始设计工做了。不过在硬件设计以前,先考虑软件模型是有必要的,由于软件语言的抽象程度高于硬件描述语言,能够更加紧凑地对算法进行描述,同时能快速地进行调试。
软件模型主要涉及两个核心算法:旋转和反旋转。
旋转算法的C语言模型:
https://github.com/sci-dev-git/CORDIC-all-in-one-verilog/blob/master/CORDIC-rotate-fixed-point.c
反旋转算法:
https://github.com/sci-dev-git/CORDIC-all-in-one-verilog/blob/master/CORDIC-anti-rotate-fixed-point.c
4、FPGA实现
本文到这里已经接近尾声了,经过铺垫,FPGA的实现天然水到渠成。这一小节主要解决的问题是硬件实现的相关细节,例如象限转换,流水化处理等。采用流水线的目的在于提升时钟频率,例如在DDS(直接数字频率合成)应用中,CORDIC算法能够代替采样表生成波形数据。为了实现较高的合成频率,流水化是有必要的。
关于Verilog实现有几点须要说明的地方,首先利用verilog标准中规定的generate语句,能够实现任意深度流水线的综合;
其次在此以前对算法的全部讨论都只涉及第Ⅰ象限,如今加入象限的处理。电路直接取相位输入高2位判断象限,并按函数值在4个象限的符号关系对输出进行处理。
完整的Verilog模块以下:该模块经过端口phase_i输入相位。经过sin_o,cos_o输出三角函数值,经过err_o输出迭代引发的相位偏差。从流水线为空开始,需等待PIPE_DEPTH+2个时钟周期才能得出结果;而流水线填满后,对于后续相位输入,模块均可以在2个时钟周期内更新输出。
1 module cordic_dds # ( 2 parameter DW = 16, /* Data width */ 3 parameter PIPE_DEPTH = 14, /* Pipeline depth */ 4 parameter limP = 16'h4dba /* P = 0.607253 * 2^15 */ 5 ) 6 (/*AUTOARG*/ 7 // Outputs 8 sin_o, cos_o, err_o, 9 // Inputs 10 clk, phase_i 11 ); 12 13 input clk; 14 input [DW-1:0] phase_i; /* Phase */ 15 output [DW:0] sin_o, cos_o; /* Function value output */ 16 output [DW:0] err_o; /* Phase Error output */ 17 18 reg [DW:0] cos_r=0, sin_o_r=0; 19 reg [DW:0] x[PIPE_DEPTH:0]; 20 reg [DW:0] y[PIPE_DEPTH:0]; 21 reg [DW:0] z[PIPE_DEPTH:0]; 22 23 reg [DW:0] atan_rom[PIPE_DEPTH:0]; 24 25 reg [1:0] quadrant [PIPE_DEPTH:0]; 26 27 integer i; 28 initial begin 29 for(i=0; i<=PIPE_DEPTH; i=i+1) begin 30 x[i] = 0; y[i] = 0; z[i] = 0; 31 quadrant[i] = 2'b0; 32 end 33 end 34 35 initial begin 36 atan_rom[0] <= 8189; 37 atan_rom[1] <= 4834; 38 atan_rom[2] <= 2554; 39 atan_rom[3] <= 1296; 40 atan_rom[4] <= 650; 41 atan_rom[5] <= 325; 42 atan_rom[6] <= 162; 43 atan_rom[7] <= 81; 44 atan_rom[8] <= 40; 45 atan_rom[9] <= 20; 46 atan_rom[10] <= 10; 47 atan_rom[11] <= 5; 48 atan_rom[12] <= 2; 49 atan_rom[13] <= 1; 50 end 51 52 53 // ================= // 54 // Pipeline stages // 55 // ================= // 56 always @ (posedge clk) begin // stage 0 57 x[0] <= {1'b0, limP}; 58 y[0] <= 0; 59 z[0] <= {3'b0, phase_i[DW-1-2:0]}; // control the phase_i to the range[0-Pi/2] 60 end 61 62 always @ (posedge clk) begin // stage 1 63 x[1] <= x[0] - y[0]; 64 y[1] <= x[0] + y[0]; 65 z[1] <= z[0] - atan_rom[0]; // reversal 45deg 66 end 67 68 generate 69 genvar k; 70 for(k=1; k<PIPE_DEPTH; k=k+1) begin 71 always @ (posedge clk) begin 72 if (z[k][DW]) begin /* the diff is negative on clockwise */ 73 x[k+1] <= x[k] + {{k{y[k][DW]}},y[k][DW:k]}; /* >> k */ 74 y[k+1] <= y[k] - {{k{x[k][DW]}},x[k][DW:k]}; /* >> k */ 75 z[k+1] <= z[k] + atan_rom[k]; 76 end else begin 77 x[k+1] <= x[k] - {{k{y[k][DW]}},y[k][DW:k]}; 78 y[k+1] <= y[k] + {{k{x[k][DW]}},x[k][DW:k]}; 79 z[k+1] <= z[k] - atan_rom[k]; 80 end 81 end 82 end 83 endgenerate 84 85 // ================= // 86 // Count quadrant // 87 // ================= // 88 always @ (posedge clk) begin 89 quadrant[0] <= phase_i[DW-1:DW-2]; 90 end 91 generate 92 genvar j; 93 for(j=0; j<PIPE_DEPTH; j=j+1) begin 94 always @ (posedge clk) begin 95 quadrant[j+1] <= quadrant[j]; 96 end 97 end 98 endgenerate 99 100 // ================= // 101 // Adjust quadrant // 102 // ================= // 103 always @ (posedge clk) 104 case(quadrant[PIPE_DEPTH]) 105 2'b00: begin 106 cos_r <= x[PIPE_DEPTH]; /* cos */ 107 sin_o_r <= y[PIPE_DEPTH]; /* sin */ 108 end 109 2'b01: begin 110 cos_r <= ~(y[PIPE_DEPTH]) + 1'b1; /* -sin */ 111 sin_o_r <= x[PIPE_DEPTH]; /* cos */ 112 end 113 2'b10: begin 114 cos_r <= ~(x[PIPE_DEPTH]) + 1'b1; /* -cos */ 115 sin_o_r <= ~(y[PIPE_DEPTH]) + 1'b1; /* -sin */ 116 end 117 2'b11: begin 118 cos_r <= y[PIPE_DEPTH]; /* sin */ 119 sin_o_r <= ~(x[PIPE_DEPTH]) + 1'b1; /* -cos */ 120 end 121 endcase 122 123 assign cos_o = cos_r; 124 assign sin_o = sin_o_r; 125 assign err_o = z[PIPE_DEPTH]; 126 127 endmodule
经过仿真得出波形以下:
本文仅对CORDIC算法进行了一些浅显的分析,基本覆盖到了算法的核心思路和简单应用,但从工业应用的角度出发,还有不少值得讨论的问题未在文章中分析。因为笔者时间有限,不能将本文作得很是全面,疏漏之处有待往后逐步完善,还望各位读者海涵。