一位资深工程师FPGA设计经验精华,吸取后你也能强大!

从大学时代第一次接触FPGA至今已有10多年的时间。至今依然记得当初第一次在EDA实验平台上完成数字秒表,抢答器,密码锁等实验时,那个兴奋劲。当时因为没有接触到HDL硬件描述语言,设计都是在MAX+plus II原理图环境下用74系列逻辑器件搭建起来的。后来读研究生,工做陆陆续续也用过Quartus II,Foundation,ISE,Libero,而且学习了verilogHDL语言,学习的过程当中也慢慢体会到verilog的妙用,原来一小段语言就能完成复杂的原理图设计,并且语言的移植性可操做性比原理图设计强不少。算法

工做过的朋友确定知道,公司里是很强调规范的,特别是对于大的设计(不管软件仍是硬件),不按照规范走几乎是不可实现的。逻辑设计也是这样:若是不按规范作的话,过一个月后调试时发现有错,回头再看本身写的代码,估计不少信号功能都忘了,更不要说检错了;若是一个项目作了一半一我的走了,接班的估计得从头开始设计;若是须要在原来的版本基础上增长新功能,极可能也得从头来过,很难作到设计的可重用性。在逻辑方面,我以为比较重要的规范有这些:数组

1.设计必须文档化。要将设计思路,详细实现等写入文档,而后通过严格评审经过后才能进行下一步的工做。这样作乍看起来很花时间,可是从整个项目过程来看,绝对要比一上来就写代码要节约时间,且这种作法可使项目处于可控、可实现的状态。架构

2.代码规范。若是在另外一个设计中的时钟是40ns,复位周期不变,咱们只需对CLK_PERIOD进行从新例化就好了,从而使得代码更加易于重用。工具

3.信号命名要规范化。布局

a. 信号名一概小写,参数用大写。学习

b.对于低电平有效的信号结尾要用_n标记,如rst_n。测试

c.端口信号排列要统一,一个信号只占一行,最好按输入输出及从哪一个模块来到哪一个模块去的关系排列,这样在后期仿真验证找错时后方便不少。搜索引擎

d.一个模块尽可能只用一个时钟,这里的一个模块是指一个module或者是一个entity。在多时钟域的设计中涉及到跨时钟域的设计中最好有专门一个模块作时钟域的隔离。这样作可让综合器综合出更优的结果。编码

e.尽可能在底层模块上作逻辑,在高层尽可能作例化,顶层模块只能作例化,禁止出现任何胶连逻辑(glue logic),哪怕仅仅是对某个信号取反。理由同上。spa

f.在FPGA的设计上禁止用纯组合逻辑产生latch,带D触发器的latch的是容许的,好比配置寄存器就是这种类型。

g. 通常来讲,进入FPGA的信号必须先同步,以提升系统工做频率(板级)。

h.全部模块的输出都要寄存器化,以提升工做频率,这对设计作到时序收敛也是极有好处的。

i.除非是低功耗设计,否则不要用门控时钟,这会增长设计的不稳定性,在要用到门控时钟的地方,也要将门控信号用时钟的降低沿打一拍再输出与时钟相与。

j.禁止用计数器分频后的信号作其它模块的时钟,而要用改为时钟使能的方式,不然这种时钟满天飞的方式对设计的可靠性极为不利,也大大增长了静态时序分析的复杂性。如FPGA的输入时钟是25M的,如今系统内部要经过RS232与PC通讯,要以rs232_1xclk的速率发送数据。

时序是设计出来的

个人boss有在华为及峻龙工做的背景,天然就给咱们讲了一些华为及altera作逻辑的一些东西,而咱们的项目规范,也基本上是按华为的那一套去作。在工做这几个月中,给我感触最深的是华为的那句话:时序是设计出来的,不是仿出来的,更不是湊出来的。在咱们公司,每个项目都有很严格的评审,只有评审经过了,才能作下一步的工做。以作逻辑为例,并非一上来就开始写代码,而是要先写整体设计方案和逻辑详细设计方案,要等这些方案评审经过,认为可行了,才能进行编码,通常来讲这部分工做所占的时间要远大于编码的时间。

整体方案主要是涉及模块划分,一级模块和二级模块的接口信号和时序(咱们要求把接口信号的时序波形描述出来)以及未来如何测试设计。在这一级方案中,要保证在从此的设计中时序要收敛到一级模块(最后是在二级模块中)。什么意思呢?咱们在作详细设计的时候,对于一些信号的时序确定会作一些调整的,可是这种时序的调整最多只能波及到本一级模块,而不能影响到整个设计。记得之前在学校作设计的时候,因为不懂得设计时序,常常由于有一处信号的时序不知足,结果不得不将其它模块信号的时序也改一下,搞得人很郁闷。

在逻辑详细设计方案这一级的时候,咱们已经将各级模块的接口时序都设计出来了,各级模块内部是怎么实现的也基本上肯定下来了。因为作到这一点,在编码的时候天然就很快了,最重要的是这样作后可让设计会一直处于可控的状态,不会由于某一处的错误引发整个设计从头进行。

如何提升电路工做频率

对于设计者来讲,固然但愿咱们设计的电路的工做频率(在这里如无特别说明,工做频率指FPGA片内的工做频率)尽可能高。咱们也常常据说用资源换速度,用流水的方式能够提升工做频率,这确实是一个很重要的方法,今天我想进一步去分析该如何提升电路的工做频率。

先来分析下是什么影响了电路的工做频率。


电路的工做频率主要与寄存器到寄存器之间的信号传播时延及clock skew有关。在FPGA内部若是时钟走长线的话,clockskew很小,基本上能够忽略, 在这里为了简单起见,只考虑信号的传播时延的因素。信号的传播时延包括寄存器的开关时延、走线时延、通过组合逻辑的时延(这样划分或许不是很准确,不过对分析问题来讲应该是没有能够的),要提升电路的工做频率,就要在这三个时延中作文章,使其尽量的小。先来看开关时延,这个时延是由器件物理特性决定的,没有办法去改变,因此只能经过改变走线方式和减小组合逻辑的方法来提升工做频率。

1.经过改变走线的方式减小时延。

以 Altera的器件为例,在quartus里面的timing closure floorplan 能够看到有不少条条块块,咱们能够将条条块块按行和按列分,每个条块表明1个LAB,每一个LAB里有8个或者是10个LE。它们的走线时延的关系以下:同一个LAB中(最快) 同列或者同行 不一样行且不一样列。

经过给综合器加适当的约束(不可贪心,通常以加5%裕量较为合适,好比电路工做在100Mhz,则加约束加到105Mhz就能够了,贪心效果反而很差,且极大增长综合时间)能够将相关的逻辑在布线时尽可能布的靠近一点,从而减小走线的时延。(注:约束的实现不彻底是经过改进布局布线方式去提升工做频率,还有其它的改进措施)

2.经过减小组合逻辑的减小时延。

上面讲了能够经过加约束来提升工做频率,可是在作设计之初可万万不可将提升工做频率的美好愿望寄托在加约束上,咱们要经过合理的设计去避免出现大的组合逻辑,从而提升电路的工做频率,这才能加强设计的可移植性,才可使得设计在移植到另外一同等速度级别的芯片时还能使用。


咱们知道,目前大部分FPGA都基于4输入LUT的,若是一个输出对应的判断条件大于四输入的话就要由多个LUT级联才能完成,这样就引入一级组合逻辑时延,咱们要减小组合逻辑,无非就是要输入条件尽量的少,,这样就能够级联的LUT更少,从而减小了组合逻辑引发的时延。


平时据说的流水就是一种经过切割大的组合逻辑(在其中插入一级或多级D触发器,从而使寄存器与寄存器之间的组合逻辑减小)来提升工做频率的方法。好比一个32位的计数器,该计数器的进位链很长,必然会下降工做频率,咱们能够将其分割成4位和8位的计数,每当4位的计数器计到15后触发一次8位的计数器,这样就实现了计数器的切割,也提升了工做频率。


在状态机中,通常也要将大的计数器移到状态机外,由于计数器这东西通常是常常是大于4输入的,若是再和其它条件一块儿作为状态的跳变判据的话,必然会增长LUT的级联,从而增大组合逻辑。以一个6输入的计数器为例,咱们原但愿当计数器计到111100后状态跳变,如今咱们将计数器放到状态机外,当计数器计到111011后产生个enable信号去触发状态跳变,这样就将组合逻辑减小了。


上面说的都是能够经过流水的方式切割组合逻辑的状况,可是有些状况下咱们是很难去切割组合逻辑的,在这些状况下又该怎么作呢?


状态机就是这么一个例子,咱们不能经过往状态译码组合逻辑中加入流水。若是咱们的设计中有一个几十个状态的状态机,它的状态译码逻辑将很是之巨大,毫无疑问,这极有多是设计中的关键路径。那该怎么作呢?仍是老思路,减小组合逻辑。咱们能够对状态的输出进行分析,对它们进行从新分类,并根据这个从新定义成一组组小状态机,经过对输入进行选择(case语句)并去触发相应的小状态机,从而实现了将大的状态机切割成小的状态机。在ATA6的规范中(硬盘的标准),输入的命令大概有20十种,每个命令又对应不少种状态,若是用一个大的状态机(状态套状态)去作那是不可想象的,能够经过case语句去对命令进行译码,并触发相应的状态机,这样作下来这一个模块的频率就能够跑得比较高了。


总结:提升工做频率的本质就是要减小寄存器到寄存器的时延,最有效的方法就是避免出现大的组合逻辑,也就是要尽可能去知足四输入的条件,减小LUT级联的数量。咱们能够经过加约束、流水、切割状态的方法提升工做频率。


作逻辑的难点在于系统结构设计和仿真验证

刚去公司的时候boss就和我讲,作逻辑的难点不在于RTL级代码的设计,而在于系统结构设计和仿真验证方面。目前国内对可综合的设计强调的比较多,而对系统结构设计和仿真验证方面彷佛尚未什么资料,这或许也从一个侧面反映了国内目前的设计水平还比较低下吧。之前在学校的时候,老是以为将RTL级代码作好就好了,仿真验证只是形式而已,因此对HDL的行为描述方面的语法不屑一顾,对testbench也一直不肯意去学--由于以为画波形图方便;对于系统结构设计更是一点都不懂了。到了公司接触了些东西才发现彻底不是这样。


其实在国外,花在仿真验证上的时间和人力大概是花在RTL级代码上的两倍,如今仿真验证才是百万门级芯片设计的关键路径。

仿真验证的难点主要在于怎么建模才能彻底和准确地去验证设计的正确性(主要是提升代码覆盖),在这过程当中,验证速度也是很重要的。


验证说白了也就是怎么产生足够覆盖率的激励源,而后怎么去检测错误。我我的认为,在仿真验证中,最基本就是要作到验证的自动化。这也是为何咱们要写testbench的缘由。在我如今的一个设计中,每次跑仿真都要一个小时左右(这其实算小设计)因为画波形图没法作到验证自动化,若是用经过画波形图来仿真的话,一是画波形会画死(特别是对于算法复杂的、输入呈统计分布的设计),二是看波形图要看死,三是检错率几乎为零。那么怎么作到自动化呢?我我的的水平还颇有限,只能简单地谈下BFM(bus function model,总线功能模型)。


以作一个MAC的core为例(背板是PCI总线),那么咱们须要一个MAC_BFM和PCI_BFM及PCI_BM(PCI behavior model)。MAC_BFM的主要功能是产生以太网帧(激励源),随机的长度和帧头,内容也是随机的,在发送的同时也将其复制一份到PCI_BM中;PCI_BFM的功能则是仿PCI总线的行为,好比被测收到了一个正确帧后会向PCI总线发送一个请求,PCI_BFM则会去响应它,并将数据收进来;PCI_BM的主要功能是将MAC_BFM发送出来的东西与PCI_BFM接收到的东西作比较,因为它具备了MAC_BFM的发送信息和PCI_BFM的接收信息,只要设计合理,它老是能够自动地、彻底地去测试被测是否工做正常,从而实现自动检测。 华为在仿真验证方面估计在国内来讲是作的比较好的,他们已创建起了比较好的验证平台,大部分与通讯有关的BFM都作好了,听我朋友说,如今他们只须要将被测放在测试平台中,并配置好参数,就能够自动地检测被测功能的正确与否。


在功能仿真作完后,因为咱们作在是FPGA的设计,在设计时已经基本保证RTL级代码在综合结果和功能仿真结果的一致性,只要综合布局布线后的静态时序报告没有违反时序约束的警告,就能够下到板子上去调试了。事实上,在华为中兴,他们作FPGA的设计时也是不作时序仿真的,由于作时序仿真很花时间,且效果也不见得比看静态时序分析报告好。


固然了,若是是ASIC的设计话,它们的仿真验证的工做量要大一些,在涉及到多时钟域的设计时,通常仍是作后仿的。不过在作后仿以前,也通常会先用形式验证工具和经过静态时序分序报告去查看有没有违反设计要求的地方,这样作了以后,后仿的工做量能够小不少。


在HDL语言方面,国内语言不少人都在争论VHDL和verilog哪一个好,其实我我的认为这并无多大的意义,外面的大公司基本上都是用verilog在作RTL级的代码,因此仍是建议你们尽可能学verilog。在仿真方面,因为VHDL在行为级建模方面弱于verilog,用VHDL作仿真模型的不多,固然也不是说verilog就好,其实verilog在复杂的行为级建模方面的能力也是有限的,好比目前它还不支持数组。在一些复杂的算法设计中,须要高级语言作抽象才能描述出行为级模型。在国外,仿真建模不少都是用System C和E语言,用verilog的都算是很落后的了,国内华为的验证平台好像是用System C写。


在系统结构设计方面,因为我作的设计还不够大,还谈不上什么经验,只是以为必需要具有一些计算机系统结构的知识才行。

划分的首要依据是功能,以后是选择合适的,总线结构、存储结构和处理器架构,经过系统结构划分要使各部分功能模块清晰,易于实现。这一部分我想过段时间有一点体会了再和你们分享,就先不误导你们了。


最后简单说一下体会吧,归结起来就多实践、多思考、多问。实践出真知,看100遍别人的方案不如本身去实践一下。实践的动力一方面来自兴趣,一方面来自压力,我我的以为后者更重要。有需求会容易造成压力,也就是说最好能在实际的项目开发中锻炼,而不是为了学习而学习。在实践过程当中要多思考,多想一想问题出现的缘由,问题解决后要多问几个为何,这也是经验积累的过程,若是有写项目日志的习惯更好,把问题及缘由、解决的办法都写进去。最后还要多问,遇到问题思索后还得不到解决就要问了,毕竟我的的力量是有限的,问同窗同事,问搜索引擎,问网友,均可以,一篇文章、朋友们的点拨均可能帮助本身快速解决问题。