目前主要的处理器架构有:算法
X86架构(The X86 architecture)是微处理器执行的计算机语言指令集,指一个intel通用计算机系列的标准编号缩写,也标识一套通用的计算机指令集合。服务器
ARM(Advanced RISC Machines)一个32位元精简指令集(RISC)处理器架构,ARM处理器普遍地使用在许多嵌入式系统设计。ARM处理器的特色有指令长度固定,执行效率高,低成本等。网络
ARM 架构是开放性的商业 IP 受权,x86 是封闭架构,美国 Intel 和 AMD 对知识产权处于垄断地位(PS:如今华为等国内公司研发多以ARM架构为主)
所谓的AI芯片,通常是指针对AI算法的ASIC(专用芯片)。传统的CPU、GPU均可以拿来执行AI算法,可是速度慢,性能低,没法实际商用。架构
华为很早就开始布局AI芯片。2017年9月德国IFA电子消费展上,华为就率先推出了内置NPU(独立神经网络处理单元)的全球首款AI芯片麒麟970。机器学习
AI处理器的发展和设计目标分布式
目前在图像识别、语音识别、天然语言处理等领域,精度最高的算法就是基于深度学习的,传统的机器学习的计算精度已经被超越,目前应用最广的算法,估计非深度学习莫属,并且,传统机器学习的计算量与 深度学习比起来少不少,因此,我讨论AI芯片时就针对计算量特别大的深度学习而言。毕竟,计算量小的算法,说实话,CPU已经很快了。并且,CPU适合执行调度复杂的算法,这一点是GPU与AI芯片都作不到的,因此他们三者只是针对不一样的应用场景而已,都有各自的主场。布局
GPU原本是从CPU中分离出来专门处理图像计算的,也就是说,GPU是专门处理图像计算的。包括各类特效的显示。这也是GPU的天生的缺陷,GPU更加针对图像的渲染等计算算法。可是,这些算法,与深度学习的算法仍是有比较大的区别,而个人回答里提到的AI芯片,好比TPU,这个是专门针对CNN等典型深度学习算法而开发的。另外,寒武纪的NPU,也是专门针对神经网络的,与TPU相似。
谷歌的TPU,寒武纪的DianNao,这些AI芯片刚出道的时候,就是用CPU/GPU来对比的。性能
AI芯片,好比大名鼎鼎的谷歌的TPU1。学习
TPU1,大约700M Hz,有256X256尺寸的脉动阵列,以下图所示。一共256X256=64K个乘加单元,每一个单元一次可执行一个乘法和一个加法。那就是128K个操做。(乘法算一个,加法再算一个)大数据