TPU结构总结

TPU只完成推理过程,训练过程在GPU上完成。TPU可以像GPU一样通过PCIe总线接口挂载到现有的服务器上。设计目标是为了在TPU上完成所有的推理模型,从而减少和主机CPU的交互,进而满足2015年及今后的神经网络需求。下图是TPU的整体结构框图。 主机通过PCIe Gen3x16的总线发送TPU的指令到其中的指令buffer内,内部模块之间通过典型的256位宽通路连接。右上角的矩阵乘法单元是T
相关文章
相关标签/搜索