AI人工智能正在改变计算的整个本质

本文由公众号 AIU人工智能 出品,转载自行咨询原创者受权编程

机器学习,特别是深度学习,迫使从新评估芯片和系统的设计方式,这将改变将来几十年的行业方向。

从芯片到软件再到系统,计算领域将在将来几年内因机器学习的普及而发生巨大变化。咱们可能仍然将这些计算机称为“通用图灵机”,正如咱们已有八十年或更长时间。但在实践中,它们将与迄今为止构建和使用的方式不一样。网络

任何关心计算机工做的人以及对全部形式的机器学习感兴趣的人都会感兴趣。架构

今年2月,Facebook负责人工智能研究的负责人Yann LeCun在旧金山举行的国际固态电路会议上发表了演讲,该会议是世界上运行时间最长的计算机芯片会议之一。在ISSCC,LeCun明确了计算机技术对人工智能研究的重要性。 LeCun说:“硬件功能和软件工具既激励又限制了AI研究人员想象并将容许本身追求的想法类型,咱们所掌握的工具比咱们认可的更能影响咱们的想法”。框架

不难看出状况是怎样的。从2006年开始,深度学习的兴起不只是由于大量数据和机器学习中的新技术,例如“辍学”,并且还由于计算能力愈来愈强。特别是,愈来愈多地使用来自Nvidia的图形处理单元或“GPU”,致使计算的更大并行化。这使得对比以往更大的网络的培训成为可能。20世纪80年代提出的“并行分布式处理”的前提,即人工网络的节点同时被训练,最终成为现实。机器学习

一些人认为,机器学习如今有望接管世界上大部分的计算活动。在2月份的ISSCC期间,LeCun 向ZDNet讲述了计算方向的变化。LeCun说:“若是你走了五年,将来十年,你会看到计算机花费时间作些什么,大多数状况下,我认为他们会作一些像深度学习这样的事情 - 就计算量而言”。他还指出,深度学习可能没法经过收入占据计算机销售的大部分,可是,“就咱们如何每秒花费咱们的毫瓦或咱们的运营而言,他们将花在神经网络上。分布式

深度学习成倍增加

随着深度学习成为计算的焦点,它正在推进当今计算机可以作到的界限,在某种程度上推进神经网络进行预测的“推理任务”,但对于训练神经网络更是如此,计算密集型功能。函数

注:据OpenAI称,自2012年以来,深度学习网络对计算的需求每3.5个月翻一番。工具

诸如OpenAI的GPT-2之类的现代神经网络须要并行训练超过十亿个参数或网络权重。做为Facebook的热门机器学习培训库PyTorch的产品经理,5月份告诉ZDNet,“模型愈来愈大,它们真的很是大,并且培训成本很是高。” 现在最大的模型一般不能彻底存储在GPU附带的存储器电路中。性能

此外:谷歌表示人工智能的“指数”增加正在改变计算的本质

计算周期的需求速度愈来愈快。根据OpenAI提供的数据,早在2012年建立的使人尊敬的AlexNet图像识别系统在总培训时间内耗费了至关于每秒1000万次浮点运算的“千万亿次浮点运算”,总时间达到一天。但AlphaZero是由谷歌的DeepMind在2016年创建的神经网络,它击败了世界上的国际象棋冠军,而且每秒消耗超过一千天的千万亿次飞越。AlexNet和AlphaZero之间计算周期的增长使得每3.5个月的计算消耗量翻了一番。这是2016年收集的数据。到目前为止,步伐无疑会增长。学习

计算机芯片危机

世界甚至没有佩戴千万亿次筹码,用于深度学习培训的顶级芯片,如Nvidia的Tesla V100,每秒运行112万亿次。所以,你必须运行其中的八天1000天,不然将许多人汇集成一个耗费愈来愈多能量的系统。

更糟糕的是,近年来芯片改进的步伐已经触底。正如加州大学伯克利分校教授大卫帕特森和英国航空公司董事长约翰轩尼诗在今年早些时候的一篇文章中所指出的那样,摩尔定律即每十二至十八个月芯片功率增长一倍的经验法则,已经耗尽了气体。英特尔长期以来一直否定这一点,但数据是帕特森和轩尼诗的一面。正如他们在报告中提到的那样,芯片性能如今每一年仅增加3%。

这两位做者都认为,这意味着芯片的设计,众所周知,它们的架构必须完全改变,以便从不会产生性能优点的晶体管中得到更高的性能。(帕特森帮助谷歌建立了“Tensor Processing Unit”芯片,所以他对硬件如何影响机器学习很是了解,反之亦然。)

因为处理器的改进停滞不前,但机器学习需求每隔几个月翻一番,就必须付出代价。使人高兴的是,若是以正确的方式看待,机器学习自己能够成为芯片设计的福音。由于机器学习须要不多的遗留代码支持 - 它没必要运行Excel或Word或Oracle DB - 而且正如他们所说的,对于芯片设计师,因为其最基本计算的高度重复性,机器学习是一种绿地机会。

建造一台新机器

卷积神经网络和长期短时间记忆网络的核心,深度学习的两个主要支柱,甚至在像谷歌的变形金刚这样的更现代的网络中,大多数计算都是线性代数计算,称为张量数学。最多见的是,将一些输入数据转换为矢量,而后将该矢量乘以神经网络权重矩阵的列,并将全部这些乘法的乘积相加。称为乘法相加,这些计算使用所谓的“乘法 - 累加”电路或“MAC”在计算机中呈现。所以,只需改进MAC并在芯片上建立更多的MAC来增长并行化,就能够当即改善机器学习。

主导AI培训的Nvidia和其CPU主导机器学习推理的英特尔都试图调整他们的产品以利用那些原子线性代数函数。Nvidia为其Tesla GPU添加了“张量核心”,以优化矩阵乘法。英特尔已花费300亿美圆收购那些从事机器学习的公司,包括Mobileye,Movidius和Nervana Systems,其中最后一个应该在某个时候致使“Nervana神经网络处理器”,尽管有延迟。

到目前为止,这些举措并不能知足机器学习的需求,例如Facebook的LeCun。在2月与ZDNet聊天期间,LeCun认为,“咱们须要的是竞争对手,如今,你知道,主导供应商Nvidia”。 他还指出,这不是由于Nvidia没有作出好的筹码。这是“由于他们作出了假设,而且拥有一套不一样的硬件能够用来作当前GPUS擅长的补充事物,这样作会很不错。

另外:为何人工智能报告如此糟糕?

他说,其中一个有缺陷的假设是假设训练神经网络将是一个能够操做的“整齐阵列”的问题。相反,将来的网络可能会使用大量的网络图,其中神经网络的计算图的元素做为指针流式传输处处理器。LeCun表示,芯片必须进行大量的乘法增长,但对于如何将这些乘法增长呈现给处理器的指望不一样。

做为TPU芯片贡献者之一的谷歌软件工程师Cliff Young,去年10月在硅谷举行的芯片活动上发表了主题演讲时更直言不讳。Young说:“很长一段时间,咱们都拒绝了,并说英特尔和Nvidia很是擅长构建高性能系统,”“五年前咱们超越了这个门槛”。

创业公司的崛起

在这个漏洞中,新的芯片来自谷歌等人工智能巨头,还有一大批风险投资支持的创业公司。

除了谷歌的TPU,如今已经进行了第三次迭代,微软还有一个可编程处理器,一个名为Project Brainwave的“FPGA”,客户能够经过其Azure云服务租用它。亚马逊表示,它将在今年晚些时候推出本身的定制芯片,名为“Inferentia”。当LeCun在2月份与ZDNet谈话时,他提到Facebook有本身的筹码。

他指出,像谷歌和Facebook这样拥有大量产品的公司,对你本身的引擎工做是有道理的,这方面有内部活动。

创业公司包括Graphcore,一家位于布里斯托尔的五年创业公司,一个位于伦敦西南一个半小时的港口城市; Cornami,Effinix和Flex Logix,全部这些都是由ZDNet描述的和硅谷的洛斯阿尔托斯的s系统公司仍然处于秘密模式。

许多这些初创公司都有一个共同点,那就是大大增长用于矩阵乘法的计算机芯片区域的数量,即MAC单元,以便在每一个时钟周期内挤出最多的并行化。Graphcore是全部初创公司中最远的,是第一个真正向客户发送生产芯片的公司。关于它的第一个芯片最引人注目的事情之一是大量的内存。为了记念世界上第一台数字计算机,Colossus 被称为芯片,面积巨大,面积为806平方毫米。首席技术官Simon Knowles称其为“迄今为止最复杂的处理器芯片”。

Colossus由1,024个被称为“智能处理单元”的独立核心组成,每一个核心均可以独立处理矩阵数学。众所周知,每一个IPU都有本身的专用内存,256千字节的快速SRAM内存。总共有304兆字节的内存是芯片中最经常使用的内存。

没有人知道芯片上存在如此多的内存会如何改变构建的神经网络的种类。多是经过访问愈来愈多的内存,访问速度很是低,更多的神经网络将专一于以新的和有趣的方式重用存储在内存中的值。

软件难题

对于全部这些芯片的努力,问题固然是因为该公司的“CUDA”编程技术,他们没有为Nvidia创建多年的软件。Graphcore和其余人的答案将是双重的。一个是用于机器学习的各类编程框架,例如TensorFlow和Pytorch,提供了一种避免芯片自己细节并专一于程序结构的方法。全部进入市场的芯片都支持这些框架,他们的创造者认为这些框架与Nvidia的竞争环境。

第二点是Graphcore和其余人正在构建本身的编程技术。他们能够证实他们的专有软件既能够转换框架,也能够智能地将并行计算分配给芯片上的众多MAC单元和向量单元。这就是Graphcore为其“Poplar”软件所作的论证。Poplar将神经网络的计算图分解为“codelets”,并将每一个codelet分配到Colossus的不一样核心,以优化并行处理。

在过去的二十年中,大数据和快速并行计算成为常态,推进了机器学习,带来了深度学习。下一波计算机硬件和软件多是关于大量的内存和神经网络,它们是动态构建的,以利用高度并行的芯片架构。将来看起来颇有趣。

本文翻译自:AI is changing the entire nature of compute(Machine learning, especially deep learning, is forcing a re-evaluation of how chips and systems are designed that will change the direction of the industry for decades to come.)

相关文章
相关标签/搜索