算力至上?四大AI芯片大对决

  络的训练来说而对于神经网,PU集群来提供充足的算力它往往需要大量密集的G。一来这样,可能会超过几十千瓦一个机柜的功耗就。修改供电和散热等结构这就需要数据中心为它。心大都靠风扇散热比如传统的数据中,部署GPU但如果要,成水冷散热就可能要改。据中心来说对于大数,大的开销这是笔巨。

  维框架里在这个思,个衡量因素一共有五。能之外除了性,性、成本和功耗四点还有灵活性、同构。

  文章里在这篇,智能芯片的几个有意思的事情我们来一起看一下关于人工。论的重点我想讨,实践和应用场景里是在实际的工程,片进行合理的评价和选择如何对人工智能加速芯,芯片的优缺点都有哪些以及各种不同的AI。个简单的思维框架我会给大家介绍一,理解和思考帮助大家。

  讨论的领域和对象我们现在明确了,端的四种常见的芯片也就是部署在服务器,该确定的是接下来应,量这些AI芯片的优缺点通过什么样的方式来衡。

  实上事,有一个唯一的答案对于这个问题并没。“Context”我们只有根据特定的,情况具体分析也就是具体,某个应用的AI芯片才能找到最适用于。的思维方式而这种理性,工作和生活的各种事情其实也适用于我们日常,达的最重要的内容这也是本文想要传。

  点其实是它的灵活性FPGA最主要的特,型和通信密集型在内的各类应用它可以很好的应对包括计算密集。外此,程、部分可编程的特点FPGA有着动态可编,是说也就,一时刻处理多个应用FPGA可以在同,刻处理不同的应用也可以在不同时。

  高功耗伴随着,是高昂的电费开支更大的问题实际。知道要,的运维成本里现代数据中心,0%甚至更高电费开支占4。以所,中心里的大规模部署对于GPU在数据,它所带来的性能优势我们通常考虑的是,来的额外电费能否抵消它带。

  样的同,的人工智能芯片对于我们要讨论,同的应用领域其实有很多不。角度来看从这个,动端和服务器端两大类AI芯片可以分成移,类称为终端和云端也有很多人把两。

  指的是同构性,个AI芯片的时候当我们大量部署这,有的软硬件架构和资源我们能否重复的利用现,其他额外的东西还是需要引入。单的例子举个简,外接一个显示器比如我的电脑要,的接口是HDMI如果这个显示器,以直接连那么就可。VGA或者DVI或者其他接口但是如果这个显示器的接口只有,外的转接头才行那么我就要买额。样这,这个设备我们就说,显示器也就是,统的同构性不好它对我现有系。

  数据进行处理为了对海量的,结构已经很难满足需求了基于传统CPU的计算,大的硬件和芯片我们需要更加强,的完成这些工作来更快、更好。

  文章里在这篇,能芯片的主要分类我们讨论了人工智,应用场景比如按,端和移动端两类可以分成服务器。执行人工智能应用的芯片我们介绍了四种可以用来,、ASIC和FPGA分别是CPU、GPU。一个思维框架我们还根据,性、功耗、成本五个方面从性能、灵活性、同构,种芯片的优缺点分别衡量了这四。

  是它的灵活性和同构性CPU最大的优势就。数据中心来说对于大部分,都是围绕CPU设计建设的它们的各种软硬件基础设施。心的部署、扩展、运维所以CPU在数据中,已经非常成熟了包括生态其实都。成本不算太低它的功耗和,接受的范围内但也还在可。

  一下FPGA最后再来说。人认为我个,指标中达到比较理想的平衡FPGA能够在这些性能。然了当,FPGA紧密相关我目前的职业就和,屁股决定脑袋之嫌所以这个结论有,家借鉴谨供大。

  网友个人发布*博客内容为,主个人观点仅代表博,系工作人员删除如有侵权请联。

  讨论之前在开始,些讨论的前提条件我们首先要明确一,的分析至关重要这些对于接下来。一个逻辑谬误很多人常犯的,缺少一个特定的讨论范围就是在讨论问题的时候,context这个英文叫做,翻译成语境中文通常,上下文或者。

  外此,更好的方法我们也需要,智能的算法和模型比如使用各种人工,数据的分析和处理来帮助我们进行,意义的结论并得到有。者结合起来如果把这两,样的人工智能芯片就产生了各种各。

  外此,具体讨论哪些AI芯片我们还需要明确一下。:CPU、GPU、ASIC和FPGA这篇文章将主要对比四种最常见的芯片。小众的芯片种类其他的一些相对,和量子芯片等等比如类脑芯片,论的范围了就不列入讨。

  工程实践里经常使用的思维框架在这里给大家介绍一个我们在。来说具体,大量部署AI芯片的时候当我们考虑在数据中心里,下几个重要的因素通常需要考虑以。

  外一个优势GPU的另,成熟的编程框架是它有着比较,UDA比如C,nCL等等或者Ope,爆发最直接的推动力量之一这是GPU在AI领域得到,者ASIC的最大优势之一也是GPU相比FPGA或。

  中心里在数据,配合现有的CPU进行大规模部署目前FPGA通常以加速卡的形式。耗通常为几十瓦FPGA的功,等环节没有特殊要求对额外的供电和散热,心的现有硬件基础设施因此可以兼容数据中。

  衡量体系里在我们的,各项指标都非常极端这种AI专用芯片的,性能和极低的功耗比如它有着极高的,U相比和GP,能会高十倍它的性能可,100倍功耗会低。

  比较好理解了成本和功耗就。是钱和时间成本指的就,细抠的话当然如果,各种人力物力还有投入的,片带来的机会成本等等以及没有选择其他芯。还是钱和时间不过归根到底。两大部分成本包含,片的研发成本一部分是芯,的部署和运维成本另一部分是芯片。

  人工智能芯片对于这两类,接进行比较我们很难直。一棵大树这就好像,支撑起这颗树它的树干负责,各种营养物质并且还能输送。责进行光合作用它的树叶就负,营养物质并生产。比较树干和树叶但是我们很难,更有用究竟谁。

  提的是值得一,域涌现出来了一波优秀的公司我国在人工智能专用芯片领,纪、地平线比如寒武,收购的深鉴科技等等还有之前被赛灵思。幅限制受篇,具体产品和技术关于这些公司的,再展开了这里就不。

  文章里在这篇,论的范围缩小我们要把讨,人工智能芯片的相关问题只关注部署在服务器端的。

  以说所,加速单元而言相比其他硬件,本和功耗五个方面达到了比较理想的平衡FPGA在性能、灵活性、同构性、成,终选用FPGA这也是微软最,大规模部署的主要原因并在数据中心里进行,的朋友有兴趣,在微软数据中心的前世今生》可以看之前的文章《FPGA。

  芯片的时候在衡量AI,能功耗比这个标准我们也经常使用性。是说也就,的性能非常高即使某种芯片,非常高的话但是功耗也,性能功耗比就很低那么这个芯片的。GPU更有优势的地方这也是FPGA相比。

  的人工智能专用芯片ASIC就是所谓。典型代表这里的,狗里用的TPU就是谷歌阿尔法。歌的数据根据谷,千多个CPU和上百个GPUTPU在阿尔法狗里替代了一。

  如比,on可扩展处理器英特尔最新的Xe,DL Boost就引入了所谓的,学习加速技术也就是深度,神经网络的训练和推理性能来加速卷积神经网络和深度。他三种芯片但是相比其,能还是有一定差距CPU的AI性。

  外呢此,灵活性往往比较低AI专用芯片的。思义顾名,内的AI专用芯片包括谷歌TPU在,定应用而设计开发通常是针对某种特,适用于其他的应用因此它可能很难。本的角度在使用成,ASIC的方案如果要采用基于,用有足够的使用量就需要这类目标应,的研发费用以分摊高昂。时同,要足够稳定这类应用需,和协议不断变化避免核心的算法。应用来说是不现实的而这对于很多AI。

  是但,量AI芯片好坏的唯一标准算力或者性能其实并不是衡。实上事,不是最重要的标准在很多时候它甚至。么那,虑的因素呢还有哪些考?

  维框架里的五个重要元素现在我们知道了这个思,面提到的四种芯片那么我们就能对前,C和FPGA做一个定性的比较了也就是CPU、GPU、ASI。明一下这里声,表我个人的观点这些对比仅代,里和我交流你的想法也欢迎大家在留言。

  成本方面在开发,本其实远低于ASICFPGA的一次性成,在制造出来之后因为FPGA,来改变它的逻辑功能可以通过重复编程。片完成就不能修改了而专用芯片一旦流,都会耗资巨大但是每次流片。的很多AI芯片的初创企业这也是为什么包括深鉴在内,为实现平台的原因都使用FPGA作。

  能方面在性,定制化的硬件流水线FPGA可以实现,进行大规模的并行运算并且可以在硬件层面,高的吞吐量而且有着很。

  是算力首先就,片的性能也就是芯。有很多方面这里的性能,或者定点数运算的时候比如这个芯片做浮点,运算次数每秒的,性能和平均性能等等以及这个芯片的峰值。

  规模的并行架构GPU有着大,的应用进行计算和处理非常适合对数据密集型,习的训练过程比如深度学。U相比和CP,几十倍甚至上千倍GPU的性能会高。的很多公司因此业界,种AI应用进行加速都在使用GPU对各。

  白了说,讨论问题的时候这个就是我们在,讨论的范围要圈定一个,圈圈里讨论问题大家都在这个。者格斗比赛一样这就像拳击或,擂台上比拼要在那个,到台下打不能跑。的话否则,于大爷说的那样就会像老郭和:

  是但,着极高的成本和风险研发这样的芯片有。开发不同与软件,大量的人力物力投入芯片开发全程都需要,往长达数年开发周期往,的风险极大而且失败。全球放眼,术储备以进行这类研发的公司同时拥有雄厚的资金实力和技,就能数的出来大概用两只手。是说也就,言并可能没有直接的借鉴意义这种方案对于大多数公司而。

  是但,题就是它的功耗GPU的最大问。如比,GPU的功耗都在250W到400W之间英伟达的P100、V100和A100 。的几十瓦甚至几瓦的功耗而言相比于FPGA或ASIC,得过于惊人了这个数字显。

  实上事,类应用中在这两,要求上有着本质区别人工智能芯片在设计。如比,的低功耗、低延时、低成本移动端更加注重AI芯片,端的AI芯片而部署在云,算力、扩展能力可能会更加注重,设施的兼容性等等以及它对现有基础。

  前目,是在过去的两三年之内产生的全世界超过90%的数据都。、云计算等各种技术的不断发展随着人工智能、自动驾驶、5G,续源源不断的产生海量数据都将会继。025年预计到2,现在增长10倍数据总量将比。术的发展中在这些技,对大数据的研究和分析很大的一部分都基于。为如此正因,喻为人工智能时代的石油很多人就形象的将数据比。

  中其,对不同应用场景的适应程度灵活性指的是这个AI芯片。是说也就,种不同的AI算法和应用这个芯片能不能被用于各。

  PU来说对于C,里的主要计算单元它仍然是数据中心。实上事,各种人工智能应用为了更好的支持,令集也在不断迭代和变化传统CPU的结构和指。

分享: