颠覆传统,AI算力新王者即将诞生:CPU、GPU、ASIC、FPGA正面交锋

薪科技快评 2024-02-14 13:44:58
深入盘点四大主流计算芯片:CPU、GPU、ASIC、FPGA谁将成为AI算力之王

计算工具演进与社会生产力提升:

从结绳计数到电子计算机的出现,计算工具的发展经历了漫长的历史。计算工具的进步,直接推进了社会生产力的发展。计算工具能力越强,便能大幅缩短人类解决复杂问题的时间,进而加速社会生产力的增长。反观历史上,算盘的普及在中国古代经济繁荣中发挥了不可忽视的作用,而蒸汽机的发明更是直接引领了工业革命的浪潮。

算力芯片:推动科技发展的关键驱动力

人类工业进程的每一次革命都伴随着对更强大算力的追求,从查尔斯·巴贝奇的“分析机”概念到赫尔曼·霍尔勒斯的机械计算器,都是这个进程中的重要里程碑。电力电气技术的快速发展,为世界第一台计算机的诞生创造了条件,从而带来半个多世纪的科技大飞跃。

今天,我们习以为常的便利生活,离不开算力芯片的贡献。从手机到电脑,从本地到云端,无处不在的算力芯片为我们提供源源不断的动力。

主流AI算力芯片:特点和功能

如今,主流的AI算力芯片主要分为CPU、GPU和ASIC三大类,每种芯片都有其独特的计算特点和功能。

1. CPU:传统通用计算之王

CPU,即中央处理器,是计算机的心脏。它按照冯·诺依曼架构运行,包含运算器、控制器、存储器等主要部分。数据在存储器中存储,控制器从存储器中获取数据并交给运算器进行运算,运算完成后再将结果返回存储器。

CPU的特点是通用性强,可处理各种类型的计算任务,但其计算效率不及专门针对特定任务设计的芯片。

2. GPU:图形处理的利器

GPU,即图形处理单元,最初用于加速图形渲染。近年来,GPU在深度学习等领域表现出色,被广泛应用于人工智能计算。

GPU的特点是具有大量并行计算单元,可同时处理大量数据,使其在并行计算任务中具有很高的效率。但GPU的通用性不及CPU,仅适用于特定类型计算任务。

3. ASIC:专用芯片的典范

ASIC,即专用集成电路,是一种专为特定任务而设计的芯片。它通过硬件实现算法,可在特定任务中实现极高的计算效率和能效。

ASIC的特点是针对性强,仅适用于特定任务,但其计算效率和能效远超CPU和GPU。

AI算力芯片是推动科技发展的关键驱动力,也是人工智能的基础。随着AI技术的不断发展,对算力芯片的需求也将持续增长。未来,AI算力芯片将进一步优化,并在更多领域发挥作用。回顾人类工业进程,每一次工业革命都会推动对人们对更强计算工具的追求。第一次工业革命,查尔斯·巴贝奇提出了“分析机”的概念,虽然未能完全实现,但奠定了机械计算设备发展的基础。后来,赫尔曼·霍尔勒斯开发了一种可以执行不同运算的机械计算器,为机械计算设备的发展注入了新的活力。第二次工业革命,电力电气大发展为世界第一台电子计算机的出现创造了条件,从而带来了半个多世纪的科技大发展。时至今日,我们仍在享受计算机性能不断提升带来的红利。从手机到电脑,从本地到云端,无处不在的算力时刻在为我们提供服务,今天的生活能如此便捷,离不开这一颗颗小小的算力芯片。就此话题,我们就来深入地盘一盘当下主流的AI算力芯片,在计算特点和功能上有何不同?

CPU——传统通用计算之王今天的我们都知道CPU是计算机的心脏,但CPU具体是怎么运行的很多人不太清楚。CPU,全称Central Processing Unit,即中央处理器。现代电子计算机的发明是基于1940年代诞生的冯·诺依曼架构,这个架构主要由运算器(也叫逻辑运算单元,ALU)、控制器、存储器、输入设备、输出设备等五个主要部分组成。按照冯·诺依曼架构,数据来了,会先放到存储器。然后,控制器会从存储器拿到相应数据,再交给运算器进行运算。运算完成后,再把结果返回到存储器。大致的架构如图1所示,其中运算器和控制器两个部分组成了CPU的主要功能。

冯·诺依曼架构的局限性及其对CPU的要求

冯·诺依曼架构采用串行运算方式,即一次只能进行一项计算任务,导致个人计算机性能跟不上应用软件发展的需求,尤其是在图形视窗操作系统的出现后,应用程序开发的大爆发,对个人计算机的应用性能提出了更高要求。

GPU的诞生及其对图形处理的革命性影响

英伟达于1999年推出业界第一款GeForce 256图形卡,即GPU,专司图形处理。GPU的推出改变了个人计算机的图形处理方式,使高清视频、大型游戏等应用得以实现高质量的3D图形渲染。

GPU架构的特点及其与CPU的差异

GPU架构完全为3D图形处理而设计,具有大量的计算单元和较少的控制单元,而CPU则具有较少的计算单元和较多的控制单元。 GPU靠规模致胜,而CPU则靠计算能力和指令集来应对复杂的计算需求。

GPU在AI计算领域的重要性

GPU在AI计算领域具有独特的优势,是支撑AI大模型训练和推理的重要硬件基础。GPU的并行计算能力和高吞吐量使其非常适合处理大规模的数据和计算,能够显著提高AI模型的训练和推理速度。

GPU的应用场景

GPU除了用于个人电脑的图形处理外,还广泛应用于高端工作站的三维设计和工程仿真,以及AI计算等领域。

GPU的出现极大地提升了计算机的图形处理能力和AI计算能力,改变了个人计算机的应用方式和AI技术的发展进程。随着图形技术和AI技术的不断发展,GPU将继续发挥着重要的作用。1 冯·诺依曼架构上面的计算方式,从数据输入到输出算一个完整的处理流程,冯·诺依曼体系采用的就是串行运算方式。即一次只能进行一项计算任务,只有上一个计算指令完成了,数据存储了,才能开启下一个指令。这就好比排队进站,只有一个进站口和检查口,也只允许排一条队,如果进站人数很多,就需要等待很长时间才能完成进站,这就是CPU所采用的先进先出运算模式。从个人计算机诞生起,CPU的硬件架构到指令集都是基于串行运算模式设计,其优势是逻辑控制力好,即计算通用性很好,为的就是能应付各种复杂的计算需求,在软件对计算性能要求不高的时代,这种设计是有优势的。在上世纪80年代,个人计算机主要用于简单的电子表格和文件打印等处理,但进入90年代,随着互联网的快速发展以及图形视窗操作系统的出现,出现了应用程序开发的大爆发,当时在国内,从甩图板、财会电算化到大型网络游戏的引入,对个人计算机的应用性能越来越高,从而给CPU的性能带来了极大压力。笔者是1998年接触个人电脑,当时最大的感受就是“慢”,不管是打开网页还是玩网络游戏,频繁出现卡顿。也可能是当时的网吧配置低,但那时主流的电脑配置用的奔腾一,运行速度才60MHz,最高的电脑配置才奔腾二,主频450MHz。总体而言,在当时CPU性能实际上已跟不上应用软件的发展需求。当初英特尔应该也是想急于改变现状,但限于制造工艺水平,想大幅提升CPU性能当时是很困难的,直到2000年奔腾四推出,主频达到1.5GHz,性能不足问题才有所缓解。在此之前,唯一可行的就是将计算机的图形计算交出去,让CPU专司应用。而就在此时,英伟达抓住机遇,承担起了图形处理任务,于1999年推出业界第一款GeForce 256图形卡,就是我们今天所说的GPU,专司图形处理。或许英特尔也不曾料到,20年后,这个曾经替自己接下算力“边角料”的小兄弟,早已超越自己,一骑绝尘而去。

GPU——高性能计算的引领者GPU,英文为Graphics Processing Unit,又称显示核心、视觉处理器、显示芯片。GPU核心技术包括双重纹理四像素256位渲染引擎、立方环境材质贴图和顶点混合、硬件T&L(几何转换和光照处理)、纹理压缩和凹凸映射贴图。GPU是专门为处理图形数据而创建和调整的处理器。GPU除作为独立显卡的核心用于个人电脑,为高清视频、大型游戏提供高质量3D图形渲染,基于GPU构建的专业显卡还配置在高端工作站上做复杂的三维设计和工程仿真。但当前GPU最重要的应用场景还是AI计算,支撑AI大模型的训练和推理。那为什么CPU不行,非GPU不可?前面已经讲过,GPU的推出就是为了接手原本由CPU负责的图形显示处理工作。因而GPU架构有其先天的计算特征,就是完全为3D图形处理而设计,就是在CPU的控制指令下,为大量的实时的图形图像显示提供计算。由于是听候CPU安排,因此GPU的控制单元比较少,计算单元却非常多,CPU和GPU的架构如图2所示。如果CPU是孤胆英雄,能独当一面,那么GPU就是无数的小兵,靠规模致胜。

GPU与CPU架构比较

CPU和GPU在架构上有所不同。CPU指令复杂,需要资源调度、中断处理、内存管理等,运算过程逻辑控制多,控制单元数量多,计算单元数量受限,性能限制较大。GPU则无需过多控制单元,芯片空间留给计算单元,适合并行计算和大规模数据访问,带宽高、延迟低。

GPU性能优势

单个加减运算,由一个人完成和由1000人同时完成,显然后者更快。GPU并行计算能力强,适合大规模数据处理,特别是在图形显示方面,GPU性能远超CPU。

人工智能计算的兴起

人工智能应用不断深入,AI大模型训练和推理运算成为高性能计算发展主流。GPU在人工智能计算领域占据优势,成为各大AI应用首选。

ASIC的挑战

ASIC是GPU面临的强大竞争者。ASIC专为特定任务设计,具有高能效比,在某些特定应用领域性能优于GPU。

谷歌TPU v5p

谷歌发布了多模态大模型Gemini,其中Gemini Ultra版本在部分测试中超越了OpenAI的GPT-4。同时,谷歌还发布了TPU v5p,号称是当前最强的AI自研芯片。TPU专为张量计算设计,是“AI处理单元”。

结论

GPU在人工智能计算领域取得了巨大的成功,但ASIC的出现对其地位提出了挑战。随着AI应用的不断发展,未来GPU和ASIC之间的竞争将更加激烈。2 CPU和GPU架构比较由于CPU指令相对复杂,它需要做好资源的调度和控制,支持操作系统的中断处理、内存管理、I/O处理等,运算过程需要大量的逻辑控制,因此内部的控制单元较多,极大挤压了计算单元数量,使计算性能受到很大限制,还需要预留空间为数据建立多级缓存;GPU运算就不需要考虑这些,也无需太多的控制单元,芯片上大部分空间都留给了计算单元,因此适合并行计算任务和大规模数据访问,通常具有更高的带宽和更低的延迟。试想一下,有个计算任务需要进行1000个加减运算,你说是一个人做快呢,还是让1000个人每个人算一个加减运算快呢,结果很显然。如何理解GPU所做的功?再举个例子:现在电脑显示器的分辨率越来越高,以4K显示器来说,分辨率就达到了3840*2160,就是829万4400个像素点,按照RGB三色显示,单个像素的字节位就达到了24bit,也就是显示器刷新一次就要处理高达1.99亿个bit。如果再乘以显示器刷新率,一般高端显示器刷新率最低也在120Hz,一秒钟仅GPU就得处理240亿个bit。可见,仅图形显示处理就对计算性能要求很高。如果全部依赖CPU来处理,即使性能再强也会不堪重负,并严重拖慢正常软件应用的计算效率。当然现在的CPU也发展出了多核心和多线程,英特尔最新发布的至强处理器就有64核心128线程,但比起英伟达H100的18432个CUDA核心,仍然是小巫见大巫。随着人工智能应用的不断深入,为AI大模型提供训练和推理运算已成为当前及未来一段时间高性能计算发展的主流。由于英伟达早在十多年前就开启人工智能计算布局,GPU已成为各大AI应用的首选。而CPU受限于架构问题,在这场人工智能竞争中已经成为协助角色,但尽管GPU风光无限,却仍然存在强大的竞争者,而它就是ASIC!

ASIC——GPU面临最强竞争去年12月,谷歌官宣了多模态大模型Gemini,包含了三个版本,其中Gemini Ultra版本甚至在大部分测试中完全击败了OpenAI的GPT-4。同时还丢出另一个重磅炸弹——TPU v5p,号称是现在最强大的AI自研芯片。TPU,全称Tensor Processing Unit,即张量处理单元。所谓“张量(tensor)”,是一个包含多个数字(多维数组)的数学实体。目前,几乎所有的机器学习系统,都使用张量作为基本数据结构。所以,张量处理单元,我们可以简单理解为“AI处理单元”。

如今,ICG、寒武纪、地平线、阿里、英特尔、英伟达等国内外厂商都在推出自己的专用AI芯片,包括TPU、DPU等ASIC芯片。得益于其体积小、功耗低、计算性能高等优势,ASIC芯片被视为GPU最强大的挑战者。

谷歌TPU:性能表现强劲,专为大模型Gemini而生

谷歌TPU v5p是谷歌去年发布的专用AI芯片,性能强劲,可与英伟达的顶配H100显卡性能相媲美。它基于谷歌的多模态大模型Gemini开发,主要用于自家的产品与服务,而不是面向外部销售。

TPU v5p的特点包括:

* 每个模块拥有8960颗芯片,比上一代v4的4096颗有所提升。

* 吞吐能力高达惊人的4800Gbps。

* 内存及带宽方面更为出色,拥有95GB的高带宽内存(HBM),远超TPU v4的32GB。

在训练大规模语言模型方面,TPU v5p的性能表现尤为突出,是A100 GPU的四倍。

FPGA:CPU智算的最佳伴侣

FPGA是可编程逻辑门阵列,与ASIC芯片相比,它是半光隙电路芯片,弥补了全光隙电路芯片的不足,又克服了原有可编程器件门电路数有限的缺点。

FPGA的特点包括:

* 可直接用晶体管电路实现用户的算法,无需通过指引系统的翻译。

* 计算效率更高、功耗更低,且更接近IO。

* 功耗通常在1000-2000瓦之间,比GPU的3000-8000瓦更节能。

FPGA的特点决定了它成为CPU智算的最佳伴侣。它可以与CPU形成协同工作模式,可降低CPU的负担,提高运算速度,而且FPGA可以根据算法需要进行量化,具有更高的计算效率。

ASIC与GPU的对比:各有优劣

ASIC与GPU是不竞争对手,分别具有自己的优势和劣势。

* ASIC芯片的计算能力和计算效率都可以根据算法需要进行量化,具有很高的性能表现。但其算法是固定的,一旦算法变化就可能无法使用。

* GPU则可以运行各种各样的算法,灵活性更强。但它的性能表现不如ASIC芯片。

因此,在选择ASIC芯片和GPU时,需要根据具体的需求进行决策。如果需要高性能的专用AI芯片,那么ASIC芯片是首选。如果需要灵活性更强的芯片,那么GPU是更好的选择。

ASIC芯片和FPGA作为新兴的芯片技术,正在成为GPU最强大的挑战者。它们在人工智能、大数据处理等领域应用广阔,前景光明。3 谷歌TPU谷歌TPU就是基于ASIC专用芯片开发,为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但ASIC芯片的算法是固定的,一旦算法变化就可能无法使用。随着人工智能算法不断涌现,ASIC专用芯片如何做到适应各种算法是最个大问题,如果像GPU那样,通过架构来适应各种算法,那ASIC专用芯片就变成了同CPU、GPU一样的通用芯片,在性能和功耗上就没有优势了。这意味着玩AISC芯片需要强大实力,包括雄厚的资金,强大的技术实力和丰富的应用场景。这里请注意,谷歌去年发布TPU v5p的时候,一同发布了多模态大模型Gemini,该模型在图像、音频、视频和文本领域拥有强大的功能。与英伟达开放GPU购买策略不同,谷歌高端TPU主要供自家产品和服务运用,这才是关键。换句话说,谷歌高端TPU是基于自家多模态大模型Gemini开发的专用AI芯片,在自家的产品和服务上做到最优,性能表现丝毫不输GPU。‍‍‍‍‍‍‍‍‍‍公开的信息显示,TPU v5p每个模块有8960颗芯片,较之上代v4的4096有所提升,且每块架构内的总浮点运算次数(FLOPs)增加至原来的四倍,吞吐能力达到惊人的4800Gbps。新型架构在内存及带宽方面更为出色,高达95GB的高带宽内存(HBM)远超TPU v4的32GB。根据官方数据显示,谷歌的TPU v5p在训练大规模语言模型上性能表现,达到了A100 GPU四倍,比起英伟达的顶配H100显卡性能也丝毫不落下风。当然这只是谷歌基于自身的Gemini模型做的测试,肯定在研发阶段就做了优化和匹配。但足见TPU v5p性能之强,同时也可以说明,ASIC芯片在AI大模型应用方面有着丝毫不输GPU的优势。截至目前,谷歌、英特尔、英伟达都相继发布TPU、DPU等ASIC芯片,国内ICG、寒武纪、比特大陆、地平线、阿里巴巴等也都推出了深度神经网络加速的ASIC芯片。目前GPU应用范围广,市场非常成熟,但并不意味着其他的芯片就没有机会,ASIC的发展势头依然很猛,正在成为GPU最强大的挑战者。

FPGA——CPU智算的最佳伴侣FPGA全称是可编程逻辑门阵列,内部结构由大量的数字(或模拟)电路组成,可以实现各种功能。FPGA是ASIC的一种,只是ASIC是全定制电路芯片,FPGA是半定制电路芯片,它解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。数据计算包括两种方式:一种是利用CPU或GPU基于指令的架构编写计算所需的软件,另一种是针对特定计算需求设计制造出一套专用的电路,比如ASIC、FPGA。但不同的是,对FPGA进行编程要使用硬件描述语言,硬件描述语言描述的逻辑可以直接被编译为晶体管电路的组合。所以FPGA实际上直接用晶体管电路实现用户的算法,没有通过指令系统的翻译。相比于CPU 和GPU数据处理需先读取指令和完成指令译码,FPGA不采用指令和软件,是软硬件合一的器件。因而计算效率更高、功耗更低,且更接近IO。

FPGA:突破AI算力瓶颈的半定制化芯片

FPGA(现场可编程门阵列)凭借比特级定制结构、流水线并行计算和高效能耗,在深度学习应用中展现独特优势。特别是采用FPGA,即便芯片制造完成,依然可重新编程或功能升级。

FPGA vs CPU:谁更快、更节能?

以3GHz CPU和200MHz FPGA为例,CPU完成特定运算需30个时钟周期,FPGA仅需一个。耗时对比:CPU为10纳秒,FPGA仅为5纳秒,FPGA速度更胜一筹。

能耗对比方面,FPGA同样表现优异。执行一次深度学习运算,CPU耗能36焦,FPGA仅需10焦,节能比高达3.5倍。

AMD与英特尔竞逐FPGA市场

AMD于2022年收购FPGA领域老大赛灵思,完成“CPU+GPU+FPGA”智能算力战略布局。而英特尔由于未能在GPU领域与英伟达竞争,只能选择收购FPGA领域的老二Altera,形成“CPU+FPGA”智能计算组合。

FPGA独特优势

- 比特级细粒度定制结构

- 流水线并行计算能力

- 高效能耗

- 架构灵活,可进行模型优化探究

- 芯片制造完成后依然可重新编程或功能升级

AI时代算力需求无止境

主流AI芯片包括:

- 通用芯片(以GPU为代表)

- 专用芯片(以ASIC为代表)

- 半定制化芯片(以FPGA为代表)

目前,GPU市场最为成熟,应用最广。但AI发展仍处于初级阶段,对算力的需求无止境。因此,ASIC和FPGA未来都有很大破局机会。4 FPGA芯片‍举个例子,假如拿一块主频 3GHz的CPU和一块主频 200MHz的FPGA做运算,若做某个特定运算,CPU需要30个时钟周期,FPGA只需一个,则耗时情况:CPU:30/3GHz =10ns;FPGA:1/200MHz =5ns。就是说,FPGA 做这个特定运算速度比CPU块,能帮助加速。除了计算效率更高,有机构对FPGA与CPU在执行深度学习算法时的耗能进行了对比。在执行一次深度学习运算,使用 CPU耗能 36 焦,而使用 FPGA只耗能10焦,取得了3.5 倍左右的节能比。通过用FPGA 加速与节能,让深度学习实时计算更容易在移动端运行。这就是为什么AMD和英特尔不惜重金收购FPGA厂商的原因所在。在智能计算路线布局上,AMD实际上比英特尔更完善。传统CPU时代,AMD得到了英特尔X86架构授权,成为与英特尔并行而立CPU大商,而后通过收购显卡厂商ATI入主GPU赛道,成为英伟达的最大竞争者,到2022年通过收购FPGA领域老大赛灵思,AMD最终完成“CPU+GPU+FPGA”的智能算力战略布局。而英特尔由于未能在GPU时竞开发出能与英伟达同台竞争的超算产品,只能选择在2015年收购FPGA领域的老二Altera,最终形成“CPU+FPGA”的智能计算组合,虽非优选,但的确开拓了一条新智算发展新路线。相比CPU和GPU,FPGA 凭借比特级细粒度定制的结构、流水线并行计算的能力和高效的能耗,在深度学习应用中展现出独特的优势,在大规模服务器部署或资源受限的嵌入式应用方面有巨大潜力。此外,FPGA 架构灵活,使得研究者能够在诸如GPU的固定架构之外进行模型优化探究。特别是在采用FPGA后,即便芯片产品已经制造出来,但依然可以对其重新编程或进行功能升级。写在最后从1997年IBM深蓝计算机在国际象棋对弈中战胜世界冠军卡斯帕罗夫,再到2016年谷歌AlphaGo在围棋比赛中战胜李世石,包括后来将世界冠军柯洁斩于马下。这些年我们一次次地被人工智能展现出来的强大能力所震撼。特别这两年,AI应用的快速发展,让我们真切地感受到人工智能时代已经到来。但也认识到,人工智能发展仍处于初级阶段,AI应用对算力的需求是无止尽的。目前主流Al芯片就三类:以GPU为代表的通用芯片、以ASIC定制化为代表的专用芯片以及以FPGA为代表的半定制化芯片,其中GPU市场最为成熟且应用最广。但人工智能产业发展除了需要强大的算力,还需要更优秀的算法和庞大的数据支撑,GPU能否在AI算力竞争中持续保持优势仍是未知。在我们看来,有谷歌和华为背书的ASIC,以及英特尔和AMD背书的FPGA,未来都是有很大破局机会的。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:3

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!