谷歌和亚马逊最新的人工智能芯片已经上市

慕先生科技馆 2022-10-12 09:51:39

本周,在亚马逊网络服务(AWS)和谷歌云宣布正式推出其最新定制的人工智能加速器后,基于云的人工智能培训变得更加多样化。

从亚马逊开始,云提供商的Trainium芯片现在普遍可以在AWS上买到。去年AWS re:Invent首次预览了亚马逊Trainium支持的Trn1n实例,旨在训练大型机器学习模型,如用于自然语言处理和图像识别的模型。

根据亚马逊内部基准测试,亚马逊声称这些实例在BF16和32位TensorFlow工作负载下的性能比其Nvidia A100驱动的P4d实例高40%至250%。该加速器还支持FP32、FP16、UINT8和可配置的FP8数据类型。近年来,FP8在人工智能领域越来越受欢迎,作为一种用精度换取原始性能的手段。

这些实例有两种大小:亚马逊的trn1.2xlarge对八个vcpu和一个Trainium芯片,64GB的内存均匀分布在CPU和加速器之间,12.5Gbit/s的网络和500GB的本地SSD存储。同时,对于更大的工作负载,trn1.32xlarge大16倍,每个实例可以容纳128个vCPU,16个Trainium芯片,1TB的组合内存和800Gbit/s的网络带宽。

对于大规模的模型训练,可以使用亚马逊的FSx Lustre存储服务和“千兆位级”无阻塞机架顶部交换机来集群化trn1.32x的多个大型实例

加速器使用与亚马逊之前公布的推理芯片相同的Neuron SDK,拥有编译器、框架扩展、运行时和开发工具。总之,亚马逊声称用流行的ML框架(如PyTorch和TensorFlow)编写的工作负载,只需最小的重构就可以在Trainium上运行。

Trn1n实例将于本周在亚马逊的东部和西部地区上市。

谷歌TPU v4现已正式推出。

谷歌还在本周的“云下一代”活动上发布了一系列硬件更新,包括其第四代张量处理器(TPU)的全面发布。

云的TPU v4支持四种配置的虚拟机,从四个芯片(单个TPU模块)到多达4096个芯片的机架,所有这些都通过高速结构连接。

对于那些不熟悉的人来说,谷歌的TPU加速器是专门为加速硬件的大规模机器学习模型而设计的,例如用于自然语言处理、推荐系统和计算机视觉的模型。

在更高的层面上,加速器本质上是一组被称为MXU的大型bfloat matrix数学引擎,由一些高带宽内存和一些CPU内核支持,使其可编程;指示CPU将工作负载的AI数学运算输入MXU进行高速处理。每个TPU虚拟机由四个芯片组成,每个芯片有两个处理核心,总内存为128GB。

对于谷歌最新TPU架构的完整分析,我们建议查看我们的姐妹网站Next Platform。

定制加速器旨在加速谷歌自己的人工智能工作负载,但后来向GCP的客户开放。如你所料,TPU支持各种流行的ML框架,包括JAX、PyTorch和TensorFlow。根据谷歌的说法,TPU v4的速度是其前身的两倍多,而每美元的性能也提高了40%。

V4Pod芯片现已在GCP俄克拉荷马州上市,价格从每小时每片0.97美元到3.22美元不等。以谷歌最小的例子来说,一年的承诺是每月5924美元。谷歌提供英特尔的下一代CPU,智能网卡。

英特尔的Sapphire Rapids CPU和芒特埃文斯IPU也于本周作为私人预览出现在谷歌云上。

精选客户现在可以让英特尔延迟已久的Sapphire Rapids CPU大放异彩。然而,今天的声明并不意味着我们对微处理器的期望。相反,该公司夸大了IPU与英特尔合作开发的伊文思山。

英特尔网络和边缘集团负责人尼克·麦克欧文(Nick McKeown)在一份声明中表示:“C3虚拟机是任何公共云中的第一款。它将在第四代英特尔至强可扩展处理器上运行工作负载,同时以200 Gbit/s的线路速率安全地将可编程数据包处理释放给IPU。

Mount Evans在去年的英特尔架构日宣布,现在更名为E2000,这是英特尔的首款IPU ASIC。IPU是一个基础设施处理单元,基本上是网络和存储任务的另一个硬件加速器。

智能网卡芯片将用于加速谷歌的云基础设施工作负载。首先是存储。云提供商声称,在使用其最近宣布的Hyperdisk服务时,其IPU增强型C3实例的IOPS增加了10倍,吞吐量增加了4倍。

0 阅读:68

慕先生科技馆

简介:领略科技资讯