谷歌云上周宣布推出了全新的A3超级计算机虚拟机。
谷歌表示,A3 GPU虚拟机专为实现最高性能的机器学习训练而设计,配备了现代化的CPU、改进的主机内存、下一代Nvidia GPU和重大的网络升级。
根据Tech Crunch的报道,A3虚拟机是专为满足对资源需求巨大的用例而设计的,配备了现代化的CPU、改进的主机内存、下一代Nvidia GPU和重大的网络升级。这些虚拟机采用Nvidia的H100 GPU,并与专用数据中心相结合,以提供巨大的计算能力、高吞吐量和低延迟,并且价格相对合理。规格方面,A3虚拟机配备了8个Nvidia H100 GPU、第四代Intel Xeon Scalable处理器、2TB主机内存,通过NVSwitch和NVLink 4.0实现的8个GPU之间具有3.6TB的双向带宽。这些虚拟机可提供高达26 exaFlops的计算能力,有助于改善训练更大型机器学习模型所需的时间和成本。
此外,这些虚拟机上的工作负载在谷歌专用的Jupiter数据中心网络结构中运行,该网络结构被描述为拥有26,000个高度互联的GPU,具备全带宽的可重配置光纤链路,能够根据需求进行拓扑调整。谷歌提供了多种选择,客户可以选择自行运行A3虚拟机,或者选择谷歌提供的托管服务,由谷歌负责大部分繁重工作。自助方式需要在谷歌Kubernetes Engine(GKE)和Google Compute Engine(GCE)上运行A3虚拟机,而托管服务则在谷歌的托管机器学习平台Vertex AI上运行A3虚拟机。