在很久很久以前(其实也就五六年前),GPU还只是装在显卡里,用于游戏视觉、图像渲染。那个时候,机器学习计算使用的还是通用性更好、更普遍的CPU。但随着技术及应用的不断发展,大家发现CPU的计算能力已经无法满足机器学习超大的运算量需求。于是,几乎所有目光都转向了,计算能力更强的GPU。作为“专用型”处理器,GPU的优势就体现在这里——研发人员可以专注于提升它的性能,而无需考虑通用性的问题。单就计算能力而言,GPU可达到CPU的几十上百倍。
人工智能的核心是机器学习,使计算机具有智能的根本途径也是机器学习。图像识别、自然语言处理、医疗诊断、市场分析、故障检测……机器学习的应用已经十分广泛,因此为其提供计算能力的GPU自然也成了市场上的“香饽饽”。GPU领导者英伟达的股价更是因此大幅上涨,自年1月起,从29美元左右狂飙至美元以上——涨幅超过%。
AI的浪潮拍打的不只是GPU这片沙滩,更是整个服务器产业链的发展。在处理器厂商们纷纷推出主打AI计算产品的同时,处于下游的服务器厂商们也相继推出了专为AI而设计的、搭载GPU的服务器。
这次我们就来聊一聊各大服务器厂商所推出的更具代表性的“GPU-AI服务器”,而今天我们首先要谈到的是浪潮公司在7月中旬推出的M5系列成员——NFM5服务器,目前全球密度最高,2U空间内配置8个GPU。数据中心的空间资源是非常宝贵的,而AI训练也需要超高的计算能力,拥有更高的密度,就意味着在同样空间下能够获得更高的计算能力。
NFM5由浪潮与英伟达联合研发,可更换模组,支持基于NVIDIANVLink技术的TeslaP和基于PCIe3.0接口的TeslaP40GPU,同时也支持10种GPU拓扑配置,以应对多种深度学习和HPC应用场景。
在此基础上,该产品也支持纵横双向扩展。GPU纵向扩展,双路系统最大支持16个GPU;单节点支持4*G可远程内存直接访问的高速网络,为横向扩展优化。
值得一提的是,当前多数AI训练中通常会采用CPU+GPU异构计算架构,即CPU下发训练指令,GPU则进行计算,并将结果反馈给CPU。这种架构下,CPU和GPU分担着不同的任务,但同时也有一定的缺点,就是两者之间互相通讯的问题,往往需要花费大量时间,对整个计算架构的效率产生影响。
▲浪潮NFM5服务器
浪潮NFM5则放弃了传统异构架构,在不通过CPU的前提下,可实现机内点到点通讯,减少了通讯耗时。同时,采用NVIDIA最新的Tesla系列GPU,可实现GPU之间高达GB/s的互联带宽,多块GPU并行效率提升60%以上。NFM5采用PCIe线缆的方式连接CPU和GPU,可对CPU的连接带宽和数量进行灵活调整,在不同的AI训练中,将PCIe资源进行按需分配。其计算架构可以让一颗或两颗CPU管理8颗GPU,该产品搭载的是2个英特尔至强可扩展处理器。
在电源及散热方面,由于搭载了8个功耗达W的GPU,再加上其他的存储计算等资源,浪潮NFM5整机功耗达到0W,其峰值发热量6倍于传统2U服务器。因此在设计之初,如何更好地实现散热就成为了非常重要的问题。此服务器支持冗余热插拔系统风扇及风冷/液冷混合冷却方式,风冷散热可支持35°环温,GPU部分可选提供液冷散热,可在更低PUE要求的数据中心环境中工作。
总结:对于机器学习,特别是深度学习而言,其计算平台往往需要极高的计算力和平台弹性。计算力自然不用多说,为提升准确率,模型训练通常需要对数十万个样本进行十万级以上的训练迭代,训练量、计算量是非常庞大的。至于平台弹性的需求,则出于目前世面上的多种AI框架。不同的框架包含不同的模型和算法,产生不同规模的数据,训练场景会变得十分多样化。与此同时,结合数据中心空间资源的重要性,也产生了对产品密度的需求。
从以上的介绍中我们能看到,号称“目前全球密度最高”的浪潮NFM5,其优势可以说不止是在密度方面。搭载NVIDIA最新Tesla系列GPU,且另辟蹊径般地选择同构计算架构,因此在计算力及效率方面是可圈可点的。而在弹性方面,该产品的设计也让人眼前一亮——可更换模组,支持10种GPU拓扑配置,同时支持双向扩展——“弹性十足”。
因此,作为一款主打AI计算的服务器,浪潮NFM5在各方面的表现都算优秀,在浪潮AI服务器系列产品中,更具代表性。