急性肠炎症状

首页 » 常识 » 诊断 » 曙光HPC的四个自信
TUhjnbcbe - 2023/10/13 18:26:00
北京权威酒渣鼻医院 http://m.39.net/news/a_8598835.html

“你们是怎么把这个大家伙弄到这来的?”

“航空呀,专用的货运飞机”。

“这个多重?”

“7吨”

我看了看面前含底座高达3米的、

曙光新一代硅立方超级计算机,

发出了三个字的感慨,

“真牛X”

在德国法兰克福会展中心,世界超算大会正在如火如荼的进行中。现场,曙光的这个庞然大物吸引了无数的目光,许多人都在这里驻足、合影,一方面是被这台大家伙的体积所震慑,另一方面则是被其中蕴含的技术所折服。这其中有许多参会的专家、许多行业的用户,甚至于许多中科曙光的“友商们”。

这是一件颇犯忌讳的事儿。前几年一次超算大会上,我就被某品牌当作“友商”狠狠的敌视了一把,由此也看出这样的事情在行业中屡见不鲜,厂商之间也是相互提防。其实在我看来,既然大家都是拿着产品出来展示的,为何不能开诚布公的进行沟通和交流呢?至少在这次ISC大会上,曙光就做到了这一点。

“昨天下午,我们一共十几个人去曙光展台看了个遍,人家还给我们讲了不少知识”,某家“友商”私下里跟我说。其实我听了这话也觉得挺欣慰的,一方面欣慰的是大家之间没有了敌视的态度;另一方面则是感慨曙光能够以这样的心态面对来展台参观的每一个伙伴,更代表了它发自心底的一种态度——自信。

曙光HPC的“四个自信”

每一家企业都有自己的文化,自己的基因。对有着浓厚中科院背景的曙光来说,技术也是它一直所坚守的生命线。这一次曙光发布的新一代硅立方产品,就是基于自主研发的多项技术。

从底层的硬件架构到上层的软件应用,从散热系统的管理到整套平台的运维,每一个项目都蕴含了无数的难题,这让曙光的工程师们度过了无数个不眠不休的夜晚。如今,这台系统在欧洲的正式亮相,也代表了曙光乃至于中国企业在超级计算机设计领域的最高水平。

超低的PUE能耗,超强的技术自信

超级计算机从诞生之日起到今天,性能提升了千万倍,与之对应的是能耗也提升了千万倍。以最新一期发布的全球超算强榜单为例,排名第一的美国Summit超算计算性能大约为14.8P,功耗高达10兆瓦以上。如此算来,当我们面对E级计算的挑战,迈向P的时候,功耗的提升更是一个天文数字。

于是才有了全球业界对于能耗问题的重视,甚至提出了“当计算性能实现P的时候,能耗不能超过30兆瓦”的要求(最初定义为20兆瓦,后有所调整),面对这一挑战,传统的风冷散热设备已经难以应对能效要求,包括冷板式液冷也很难满足需要,这才有了我们在硅立方上看到的全浸没式相变液冷技术。

曙光早在年就开始了服务器液冷技术的探索与研究,之后每年都有阶段性发展。在年,曙光就开始了在浸没式液冷设备上的尝试,并且推出了一款名为“RoboBlades浸没式液冷刀片服务器”的产品。现在回头看来,这款产品代表了曙光在浸没式液冷散热的早期思想,也代表了当时非常先进的理念,至少它所具备的“无壳刀片设计”、“先进的仓压控制技术”和“全球首创的自动出仓技术”都为未来的液冷发展进行了探索。

在此之后,曙光在浸没式液冷技术的应用上获得了突飞猛进的成果,并且在年交付了业界首套商用浸没式液冷服务器I-M20给华中科技大学使用。这套全浸式液冷服务器用于华中科技大学自主研发的信息存储系统、并行分布式计算系统,搭建健康大数据平台。

从此一发不可收。去年11月的美国SC18超算大会上,曙光预发布了硅立方高性能计算机,这也是该产品首次在国际上亮相;而在今年的ISC19大会现场,曙光正式发布了第四代也是最新一代的硅立方液冷超级计算机。这款产品采用了通用架构的x86服务器,配合异构计算的加速器可以实现强悍的计算性能,再搭配上具备6D-Torus高速网络技术和胖树拓扑,可以实现高性能、低延迟的大规模部署应用需求。

最值得一提的是,硅立方的PUE小于1.04,这在业界是一个非常惊人的数字。正如我们前面提到的,能耗难题始终是整个超算行业面向E级计算应用的难题。曙光硅立方的出现使得这个难题有了新的解决思路和解决方案,也创造了PUE值的全新记录。从这一点来说,曙光的确在能效层面有足够的自信,因为这种技术在短时间内很难效仿和超越,而掌握这项技术之后,曙光也获得了通往E级计算殿堂的金钥匙。

全兼容生态环境,无缝迁移的平台自信

很多人在看到硅立方的时候都有些好奇——这么大的一套系统,究竟是依靠什么芯片进行驱动的?它的性能如何?在扩展性与开放性上有哪些亮点?未来激烈的竞争中,它是否具备了自主可控的知识产权……这一系列问题,都代表了多年来我们在平台领域的高度依赖。

从原来的POWER处理器到主流的x86处理器再到热门的ARM处理器,中国计算力的发展在短短十几年间经历了翻天覆地的变化,也营造出了丰富多彩的应用世界。其实除了我们提到的这些芯片之外,包括龙芯、飞腾、申威等许多自主芯片也在为推动计算力的发展默默耕耘,尤其是伴随着天河二号和神威太湖之光荣膺TOP超算排行榜冠*,让它们走入了更多人的视野。

但是我们必须承认,在绝大多数的商业领域中,上述自主芯片的市场还很狭小。这一方面是产品本身的接受度问题,另一方面也代表了行业生态发展的缓慢。但是从硅立方开始,曙光为我们提供了一款全新的自主可控平台。在兼容x86架构的基础上,全新的平台可以给我们提供CPU+GPU的异构模式,这种模式也迎合了当下的主流趋势,无论在性能还是在生态的角度,都符合市场的需求。

超级计算应用,相当大的比例都根植于x86平台,因此客户在选择新平台的时候也希望能够与原有生态兼容。硅立方的出现彻底解决了迁移难题,在保证自主可控的同时,还能够让客户平滑的、无缝的从原有应用迁移到硅立方上来,实现即刻迁移即刻使用,在效率和可靠性上更有保障。

这也就打消了客户采购的最后一层顾虑,打通了迈向商业市场的最后一公里。不得不说,借助于x86平台的生态优势,硅立方相对于其他平台有更广泛的用户群和更开放的接受度,并且这一切都是在自主可控的标准基础之上,因此曙光完全有信心为客户提供高可靠、高稳定性、高效能的超算平台。

多交叉立体网络,双重选择的架构自信

超级计算机的研发难点之一,在于不同节点之前的通信,这在业内被称之为E级计算面临的四大挑战之一——通信墙。对于动辄成千上万个节点的超级计算机来说,任何两个节点之间通信故障都会造成网络堵塞,进而对整套系统的互联效率产生影响。

许多综艺节目中都会有传话游戏,一句话往往经过5-6个人的口口相传就变成了另外一番内容。对于超算系统中成百上千的节点来说,如果出现类似的问题就是灾难性的,这也就要求数据传输需要保证准确性与一致性,与此同时对于速度和延迟也有着近乎苛刻的要求。

对此,曙光在经过不懈努力后,终于为硅立方确定了业界主流的胖树拓扑和6D-Torus高速网络技术的双重支持,通过高性能、低延迟来保证数据传输效率。其中,胖树拓扑结构是超算设计中一种主流的结构,套用道德经的解释就是“一生二,二生三,三生万物”。但是这样就带来使用成本的问题——每增加一个节点,网络成本会呈指数级的往上增长,而且复杂度也会随之提升,因此大规模系统中对网络的开支较大。

而6D-Torus则是曙光自主研发的新型架构,它脱胎于早些年曙光研发的3D-Torus架构,具有领先的性能、超强的扩展能力、极佳的容错能力。最重要的是由于本身的密度高扩展性好,6D-Torus架构的横向扩展的成本增长呈直线型,更适合在大规模节点的范围中使用。

相对于胖树来说,6D-Torus架构更多是从调度层面对网络进行调整,就好比普通道路和立交桥的关系。我们不能笼统的说哪种道路更适合行车,而是应该结合目的地的位置,选择更顺畅、更便捷的行进路线。对于硅立方来说,它就给客户提供了不同的选择方式,将客户从传统的胖树架构中摆脱出来,这也是为什么曙光能够在网络架构中独树一帜的原因。

让更多人用好超算,自动化运维的应用自信

刚刚我们谈了硅立方的硬件平台,谈了硅立方的网络架构,还谈了硅立方的能效优势。但是这些硬件参数和指标只能代表这套系统提供了坚实的计算基础和强大的能效管理,但是究竟它适合什么样的应用、究竟它能否达到超级计算的业务要求,这一点还有待于实际应用的检验。

从超级计算机到超级计算,虽然只有一字之差,但是所带来的却是翻天覆地的变化,是从从Super

1
查看完整版本: 曙光HPC的四个自信