在2100年,全球已由计算的力量重塑,智能意识以算力为生命之源,数字生命得以永续。然而,人类究竟是何时开始真正掌握驱动世界的算力能源的呢?这标志着人类对算力开发的百年历程。2024年,随着人工智能从训练阶段转向推理应用,人们意识到AI在企业中的广泛应用将引发一场能耗之争,人类开始寻求可持续的计算方法。在这一年,联想集团与英伟达在Tech World上联合发布了全新的液冷AI服务器,这一举措不仅标志着液冷技术成为AI竞赛的新高地,也预示着智能时代的前夜,技术的引领者正在浮沉之间。
追溯至起点,我们首先看到的是一台占地167平方米的庞大机器,它装备了17468个电子管,以数千倍于人力的速度解决复杂运算。仅仅六年后,第一台商用计算机UNIVAC问世,它不仅具备了存储能力,还能准确预测美国大选结果,击败了民调。
纵观人类生产力的发展,计算技术的进步无疑是核心。要将人类带入智能时代,确立计算的地位是关键的第一步。最初的计算机只能同时运行一个程序,用户需排队等待。然而,到了1959年,一篇论文提出了将处理器时间分割至几十分之一秒甚至百分之一秒,轮流给每个用户使用,使得计算开始普及。随后,计算机不断扩展其领域,将世界转变为一个计算过程。万维网在一台微型电脑上诞生,人类迎来了互联网的创世纪,计算终端也从庞然大物演变为微型计算机。而在公众视野之外,庞大的计算设施正悄然扩张,它们由数千个具备小型计算机结构的服务器组成,实现了远超普通计算机的存储、计算、网络和数据交换功能。
随着互联网的迅猛扩张,数据中心也展开了一场规模竞赛。如果将数据中心比作放大了千余倍的电脑,那么世界本身就是一个大型数据中心。这是一个风起云涌的时代,GPU、CPU、TPU服务器演化出千百种形态,摩尔定律已成过去,全球芯片厂商竞相争夺新时代的话语权。到了2024年,ChatGPT大模型、混合式人工智能等关键词成为主角,算法与芯片能力已逼近极限,数据中心迫切需要一场革命。
再次审视最初的计算机,我们会发现,尽管它们在运行时每隔15分钟就会烧坏一颗电子管,但当时的能耗相对较低。晶体管的出现拯救了算力,能效算力集群吞下电能,供应着世界上最高算力的需求。人工智能和高性能计算若想用计算重建世界,就必须面对超高的能耗。
能耗的理解可以从芯片制造中的一个指标——TTP热设计功耗开始。它指的是处理器在极限性能下释放的热量。热量在驱动芯片性能的同时,也导致芯片温度升高。当温度达到极限时,每升高两摄氏度,性能就会降低约10%。这是一把双刃剑,温度越高,性能越强,反之亦然。
近百年来,人类为算力的爆发式增长而欢呼,却忽视了冷却技术一次又一次地将算力从能耗的制约中拯救出来。最初,ENIAC已经使用空调降低温度,而20世纪60年代,早期液冷方案诞生,通过冷却水导出交换、再回收。80年代,超大型计算机中开始采用液冷方案,但成本高昂。此后多年,通用计算领域以风冷为主,服务器布局几乎因风冷方案而确定。随着高性能计算将单机柜功耗提升至百倍,液冷技术全面爆发。2012年,联想集团推出了当时最先进的温水水冷方案,海神nap jen非接触冷板的温水水冷方案首次亮相,打破了服务器的风冷格局。联想集团采用优于行业标准的50摄氏度温水作为净水,将数据中心的PUE从风冷的1.4降至1.1,冷却所占电力消耗可降至10%或更低。从TCO总拥有成本来看,液冷方案的总体成本开始低于风冷,联想集团引领了时代的变革。
到了2024年,AI的训练和推理使一张GPU的功率达到1000瓦,单机柜功率密度飙升至100千瓦。联想集团再次改写数据中心设计方案,从单节点开始支持盲插,并有效防止冷却液泄露。利用manifold的分页器,柜内CDU和列间CDU逐步将整机柜机房打造成全液冷方案。2024年联想tech watch上,第六代海神技术采用革命性的垂直液体机箱,实现了更精巧的封装。
在人工智能需求的汹涌浪潮面前,数据中心的PUE趋近于1.0的极限,意味着整个数据中心设备的能源利用率接近百分之百。联想集团颠覆了所有机柜机房的固有格局,以全面液冷的超大型AI集群解决方案液冷集群微模块,宣告了液冷技术在百年数据中心能耗技术竞争中的胜利。这是对百年数据中心历史的勇敢重构。随着金模式液冷技术的到来,液冷将继续伴随人工智能迎接下一个时代的能源方案。人类对算力的掌握才真正做到了如基础能源般信手拈来。AI服务器与数据中心作为各行各业的基础设施,将重新定义AI作为生产力的能量源泉,并以世界之力再造世界。