你的位置:jk露出 > 张筱雨人体 >
女色网 万卡集群的AI数据中心,到底是如何运作的?
发布日期:2024-11-06 11:58    点击次数:97

女色网 万卡集群的AI数据中心,到底是如何运作的?

文 | 硅谷 101女色网

2024 年 7 月 22 日凌晨,xAI 创举东谈主 Elon Musk 在推特上精采文告,在凌晨 4:20 分精采启动了天下上最强的 AI 覆按集群。

这个覆按集群确立在好意思国田纳西州孟菲斯市,采集了 10 万个液冷 H100 芯片。

筹商词,这在当地却激励了住户们的抗议和不悦。

这么弘大的 AI 覆按集群每天会浪掷 100 万加仑的水和 150 兆瓦的电力,因此亦然激励了当地环保东谈主士的回想和抗议。

跟着万卡集群,以致十万卡集群成为科技巨头们覆按 AI 大模子的标配,这么的巨型数据中心到底意味着什么?

  浪掷电力好相识,那为什么会浪掷如斯多的水呢?冷却系统与供电系统等裂缝基础设施是如何运作的?咫尺数据中心的主推断芯片启动从 CPU 转向 GPU,这会带来如何的变革?

可能人人对 CPU、GPU 这类推断芯片了解较多,却很少会柔软配套的基础设施。

但事实上,它们就像冰山藏在水下的部分一样,不仅是通盘数据中心的撑捏,如故至关遑急的安全要道。

  我们来揭秘一下万卡集群的数据中心到底是如何运作的,也相等荣幸邀请了专注于数据中心基础设施的公司维谛时期的多位人人一齐来探讨,AI 爆发给数据中心的基础设施带来的挑战与机遇。

01 AI 时间数据中心濒临的挑战

最初,我们先简易了解下,数据中心的构成结构。

从物理结构上来看,数据中心会辞别红三个系统,主机房、供电系统和冷却系统。

  如果我们把数据中心类比成一支部队,你看这主机房摆设的一转排机柜,像不像前哨开导的士兵,它们承担着通盘数据中心的中枢功能——运算。

而冷却与供电系统则是部队后方的保险机构。冷却系统负责保险士兵的健康与安全,供电系统负责粮草的输送与分派。

此外还有详尽料理系统来爱戴火器等等,它们就像数据中心的"兵部尚书",固然不在一线开导,却起到了裂缝作用。

如今一些数据中心启动由通用推断转向专用推断,其中以 AI 为主的数据中心被称为"智算数据中心",主力芯片从 CPU 变成了 GPU,这也将对统共基础设施带来弘大的挑战。

顾华

维谛时期市集营销与产物应用高档总监:

因为传统的 CPU 其实往常十多年的时辰一直在聘任的 X86 的结构,它 CPU 的功耗,包括劳动器的功耗齐相对比拟圭臬和恒定,是以我们在往常的近十多年的时辰,看到数据中心的平均的机柜的功率密度,概况一直在 3~5 千瓦傍边。

然则咫尺跟着 GPU 的聘任,AI 模子的推理和覆按,需要蚁集多数的 GPU 来进行并行的浮点运算,需要通过集群的形势,通过软件互联通讯在相等小的空间里面蚁集多数的 GPU。

这使得 GPU 的劳动器,包括单机柜的功率密度会飞快的提高。是以我们也看到机柜的功率密度从往常的 5 千瓦,咫尺飞快的升迁到了 10 千瓦、 20 千瓦、 40 千瓦,以致 80 千瓦、100 千瓦以上。

智算机柜功率密度的升迁对基础设施来说,我认为主要有四大方面的挑战。

最初是给散热才气带来的挑战,第二个方面是给高效的动力供应带来的挑战,第三个是占大地积,第四是快速的部署。

是以,GPU 芯片的飞快更新迭代给数据中心配套设施带来了这四大挑战。如何应付这四个问题,我们先来望望冷却系统,为什么它会如斯耗水?

02 冷却系统

Chapter 2.1 冷却系统的遑急性

电子器件运行时会产生热量,而芯片对热量尤其敏锐,如果过热,轻则触发芯片的自我保护机制,贬抑运行频率,重则导致劳动器故障,业务中断,以致消释硬件。

跟着数据中心的功率密度越来越高,这时如果冷却系统发生故障,留给爱戴东谈主员的反映时辰,可能只须一两分钟。

王超

维谛时期热管相识决有缱绻部高档司理:

如果单机柜到了 10 千瓦,按照我们往常的仿真训诲,可能很快,一两分钟,(环境)就能到 30 多度以致 40 度,那就宕机了。

因此,芯片算力的升级也顺利带来了对数据中心冷却系统的升级需求。我们在《抢电、圈地、对赌,深聊科技巨头的千亿好意思元 AI 动力大战》那期著作里也讲过,跟着功率密度的升迁,厂商们启动转向液冷有缱绻。

而恰正是这个液冷,导致了不少环保东谈主士贬抑。

除了来源说的 xAI 覆按集群外,2023 年乌拉圭人人也结伴抗议谷歌确立数据中心,还有新墨西哥州的农民抗议 Meta 数据中心迁入。

人人贬抑的原因之一即是,这些数据中心耗水太多,以致加重了当地的干旱情况。

那为什么液冷会浪掷如斯多的水呢?

Chapter 2.2 液冷为奈何此耗水

在修起这个问题前,我们需要简易科普下冷却系统的结构。咫尺冷却系统主要分为两个大类,风冷与液冷。

我们先来聊聊风冷。如果你进入过数据中心,那第一嗅觉应该是:太吵了!这个杂音就来自于机柜顶用于给芯片降温的电扇。

电扇的作用是将芯片的热量赋闲到空气中,但如果热量全部堆积在空气中,也会贬抑散热肃除,是以还需要空调对空气降温。

空调也分为许多种,我们这里就不逐一例如了。

可想而知的是,空气的热交换遵守较低,在功率密度不竭升迁下,必须聘任遵守更高的散热介质,那即是液体。

液冷散热的旨趣即是通过水的挥发潜热带走芯片的热量,液冷散热也分为许多种,咫尺全球主流的两类是冷板液冷和浸没液冷。

自然在国内还有一种是喷淋液冷时期。喷淋亦然一个比拟转变的时期,但这个时期咫尺如故受到了一定的终端,是以不是许多。

冷板液冷是让冷板与芯片详尽贴合,让芯片热量传导至冷板中的冷却液,并将冷却液中的热量输送至后端冷却。

而浸没液冷是将通盘主板齐浸没在特定液体中,但关于咫尺主流的 GPU 设备来说,浸没液冷却不太适用。

维谛时期热管相识决有缱绻部高档司理:‍

因为统共 GPU 它齐是如故按照冷板液冷这种规格来开发的,是以不太适配浸没。

冷却系统会分为一次侧和二次侧,一次侧是将举座热量散走,并与二次侧的冷却分发单位(Cooling Distribution Units,简称 CDU)来交换热量。

经常提到的液冷散热女色网,齐是指二次侧,由 CDU 将冷水分派到各个机柜中。而现时的液冷散热系调节次侧大部分亦然水冷形势,最终在室外通过水的显热交换和潜热交换带走全部热量。

显热交换是水在加热或冷却历程中,会招揽或开释的热量,水的景色不变。

而潜热交换即是水在相变历程中,如挥发、凝结、溶解、凝固时,招揽或开释的热量,而温度保捏不变。

就像我们天气热时,如果给房间放一盆水,水温逐步升高,这即是显热交换;同期水会逐步挥发,这即是潜热交换,两种交换共同进行,使得水盆上方的空气温度贬抑。

前边我们说到环保东谈主士贬抑 AI 数据中心,即是因为万卡集群的 AI 数据中心,浪费的水的确太多了。

这其实就回到阿谁界限效应了,如果说我们仅仅建一两个数据中心,比如即是像 20 兆瓦,或者以致即使到 100 兆瓦齐没事。然则如果进一步扩大,阿谁耗水量口舌常弘大的,可能会对当地的地下水资源有一定的影响,不错详情一定会存在数据中心和东谈主抢水的这个问题。

你可能思问,就算水挥发了,那不是还会变成雨降下来吗?为什么会被称为"浪费"呢?我们分两个方面来说。

最初,水挥发后变成云,飘到哪儿降落就不好说了,数据中心就像个抽水机,把当地的水抽走后送到了其他地方,关于蓝本降雨量低的地区,加重了干旱情况。

其次,数据中心对水的质地要求也不低,但高质地的水挥发后,如果降落在浑浊地或海面,这些水很难再运用了。

同期,使用高质地的水,也意味着数据中心要和住户抢水,以致可能形成民用水不够的情况。

那为什么一定要用高质地的水呢?

水如果挥发,性花都它就会跟制冷设备的一些部件会有战斗,无论是水点如故水雾,它到制冷设备上头,如果水质不太好,比如酸碱度不太好,偏酸偏碱齐可能会导致腐蚀。如果钙镁离子的含量比拟多,就像我们家里烧滚水一样,那可能水垢就会附着在名义上。

一朝水垢附着在换热设备的名义,带来的影响即是换热设备的遵守会着落。本来我是 200 千瓦的散热量,然则因为水沟问题,可能会导致它衰减到 80%,以致更低,那带来的即是冷量可能不够这一类的问题。

有报谈称,每个数据中心平均每天要浪掷 100 万到 500 万加仑的水,比如来源提到的 xAI 万卡集群,每天浪掷 100 万加仑的水,可供 3000 多户家庭使用一天。

一本道

而 GPT-3 在覆按期间浪掷了 700 万吨水,后续的推理阶段,每修起 20 个问题,就至极于倒掉了一瓶 500 毫升的矿泉水。

NPJ 的一份名为《数据中心用水造访》呈报线路,数据中心耗水来源 58% 是饮用水,这其中还存在耗水不透明度的问题,长年累月以致会形成风景风险。

是以也难怪 AI 数据中心会遭到贬抑了。

同期,也有企业作念过海底数据中心,如斯一来不就料理了耗水问题吗?但很缺憾,这就触及到冷却系统濒临的另一大挑战,经济账的问题了。

Chapter 2.3 冷却系统的经济账

海底数据中心即是把劳动器舍弃在壳体内并千里到海水里,因为海水的温度较低,不错顺利为壳体降温,何况不需要荒芜补充机械能。

听上去是个既节能又环保的有缱绻,但维谛的人人告诉我们,这将对时期建议更高的要求。

因为千里到海水里边,通盘数据中心的壳体、包括一些光缆还有电缆之类的,它齐要能下海,其实建议了更高的要求。

更高的时期要求,就意味着企业需要在研发上参预更多,但恒久来看,这确乎是一个转变的料理有缱绻。

除了时期难题外,冷却系统的用电也一直居高不下。罕有据线路,冷却系统经常占数据中心平均电力浪掷的 40%,不少巨头齐在发奋贬抑冷却系统的动力浪掷,但搞不好反而会画虎不成。

有论文商讨称,数据中心每将送风温度提高 1 ° C,不错贬抑梗概 2-5% 的制冷功率,因此数据中心启动呈现把冷却系统温度从 75 ℉(约 23.9 ℃)提高到 85 ℉(约 29.4 ℃)的趋势,连谷歌也给与了这么的作念法。

但这个作念法还挺危急的,这至极于你确立的温度,距离数据中心能承受最高温度的缓冲区间缩窄了,反倒会导致系统性风险。

比如,2021 年,新加坡一流派据中心运营商为了知人善任冷却资本,将温度提高到危急的临界水平,肃除导致数据中心劳动器大面积故障,这种情况捏续了近一周,果真以珠弹雀。

同期,这篇论文也发出了告诫:数据中心受到热障碍的原因之一,是因为聘任了激进的冷却战术,也即是系统温度确立的太高,减少了冗余度。

是以如何让冷却系统更节能,成为了 AI 时间的挑战之一。

维谛时期的人人告诉我们,要贬抑冷却系统能耗,主要分为三大地点。

咫尺从节能角度来讲,其实是不错分为三大地点。一个是从风侧来作念自然冷来作念节能,然后另外的话即是水侧自然冷,还有即是氟侧自然冷。

所谓的"自然冷"(Free-Cooling),是指运用室外的低温冷源,来给室内降温,达到降痴呆耗的一种时期设施。

思象一下冬天我们闷在房间里相等热,如果翻开窗户让室外的冷空气进入,房间就凉快了,这即是自然冷。

而风侧自然冷,即是在窗户边放一些电扇向房间吹风,加速室外冷空气进入。

水侧自然冷和氟侧自然冷,则是将导体替换为了水和氟。

风侧自然冷它是受地舆条款的终端比拟大,因为它是会把新风引到机房里来,对空气质地之类有一定的要求,其实即是即使作念新风亦然会结合一些机械冷的。从我们来讲,我们如故更专注于水侧自然冷和氟侧自然冷。

氟侧自然冷即是我们成例的风冷空调这个系统,在温度相对来说比拟低,以及冬季的时候,来通过氟泵职责来运用室外自然冷源,那这会就不需要开压缩机了,压缩机的功耗即是通盘系统里边制冷功耗最大的部分,那如果不错在一部分时辰里边把压缩机替换成氟泵,因为氟泵的功率是很低的,那自然不错大大的省俭能耗。

水侧自然冷,作念节能即是通过室外的一些挥发之类的,把它的阿谁冷的才气蜿蜒的带到室内来。

风侧自然冷受到地舆终端较大,水侧自然冷挥发的水太多,是以咫尺既省电又省水的有缱绻,即是氟侧自然冷。

氟侧自然冷它即是一个无水的智能料理有缱绻,自然的它就不需要水,它是靠氟泵、靠冷媒来完了自然冷的,不需要靠水的挥发。

但这种形势就对时期建议了很大挑战,需要恒久的积贮训诲,才能限度好整套系统。

如何才能更好的限度,让氟泵的职责时长更长少量点,让氟泵和压缩机的切换能够愈加的褂讪、更少的波动、然后让它更节能。它的难度是比作念水侧自然冷是要更难的,是以最大的难点就如故在于时期储备。

除了节能环保外,如今数据中心还濒临着芯片升级的挑战。

我们之前的著作中有提到,英伟达新出的 Blackwell 芯片,由于功耗高潮,老旧的数据中心难以顺利部署,以致一些公司由于业务转型,需要将以 CPU 为主的推断设备,升级到以 GPU 为主,如何改形成了当下的难题。

Chapter 2.4 数据中心如何升级?

在 AI 来之前,数据中心的分类其实齐是以风冷为主的,那它的单机柜功率密度才 5~10 千瓦,何况其实 10 千瓦的齐不是许多了,主若是 5~6 千瓦这么的为主。那咫尺我要升级智算,最初要把风冷设备的散热量加够,然后再去荒芜的再去补充液冷部分。

既然冷却系统不错升级,为什么还有些企业会弃取花许多资金重建数据中心呢?这就不得不说到,旧机房升级的瓶颈了。

关于制冷它主要即是空间的问题,一般情况下,从我们现时的联想训诲来看,制冷设备的空间往往可能是够的。因为原先的单机柜 6 千瓦,咫尺单机柜 40 千瓦,那单机柜的功率密度升迁了 6 倍还多,原先 6 个机柜料理的问题,咫尺只需要一个机柜。

行业里边有一个说法,即是数据中心的至极其实是电力,是以我们在扩容的时候,往往最初要商量的如故电力的问题。

为什么电力是制约数据中心升级的身分?AI 爆发又给供电系统率来了哪些挑战呢?接下来我们聊聊供电系统。

03 供电系统

Chapter 3.1 AI 给供电系统率来的挑战

我们在 AI 电力求夺战那期著作里讲过,AI 数据中心带来了多数电能浪掷,将来将给电网带来供应缺口,其实不啻是外部的电网,AI 数据中心里面的供电也雷同濒临弘大压力,其中很大的身分就在于占大地积。

赵呈涛

维谛时期 ACP 料理有缱绻部高档司理:

因为通盘的功率密度升迁,供配电和 IT 机房的占比出现了很大的偏差,占大地积成为了一个很大的挑战。

正是因为这些难点,成为了老旧数据中心升级繁难的原因,其中最为毒手的即是占地问题。

在理会这个问题前,为了便于人人相识,我们先简易先容下供电系统的结构。

Chapter 3.2 供电系统结构及占地问题

供电系统的结构主要分为四个层级:市电或发电机将电能输送到变配电系统,变配电系统会给冷却系统、不拒绝电源(Uninterruptible Power Supply,即 UPS)供电,UPS 再将电能送到主机房的电源分派单位(Power Distribution Unit,即 PDU),由 PDU 给每个机柜分派电能。

其中发电机是为了在市电发生故障时有救急的电力输入,但发电机启动需要一定时辰,而 UPS 包含了大容量电板,能保证劳动器赓续运行 5 到 15 分钟,为发电机启动争取时辰。

自然,供电系统还会凭证市电线路数和冗余结构的不同,分为 DR 架构、RR 架构、2N 架构,这里我们就未几赘述了。

那回到占大地积的问题,由于劳动器功耗增多后,需要荒芜的供电设备,然则,供电设备的确太占地了。

从传统的数据中心确立来看,它会有传统的中压室、低压室、电力室、电板室等等,这些传统的产物齐和会过线来作念联接,这些物理联接由于它是散播于各个厂家的产物,它的圭臬的制式、圭臬的体积齐不是很交融,另外一个它们的通盘的部署的物理距离,中间的一般齐是齐会有一些粗放。

是以有限的空间成了制约老旧数据中心升级的痛点,思发展 AI,重建数据中心成了更好的弃取。

但数据中心的联想寿命有 20 到 30 年,GPU 换代一般是 3~5 年,总不可隔几年就重建一次吧,为此行业发展出了新的地点,那即是设备一体化。

Chapter 3.3 设备一体化与遵守升迁

我们针对占大地积的问题,推出了疏浚直流供配电一体化的电力模组,就像我们传统的拼装式的电脑,咫尺变成了一体机是一样的,我们通过将 UPS、供配电、变压器、抵偿、馈电柜多个产物交游刃有余,提供了一个工程产物化的一个产物,这么不错将我们占大地积减少至少 30%。

自然我们还有一个新式的料理有缱绻,我们的供配电电力模组,聘任背靠背的这种形势,通过上送风,这么的话我们不错把传统的电力层面积再松开 50%。

松开其他设备的占大地积不光成心于老旧数据中心的升级,新的数据中心也能带来更高的经济效益,因为腾出来的空间就不错多摆点推断用的机柜、多一些算力,镌汰模子的覆按与推理时辰。

除了松开设备占地外,供电系统的另一个趋势是升迁电能传输遵守。

家喻户晓,每个设备齐有电阻,电能在一层层设备的调整中,总会伴跟着能量赔本,如斯一来为了清闲劳动器机柜的电能需求,前端的供配电设备需要留有更多冗余、占据更大面积。

而升迁传输遵守后,不仅能减少设备的数目,还能贬抑数据中心的能耗,达到节能减排的肃除。

那该从哪些方面来升迁遵守呢?

第一,UPS 我们聘任了碳化硅的产物线,将通盘的遵守升迁了许多。第二,我们聘任了 SCB 的多晶合金的变压器,第三通过以传统的线缆形势改用铜牌的形势来联接,进一步贬抑了线路的损耗来升迁它举座的遵守。

为了升迁末端配电的负载,我们推出了 1000 安培的小母线,这么劳动器将来不错扩容 100 千瓦、 150 千瓦。

临了,我们来聊聊顾华提到的第四个挑战,快速部署。有有趣的是,行业为此居然呈现出了"预制化"的趋势,这能行得通吗?

04 确立周期与快速部署

如今全球的 AI 战正打的火热,急剧增长的算力需求促使着各大公司新建 AI 数据中心,这就对整行业建议了确立速率的要求,毕竟 AI 数据中心早一天上线,就能带来更多经济效益。

人人也在纷繁尝试转变的料理有缱绻,譬如"木质数据中心",用木料四肢裂缝结构部件,来确立数据中心。

难谈他们就不怕遭受地震、台风或者失火啥的,把通盘数据中心齐弄没了吗?

其实尽管木质数据中心听上去是个相等激进的主张,但早在 2019 年就有公司就建成并参预使用了。

他们使用的也并不是那种顺利从树上锯下的木板,而是名为正交胶合木(Cross-Laminated Timber,简称 CLT)的建筑材料。

这种材料具有极高的强度和均匀性,顺利四肢承重墙板或者楼板使用齐没问题,同期它还有耐火的特色,英国就有栋名为 Stadthaus 的九层楼公寓,聘任了 CLT 材料建成。

木质材料不仅能清闲环保的要求,还能通过预制化,将举座的确立速率,加速 40%~80%。

自然,数据中心的确立不光是外部建筑,还有里面的基础设施需要定制。而咫尺,冷却系统与供电设备也走向了预制化的谈路。

雷爱民

维谛时期详尽料理有缱绻架构部总监:

咫尺的智算中心,客户可能需要在 6 个月之内确立好,这亦然传统建造形势的最快完工时辰,而维谛的 360AI 智算料理有缱绻,不错协助客户松开 50% 傍边的时辰。

我们在国外和一些算力公司、互联网公司有联结,会凭证它需要的算力,来定制全套的预制化基础设施。即是说仍是提前把数据中心的基础设施配套好了,同期对里面的供电、制冷、软件,以致工程的材料的预制化,齐进行了扫视的部署。

将设备由定制改为预制,就能大幅知人善任工程时辰,但这其中又会存在匹配性的问题。

不同的客户他确乎有很大的需求上的判袂,比如政府和金融面孔,金融客户他最在乎的就高可靠性,他对转变、绿色捏安稳的魄力,然则对互联网公司来说,他在乎的即是转变性、资本、部署速率。是以说在这两种客户之间,我们提供的是各异化的劳动、各异化的有缱绻和劳动。

不同的数据中心,齐有我方私有的需求,如果失去了"定制"这个才气,是否意味着预制化的设备难以多数铺开呢?

人人给我们解说谈,所谓的预制化,其实是预制了各个部件的模块,在一个调节的平台下,不错将这些模块按需求来拼装,这么就能清闲不同的客户。

维谛时期详尽料理有缱绻架构部总监:‍

维谛施行上它在恒久的发展和扩充里面,它形成了许多圭臬化的组件,是以说当一项新的需求驾临的时候,我们可能优先去弃取,在这个积木库里面,去索取一些符合我们这个新的场景的一些部件和组件,这么就不错高遵守的搭建出一个适宜客户新的需要的,这么的一个产物类型。

打个譬如,就像我们买来的乐高积木,其实是许多通用的小块,它既不错拼成汽车,也能拼成飞机。

固然我们常说,AI 的飞跃源自芯片的积贮,筹商词,为芯片运行打下基石的,是基础设施的时期向上,它们如同无形的"兵部尚书",在幕后肃静支捏和调控着前哨士兵的作战行为,让 AI 大模子覆按顺利鼓吹。

就像之前提到的,士兵的作战遵守在升迁,那么兵部尚书的水平也要相对提高,这对通盘 AI 芯片的高下流市集齐建议了更高的要求,是挑战亦然机遇。

跟着更高才气、更多参数以及更大 AI 模子的参预覆按女色网,也许我们会看到数据中心更快的升级迭代,有更多的时期转变来支捏 AI 大模子的时期大战。



 
 


Powered by jk露出 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024