开云体育 xAI坐拥55万张GPU加快卡, 但算力行使率仅11%

发布时间:2026-05-08 浏览次数:134 来源:未知 作者:admin

民众AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU实在用起来”。关系词,坐拥约55万块英伟达GPU,践诺行使率仅有11%,这一“打脸”般的数字,正将埃隆·马斯克(Elon Musk)旗下的东说念主工智能公司xAI推优势口浪尖。

据外媒《The Information》获得的xAI里面备忘录暴露,xAI公司总裁迈克尔·尼科尔斯(Michael Nicolls)向团队坦承,公司当今的模子浮点运算行使率(MFU)约为11%。这个数字意味着,表面上能输出100份教练算力的硬件,践诺仅产出了11份。

xAI当今领有约55万颗NVIDIA GPU,其中包括H100和H200系列。尽管这些GPU比最新的Blackwell居品落伍了一个世代,但xAI部署的GPU边界之大令市集印象长远。

关于这一近况,Michael Nicolls在里面备忘录中给出了直白的评价:“低得难过”。他已为团队设定了在畴前几个月内将行使率拉升至50% 的标的。

“11%”这个数字,并非指89%的GPU在透澈闲置,而是臆度有用教练蒙胧占硬件表面峰值算力比例的严苛标的。

从行业基准来看,分娩级大模子教练的MFU时常落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈累积,其GPU行使率辞别可达约43%和46%。即便以“低效”著称的GPT-3教练时期,MFU也在21%-26%之间。比拟之下,xAI的11%不仅远低于刻下主活水平,致使低于AI算力发展史上的“古早”难过时期。

坐拥算力“金山”却难有用武之地,重要出在那边?谜底指向软件堆栈与并行战略的滞后。

xAI在业内以“透澈按照英伟达推选时势部署GPU”的模范生作念法著称。模范生却跑出低分,阐扬问题不在表率的硬件或蚁集拓扑层面。根源在于,教练栈、并行战略和模子工程等软件优化速率,远跟不上其激进的硬件延迟圭表。

业界平庸参谋的“存储墙”表情成为主要瓶颈——HBM显存读取速率远慢于缱绻芯片,开云(中国)一站式服务官网导致芯片渊博时期空转恭候数据;蚁集拓扑中的任何一处瓶颈,在数万张卡的同步条款下,齐会被急剧放大。此外,Lambda等机构的分析指出,显存压力、过度的激活重缱绻和张量并行带来的跨GPU通讯支出等,齐是负担MFU的系统性身分。

xAI的算力基础关节树立速率自己等于一个“外传”:其孟菲斯Colossus超算集群从动工到参预运营仅用了122天,从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“时常需要四年”。

△xAI孟菲斯Colossus超算集群

关系词,惊东说念主的速率似乎也让xAI“欠下”了时间债。延迟越快,因循大边界并行教练的软件系统复杂度就越大。当企业试图将GPU边界从数千张推向数十万张时,通讯、调理、容错和并行战略的挑战会呈指数级增长。xAI的11%的算力行使率,恰是这一矛盾的连合体现。

把问题透澈归罪于xAI一家也并不公说念。《The Information》的报说念征引一位匿名琢磨员的话称:“跑过40%对xAI的大多数竞争敌手来说也很难”。这标明,超大边界集群下的低效问题,是遮盖扫数AI行业的暗影。

报说念还揭示了一个行业里面的诬蔑表情:由于追忆GPU被调走或承受压力,一些琢磨员致使通过反复重跑教练来东说念主为“好意思化”自家MFU数据。囤而毋庸的算力浪费,成为行业心照不宣的精巧。

濒临效果困局,xAI正多措并举。一方面,公司筹画通过基础关节和软件栈优化来处置行使率问题。另一方面,据媒体报说念,xAI已运转将部分闲置算力对出门租,AI编程创业公司Cursor已筹画使用其“数万张GPU”来教练新模子。

AI算力之争已过“装备竞赛”阶段开云体育,负责进入“效果竞赛”的深水区。11%的低行使率如解除面镜子,照出AI行业下半场的中枢命题:怎么将“买得到”的硬件,调动为实在“用得好”的竞争壁垒。

凤凰彩票(welcome)APP官网下载