国产万卡池批量出现|图源:豆包AI

作者/  IT时报  贾天荣

编辑/  郝俊慧  孙妍

国产AI芯片厂商仍在继续押注“万卡集群”。

《IT时报》记者从多个消息源获悉,上海临港将建设一座沐曦GPU万卡集群。目前项目仍处于推进阶段,最终采用曦云C550还是最新一代曦云C600方案,尚未最终确定。

这意味着,在“国产GPU四小龙”陆续冲刺资本市场的背景下,围绕“万卡能力”的竞赛并未停止。

从“造芯片”走向“造系统”

早在2024年,沐曦与加佳科技共同启动曦源一号SADA万卡集群算力项目,其第一期千卡集群在上海临港正式落地。彼时消息指出,沐曦和加佳科技已在上海、湖南、江苏等多地建成智算中心,并计划于2025年6月完成10000卡国产高质量算力建设。不过,记者注意到,截至目前尚未有公开信息显示该项目已完工。

但沐曦方面对外表示,公司已经完成超万卡规模国产智算集群的全量交付,其推理GPU也已在头部大模型客户中实现规模化落地。

最新消息显示,近日,由云工场科技主导建设的“无锡沐曦国产GPU万卡智算集群”项目迎来重要进展——一期工程正式点亮并投入实际运营。该集群采用沐曦曦云C550算力设备,目前已进入实际运营阶段,并已有客户投入使用。

作为其第一代训推一体GPU产品,曦云C550基于XCORE 1.0架构,主要面向AI训练、推理与通用计算场景,支持多种混合精度计算,配备64GB HBM2e显存与高速互连能力。

2025年10月发布的曦云C600,则进一步升级至XCORE 1.5架构,新增FP8 Tensor及Tensor转置指令,并升级HBM3e显存体系,开始明显对标当前主流AI训练需求。

记者注意到,在商业化落地层面,沐曦在“国产GPU四小龙”中较为领先,2024年营收达7.43亿元,核心产品曦云C500累计销量超2.5万颗,获中国电信、阿里、腾讯等头部企业批量采购。

相比早期“单卡性能”的竞争,如今国产GPU厂商越来越强调“系统能力”。“过去大家认为芯片公司交付的是一颗芯片,但后来发现仅靠芯片远远不够。”此前,摩尔线程的联合创始人张钰勃曾公开表示,大模型参数规模持续膨胀后,必须从单服务器走向系统化部署,再进一步走向万卡级集群。

2025年底,摩尔线程登陆科创板时,其“夸娥(KUAE)”万卡级智算集群就被视作核心资产之一。某种程度上,“能不能做万卡”,已经成为国产GPU公司讲述资本故事的重要组成部分。

如今,这种逻辑也正在复制到燧原科技、壁仞科技、沐曦股份等公司身上。

“国产GPU四小龙”即将齐聚资本市场。6月15日,燧原科技正式通过上海证券交易所科创板上市委员会审议。

沐曦也于近日发布公告称,为满足业务发展需要,进一步提升治理水平与核心竞争力,并深入推进全球化战略,公司拟发行境外上市外资股(H股)股票,并申请在香港联合交易所有限公司主板挂牌上市。

国产万卡集群正在批量建设

当前,国产GPU万卡集群已经开始从“概念验证”进入实际落地阶段。

除了“无锡沐曦国产GPU万卡智算集群”,燧原科技招股书也显示,公司已联合客户研发超节点方案,并联合打造具有商业化价值的万卡高速互联集群,并且千卡、万卡智算中心项目已经实现收入。

国家数据局6月8日发布的《数字中国发展报告(2025年)》显示,截至2025年底,全国在用算力设施机架数已超过1373万标准机架,智能算力规模达到159万PFlops(FP16),全国已建成42个万卡智算集群,规模位居全球第二,仅次于美国。而更早之前,科大讯飞与华为也曾在合肥建设国产万卡智算集群,被业内视作国产算力体系的重要标志性项目。

但在“万卡热”持续升温的同时,行业内部对于其商业价值的看法,却并非完全一致。一位业内人士向《IT时报》记者透露,目前真正有大规模训练需求的模型公司其实并不多,“现在模型就那么几个,真正需要万卡训练的厂商有限”。

图源:pexels

该人士表示,部分早期建设的国产集群,后来甚至出现了拆分和低价出租的情况。“之前有一些集群做了两三千卡规模,后来陆续拆分,并以非常低的价格租给国央企和政府单位。”

需求分化与资源错配,正倒逼国产算力产业从“政策驱动”转向“需求驱动”,中国AI大厂是最有潜力的市场。

从训练转向推理

变化的核心,在于AI行业的重心正在迁移。过去几年,大模型竞争主要围绕“训练能力”展开,谁能堆更大的集群、训练更大的参数,谁就拥有更强的话语权。

但随着DeepSeek等国产大模型逐渐进入应用阶段,推理需求开始迅速增长。中国工程院院士邬贺铨此前指出,中国当前的推理需求约为训练需求的8倍。

这意味着,未来算力需求结构正在发生根本变化。训练强调吞吐率,需要集中式高性能集群;而推理更强调低时延、高并发与靠近用户,需要更加分散、边缘化的部署方式。

“下一阶段的重点已经不是单纯堆集群,而是调结构。”山海引擎COO彭璐向《IT时报》记者表示。包括边缘智算节点、推理专用基础设施以及统一算力调度平台,都可能在未来两三年快速增长。这种趋势,也让部分厂商开始强调“超节点”概念。

位于河南郑州的国家超算互联网核心节点,超过6万张国产AI加速卡正在高速运行。自今年4月投入使用以来,这里成为我国最大规模超智融合算力集群。据中科曙光相关负责人介绍,国家超算互联网平台已链接超300万CPU核和超20万张GPU卡,接入全国一体化算网调度体系,为全国用户提供普惠化算力服务。

“未来可能不是单纯比谁卡更多,而是谁的超节点效率更高。”彭璐表示。与此同时,随着NVIDIA GB300等新一代AI超节点方案开始进入市场,系统级能力的竞争也正在进一步升级。

相比“能不能做万卡”,业内更关心的问题是:国产GPU能否稳定量产。彭璐认为,目前沐曦最大的压力仍然来自供应链和产能,“产能就那么多,7纳米设备的大规模成熟量产还需要时间。”他表示。

此外,国产GPU厂商仍然高度依赖传统服务器厂商生态。有业内人士分析,沐曦未来的万卡项目,大概率仍会与浪潮信息、联想等传统服务器厂商合作完成整机系统建设。

真正决定国产GPU未来的,也不只是“单次交付”。一位行业人士向《IT时报》记者表示,目前行业最看重的,其实是Token成本。

“单机可能很贵,但如果按Token计算,万卡集群反而是最划算的。”该人士表示,未来大规模推理服务更关注的是整体调度效率、互联效率以及单位Token成本。

而对于刚刚冲刺资本市场的国产GPU企业而言,“上市”只是开始。真正的问题是它们能否真正进入互联网大厂的万卡集群体系,能否支撑未来中国大模型推理需求,又能否从“硬件突破”真正走向“生态构建”。

排版/  季嘉颖

图片/  IT时报  沐曦  pexels  豆包AI

来源/《IT时报》公众号vittimes

E N D