来源:环球网
【环球网科技综合报道】第八届北京智源大会日前在北京举办,200余位全球顶尖学者与40余位产业界代表齐聚一堂,围绕世界模型、具身智能、AI自进化等前沿议题展开深度交流。在人工智能技术向各行业纵深渗透的当下,算力瓶颈始终是产业发展绕不开的核心命题。作为国内可重构计算架构的代表性企业,清微智能携可重构超节点服务器、三维集成技术亮相本次大会,提出国产算力的四个发展思路,推动国产算力从“可运行”向“经济性”扎实迈进。期间,清微智能软件副总裁李彬围绕技术路线选择、工艺限制突破、产业生态建设等行业热点话题,向记者分享了清微智能的实践与思考。
锚定可重构路线 走差异化创新之路
自2018年成立起,清微智能便选择了一条与行业主流不同的技术路径——可重构计算架构。在李彬看来,这一选择是基于产业环境与技术规律的双重判断。
从国际大环境来看,美国对中国芯片产业的遏制具有长期性,若沿着国际主流成熟路线跟随追赶,代际差距始终难以有效缩小。从技术发展的底层逻辑来看,摩尔定律已接近发展瓶颈,传统计算架构本身已很难实现突破性的效能提升。“要继续大幅提升算力性价比,必须在架构层面做根本性创新,而不是在别人的架构上做渐进式改良。”李彬表示。
“我们宁愿选择一条难而正确的路。”李彬坦言,八年的研发深耕,让清微智能完成了从架构创新到产品落地、客户验证的完整商业闭环,这也成为企业发展的核心护城河。
先进制程受限,是当前国产芯片产业共同面对的发展挑战。如何依托成熟制程支撑大模型时代的海量算力需求,清微智能给出的答案是“以集成换性能”,通过系统级的技术创新,绕开单点工艺的限制。
在芯片架构层面,传统架构芯片面临功耗墙、内存墙、通信墙的多重限制,晶体管有效利用率不足40%。清微智能打造的可重构数据流引擎,可让计算单元根据数据流动按需重组,将晶体管有效利用率提升至70%以上,用成熟制程实现了接近先进制程的有效算力。据介绍,该技术方案目前已在电力、政务、EDA、电信四大关键行业完成规模化部署。
在封装集成层面,针对行业普遍面临的“内存墙”问题,清微智能展出的下一代AI芯片采用3.5D异构堆叠与Chiplet架构,实现可重构计算芯粒与DRAM存储芯粒的三维垂直堆叠。不同于传统2D平面的“单车道”传输模式,三维集成就像搭建起立体贯通的“四车道”,将信号传输距离从毫米级压缩至微米级,访存带宽较传统HBM方案有数倍提升,可大幅降低千亿参数大模型的参数搬运延迟。
“我们的第一代算力芯片采用的是低成本的DDR,通过可重构架构在芯片内部解决带宽瓶颈,在系统级实现高性能,从而绕开了HBM依赖。”李彬介绍,通过先进的封装集成技术,用成熟制程实现接近先进制程的性能效果,是一条差异化的突破思路,不用硬碰硬地突破工艺封锁,而是通过架构和系统集成创新跨过发展壁垒。
竞争优势显现 超节点技术释放集群价值
随着大模型参数规模持续扩张,算力需求逐渐从离散的单机供给转向集约式的集群部署,芯片间的互联效率成为决定集群整体效能的关键。本次智源大会上,清微智能展出的可重构智算超节点服务器,成为国产算力集群技术的代表性落地成果。
据了解,该超节点将4096颗可重构计算芯片以访存语义为基础,采用Mesh拓扑实现点对点通信,全程无需依赖单独的交换芯片或交换机。单集群算力突破每秒500千万亿次,互联成本较国外同类方案降低约90%。今年3月,该成果入选2026中关村论坛重大科技成果,并已在北京市某算力场项目中正式上线,打通了硬件部署、大模型训推、全链路运维的闭环流程。目前,清微智能已完成从千卡集群工程验证到十余个省份万卡级智算中心规模化部署的推进。
针对近期行业关注度持续提升的超节点技术,李彬表示,超节点并非全新技术概念,其本质是将大量芯片与算力资源聚合,形成一个单一的大规模算力整体。过去该技术未得到广泛应用,是因为当时模型的计算规模尚不足以匹配超节点的算力供给。而近年来,大模型参数规模从十亿、百亿快速增长至千亿乃至万亿级,对大规模算力的需求持续攀升,超节点的技术价值也随之充分显现。
谈及产品的市场竞争力,李彬介绍,在性价比与大规模集群两个维度,国产方案已具备突出的竞争优势。单芯片层面,同等成本条件下,产品的性能与性价比实现大幅提升,清微下一代AI算力芯片产品,性能还将有2至3倍的提升空间;集群层面,芯片内置高速通信能力的设计,省去了外部交换机、以太网卡等配套设备投入,构建同等规模的四千卡集群,互联通信成本可降低约九成,同等资金投入下可搭建规模更大的算力集群。
共建统一生态 推动国产算力向主流迈进
算力产业的长远发展,硬件是基础,生态是关键。随着国产芯片逐步从补充角色走向产业应用的主流,构建统一的软件接口与产业生态,成为行业共识。
“如果每一家芯片公司都使用自己的软件栈,用户需要针对不同芯片分别做适配、分别开发,同一个应用可能要做很多份,这是不可持续的。”李彬表示,行业需要一套统一的软件生态,不同厂商的硬件搭载统一的系统底座,用户无需关心底层芯片架构,只需在统一软件接口上开发一次,就能适配所有芯片,进而形成规模效应的正向循环。
在生态布局上,清微智能较早意识到生态建设的重要性,过去两三年持续投入大量资源,深度参与国产AI算力统一软件生态建设。目前,清微智能是行业内少数实现FlagOS全部核心组件全栈兼容的企业,适配规模在非GPU架构中处于行业前列,基于FlagOS开发的AI应用,可在清微芯片上无缝运行。
今年4月底,包括清微智能在内的10家国产AI芯片企业,基于FlagOS首次实现了千亿大模型DeepSeekV4的0DAY适配,并通过FlagRelease发布了模型推理镜像。值得关注的是,本次适配工作主要由生态开发者主导完成,而非芯片厂商主导,这也标志着国产创新架构与国产软件生态“一次编写,多芯部署”的双向价值进一步落地。
在李彬看来,生态建设的重要性,甚至不亚于芯片本身的技术创新。对芯片企业而言,只需完成少量适配工作,就能触达广泛的开发者群体;对开发者而言,一次适配即可让应用在多类国产芯片上运行,大幅降低迁移成本。更深层的产业价值在于,通过分工优化,芯片厂商专注硬件架构创新,软件生态企业提升算力易用性,这种协同创新模式,能推动国产算力产业以更快的速度追赶国际先进水平。
产业趋势明朗 国产算力已赶上国际水平
随着人工智能与实体经济的融合不断加深,算力需求的持续增长正在重塑产业的供给格局。李彬认为,大模型能力的快速提升,正从根本上改变算力的供给方式。
“过去,算力是以单台服务器、单机的方式供给,比较离散。现在,模型越来越大,推理和训练对算力的需求越来越集中,集约式的集群部署方式成为必然选择。”李彬介绍,相比离散部署模式,集群化部署的整体总拥有成本效率更优,若叠加超节点技术的优势,算力性价比还将进一步提升。
针对行业普遍关注的算力成本下降问题,李彬表示,算力成本的下行需要算法与硬件两个维度协同推进。算法层面,同等参数规模的模型能力仍在持续提升,未来随着模型算法进一步成熟,实现同等智能水平的模型成本将持续下降;硬件层面,一方面通过软件优化持续挖掘芯片架构潜力,提升单位硬件的任务处理能力,另一方面通过架构创新、3D封装、超节点互联等技术,从底层提升算力性价比,最终为用户提供更普惠的算力服务。
对于国产算力替代的产业临界点,李彬判断,当前行业已经非常接近这一节点,今年DeepSeekV4的发布便是标志性事件。“过去,每一次新模型发布,国产芯片都需要几周甚至几个月才能适配完成。但今年V4发布时,多家国产芯片与国际主流厂商同期完成适配——这在AI芯片发展历程中是首次。”李彬表示,从软件生态角度看,统一软件框架的成熟速度也超出预期,当市面上主流的大模型和算法都能在国产芯片上稳定运行时,从技术能力层面,国产算力已与国际主流生态形成对等水平。
“未来1到2年内,我们会看到这个临界点真正到来——到那时候,用户选择国产算力芯片,单纯是因为它确实好用、性价比高。”李彬说。
而针对芯片研发周期长的行业特性,李彬也坦言,芯片行业与互联网行业的发展逻辑完全不同,一款芯片从架构设计、前后端仿真,到流片、回片、量产,至少需要一年半到两年时间,当前市场上的产品,往往是企业两年前的设计成果。这就要求芯片企业必须向前预判3到5年的技术趋势,才能推出适配未来市场需求的产品。目前,清微智能采用“落地一代、研发一代、预研一代”的研发节奏,三个方向同步推进,保障技术路线的持续前瞻性。
从架构创新突破工艺限制,到系统集成提升集群效能,再到生态协同推动产业普及,清微智能以可重构计算为核心,走出了一条差异化的国产算力发展路径,也为国产算力从“可用”迈向“好用”提供了可复制、可推广的实践方案。(心月)