智算“万卡”潮起,国产AI芯片迎高光时辰
作者:[db:作者]日期:2025/01/10 浏览:
中国挪动位于呼跟浩特、哈尔滨、贵阳的万卡级其余智算核心曾经先后投产运转。据悉,三年夜集群总范围近6万张GPU卡,充足满意年夜模子会合练习需要。
中国联通正在打造上海、呼跟万卡智算集群,全网智算算力超15EFLOPS,宣布AICC、AICP、星罗调理平台等五年夜智算产物,供给涵盖国度“东数西算”枢纽、31省重点都会、超600边沿节点的AIDC基座。
小米也正打算建立一座GPU万卡集群。据悉,小米在其年夜模子团队建立时曾经领有6500张GPU资本。
字节在2023年就已树立起超越1万张卡的Ampere架构GPU (A100/A800) 集群,尔后还在建立年夜范围Hopper架构(H100/H800)集群。
现在,“万卡集群”被业界视作是这一轮年夜模子比赛的“入场券”,乃至另有不少厂商曾经开端规划“十万卡集群”。
百度的百舸 4.0 经由过程一系列产物技巧翻新,曾经可能实现十万卡集群的高效治理。
阿里巴巴的阿里云可实现芯片、效劳器、数据核心之间的高效协同,支撑 10 万卡量级的集群可扩大范围,已效劳天下一半的人工智能年夜模子企业。
腾讯已发布自研星脉高机能盘算收集片面进级,星脉收集 2.0 搭载全自研的收集装备与 AI 算力网卡,可能支撑超 10 万卡年夜范围组网,收集通讯效力比上一代晋升 60%,让年夜模子练习效力晋升 20%。
03 国产AI芯片公司,失掉利好
显然,在经营商以及科技巨子纷纭入场规划之际,国产 AI 芯片公司也迎来利好。
华为昇腾
据悉,以当局为主导的都会智能盘算核心多采取国产A1芯片中的佼佼者如华为昇腾等,此中华为更是在统计的20多个都会为主体的智能盘算核心中盘踞79%的市场份额,处于国产AI芯片的当先地位。在可预感的2025年,昇腾芯片及效劳器的市场仍旧会处于缓和的供应局势。
寒武纪
2023年寒武纪思元(MLU)系列云端智能减速卡在中国挪动正式上线。停止2023年12月,中国挪动已有12个省公司、超越70个AI营业实现向寒武纪思元系列云端智能减速卡的迁徙。
2024年8月,中国挪动云才能核心参建的寰球经营商最年夜单集群智算核心——中国挪动智算核心(哈尔滨)正式投产应用。该智算核心安排超1.8万张AI减速卡,AI芯片国产化率达100%,可供给6.9EFLOPS(每秒690亿亿次浮点运算)智能算力。据悉,该智算核心就是由寒武纪参加建立。
南京智能盘算核心由南京市麒麟科技翻新园与海潮、寒武纪独特打造,采取海潮AI效劳器算力机组,搭载当先的寒武纪思元270跟思元290智能芯片及减速卡,已经营体系的AI盘算才能达每秒80亿亿次 (800P OpS)。
年夜模子爆火确当下,AI的练习跟推理芯片及训推一体化等芯片成为市场“喷鼻饽饽”,寒武纪在此范畴的深耕研发,减速思元系列芯片的迭代。
摩尔线程
2023 年 12 月摩尔线程 KUAE 智算核心开幕,这是海内首个以国产全功效 GPU 为底座的年夜范围算力集群,以全功效 GPU 为底座,供给软硬一体化的全栈处理计划。
2024 年 7 月,摩尔线程结合中国挪动通讯团体青海无限公司、中国联通青海公司、北京德道信科团体、中国动力建立股份无限公司总承包公司、桂林华崛年夜数据科技无限公司等,分辨就三个万卡集群名目停止了策略签约,多方将聚力独特构建好用的国产GPU集群。
燧原科技
2021年燧原科技与之江试验室在之江试验室南湖新园区签约建立“燧原-之江人工智能芯片结合研讨核心”。
成渝智算核心由四川并济科技投建,燧原科技供给搭建算力底座。
与此同时,燧原科技还助力太湖亿芯(无锡)智算核心、甘肃庆阳算力枢纽的建立。
天数智芯
中国挪动智算核心(呼跟浩特)是寰球经营商范畴内范围最年夜的单体液冷智算核心,智算范围高达 6.7EFLOPS(FP16),领有国度级 N 节点万卡范围 AI 练习场。
天数智芯在该名目中充足施展天垓 150 产物的出色机能与普遍实用性,与新华三信息技巧强强结合,独特打造高机能 AI 练习效劳器。
壁仞科技
壁仞科技也参加中国挪动呼跟浩特智算核心名目。
别的,壁仞科技的壁砺系列通用 GPU 算力产物还在中国电信落地千卡集群并发展贸易化利用,别的在中国电信团体新一轮国产化 GPU 集采名目中,壁仞科技的主流 GPU 产物曾经归入中国电信的集采名录,成为中国电信的重要 GPU 供给商。
沐曦科技
2024 年 11月,由上海联通联袂加佳科技、沐曦独特打造的曦源一号 SADA 万卡集群算力名目第一期千卡国产算力集群在上海联通临港机房正式落地。该名目以沐曦 GPU 芯片技巧产物为中心,出力构建集算力、算法、数据、工业利用为一体的人工智能工业重生态。
据悉,沐曦跟加佳科技已在上海、湖南、江苏等多地建成智算核心,并打算于2025年6月实现10000卡国产高品质算力建立。
04 何止“万卡”,乃至要“百万卡”
从晚期智算核心艰巨起步,一步步开展到现在 “万卡” 范围的算力集群纷纭落地,这无疑是宏大的奔腾。当下,行业头部厂商更是将视线进一步拓宽,未然聚焦于更为巨大的 “百万卡” 目的。
克日,在AI市场疾速增加的配景下,博通市值冲破 1 万亿美元,创下汗青新高。
博通首席履行官陈福阳表现,他有信念在 2020 年月前期持续加年夜对人工智能的投资。他指出,三年内,博通的客户打算构建装备数百万个 AI 芯片的年夜范围盘算集群,从而推进市场年夜幅增加。
博通正与三年夜客户配合开辟 AI 芯片,打算到 2027 年在收集集群中安排 100 万个芯片。据CNBC报道,他估量,到 2027 年,其 XPU 跟 AI 收集组件的总市场范围将到达 600 亿至 900 亿美元。
固然博通尚未正式颁布其芯片客户,但剖析师表现,该公司正在与谷歌、Meta 跟字节跳动配合,以减速 AI 体系的练习跟安排。据《金融时报》报道,该公司已为此开辟了定制处置器。
05 “万卡集群”真的有须要吗?
先说论断,“万卡集群”的建立必定是有须要的。
以后,我国智能算力求过于供的成绩较为凸起,年夜模子对算力的需要增速远超单颗 AI 芯片机能的晋升步调。相干讲演表现,2023 年,中国智能算力需要达 123.6EFLOPS,而供应仅为 57.9EFLOPS,供需缺口高深莫测。应用集群互联补充单卡机能短板,或是现阶段缓解 AI 算力荒最值得摸索与实际的无效道路。
不外,在推动 “万卡集群” 建立过程中,有两年夜要害困难亟待处理:其一,怎么高品质实现建立义务,保障集群在稳固性、高效性、兼容性等多方面到达尺度请求;其二,建成后怎样充足发掘其利用代价,使其在人工智能练习、年夜数据剖析等适配场景施展最年夜感化,根绝资本空置与挥霍景象。
起首,无妨将 “万卡集群” 类比为参加 “多人多足” 游戏的团队,各人都明白,让一群人犹如一团体般整洁整齐地前行并非易事,要调理上万张盘算卡协同高效功课、告竣机能的线性扩大、确保义务无连续运转,这对集群的计划、调理以及容错才能都提出了极高挑衅。
其次,智算核心的建立只是一个开始,更主要的是后续的无效应用。
据报道,因为智算核心的投资、建立、经营平日由差别主体担任,后期建立方经常对后续经营形式、效劳尺度缺少充足考量,呈现 “尽管建立、掉臂经营”、建立与经营摆脱的情形,影响了客户休会,以致不少都会所建智算核心的机架应用率不尽人意。
从贸易形式来讲,智算核心年夜多以出租或售卖算力为重要红利手腕,但是因行业尚未同一算力订价尺度,差别智算核心价钱差别迥异,市场接收水平受限。
近期,多位智算核心范畴从业者访问海内各地智算核心后,他们中的一些人向《智能出现》反应,以后海内算力核心市场较为低迷。一位业内子士流露:“就现在所控制情形,少数机房出租率大抵在 20% - 30% 区间浮动,局部企业级智算核心出租率乃至低至 10% 阁下。”
要明白,智算核心不只后期须要投入巨额资金购买 GPU 等 AI 芯片,后续经营阶段同样须要连续注资。
《智能出现》未几前发文指出,一台英伟达 H100 效劳器(8 卡)租赁价钱,已从年终的 12- 18万元/月,下滑至现在的7.5万元/月,降幅约50%。
若依照以后机房20%的应用率来算,一个英伟达H100千卡集群智算核心每年营收仅2300 万元(即7.5 万元/月×12个月×128台效劳器×20%),这象征着,即使算力核心委曲保持经营,所得收入基础只能笼罩一半的畸形经营本钱,后期投入的资源基本无从回本。
综上所述,“万卡集群”已成为智能算力时期的主要里程碑,标记着我国在人工智能范畴的算力建立迈上了新的台阶。从小米、中国挪动等科技巨子正踊跃规划万卡集群,以期在这场年夜模子比赛中盘踞有利位置。但是,万卡集群的建立并非易事,智算核心须要多长时光才干经由过程经营收入收回投资,行业也还需更多的摸索。前往搜狐,检查更多
义务编纂:
相关文章