首页 > 正文

高端智算瓶颈困扰AI迭代 如何解决燃眉之急?

2025年03月08日 18:48
来源: 南方都市报
编辑:东方财富网

手机上阅读文章

  • 提示:
  • 微信扫一扫
  • 分享到您的
  • 朋友圈
摘要
【高端智算瓶颈困扰AI迭代 如何解决燃眉之急?】张云泉是中国科学院计算技术研究所研究员,长期从事高性能计算研究。他向记者表示,许多国产AI芯片主要集中在难度较低的低精度计算领域,而国内的智算中心也往往只考虑低精度训练算力需求。虽说这种配置恰好承接住DeepSeek这类采用低精度(FP8浮点数)训练的推理模型,一定程度缓解了“算力荒”问题,但大模型的Scaling Law(规模效应)仍在发挥作用,大模型后续的技术演进仍不确定,国家依然需要从战略层面跟进高端算力投资。

  尽管DeepSeek通过工程优化,降低了模型训练所需算力,但全国政协委员张云泉认为,这并不意味着高端智算中心建设可以松口气了。相反,高端智算中心是冲击通用人工智能(AGI)这类更高层次目标的关键基础设施。

  张云泉是中国科学院计算技术研究所研究员,长期从事高性能计算研究。他向南都记者表示,许多国产AI芯片主要集中在难度较低的低精度计算领域,而国内的智算中心也往往只考虑低精度训练算力需求。虽说这种配置恰好承接住DeepSeek这类采用低精度(FP8浮点数)训练的推理模型,一定程度缓解了“算力荒”问题,但大模型的Scaling Law(规模效应)仍在发挥作用,大模型后续的技术演进仍不确定,国家依然需要从战略层面跟进高端算力投资。

  然而,张云泉发现,当前中国能够支撑大模型训练的高端智算中心极为稀少,面临算力供需的结构性失衡。

高端算力紧缺

  智算中心不同于通用算力中心,前者主要提供人工智能应用所需算力服务,是大模型产业的基础设施。其建设主体包括地方政府、基础电信运营商和云厂商。中商产业研究院一份数据显示,截至2024年8月,全国投运、在建及规划的智算中心中,地方政府和基础电信运营商主导建设的智算中心项目占比超过50%,互联网及云厂商项目数量占比约为17.7%。

  据张云泉调研了解,国内已知的最大单体智算中心算力仅为万卡6.6Eflops(以BF16浮点数衡量,1Eflops即每秒百亿亿次浮点运算),与国际领先水平差两个数量级。另外,国内主要的智算中心单体规模仅在100-1000Pflops之间(1Eflops等于1000Pflops)。而高端智算中心的性能需达到万卡10Eflops以上。

  相比之下,马斯克旗下xAI公司去年9月建成的Colossus算力集群,拥有10万块英伟达H100 GPU,总算力规模达200Eflops。

  高端智算中心还要求单机柜功率密度达到40-100kW,但根据张云泉的调研,国内主流机架功率密度低于15kW,远低于高端智算的功率密度要求。而且,国内能开展大模型训练的智算中心的GPU训练效率不超过30%,即GPU实际发挥的计算能力不到理论最大值的三成,这意味着计算效率偏低。

  张云泉认为,智算中心建设缺乏行业评价标准,芯片架构跟不上大模型的演化速度,建成即过时,是导致高端算力供给不足的成因之一。而且,智算中心建设中盲目追求算力规模的亮眼数字,而非背后的计算能力,未配齐能动态选择合适精度进行运算的混合精度算力,以至于通用性不强,无法满足最新大模型的计算要求。

  因此,张云泉建议出台高端智算中心建设管理办法,从供给侧引导高端算力发展。建立智算中心的准入标准,要求所有新建智算中心必须通过大模型训练或推理能力评测,否则不予批准建设。

  张云泉还指出,此前一段时间,业内过度强调国产化,在一定程度上加剧了供需失衡。在国产AI芯片尚不成熟的情况下,智算中心不顾实际需求追求完全的国产化,将先进成熟的英伟达GPU排除在外。该现象在地方政府主导建设的智算中心项目中尤为明显。结果便是,算力平台难以适配市场需求。不过,近期张云泉发现这一情况有所改善。

“超智融合”能否成为出路?

  缓解“算力荒”,路径之一是提升国产AI芯片性能。2月5日,百度智能云宣布成功点亮自研昆仑芯三代万卡集群,这是国内首个正式点亮的自研万卡集群。张云泉说, 能实现万卡部署,代表着接近国外的前沿水平。但当前,国产AI芯片仍然面临适配过程复杂、系统不够稳定,芯片的可扩展性、运行成本等诸多问题。

  为了缓解高端智算紧缺的“燃眉之急”,业界将视线投向“超算+智算”的融合方案。

  与面向AI计算的智算中心不同,超算中心主要用于科学计算的创新。张云泉解释说,所谓“超智融合”,是将国产超算积累的关键技术(如架构、芯片、并行与通信算法、算力调度与负载均衡等),赋能高端智算中心建设和大模型高效训推优化过程。

  中国工程院院士郑纬民在去年7月一场业内研讨会上指出,国产AI芯片的生态系统尚不完善,提高了应用门槛,但一些负载不饱和的国家超算系统可以利用空闲资源支持大模型训练,前提是要做好软硬件协同设计,降低超算训练大模型的成本和能耗。

  在张云泉看来,“超智融合”推进过程中,应当紧盯最新大模型算法的进展,针对大模型训练和推理进行目标优化。其次,超算技术如何和国产AI智算芯片进行适配,保证高效运转亦是难点。此外,还需搭建人才队伍,这要求超算人才交叉学习智算领域的技术。

  “国产AI芯片相对落后,但中国在超算上有很深厚的积累。为了尽快解决算力瓶颈问题,‘超智融合’是我们目前能看到的最优、最有突破把握的路径。”张云泉说。

(文章来源:南方都市报)

(原标题:高端智算瓶颈困扰AI迭代,如何解决燃眉之急?)

(责任编辑:70)

 
 
 
 

网友点击排行

 
  • 基金
  • 财经
  • 股票
  • 基金吧
 
郑重声明:天天基金网发布此信息目的在于传播更多信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。

将天天基金网设为上网首页吗?      将天天基金网添加到收藏夹吗?

关于我们|资质证明|研究中心|联系我们|安全指引|免责条款|隐私条款|风险提示函|意见建议|在线客服|诚聘英才

天天基金客服热线:95021 |客服邮箱:vip@1234567.com.cn|人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30
郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考,使用前请核实,风险自负。
中国证监会上海监管局网址:www.csrc.gov.cn/pub/shanghai
CopyRight  上海天天基金销售有限公司  2011-现在  沪ICP证:沪B2-20130026  网站备案号:沪ICP备11042629号-1

A
安联基金安信基金
B
博道基金渤海汇金北京京管泰富基金百嘉基金贝莱德基金管理博时基金宝盈基金博远基金
C
长安基金长城基金长城证券财达证券淳厚基金创金合信基金长江证券(上海)资管长盛基金财通基金财通资管诚通证券长信基金财信基金财信证券
D
德邦基金德邦证券资管大成基金东财基金达诚基金东方阿尔法基金东方红资产管理东方基金东莞证券东海基金东海证券东吴基金东吴证券东兴基金东兴证券第一创业东证融汇证券资产管理
F
富安达基金蜂巢基金富达基金(中国)富国基金富荣基金方正富邦基金方正证券
G
光大保德信基金国都证券广发基金广发资产管理国海富兰克林基金国海证券国金基金国联安基金国联基金格林基金国联民生国联证券资产管理国融基金国寿安保基金国泰海通资管国泰基金国投瑞银基金国投证券国投证券资产管理国新国证基金国信资管国信证券国新证券股份工银瑞信基金国元证券
H
华安基金汇安基金华安证券华安证券资产管理汇百川基金华宝基金华宸未来基金华创证券泓德基金华富基金汇丰晋信基金海富通基金宏利基金汇泉基金华润元大基金华商基金惠升基金恒生前海基金华泰柏瑞基金华泰保兴基金红土创新基金汇添富基金红塔红土华泰证券(上海)资产管理华夏基金华西基金华鑫证券合煦智远基金华银基金恒越基金弘毅远方基金
J
嘉合基金金融街证券景顺长城基金嘉实基金九泰基金建信基金江信基金金信基金金鹰基金金元顺安基金交银施罗德基金