首页 > 正文

DeepSeek预示算力需求“打骨折”？业界：别只盯着训练 AI行业进入推理时代

2024年12月30日 09:14

来源：财联社

编辑：东方财富网

天天基金网APP

方便、快捷
浏览财经快讯
随时、随地
查净值买基金

手机上阅读文章

提示：
微信扫一扫
分享到您的
朋友圈

大中小

摘要

【DeepSeek预示算力需求“打骨折”？业界：别只盯着训练 AI行业进入推理时代】日前，深度求索DeepSeek-V3横空出世，在AI行业内引发巨震，关键原因之一就是预训练成本之低——这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。与此同时，DeepSeek-V3相比其他前沿大模型，性能却足以比肩乃至更优。

　　日前，深度求索DeepSeek-V3横空出世，在AI行业内引发巨震，关键原因之一就是预训练成本之低——这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。与此同时，DeepSeek-V3相比其他前沿大模型，性能却足以比肩乃至更优。

　　在这背后，DeepSeek-V3采用了用于高效推理的多头潜在注意力（MLA）和用于经济训练的DeepSeekMoE。研发团队证明，多Token预测目标（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推测解码。后训练方面，DeepSeek V3引入了一种创新方法，将推理能力从长思维链模型（DeepSeek R1）中，蒸馏到标准模型上。这在显著提高推理性能的同时，保持了DeepSeek V3的输出风格和长度控制。

　　有观点认为，DeepSeek-V3极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降，甚至有观点将27日A股算力概念的下跌与之联系在一起。但也有观点认为，DeepSeek表现固然优秀，但其统计口径只计算了预训练，数据的配比需要做大量的预实验，合成数据的生成和清洗也需要消耗算力。此外，在训练上做降本增效不代表算力需求会下降，只代表大厂可以用性价比更高的方式去做模型极限能力的探索。

　　“最重要的是，我们正式进入了分布式推理时代。” 谈及DeepSeek-V3时，Lepton AI创始人兼CEO贾扬清针对推理方面指出，“一台单GPU机器（80×8=640G）的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型，但不论如何，都需要分布式推理来保证性能和未来扩展。”

　　中信证券研报也指出，近日，DeepSeek-V3的正式发版引起AI业内广泛高度关注，其在保证了模型能力的前提下，训练效率和推理速度大幅提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠，助力AI应用广泛落地；同时训练效率大幅提升，亦将助力推理算力需求高增。

　　▌AI行业“下一件大事”？

　　“我们已经达到了数据峰值……AI预训练时代无疑将终结。” OpenAI联合创始人兼前首席科学家Ilya Sutskever前不久曾如此断言。

　　多位AI投资人、创始人和CEO们在接受采访时都表示，AI的Scaling Law定律的收益正在逐步衰减。

　　包括a16z合伙人Anjney Midha、微软CEO Satya Nadella在内，AI行业CEO、研究人员和投资人们，已经发出了新的判断：我们正处于一个新的Scaling Law时代——“测试时间计算时代”，即“推理时代”。这项能力让AI模型在回答问题之前，能有更多时间和算力来“思考”，“这特别有希望成为下一件大事” 。

　　▌AI应用崛起呼唤推理算力

　　为什么推理如此关键？

　　除了“旧版Scaling Law”效应衰减之外，还有一个原因就在于AI应用——英伟达竞争对手、AI芯片制造商Cerebras曾如此解释，“快速推理是解锁下一代AI应用的关键。从语音到视频，有了快速推理之后，以前无法实现的响应式智能应用程序将成为可能。”

　　以近期风头大盛的豆包为例，不久前豆包大家族全面更新，豆包大模型应用场景不断拓展，民生证券指出，这使得对推理算力的需求不断攀升，主要集中在硬件设备算力需求、数据中心规模扩张需求、通信网络需求三方面。

　　具体而言，豆包大模型将带来多少推理端的算力需求增量？分析师根据目前豆包的月活、日活以及日均token调用量为基础，做出保守、中性、乐观3种假设，预计豆包大模型或将带来759、1139、1898亿元的AI服务器资本开支需求。

　　随着AI应用显著带动算力建设，分析师指出，字节算力资本开支持续攀升。

　　另外，上周还有报道指出，小米正在着手搭建自己的GPU万卡集群，将对AI大模型大力投入。小米大模型团队在成立时已有6500张GPU资源。

　　当然，字节跳动与小米不是个例，海外科技巨头也正在大手笔加大资本开支。据摩根士丹利预估，海外四大科技巨头在2025年的资本开支可能高达3000亿美元，其中亚马逊964亿美元、微软899亿美元、Alphabet 626亿美元、Meta 523亿美元。

　　虽说目前暂时无法明确其中有多少资金将用于AI算力建设，但从这些巨头此前的种种表态与近年的资本方向可以想到，AI占比不会太低。

　　Bloomberg Intelligence最近的一篇报告显示，企业客户可能会在2025年进行更大规模的AI投资，而AI支出增长将更侧重于推理侧，以实现投资变现或提升生产力。

　　随着端侧AI放量，豆包、ChatGPT等AI应用快速发展，多家券商研报指出，算力需求会加速从预训练向推理侧倾斜，推理有望接力训练，成为下一阶段算力需求的主要驱动力。

　　a16z合伙人Anjney Midha表示，如果推理计算成为扩展AI模型性能的下一个领域，那么对专门用于高速推理的AI芯片的需求可能会大幅增加。如果找到答案与训练模型一样需要大量计算，那么AI领域“卖铲人”将再次获胜。

（文章来源：财联社）

(原标题：DeepSeek预示算力需求“打骨折”？业界：别只盯着训练 AI行业进入推理时代)

(责任编辑：6)

其他网友关注的新闻

理财助手 天天基金手机版，移动理财好助手

基金交易活期宝稳健理财指数宝自选基金基金净值投顾管家基金排行高端理财基金评级资讯基金吧

品牌基金公司 更多

网友点击排行

基金
财经
股票
基金吧

郑重声明：天天基金网发布此信息目的在于传播更多信息，与本网站立场无关。天天基金网不保证该信息（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资决策建议，据此操作，风险自担。数据来源：东方财富Choice数据。

将天天基金网设为上网首页吗？将天天基金网添加到收藏夹吗？

天天基金客服热线：95021 |客服邮箱：vip@1234567.com.cn|人工服务时间：工作日 7:30-21:30 双休日 9:00-21:30
郑重声明：天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考，使用前请核实，风险自负。
中国证监会上海监管局网址：www.csrc.gov.cn/pub/shanghai
CopyRight 上海天天基金销售有限公司 2011-现在沪ICP证：沪B2-20130026 网站备案号：沪ICP备11042629号-1

热门：

DeepSeek预示算力需求“打骨折”？业界：别只盯着训练 AI行业进入推理时代

天天基金网APP

手机上阅读文章

理财助手 天天基金手机版，移动理财好助手

品牌基金公司更多

网友点击排行

理财助手天天基金手机版，移动理财好助手