首页 > 正文

华为发布AI推理新技术 中国银联大模型效率提高125倍

2025年08月14日 07:06
来源: 21世纪经济报道
编辑:东方财富网

手机上阅读文章

  • 提示:
  • 微信扫一扫
  • 分享到您的
  • 朋友圈
摘要
【华为发布AI推理新技术 中国银联大模型效率提高125倍】8月12日,华为发布了AI推理创新技术UCM(推理记忆数据管理器,Unified Cache Manager)。现场,华为公司副总裁、数据存储产品线总裁周跃峰表示,UCM推理记忆数据管理器旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为联手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

  8月12日,华为发布了AI推理创新技术UCM(推理记忆数据管理器,Unified Cache Manager)。

  简单来说,这是专门面向大模型推理过程的“缓存管理技术”,目的是为了优化推理速度、效率和成本。

  具体来看,UCM是一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

  现场,华为公司副总裁、数据存储产品线总裁周跃峰表示,UCM推理记忆数据管理器旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为联手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

  UCM是什么

  什么是KV Cache?

  据了解,KV Cache是一种用于优化Transformer等模型推理速度的技术,它的核心思想就是把历史token的Key和Value(矩阵)缓存下来,下次生成时直接用,避免重新算,从而提升推理速度、降低计算成本。代价是会占用更多内存,所以它是一种“用内存换计算”的工程优化手段。

  换言之,KV Cache是一种存储机制,打个比方,就像是“模型推理过程中的记忆本”,用来临时保存计算中间结果,让后续步骤少做重复工作。

  那么为什么要推出UCM?因为推理过程中仍存在不少痛点。

  随着AI产业已从“追求模型能力的极限”转向“追求推理体验的最优化”,推理体验直接关联用户满意度、商业可行性等。推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。

  资料显示,国外主流模型的单用户输出速度已进入200Tokens/s区间(时延5ms),而我国普遍小于60 Tokens/s(时延50~100ms),因此,如何解决推理效率与用户体验的难题迫在眉睫。目前,包括华为在内,各大科技企业都会在调度KV Cache基础上,研发优化推理过程的技术。

  华为最新的UCM就引入融合了更多的算法工具,可以对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。

  比如,华为介绍道,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。

  据悉,在华为与中国银联的联合创新技术试点中,中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。

  为何率先在金融行业应用?金融业天然有数字化属性,也是数字化最早的领域之一,因此金融行业率先落地有数据基础和技术需求,尤其是生成式AI浪潮中,如何用好大模型服务业务是重要课题。同时金融对速度、效率、安全、可靠性等要求高,也是验证技术的标杆场景。

  未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从“实验室验证”走向“规模化应用”。

  华为的差异化路径

  谈及UCM的差异化,华为数据存储产品线AI存储首席架构师向21世纪经济报道记者表示,当前,业界在分级缓存管理方面已有许多探索与实践,华为UCM在这一领域的最大优势在于将专业存储能力引入其中,引入后在软硬件协同与卸载方面做了大量工作,例如直通加速、KV检索索引与底层文件系统元数据的融合等。同时,在KV Cache生命周期管理方面,UCM具备预热、分级、淘汰等一整套机制,这是UCM在N级缓存管理上的差异化能力之一。

  其次,上述专家提到,在算法加速库方面,业界现有方案普遍只停留在Prefix Cache这一层面,并未像华为一样,将稀疏全流程算法、后缀检索算法等投入商用,也缺乏多样化的技术手段。相比之下,UCM在这一层贡献了更多、更丰富、更可靠的算法,算法库还在不断扩展完善。

  此外,UCM的体系更加完整,专家谈道,推理场景多种多样,请求的输入输出变化极大,而目前业界缺乏一套在各种场景下都能普适的框架、加速机制与算法。UCM能够在各种长短序列、不同请求条件下,实现自动切换与自适应的平滑优化。

  “华为希望通过将部分成果开放,促进框架厂商、存储厂商以及算力厂商共同加速这一框架机制的成熟,最终解决当前AI行业落地过程中的效率与成本问题。”专家说道。

  今天,华为还正式公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区,和全产业共同推动AI推理生态的繁荣发展。

  整体而言,一方面是华为在AI推理技术层面持续进行研发,UCM也是结合华为存储技术的积累进行创新;另一方面,在AI的布局上,华为继续在产业链的各个环节进行升级,实现系统性的提升。

  业内人士指出,国外领先芯片厂商通过硬件迭代、软件优化、生态绑定构建了推理时代的“铁三角”,短期内难以被代替。中国单点硬件技术,如芯片设计上有所突破,但国产软件及生态适配还有差距,华为等科技厂商也在不断补上生态短板。

  正如华为专家所言:“大家一定要关注网络、存储、端到端的系统性、成本降低,才能有效的去加速AI的落地。从单点的算力模组转向系统性优化,这是大趋势。”

(文章来源:21世纪经济报道)

(原标题:华为发布AI推理新技术 中国银联大模型效率提高125倍)

(责任编辑:73)

 
 
 
 

网友点击排行

 
  • 基金
  • 财经
  • 股票
  • 基金吧
 
郑重声明:天天基金网发布此信息目的在于传播更多信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。

将天天基金网设为上网首页吗?      将天天基金网添加到收藏夹吗?

关于我们|资质证明|研究中心|联系我们|安全指引|免责条款|隐私条款|风险提示函|意见建议|在线客服|诚聘英才

天天基金客服热线:95021 |客服邮箱:vip@1234567.com.cn|人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30
郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考,使用前请核实,风险自负。
中国证监会上海监管局网址:www.csrc.gov.cn/pub/shanghai
CopyRight  上海天天基金销售有限公司  2011-现在  沪ICP证:沪B2-20130026  网站备案号:沪ICP备11042629号-1

A
安联基金安信基金
B
博道基金渤海汇金北京京管泰富基金百嘉基金贝莱德基金管理博时基金宝盈基金博远基金
C
长安基金长城基金长城证券财达证券淳厚基金创金合信基金长江证券(上海)资管长盛基金财通基金财通资管诚通证券长信基金财信基金财信证券
D
德邦基金德邦证券资管大成基金东财基金达诚基金东方阿尔法基金东方红资产管理东方基金东莞证券东海基金东海证券东吴基金东吴证券东兴基金东兴证券第一创业东证融汇证券资产管理
F
富安达基金蜂巢基金富达基金(中国)富国基金富荣基金方正富邦基金方正证券
G
光大保德信基金国都证券广发基金广发资产管理国海富兰克林基金国海证券国金基金国联安基金国联基金格林基金国联民生国联证券资产管理国融基金国寿安保基金国泰海通资管国泰基金国投瑞银基金国投证券国投证券资产管理国新国证基金国信资管国信证券国新证券股份工银瑞信基金国元证券
H
华安基金汇安基金华安证券华安证券资产管理汇百川基金华宝基金华宸未来基金华创证券泓德基金华富基金汇丰晋信基金海富通基金宏利基金汇泉基金华润元大基金华商基金惠升基金恒生前海基金华泰柏瑞基金华泰保兴基金红土创新基金汇添富基金红塔红土华泰证券(上海)资产管理华夏基金华西基金华鑫证券合煦智远基金华银基金恒越基金弘毅远方基金
J
嘉合基金金融街证券景顺长城基金嘉实基金九泰基金建信基金江信基金金信基金金鹰基金金元顺安基金交银施罗德基金