来自AI中国网 https://www.cnaiplus.com
导读:图源:视觉中国文丨雅萱编辑丨叶锦言出品丨深网腾讯新闻小满工作室2025年普遍被业界视为AI应用的落地元年,当人工智能领域的竞争焦点从模型能力转向场景应用落地时,推理技术作为连接模型与最终应用的关键环节,直接决定了AI应用的体验与效能。中信建投在2025WAIC期间发布的白皮书指出,AI正从训练向推理的结构性转变而快速增长(如国内某头部互联网公司每三个月Token消耗接近 ......
图源:视觉中国
文丨雅萱
编辑丨叶锦言
出品丨深网科技新闻小满工作室
2025年普遍被业界视为AI应用的落地元年,当人工智能领域的竞争焦点从模型能力转向场景应用落地时,推理技术作为连接模型与最终应用的关键环节,直接决定了AI应用的体验与效能。
中信建投在2025WAIC期间发布的白皮书指出,AI正从训练向推理的结构性转变而快速增长(如国内某头部互联网公司每三个月Token消耗接近翻一倍,5月底为16.4万亿Token)。在这样的大背景下,AI推理体验的重要性愈发凸显。
推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200Tokens/s区间(时延 5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
8月12日,华为数据存储产品线总裁周跃峰博士在2025金融AI推理应用落地与发展论坛上发布了AI推理创新技术UCM(推理记忆数据管理器)。
“这项技术以优化KV Cache管理为中心,融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。”周跃峰说。
过去提升AI推理性能主要依赖增加昂贵的高带宽内存(HBM)和服务器内存(DRAM),UCM进一步引入专业的外置存储作为第三级记忆,形成三级存储架构。
“实时、高频访问的极热数据存储于HBM,短期/较热数据存储在服务器DRAM中,其他数据存储于专业外置存储,最大化利用不同存储介质的优势,从而提升整个AI推理系统的效率和性能。”周跃峰说。
据华为官方信息显示,UCM开源计划将于今年9月在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。
对于华为UCM架构的推出,中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示,“由于HBM价格昂贵,主流大模型和AI芯片大厂为突破显存瓶颈,开始采用外置存储解决长序列推理问题已成为业界共识,其中KVCache成为推理架构优化的关键。”
除华为UCM架构外,英伟达也于今年3月推出了用于扩展推理AI模型的低延迟分布式推理框架NVIDIA Dynamo,包含NVIDIA Dynamo 分布式 KV 缓存管理器。
作为 AI 芯片的 “算力粮仓”,近两年,高带宽存储器(HBM)的价格和市场都呈现爆发式增长。
数据显示,HBM价格比标准的DRAM要贵得多,大约是DDR5的5倍;而据分析机构 Yole 数据,2023 年 HBM出货量同比激增 187%,2024 年增幅进一步扩大至 193%,增速远超整体 DRAM 市场。
来自AI中国网 https://www.cnaiplus.com
本文网址: