华为发布AI 推理创新技术UCM:可实现高吞吐、低时延推理体验,计划9 月开源
原文

2025-08-12 20:35
118
华为发布了AI推理创新技术UCM,该技术能够实现高吞吐、低时延的推理体验,并计划于2025年9月开源。UCM是一款以KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,降低每Token推理成本。该技术已在中国银联的多个业务场景中应用并取得成果。

全部评论