人民网成都7月30日电 (赵祖乐)近日,2025(第二届)产融合作大会在四川宜宾举行。会上,浪潮存储营销总监张业兴代表浪潮存储正式发布国内首款推理加速存储AS3000G7。
该产品凭借“以存代算”的技术创新,有效破解KV Cache重复计算带来的算力和时延损耗难题,为大模型推理场景提供突破性解决方案,加速推动大模型在金融、科研等领域的规模化落地。
作为国内首款推理加速存储产品,AS3000G7有四大核心优势,具体如下:
降低响应延迟。将历史Token缓存至AS3000G7存储层,下轮对话从NVMe SSD硬盘中拉取历史token的KV Cache,减少GPU重复计算带来的资源消耗,TTFT降低90%。
承载更多并发。TTFT在400ms以内的前提下,系统可支持的吞吐量(Token/s)可达原方案5倍,单位GPU资源可承载更多推理请求。
降低GPU功耗。TTFT的降低与并发的提升,单Token平均功耗下降60%,在承载同等规模token负载时,GPU服务器整机功耗降低。
生态兼容适配。广泛兼容国产与海外芯片的异构算力平台,深度适配vLLM框架下的deepseek等主流大模型,优化推理体验。
随着大模型推理需求的持续攀升,AS3000G7的推出恰逢其时。其通过“以存代算”的技术创新突破KV Cache重计算瓶颈,为AI规模化应用筑牢存储根基。未来,随着多模态与实时交互场景的普及以及存储与计算的协同优化,KV Cache“以存代算”将成为降本增效的核心竞争力,为智能时代的推理存储构建新基准。