LLM 推理显存与 GPU 需求计算器

用于粗估部署大语言模型时的显存占用、GPU 张数和单卡负载。支持 Dense / MoE、权重量化、KV 缓存精度、显存预留比例，以及主流 NVIDIA / AMD / Apple / 华为设备。

模型配置

预设模型

选择常见开源模型预设，或切换到自定义后手动输入参数规模。

总参数量 (B)

这里是模型总参数量，单位为十亿参数（B）。

模型结构

Dense 模型按全部参数参与计算；MoE 模型可单独指定激活参数量。

默认上下文长度

131072 tokens

当前预设给出的推荐起始上下文，可继续在下方手动调整。

激活参数量 (B)

优先使用这个值估算每 token 实际计算量。比单纯按专家比例更接近真实部署。

激活专家数

仅在未填写激活参数量时，才会按激活专家占比近似换算。

总专家数

用于估算激活参数比例，通常对应专家总数或专家组总规模。

权重加载策略加载全部专家权重

开启后按整模型权重估算显存；关闭时按激活参数近似，适合激进分片或按需加载场景。

R1 属于大规模推理模型，常见部署会将计算口径按约 37B 激活参数估算。

精度、上下文与部署策略

权重量化精度

只影响模型权重显存。激活与临时计算缓存仍按更保守的工程近似估算。

KV 缓存精度

影响长上下文和高并发场景下的 KV 缓存显存。越低精度，KV 占用越小。

平均上下文长度

可理解为系统提示词、历史对话和当前输入累计后的平均 token 数。

并发请求数

用于估算同时服务多个会话时的总 KV 和激活压力。

上下文快捷值

显存预留比例 10%

推荐预留 5% 到 15% 用于框架开销、运行时碎片和调度波动，避免按理论满卡计算。

GPU 配置

厂商

GPU 型号

当前每卡总显存 141 GB，可用显存约 126.90 GB。

部署张数

自动模式按可用显存估算最少张数；手动模式可模拟你已有的集群规模。

相比 H100，H200 的显存容量和带宽都更适合长上下文服务。

总显存需求741.04 GB权重 + KV 缓存 + 激活显存 + 计算缓存

建议 GPU 数量6 张按每卡可用显存 126.90 GB 估算

当前部署 GPU 数6 张自动跟随建议值

装载状态可装下剩余 20.36 GB

模型权重显存671.00 GB671.00B 参数按 FP8 估算

KV 缓存68.72 GB131072 tokens × 1 并发 × FP16

激活显存1.30 GB37.00B 激活参数参与计算

临时计算缓存0.02 GB用于算子工作区、调度和中间缓存的工程近似

单卡平均负载123.51 GB总显存需求按当前 6 张卡均摊

单卡显存占用率87.6%相对于总显存 141 GB

集群可用显存761.40 GB6 张 × 126.90 GB

MoE 计算口径37.00B优先使用手动激活参数 37.00B

场景模板

这些模板用于快速填充常见部署组合，方便对比大模型与不同 GPU 规格下的显存需求。

计算说明

1. 模型权重显存按“加载参数量 × 每参数字节数”估算。Dense 默认加载全部参数；MoE 可选择加载全部专家或按激活参数近似。

2. KV 缓存按“上下文长度 × 并发数 × 每 token KV 字节”估算，适合做部署容量规划，不代表某个特定框架的精确实现。

3. 激活显存和临时计算缓存采用工程近似，会受到张量并行、分片策略、PagedAttention、FlashAttention、编译器优化等因素影响。

4. 建议把结果当作部署前的保守容量预算，而不是替代真实压测。实际部署仍建议结合框架实测进行校准。

模型配置

精度、上下文与部署策略

GPU 配置

场景模板

计算说明

账户

收藏夹

在线状态

最近使用

移动访问

推荐工具

网站信息