LLM 推理显存与 GPU 需求计算器

用于粗估部署大语言模型时的显存占用、GPU 张数和单卡负载。支持 Dense / MoE、权重量化、KV 缓存精度、显存预留比例,以及主流 NVIDIA / AMD / Apple / 华为设备。

模型配置

选择常见开源模型预设,或切换到自定义后手动输入参数规模。

这里是模型总参数量,单位为十亿参数(B)。

Dense 模型按全部参数参与计算;MoE 模型可单独指定激活参数量。

131072 tokens

当前预设给出的推荐起始上下文,可继续在下方手动调整。

优先使用这个值估算每 token 实际计算量。比单纯按专家比例更接近真实部署。

仅在未填写激活参数量时,才会按激活专家占比近似换算。

用于估算激活参数比例,通常对应专家总数或专家组总规模。

开启后按整模型权重估算显存;关闭时按激活参数近似,适合激进分片或按需加载场景。

R1 属于大规模推理模型,常见部署会将计算口径按约 37B 激活参数估算。

精度、上下文与部署策略

只影响模型权重显存。激活与临时计算缓存仍按更保守的工程近似估算。

影响长上下文和高并发场景下的 KV 缓存显存。越低精度,KV 占用越小。

可理解为系统提示词、历史对话和当前输入累计后的平均 token 数。

用于估算同时服务多个会话时的总 KV 和激活压力。

推荐预留 5% 到 15% 用于框架开销、运行时碎片和调度波动,避免按理论满卡计算。

GPU 配置

当前每卡总显存 141 GB,可用显存约 126.90 GB。

自动模式按可用显存估算最少张数;手动模式可模拟你已有的集群规模。

相比 H100,H200 的显存容量和带宽都更适合长上下文服务。
总显存需求741.04 GB权重 + KV 缓存 + 激活显存 + 计算缓存
建议 GPU 数量6 张按每卡可用显存 126.90 GB 估算
当前部署 GPU 数6 张自动跟随建议值
装载状态可装下剩余 20.36 GB
模型权重显存671.00 GB671.00B 参数按 FP8 估算
KV 缓存68.72 GB131072 tokens × 1 并发 × FP16
激活显存1.30 GB37.00B 激活参数参与计算
临时计算缓存0.02 GB用于算子工作区、调度和中间缓存的工程近似
单卡平均负载123.51 GB总显存需求按当前 6 张卡均摊
单卡显存占用率87.6%相对于总显存 141 GB
集群可用显存761.40 GB6 张 × 126.90 GB
MoE 计算口径37.00B优先使用手动激活参数 37.00B

场景模板

这些模板用于快速填充常见部署组合,方便对比大模型与不同 GPU 规格下的显存需求。

计算说明

1. 模型权重显存按“加载参数量 × 每参数字节数”估算。Dense 默认加载全部参数;MoE 可选择加载全部专家或按激活参数近似。

2. KV 缓存按“上下文长度 × 并发数 × 每 token KV 字节”估算,适合做部署容量规划,不代表某个特定框架的精确实现。

3. 激活显存和临时计算缓存采用工程近似,会受到张量并行、分片策略、PagedAttention、FlashAttention、编译器优化等因素影响。

4. 建议把结果当作部署前的保守容量预算,而不是替代真实压测。实际部署仍建议结合框架实测进行校准。

账户

收藏夹

还没有收藏的工具

在线状态

后端服务离线
SatNOGS离线

缓存: hit 0 / miss 0

CelesTrak离线

缓存: hit 0 / miss 0

最近使用

暂无记录

网站信息

189+

在线工具

10K+

月访问量

99.9%

可用性