LLM 推理显存与 GPU 需求计算器
用于粗估部署大语言模型时的显存占用、GPU 张数和单卡负载。支持 Dense / MoE、权重量化、KV 缓存精度、显存预留比例,以及主流 NVIDIA / AMD / Apple / 华为设备。
选择常见开源模型预设,或切换到自定义后手动输入参数规模。
这里是模型总参数量,单位为十亿参数(B)。
Dense 模型按全部参数参与计算;MoE 模型可单独指定激活参数量。
当前预设给出的推荐起始上下文,可继续在下方手动调整。
优先使用这个值估算每 token 实际计算量。比单纯按专家比例更接近真实部署。
仅在未填写激活参数量时,才会按激活专家占比近似换算。
用于估算激活参数比例,通常对应专家总数或专家组总规模。
开启后按整模型权重估算显存;关闭时按激活参数近似,适合激进分片或按需加载场景。
R1 属于大规模推理模型,常见部署会将计算口径按约 37B 激活参数估算。
只影响模型权重显存。激活与临时计算缓存仍按更保守的工程近似估算。
影响长上下文和高并发场景下的 KV 缓存显存。越低精度,KV 占用越小。
可理解为系统提示词、历史对话和当前输入累计后的平均 token 数。
用于估算同时服务多个会话时的总 KV 和激活压力。
推荐预留 5% 到 15% 用于框架开销、运行时碎片和调度波动,避免按理论满卡计算。
当前每卡总显存 141 GB,可用显存约 126.90 GB。
自动模式按可用显存估算最少张数;手动模式可模拟你已有的集群规模。
这些模板用于快速填充常见部署组合,方便对比大模型与不同 GPU 规格下的显存需求。
1. 模型权重显存按“加载参数量 × 每参数字节数”估算。Dense 默认加载全部参数;MoE 可选择加载全部专家或按激活参数近似。
2. KV 缓存按“上下文长度 × 并发数 × 每 token KV 字节”估算,适合做部署容量规划,不代表某个特定框架的精确实现。
3. 激活显存和临时计算缓存采用工程近似,会受到张量并行、分片策略、PagedAttention、FlashAttention、编译器优化等因素影响。
4. 建议把结果当作部署前的保守容量预算,而不是替代真实压测。实际部署仍建议结合框架实测进行校准。
还没有收藏的工具
缓存: hit 0 / miss 0
缓存: hit 0 / miss 0
暂无记录
189+
在线工具
10K+
月访问量
99.9%
可用性