本地跑大模型最少要什么显卡？

看模型大小和量化。7B 模型 INT4 量化只要 4-5GB 显存，RTX 3060 12GB / 4060 8GB 就能跑。想要 FP16 原始精度的 7B 要 16GB（RTX 4060 Ti 16GB / 4080）。32B INT4 要约 20GB（RTX 4090/5090 32GB）。70B INT4 要约 40GB，得 RTX 6000 Ada 48GB 或双卡。没独显也能用 llama.cpp 走 CPU + 内存，但慢。

Ollama 和 vLLM 有什么区别，该用哪个？

Ollama：一行命令装好跑起来，支持 CPU/GPU 混合、动态卸载，适合个人、单机、桌面、试验。vLLM：生产级高吞吐，支持 Chunked Prefill、Prefix Caching、多卡并行，要 CUDA 12.4+，适合做服务给多人用。个人本地玩选 Ollama，要做产品 API 选 vLLM。Mac 用户用 LM Studio 或 llama.cpp（Metal/MLX 加速）。

INT4、INT8、FP16 量化怎么选？

FP16 = 原始精度，每参数 2 字节，质量最好但显存最贵（7B 约 16GB）。INT8 显存减半（7B 约 8GB），质量损失很小。INT4（q4_k_m）显存降到约 1/4（7B 约 4-5GB），速度最快，质量损失个位数百分点，是个人部署的甜点。除非做严肃生产或评测，个人本地一律 INT4 起步。

2026 年本地跑哪个开源模型最好？

综合推理：DeepSeek-R1-Distill-Qwen-7B/32B（蒸馏版小而强）。中文 + 多语言：Qwen3 系列。通用 + 生态：Llama 4。Agent / 工具调用：GLM-4-9B。代码：Qwen3 Coder / DeepSeek Coder。独立开发者首选 DeepSeek-R1-Distill-Qwen-7B（4GB 显存能跑、推理质量接近云端中端模型）。

本地部署比用 API 便宜吗？

看用量。低频（每天几十次）：用 API 更便宜，不用买显卡。高频 + 长期 + 数据敏感：本地划算。一张 RTX 4090（约 ¥13000）+ 电费（满载约 0.4 度/小时），跑 DeepSeek 蒸馏 7B 每天几千次调用，半年到一年回本，之后边际成本接近电费。最大价值不是省钱，是数据不出本地 + 无限调用 + 离线可用。

Mac 能本地跑大模型吗？

能，而且 Apple Silicon 的统一内存是隐藏优势。M3/M4 Max 64-128GB 内存里大部分能当显存用，量化后能跑 70B。用 LM Studio（图形界面）或 llama.cpp（命令行，Metal 加速），新框架 MLX 是 Apple 原生优化，速度比通用方案快。128GB 的 M4 Max 跑量化 70B 体验接近一张专业卡，且静音省电。

深度指南 · 2026 年 5 月 18 日 · 作者 @zayuerweb-dev

本地部署开源大模型完全指南：显卡、显存、框架、模型怎么选

"我这张显卡能跑多大的模型""装 Ollama 还是 vLLM""DeepSeek 70B 是不是必须服务器"——群里每周都在问这几个。本地跑大模型在 2026 年早就不是发烧友专属：DeepSeek 把蒸馏小模型做到接近云端中端质量、量化技术让 7B 塞进 4GB 显存、Ollama 一行命令搞定。这篇用真实显存数字、框架取舍、显卡分档、电费账，把"我该怎么在自己机器上跑大模型"一次讲透。

30 秒结论

入门（8-16GB 显存）：RTX 4060 / 4060 Ti，跑 7B-14B INT4，DeepSeek-R1-Distill-Qwen-7B 是甜点。
主力（24-32GB）：RTX 4090 / 5090，跑 32B INT4 或 14B FP16，能干真活。
专业（48GB+）：RTX 6000 Ada / 双卡，跑 70B INT4。
Mac 用户：M3/M4 Max 64-128GB 统一内存 + MLX，量化跑 70B，静音省电。
没独显：llama.cpp + CPU + 大内存，能跑但慢，仅适合低频。
框架：个人玩 Ollama，做服务 vLLM，Mac 用 LM Studio / llama.cpp。
模型：综合 DeepSeek-R1 蒸馏、中文 Qwen3、Agent GLM-4-9B、代码 Qwen3 Coder。
纠结时：先 Ollama + DeepSeek-R1-Distill-Qwen-7B 跑起来再说，撑不住再升级硬件。

在 Check.AI 对比开源模型的参数和能力 →

什么时候该本地跑（什么时候别）

先泼冷水：大多数人不需要本地部署。DeepSeek API 每百万 token 几毛钱，低频用一年都花不了几十块，还不用买显卡、装环境、调框架。

本地真正值的三种情况：

数据不能出本地：医疗、法律、企业内部数据、个人隐私。这是最硬的理由，再贵也得本地。
高频海量调用：每天几万次以上，API 账单滚雪球，本地边际成本接近电费。
离线 / 弱网 / 自主可控：不依赖任何厂商，不怕涨价、限流、停服、审查。

反过来，如果你只是想"玩玩 AI"或者每天调几十次，别折腾本地，直接用 API。把买显卡的钱换成 API 额度能用好几年。

显存怎么算：量化是关键

本地部署第一道坎是显存。算法很简单：模型参数量 × 每参数字节数 + 30% 余量（激活值、KV cache）。每参数字节数由量化精度决定：

精度	每参数	质量	7B 显存	适合
FP16	2 字节	原始	~16GB	生产 / 评测
INT8	1 字节	损失极小	~8GB	质量敏感
INT4 (q4_k_m)	0.5 字节	损失个位数 %	~4-5GB	个人甜点

数据来源：llama.cpp GGUF 量化基准、知乎 LLM 推理实测（2026-02）、各模型 HuggingFace 卡。

各规模 INT4 显存速查

模型规模	INT4 显存	FP16 显存	最低显卡
7B	~5GB	~16GB	RTX 3060 12GB
13-14B	~9GB	~28GB	RTX 4060 Ti 16GB
32B	~20GB	~64GB	RTX 4090/5090 32GB
70B	~40GB	~140GB	RTX 6000 Ada 48GB / 双卡

记住一句：个人本地永远从 INT4 起步。质量损失通常感觉不出来，显存省 75%，速度还更快。要原始精度是生产和跑分才需要的事。

显卡分档：你的卡能跑多大

入门档（8-16GB）

RTX 3060 12GB / 4060 8GB / 4060 Ti 16GB。能舒服跑 7B-14B INT4。这一档足够个人助手、本地 RAG、代码补全。4060 Ti 16GB 是性价比之王——16GB 能塞 14B INT4 还有余量。

主力档（24-32GB）

RTX 4090 24GB / 5090 32GB。32B INT4 跑得动，或者 14B FP16 要质量。这一档能干真活：本地 agent、批量处理、严肃推理。两张 RTX 5060 Ti 16G（共 32G）走 vLLM 也能跑 32B AWQ，是预算方案。

专业档（48GB+）

RTX 6000 Ada 48GB，或双 RTX 4090/5090 NVLink 显存池化。70B INT4 的门槛。再往上 70B FP16 要双 80GB（A100/H100），那是机房不是桌面了，个人基本不碰。

没独显 / 核显

llama.cpp 走 CPU + 系统内存。32GB 内存能跑 7B INT4，但速度可能每秒几个 token（GPU 是几十上百）。仅适合极低频、不在乎等待的场景。别指望用它做实时对话。

框架怎么选：Ollama / vLLM / llama.cpp / LM Studio

Ollama — 个人首选

一行命令 ollama run deepseek-r1:7b 就跑起来。0.5+ 版本支持 CPU/GPU 混合推理、动态模型卸载。模型库现成，切换方便。个人、单机、桌面、试验，闭眼选 Ollama。缺点是高并发吞吐不如 vLLM。

vLLM — 生产服务

要把模型做成 API 给多人/多请求用，vLLM 是标准答案。v0.7+ 的 Chunked Prefill + Prefix Caching 对显存碎片管理高效，吞吐远超 Ollama。要 CUDA 12.4+，多卡并行原生支持。做产品后端选 vLLM。配置比 Ollama 复杂一档。

llama.cpp — 最通用

C++ 写的，几乎在哪都能跑：CPU、Mac Metal、各种边缘设备。GGUF 量化格式的发源地。没 N 卡、要极致可移植、Mac 命令行用户首选。性能调优空间大但要折腾。

LM Studio — 图形界面新手友好

带 GUI，点点鼠标下载模型就能聊，Mac（含 MLX 加速）/ Windows 都好用。完全不想碰命令行的人用这个起步。功能不如前三个深，但门槛最低。

一句话路线：新手 LM Studio 摸一摸 → 上手了换 Ollama 当日常 → 要做产品上 vLLM → Mac 重度用户直接 llama.cpp / MLX。

2026 年本地跑哪些模型

综合推理之王：DeepSeek-R1-Distill-Qwen-7B / 32B。蒸馏版小而强，7B 推理质量接近云端中端，4-5GB 显存能跑。独立开发者第一个装的就该是它。
中文 + 多语言：Qwen3 系列（7B/14B/32B）。中文母语训练，古文、政策文本、东南亚语种强，本地中文场景首选。
通用 + 生态：Llama 4 系列。社区最大，工具链最全，二次微调资料最多。
Agent / 工具调用：GLM-4-9B。结构化输出和 function calling 在小模型里最稳，本地做 agent 选它。
代码：Qwen3 Coder / DeepSeek Coder。本地代码补全、Cline/Aider 接本地模型时用这俩。

选型逻辑和云端一样：没有全能王，按场景配。个人最稳的起步组合是 DeepSeek-R1-Distill-Qwen-7B（推理）+ Qwen3-7B（中文），两个加起来 10GB 显存搞定 90% 需求。

Apple Silicon：被低估的方案

很多人不知道：Mac 的统一内存（Unified Memory）是本地大模型的隐藏优势。普通 PC 显存和内存分开，显卡 16GB 就是 16GB；Apple Silicon 的内存 CPU/GPU 共享，M4 Max 128GB 里能拿出 100GB+ 当"显存"用。

M3/M4 Max 64GB：量化跑 32B 流畅，70B 勉强
M4 Max 128GB：量化 70B 体验接近一张专业卡，还静音、省电、不用配机箱

用 LM Studio（图形界面，内置 MLX）或 llama.cpp（Metal 加速）。MLX 是 Apple 自家的 ML 框架，针对统一内存做了原生优化，比通用方案快一档。

结论：如果你已经有一台高内存 Mac，别再去研究买 N 卡——你手上这台可能已经够用，而且体验更安静。

真实成本：本地 vs API

拿一个具体场景算账：每天 5000 次调用，每次输入 800 token、输出 200 token，跑 7B 级模型。

方案	前期投入	月成本	回本周期
DeepSeek API（云端）	¥0	~¥150-300	无（一直付）
本地 RTX 4090	~¥13,000	~¥80 电费	约 8-14 个月
本地 Mac M4 Max（已有）	¥0（复用）	~¥30 电费	立即

电费按满载 0.4 度/小时、每天 8 小时、¥0.6/度估算。前期投入按 2026 年 5 月国内零售价。

说人话：低频用 API，别买卡。高频 + 长期才本地划算，而且回本要 8-14 个月——这期间你得真的天天高频用。本地真正不可替代的不是省钱，是"数据不出本地 + 调用无上限 + 离线可用 + 不被任何厂商卡脖子"。为这四个买单的人，才该本地部署。

FAQ

最少要什么显卡？7B INT4 只要 4-5GB，RTX 3060 就行。没独显可 llama.cpp 走 CPU，但慢。

Ollama 还是 vLLM？个人玩 Ollama（一行命令），做服务 vLLM（高吞吐）。Mac 用 LM Studio / llama.cpp。

量化怎么选？个人一律 INT4 起步，显存省 75%，质量损失个位数 %。

跑哪个模型？综合 DeepSeek-R1 蒸馏、中文 Qwen3、Agent GLM-4-9B、代码 Qwen3 Coder。

比 API 便宜吗？低频不便宜，高频+长期才回本（8-14 个月）。核心价值是数据隐私 + 无限调用。

Mac 能跑吗？能，统一内存是优势。M4 Max 128GB 量化跑 70B，用 MLX。

→ 在 Check.AI 对比所有开源模型的参数、上下文和能力