深度指南 · 2026 年 5 月 18 日 · 作者 @zayuerweb-dev
本地部署开源大模型完全指南:显卡、显存、框架、模型怎么选
"我这张显卡能跑多大的模型""装 Ollama 还是 vLLM""DeepSeek 70B 是不是必须服务器"——群里每周都在问这几个。本地跑大模型在 2026 年早就不是发烧友专属:DeepSeek 把蒸馏小模型做到接近云端中端质量、量化技术让 7B 塞进 4GB 显存、Ollama 一行命令搞定。这篇用真实显存数字、框架取舍、显卡分档、电费账,把"我该怎么在自己机器上跑大模型"一次讲透。
30 秒结论
- 入门(8-16GB 显存):RTX 4060 / 4060 Ti,跑 7B-14B INT4,DeepSeek-R1-Distill-Qwen-7B 是甜点。
- 主力(24-32GB):RTX 4090 / 5090,跑 32B INT4 或 14B FP16,能干真活。
- 专业(48GB+):RTX 6000 Ada / 双卡,跑 70B INT4。
- Mac 用户:M3/M4 Max 64-128GB 统一内存 + MLX,量化跑 70B,静音省电。
- 没独显:llama.cpp + CPU + 大内存,能跑但慢,仅适合低频。
- 框架:个人玩 Ollama,做服务 vLLM,Mac 用 LM Studio / llama.cpp。
- 模型:综合 DeepSeek-R1 蒸馏、中文 Qwen3、Agent GLM-4-9B、代码 Qwen3 Coder。
- 纠结时:先 Ollama + DeepSeek-R1-Distill-Qwen-7B 跑起来再说,撑不住再升级硬件。
什么时候该本地跑(什么时候别)
先泼冷水:大多数人不需要本地部署。DeepSeek API 每百万 token 几毛钱,低频用一年都花不了几十块,还不用买显卡、装环境、调框架。
本地真正值的三种情况:
- 数据不能出本地:医疗、法律、企业内部数据、个人隐私。这是最硬的理由,再贵也得本地。
- 高频海量调用:每天几万次以上,API 账单滚雪球,本地边际成本接近电费。
- 离线 / 弱网 / 自主可控:不依赖任何厂商,不怕涨价、限流、停服、审查。
反过来,如果你只是想"玩玩 AI"或者每天调几十次,别折腾本地,直接用 API。把买显卡的钱换成 API 额度能用好几年。
显存怎么算:量化是关键
本地部署第一道坎是显存。算法很简单:模型参数量 × 每参数字节数 + 30% 余量(激活值、KV cache)。每参数字节数由量化精度决定:
| 精度 | 每参数 | 质量 | 7B 显存 | 适合 |
|---|---|---|---|---|
| FP16 | 2 字节 | 原始 | ~16GB | 生产 / 评测 |
| INT8 | 1 字节 | 损失极小 | ~8GB | 质量敏感 |
| INT4 (q4_k_m) | 0.5 字节 | 损失个位数 % | ~4-5GB | 个人甜点 |
数据来源:llama.cpp GGUF 量化基准、知乎 LLM 推理实测(2026-02)、各模型 HuggingFace 卡。
各规模 INT4 显存速查
| 模型规模 | INT4 显存 | FP16 显存 | 最低显卡 |
|---|---|---|---|
| 7B | ~5GB | ~16GB | RTX 3060 12GB |
| 13-14B | ~9GB | ~28GB | RTX 4060 Ti 16GB |
| 32B | ~20GB | ~64GB | RTX 4090/5090 32GB |
| 70B | ~40GB | ~140GB | RTX 6000 Ada 48GB / 双卡 |
记住一句:个人本地永远从 INT4 起步。质量损失通常感觉不出来,显存省 75%,速度还更快。要原始精度是生产和跑分才需要的事。
显卡分档:你的卡能跑多大
入门档(8-16GB)
RTX 3060 12GB / 4060 8GB / 4060 Ti 16GB。能舒服跑 7B-14B INT4。这一档足够个人助手、本地 RAG、代码补全。4060 Ti 16GB 是性价比之王——16GB 能塞 14B INT4 还有余量。
主力档(24-32GB)
RTX 4090 24GB / 5090 32GB。32B INT4 跑得动,或者 14B FP16 要质量。这一档能干真活:本地 agent、批量处理、严肃推理。两张 RTX 5060 Ti 16G(共 32G)走 vLLM 也能跑 32B AWQ,是预算方案。
专业档(48GB+)
RTX 6000 Ada 48GB,或双 RTX 4090/5090 NVLink 显存池化。70B INT4 的门槛。再往上 70B FP16 要双 80GB(A100/H100),那是机房不是桌面了,个人基本不碰。
没独显 / 核显
llama.cpp 走 CPU + 系统内存。32GB 内存能跑 7B INT4,但速度可能每秒几个 token(GPU 是几十上百)。仅适合极低频、不在乎等待的场景。别指望用它做实时对话。
框架怎么选:Ollama / vLLM / llama.cpp / LM Studio
Ollama — 个人首选
一行命令 ollama run deepseek-r1:7b 就跑起来。0.5+ 版本支持 CPU/GPU 混合推理、动态模型卸载。模型库现成,切换方便。个人、单机、桌面、试验,闭眼选 Ollama。缺点是高并发吞吐不如 vLLM。
vLLM — 生产服务
要把模型做成 API 给多人/多请求用,vLLM 是标准答案。v0.7+ 的 Chunked Prefill + Prefix Caching 对显存碎片管理高效,吞吐远超 Ollama。要 CUDA 12.4+,多卡并行原生支持。做产品后端选 vLLM。配置比 Ollama 复杂一档。
llama.cpp — 最通用
C++ 写的,几乎在哪都能跑:CPU、Mac Metal、各种边缘设备。GGUF 量化格式的发源地。没 N 卡、要极致可移植、Mac 命令行用户首选。性能调优空间大但要折腾。
LM Studio — 图形界面新手友好
带 GUI,点点鼠标下载模型就能聊,Mac(含 MLX 加速)/ Windows 都好用。完全不想碰命令行的人用这个起步。功能不如前三个深,但门槛最低。
一句话路线:新手 LM Studio 摸一摸 → 上手了换 Ollama 当日常 → 要做产品上 vLLM → Mac 重度用户直接 llama.cpp / MLX。
2026 年本地跑哪些模型
- 综合推理之王:DeepSeek-R1-Distill-Qwen-7B / 32B。蒸馏版小而强,7B 推理质量接近云端中端,4-5GB 显存能跑。独立开发者第一个装的就该是它。
- 中文 + 多语言:Qwen3 系列(7B/14B/32B)。中文母语训练,古文、政策文本、东南亚语种强,本地中文场景首选。
- 通用 + 生态:Llama 4 系列。社区最大,工具链最全,二次微调资料最多。
- Agent / 工具调用:GLM-4-9B。结构化输出和 function calling 在小模型里最稳,本地做 agent 选它。
- 代码:Qwen3 Coder / DeepSeek Coder。本地代码补全、Cline/Aider 接本地模型时用这俩。
选型逻辑和云端一样:没有全能王,按场景配。个人最稳的起步组合是 DeepSeek-R1-Distill-Qwen-7B(推理)+ Qwen3-7B(中文),两个加起来 10GB 显存搞定 90% 需求。
Apple Silicon:被低估的方案
很多人不知道:Mac 的统一内存(Unified Memory)是本地大模型的隐藏优势。普通 PC 显存和内存分开,显卡 16GB 就是 16GB;Apple Silicon 的内存 CPU/GPU 共享,M4 Max 128GB 里能拿出 100GB+ 当"显存"用。
- M3/M4 Max 64GB:量化跑 32B 流畅,70B 勉强
- M4 Max 128GB:量化 70B 体验接近一张专业卡,还静音、省电、不用配机箱
用 LM Studio(图形界面,内置 MLX)或 llama.cpp(Metal 加速)。MLX 是 Apple 自家的 ML 框架,针对统一内存做了原生优化,比通用方案快一档。
结论:如果你已经有一台高内存 Mac,别再去研究买 N 卡——你手上这台可能已经够用,而且体验更安静。
真实成本:本地 vs API
拿一个具体场景算账:每天 5000 次调用,每次输入 800 token、输出 200 token,跑 7B 级模型。
| 方案 | 前期投入 | 月成本 | 回本周期 |
|---|---|---|---|
| DeepSeek API(云端) | ¥0 | ~¥150-300 | 无(一直付) |
| 本地 RTX 4090 | ~¥13,000 | ~¥80 电费 | 约 8-14 个月 |
| 本地 Mac M4 Max(已有) | ¥0(复用) | ~¥30 电费 | 立即 |
电费按满载 0.4 度/小时、每天 8 小时、¥0.6/度估算。前期投入按 2026 年 5 月国内零售价。
说人话:低频用 API,别买卡。高频 + 长期才本地划算,而且回本要 8-14 个月——这期间你得真的天天高频用。本地真正不可替代的不是省钱,是"数据不出本地 + 调用无上限 + 离线可用 + 不被任何厂商卡脖子"。为这四个买单的人,才该本地部署。
相关阅读
FAQ
最少要什么显卡?7B INT4 只要 4-5GB,RTX 3060 就行。没独显可 llama.cpp 走 CPU,但慢。
Ollama 还是 vLLM?个人玩 Ollama(一行命令),做服务 vLLM(高吞吐)。Mac 用 LM Studio / llama.cpp。
量化怎么选?个人一律 INT4 起步,显存省 75%,质量损失个位数 %。
跑哪个模型?综合 DeepSeek-R1 蒸馏、中文 Qwen3、Agent GLM-4-9B、代码 Qwen3 Coder。
比 API 便宜吗?低频不便宜,高频+长期才回本(8-14 个月)。核心价值是数据隐私 + 无限调用。
Mac 能跑吗?能,统一内存是优势。M4 Max 128GB 量化跑 70B,用 MLX。