本地跑模型，现在是真可以了

2026/6/17 21:19:34

本地跑模型，现在是真可以了

上周 HN 上 Vicki Boykis 的一篇《Running local models is good now》拿了一千多赞和五百多条评论。看了之后试了一下，结论和她差不多：本地模型不再是玩具了。

这篇文章讲讲 2026 年中这个时间点，本地跑模型的真实体验和踩坑记录。

为什么现在「可以了」

本地模型一直有个尴尬：你说它不能用吧，能跑；你说它能用吧，跑出来的东西不敢直接交差。每次都得拿着输出跟 GPT 对一遍，那还不如直接用 GPT。

这个局面在 GPT-OSS 发布之后开始松动。再到 Gemma 4 系列出来，本地模型的质量终于迈过了那条线——不是「能用」，是「够用」。

我自己定义的「够用」标准很简单：跑完一个任务，不需要再拿 API 模型复核一遍。Gemma-4-26B-A4B 在 LM Studio 上跑，大概能做到前沿模型 75% 的准确性，但在大多数日常开发场景里，75% 够了。

我主要用它做这几件事：

重构代码：把 Jupyter notebook 拆成 5-6 个模块的 Python 项目
修类型标注：给泛型加上正确的 type hints
写单元测试：覆盖率肯定不如人写的，但骨架是对的
根据自然语言描述 bootstrap 一个项目结构

最后一项最有意思。我让它从一个空白目录开始搭一个双塔推荐模型的 repo——它生成的代码很基础，但放在一年前，这是本地模型完全做不到的事。

硬件门槛

我用的是一台 2022 年的 M2 Mac，64GB 统一内存。这是目前跑本地模型的甜点配置——32GB 勉强够用，16GB 只能跑 7B 级别的量化模型。

具体到模型选择：

模型	参数量	内存需求	质量	速度
Gemma-4-12B-QAT	12B	~16GB	⭐⭐⭐⭐	快
Gemma-4-26B-A4B	26B/4B active	~32GB	⭐⭐⭐⭐⭐	中等
Qwen 3 MoE	~70B total	~48GB+	⭐⭐⭐⭐	慢
GPT-OSS-20B	20B	~24GB	⭐⭐⭐⭐	较快

QAT（Quantization-Aware Training）是 Google 在 Gemma 4 上用的新路子——训练的时候就考虑了量化，所以跑 INT4 的精度损失比后训练量化小很多。Gemma-4-12B-QAT 用 16GB 就能跑出接近原版的水平，是目前性价比最高的选择。

实际搭建

我的方案是 Pi（agent 框架）+ LM Studio（推理引擎），全部跑在 Docker 里。

Docker 跑本地模型的好处：Agent 有文件系统和 bash 权限，但跑在容器里，不会动到宿主机的文件。即使 Agent 抽风执行了 rm -rf /，炸的也只是容器。

services:pi:build: .image: pi-agent:0.74.0init: truestdin_open: truetty: trueextra_hosts:- "host.docker.internal:host-gateway"environment:ANTHROPIC_API_KEY: ${ANTHROPIC_API_KEY:-}OPENAI_API_KEY: ${OPENAI_API_KEY:-not-needed}

Pi 的模型配置指向 LM Studio 的本地接口：

{"lmstudio": {"baseUrl": "http://host.docker.internal:1234/v1","api": "openai-completions","models": [{ "id": "google/gemma-4-12b-qat", "input": ["text", "image"] }]}
}

这套配置跑起来之后，大部分日常开发提问我都在本地完成了。只有需要最新上下文（比如某个刚发布的库的 API）的时候才会切到 API 模型。