本地跑模型,现在是真可以了
本地跑模型,现在是真可以了
上周 HN 上 Vicki Boykis 的一篇《Running local models is good now》拿了一千多赞和五百多条评论。看了之后试了一下,结论和她差不多:本地模型不再是玩具了。
这篇文章讲讲 2026 年中这个时间点,本地跑模型的真实体验和踩坑记录。
为什么现在「可以了」
本地模型一直有个尴尬:你说它不能用吧,能跑;你说它能用吧,跑出来的东西不敢直接交差。每次都得拿着输出跟 GPT 对一遍,那还不如直接用 GPT。
这个局面在 GPT-OSS 发布之后开始松动。再到 Gemma 4 系列出来,本地模型的质量终于迈过了那条线——不是「能用」,是「够用」。
我自己定义的「够用」标准很简单:跑完一个任务,不需要再拿 API 模型复核一遍。Gemma-4-26B-A4B 在 LM Studio 上跑,大概能做到前沿模型 75% 的准确性,但在大多数日常开发场景里,75% 够了。
我主要用它做这几件事:
- 重构代码:把 Jupyter notebook 拆成 5-6 个模块的 Python 项目
- 修类型标注:给泛型加上正确的 type hints
- 写单元测试:覆盖率肯定不如人写的,但骨架是对的
- 根据自然语言描述 bootstrap 一个项目结构
最后一项最有意思。我让它从一个空白目录开始搭一个双塔推荐模型的 repo——它生成的代码很基础,但放在一年前,这是本地模型完全做不到的事。
硬件门槛
我用的是一台 2022 年的 M2 Mac,64GB 统一内存。这是目前跑本地模型的甜点配置——32GB 勉强够用,16GB 只能跑 7B 级别的量化模型。
具体到模型选择:
| 模型 | 参数量 | 内存需求 | 质量 | 速度 |
|---|---|---|---|---|
| Gemma-4-12B-QAT | 12B | ~16GB | ⭐⭐⭐⭐ | 快 |
| Gemma-4-26B-A4B | 26B/4B active | ~32GB | ⭐⭐⭐⭐⭐ | 中等 |
| Qwen 3 MoE | ~70B total | ~48GB+ | ⭐⭐⭐⭐ | 慢 |
| GPT-OSS-20B | 20B | ~24GB | ⭐⭐⭐⭐ | 较快 |
QAT(Quantization-Aware Training)是 Google 在 Gemma 4 上用的新路子——训练的时候就考虑了量化,所以跑 INT4 的精度损失比后训练量化小很多。Gemma-4-12B-QAT 用 16GB 就能跑出接近原版的水平,是目前性价比最高的选择。
实际搭建
我的方案是 Pi(agent 框架)+ LM Studio(推理引擎),全部跑在 Docker 里。
Docker 跑本地模型的好处:Agent 有文件系统和 bash 权限,但跑在容器里,不会动到宿主机的文件。即使 Agent 抽风执行了 rm -rf /,炸的也只是容器。
services:pi:build: .image: pi-agent:0.74.0init: truestdin_open: truetty: trueextra_hosts:- "host.docker.internal:host-gateway"environment:ANTHROPIC_API_KEY: ${ANTHROPIC_API_KEY:-}OPENAI_API_KEY: ${OPENAI_API_KEY:-not-needed}
Pi 的模型配置指向 LM Studio 的本地接口:
{"lmstudio": {"baseUrl": "http://host.docker.internal:1234/v1","api": "openai-completions","models": [{ "id": "google/gemma-4-12b-qat", "input": ["text", "image"] }]}
}
这套配置跑起来之后,大部分日常开发提问我都在本地完成了。只有需要最新上下文(比如某个刚发布的库的 API)的时候才会切到 API 模型。
为什么这很重要
本地模型的价值不只是省钱。
第一,数据安全。公司代码不需要经过外部 API。对于合规要求严的团队来说,这是刚需,不是可选项。
第二,延迟可控。API 模型再好,网络抖动一次就是几秒的等待。本地模型虽然单次推理慢一点,但零网络延迟,总耗时反而更短。
第三,迭代快。改 prompt、换模型、调参数,全部本地完成,不需要等 API 限频恢复。
当然也有缺点。最大问题是 KV cache 膨胀——跑 10 轮以上的 agentic 任务,内存占用能从 20GB 飙到 64GB。第二个是模型知识有截止日期,新库新框架的信息本地模型没有。
但整体来说,2026 年年中的本地模型生态已经到了「值得认真考虑」的程度。如果手头有一台 64GB 内存的 Mac 或者一张 RTX 4090,装个 LM Studio 下拉一个 Gemma 4 花不了半小时,值得试试。
参考:Vicki Boykis - Running local models is good now (HN 1394 pts) / Google Gemma 4 technical report