在 Mac mini 上使用 Rapid-MLX 本地运行 Qwen 大模型

接触 OpenClaw 和 Hermes 有段时间了，总结一下——如果想把 agent 真正用起来，就需要给它越来越多的权限和个人数据。比如自己各种账号的密码，key，个人 email、calendar、联系人、笔记、文档等等。理论上讲，一个 agent 能掌控的数据越多，它能帮你做的事情就越多。

取决于你用的 model，有些情况下 agent 看过的东西跟直接泄露了其实区别不大。隐私还是很重要的！所以最近研究了一下本地运行大模型的方案。

之前 Google Gemma 4 出来的时候用 Ollama 试过，跑的是 4B 的小模型，更多是出于好奇体验一下本地模型到底发展到什么程度了。后来顺着 Ollama 往下研究发现，Ollama 其实更像是一层对 llama.cpp 的包装。真正干活的是下面的 llama.cpp，而 Ollama 做的是模型管理、下载、启动以及 OpenAI API 兼容这些事情。

为什么选择 Rapid-MLX？

研究了一圈之后，我最终选择的是 Rapid-MLX。

原因倒也不复杂。我平时都在用 Mac 生态，而且刚好手里有台 32G 内存的 Mac mini M4，那么直接选择 MLX 生态会更合理一些。

这里顺便说一下 Apple Silicon 为什么特别适合跑本地模型。

很多人第一反应是不是 Apple 的 GPU 很强，但实际上更重要的是 Unified Memory 架构。传统 PC 上，大模型主要受限于显存容量，而 Apple Silicon 上 CPU 和 GPU 共用同一块内存，所以 32GB 内存的机器实际上可以给模型分配二十多 GB 的可用空间。

这也是为什么很多看起来应该需要高端显卡才能运行的模型，在一台 Mac mini 上居然也能跑起来。

Rapid-MLX 的底层是建立在 MLX 之上的。MLX 可以理解成 Apple 专门为 Apple Silicon 设计的机器学习框架，定位有点类似 NVIDIA 生态里的 PyTorch + CUDA，只不过是针对 Apple 自家的硬件。

根据我查到的资料，同样的模型在 MLX 上的推理速度通常会比 Ollama 使用的 GGUF 方案更快一些，Rapid-MLX 号称比 Ollama 快 4.2 倍，如果它像 Shimmy 一样是用 Rust 实现的就更好了！

安装

最开始我是用 Homebrew 安装的，不过后来遇到了一些 Python 环境相关的问题就换成了用之前研究过的 uv 装了，这样也不会污染系统 Python 或 Homebrew 的 Python。

创建虚拟环境：

uv venv
source .venv/bin/activate

安装 Rapid-MLX：

uv pip install 'rapid-mlx[vision]'

这里不需要先安装 rapid-mlx 再安装 rapid-mlx[vision]，一步到位即可。

安装完成后可以验证一下：

python -c "import mlx_vlm; print('vision OK')"

如果能正常输出 vision OK，说明视觉模型相关组件已经安装成功。

列出可用模型：

rapid-mlx models

Rapid-MLX 自带模型索引，可以直接查看支持的模型。

我最开始还以为需要自己到 HuggingFace 找对应的 MLX 版本模型，结果发现常见模型基本都已经收录好了，体验比预想中方便不少。

Qwen

一直听说千问系列是目前本地部署领域口碑最好的模型之一，尤其是在中文场景下，所以就是它了。

启动命令：

rapid-mlx serve qwen3.5-9b

Rapid-MLX 会自动下载模型，这个 9B 版本的训练数据截止到 2026 年 1 月。实测在我的 Mac mini M4（32GB 内存）上，实际占用不到 10GB 内存，运行起来非常轻松。

后来根据 Rapid-MLX 回吐的模型列表查了一下各种命名的含义最后选了 qwen3.6-35b-ud。

启动命令：

rapid-mlx serve qwen3.6-35b-ud

这个模型的完整名称应该是 unsloth/Qwen3.6-35B-A3B-UD-MLX-4bit，它其实并不是传统意义上的 35B Dense Model。

这里包含几个有意思的知识点——首先 A3B 表示这是一个 MoE（Mixture of Experts）模型。35B 是总参数量，但每次推理真正激活的参数量大约只有 3B 左右，因此推理成本会远低于同规模的 Dense 模型。

其次 UD 代表 Unsloth Dynamic Quantization。相比传统量化方式，它会根据不同层的重要程度动态决定量化策略，在尽量减少精度损失的情况下进一步降低内存占用。

实际测试下来，内存占用量在 21GB 到 24GB 之间，对于 32GB 的机器来说刚刚好能撑住。

用 OpenCode 测试了一下写 Python code，速度肯定没法和 Claude 或 GPT 的云端服务相比。第一次对话尤其明显，经常需要等几秒钟才能开始输出，不过后续对话会明显变快。我猜测应该和 KV Cache 有关。因为前面上下文已经完成计算，后续推理可以直接复用缓存结果，所以响应时间会缩短不少。当然我只是根据现象做出的推测。

总体来说 qwen3.6-35b-ud 属于那种“明显不快，但是完全可用”的状态。处理一些日常任务，其实已经能够满足需求，尤其是考虑到隐私这一点。

升级也很简单：

uv pip install -U rapid-mlx

由于我们安装了支持视觉模型的 Rapid-MLX，所以也可以用有视觉能力的模型，比如 qwen3-vl-30b。

目前的结论

如果只是想体验一下本地大模型，那么 Ollama 依然是最简单、最成熟的选择。

但如果你的主要设备是 Apple Silicon，并且计划长期使用本地模型，我认为 Rapid-MLX 值得认真看看。

从我的试用体验来看，Qwen 3.6 35B-A3B 已经达到了“可以用于日常工作”的水平。虽然和 Claude、GPT 这些顶级云模型仍然有明显差距，但它最大的价值本来也不是能力，而是可以让数据留在自己的机器上。至少从这次折腾的结果来看，本地大模型已经远不是一个纯粹的玩具了。