用本地模型免费跑 Hermes Agent——从 Ollama 到 Kanban 的完整实操

本文基于 Julian Goldie 的视频教程结合 Hermes Agent 官方文档整理视频链接：How to Run Hermes Agent FREE Forever!（2026-06-18，13:10）项目地址：github.com/NousResearch/hermes-agent

背景

Hermes Agent 是一个开源 AI Agent 框架，由 Nous Research 维护。它和 Claude Code、OpenAI Codex、OpenClaw 属于同一类工具——通过工具调用（tool calling）在终端中自主完成编程和任务执行。

但大多数人跑 Hermes 用的是云端模型（Claude、GPT、DeepSeek），每跑一个命令就消耗一次 token，长期下来成本不低。而且数据要经过第三方服务器，离线时就完全用不了。

Julian Goldie 的教程展示了一条不同的路：用本地模型 + Ollama 跑 Hermes Agent，实现免费、私有、离线的 Agent 团队协作。

架构概览

用户输入一个目标
       ↓
Hermes Agent 拆解为步骤
       ↓
   ┌─────────────────────┐
   │  Agent Kanban 看板   │ ← 团队协作视图
   │  [规划] [执行] [验证] │
   └─────────────────────┘
       ↓
Ollama / LM Studio / Nvidia 本地推理引擎
       ↓
Llama 3.1 8B / GPT-OSS 等本地模型
       ↓
  工具调用（命令执行、文件读写、代码生成）
       ↓
  自验证（确认文件真的存在，不存在的重新跑）
       ↓
   成品输出到 Workspace

Agent 的循环不是”问答”而是”执行”：

规划一步 → 运行工具 → 检查结果 → 规划下一步 → ...

它不会用文字回答”我已经做了”，它会真正去执行命令、创建文件、验证磁盘，确认成品落地后才汇报完成。

第一步：安装 Hermes Agent

如果还没装过，一行命令搞定：

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

装完后用 hermes doctor 检查依赖是否齐全：

hermes doctor

第二步：安装 Ollama 并下载本地模型

Ollama 是目前跑本地模型最省事的方案，支持 macOS、Linux、Windows。

安装 Ollama

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.ai/install.sh | sh

# Windows → 从 https://ollama.ai/download 下载安装包

下载推荐模型

根据 Julian 的实测，能在 Agent 场景下真正使用工具（而非假装用了工具）的本地模型并不多。他推荐两个：

# 方案一：Llama 3.1 8B（推荐，仅 5GB）
ollama pull llama3.1:8b

# 方案二：GPT-OSS
ollama pull gpt-oss

为什么是这两个？大部分本地模型要么太慢，要么在工具调用上”装模作样”——模型说”我已经调用了工具”但实际没调。Llama 3.1 8B 和 GPT-OSS 是 Julian 测试下来在 Mac Studio 上表现稳定的。

模型选择策略：

你的硬件	推荐模型	大小
Mac（大多数）	Llama 3.1 8B	~5GB
有 GPU（RTX 5090 等）	更大的 Qwen/Gemma 变体	按需
轻量快速	GPT-OSS	~4GB

确保 Ollama 在后台运行：

# 测试模型是否可用
ollama run llama3.1:8b "hello"
# Ctrl+D 退出

第三步：配置 Hermes Profile 指向本地模型

Hermes 支持通过 Profile 实现多配置隔离。为本地模型创建一个专用 Profile：

# 创建本地 Agent Profile
hermes profile create local-agent

# 切换到该 Profile
hermes profile use local-agent

然后在交互式配置中选择 Ollama 作为 provider：

hermes model

在模型选择器中选择 Ollama 作为 provider，然后输入你的本地模型名称（如 llama3.1:8b）。

也可以直接修改 ~/.hermes/profiles/local-agent/config.yaml：

model:
  default: llama3.1:8b
  provider: ollama
  base_url: http://localhost:11434

验证配置是否生效：

hermes chat -q "Hello, what model are you running?"

第四步：启动本地 Agent

配置完成后，就可以用本地模型跑 Hermes 了：

# 使用本地 Profile 启动
hermes --profile local-agent

你也可以在同一个会话中快速切换模型：

/model llama3.1:8b

关键对比：在 Hermes 中，你可以同时配置云端和本地 Profile。云端 Profile 处理重活，本地 Profile 处理轻活（跑命令、文件操作、快速代码生成）。两者可以在 Agent OS 仪表板中并存。

第五步：Agent Kanban —— 多 Agent 团队协作

这是教程中最具实操价值的部分——一个团队本地的离线 Agent 在实时看板上协作。

Kanban 看板的工作流程：

在看板中输入一个目标（如 “Build an SEO blog about Open Core”）
系统自动拆解为多个任务卡片
多个 Agent 并行认领任务
每个 Agent 独立执行：规划 → 运行工具 → 检查 → 下一步
完成的任务自动移入 “Done” 列
所有产物进入 Workspace 可查看

看板列状态流转：

待办（Backlog）→ 进行中（In Progress）→ 验证中（Review）→ 已完成（Done）

每个任务的完整链路可追溯：从目标输入 → 拆解步骤 → 工具调用 → 文件创建 → 验证结果，全都可以在 Workspace 中回看。

架构关键：为什么 Local Agent 和 Chatbot 不同

Julian 在视频中强调了一个核心区别：

	普通 Chatbot	Hermes Agent
输入	问题/指令	目标（Goal）
输出	文本回答	成品（Finished Job）
工作方式	生成文字	执行工具 → 验证结果
是否检查	不检查	自验证（文件真的存在吗？）
是否重试	不重试	没落地就重新跑

自验证机制是关键：Agent 说”已构建”之后，引擎会检查文件是否真的落盘。如果构建没有落地，引擎会告知并重新运行。这是本地模型经常遇到的问题——模型”幻觉”地声称已经做了某事，但实际上没有。

来自视频的原话：

“本地模型有时会说它们已经构建好了，但实际上没有。这个系统会检查——Agent 说它建了，然后引擎确认文件真的存在。如果不存在，就什么也不会落地到 Workspace。”

本地模型的能力边界

Julian 在视频中非常坦诚地讨论了本地模型的局限：

适合做的：

✅ 运行命令
✅ 文件操作（读/写/搜索）
✅ 快速代码生成
✅ 小型构建任务
✅ 自动化脚本

不适合做的：

❌ 超大型复杂构建
❌ 需要前沿推理能力的任务

推荐策略——分层梯队：

本地模型 = 快速助手（Fast Helper）
  负责：跑命令、文件操作、轻量代码
  成本：免费
  速度：快

云端前沿模型 = 主力工程师（Frontier Model）
  负责：复杂推理、大型架构、关键决策
  成本：按 token 付费
  速度：较慢但精度高

Julian 的建议是：“把重活交给前沿模型，轻活交给本地子 Agent。” 在 Agent OS 中，云端 Agent 和本地 Agent 可以在同一个仪表板中协同工作。

引擎	适用场景	配置方式
Ollama	最常见，一键安装	`provider: ollama`
LM Studio	GUI 操作，模型管理直观	`provider: lm-studio`
Nvidia	有 NVIDIA GPU 时性能最优	`provider: nvidia`

实操 Checklist

如果你是第一次尝试，按这个清单走一遍：

[ ] 安装 Hermes Agent
[ ] 安装 Ollama
[ ] ollama pull llama3.1:8b（约 5GB 下载）
[ ] hermes profile create local
[ ] hermes model → 选择 Ollama + llama3.1:8b
[ ] hermes --profile local 测试聊天
[ ] 建立第一个 Kanban 看板
[ ] 输入一个简单目标（如 "创建一个 index.html"）
[ ] 观察 Agent 的 规划→执行→验证 循环
[ ] 检查 Workspace 确认产物落地

常见问题

Q: 本地模型会不会很慢？ A: 取决于模型大小和硬件。Llama 3.1 8B 在大多数 Mac 上够快。关键是要选适合你硬件的模型——模型太大反而更慢。

Q: 我的本地模型说调用了工具但实际没调，怎么办？ A: 这是本地模型的常见问题。Hermes 的自验证机制能检测到这种情况——如果文件没落盘，引擎会说”什么都没建”并重新运行。选择工具调用能力强的模型（Llama 3.1 8B 和 GPT-OSS 经过验证）可以减少这个问题。

Q: 可以同时跑本地和云端模型吗？ A: 可以。在 Hermes Agent OS 中，本地 Agent 和云端 Agent 可以同时运行，同一个仪表板管理。轻活交给本地模型，复杂推理交给云端。

Q: 需要多大磁盘空间？ A: Llama 3.1 8B 约 5GB，Hermes Agent 本身很小。总共预留 10GB 足够。

参考来源：

How to Run Hermes Agent FREE Forever! — Julian Goldie，2026-06-18
Hermes Agent 官方仓库 — Nous Research
Hermes Agent 官方文档
Ollama — 本地 LLM 运行工具

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/sec/hermes-local-model-free.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）