OpenCLI 学习 03:Agent 边界与设计张力

1. Agent 和 harness 的边界

这是我在理解过程中非常关键的一点。

当前我的理解:

  • Agent 负责“决定做什么”
  • Harness 负责“把事情做成可调用能力”

也就是说:

  • Agent 更像策略层、决策层、编排层
  • Harness 更像能力层、执行层、适配层

Harness 本身不是 Agent,它更像是 Agent 可调用的工具系统。

2. 这个项目的反馈机制属于哪一类

我之前会自然想到“自我反思型”的 harness:

  • 会自动评估自己做得好不好
  • 会自动调整策略
  • 会自动重规划

但这个项目里的 harness 并不强内建这种运行时自我反思。

它更强的是:

  • 可观察:infoliststatushistory
  • 可验证:真实输出检查、E2E 测试、validate
  • 可增量改进:refine

所以这里更像是“工程化反馈闭环”,而不是“自主智能反思闭环”。

3. 我对 checkpoint 的当前理解

这个项目里没有特别统一、显式的 checkpoint 系统。

但从 Agent 使用视角看,checkpoint 实际上分散在这些地方:

  • 任务前:Skill 告诉 Agent 这个 harness 适合什么任务
  • 任务中:info/list/status/json 告诉 Agent 当前状态是什么
  • 任务后:输出文件验证、测试、validate 告诉 Agent 结果靠不靠谱

所以 checkpoint 不是单独模块,而是由“多个可观察节点”共同实现的。

4. 这个项目背后的设计张力

我觉得这个项目最有意思的地方,是在平衡“模糊性”和“确定性”。

如果完全交给 Agent:

  • 灵活
  • 泛化强
  • 但过程模糊,不稳定

如果完全写死流程:

  • 稳定
  • 可控
  • 但会很死板

这个项目选择的是中间路线:

  • 把底层操作标准化、确定化
  • 把高层任务策略留给 Agent

5. 我目前最认可的一句话

这个项目固定的是能力接口,不固定的是任务策略。

或者说:

它不是把任务流程完全固定,而是把底层操作标准化,让 Agent 在可控边界内自由编排。

6. 为什么我觉得这个点很重要

因为这解释了:

  • 为什么需要 Skill
  • 为什么需要命令树
  • 为什么要有 --json
  • 为什么要有 status/info/list
  • 为什么还要有 validate/refine

它们一起在做的事情,就是让 Agent 在不被完全写死的前提下,依然能可靠调用软件能力。

7. 当前阶段的总认识

这个项目不是追求“让 Agent 自己在黑盒中涌现完成一切”,而是先由人进行大量具体施工,把软件能力整理成结构化、可观察、可验证的接口,然后再交给 Agent 使用。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号