pi-mono 学习 04|pi-agent-core:为什么 tool calling 不等于 Agent

这篇写什么

只讲一个关键点:为什么“模型会吐 tool call”不等于“系统是 agent”,以及 pi-agent-core 这一层到底补上了什么。

先说结论

pi-agent-core 的本质不是“再包一层模型调用”,而是:把一次模型调用变成一个可以持续推进任务的运行时闭环。

  • pi-ai 解决:怎么把不同模型统一接起来
  • pi-agent-core 解决:怎么让模型不只是回答,而是真正持续工作

为什么第一层还不够

如果系统只有模型抽象层,能力更接近:

  • 把上下文发给模型
  • 接收模型返回
  • 把流式输出展示出来

即便模型支持 tool calling,这时也还没有“agent 感”。

因为“模型会吐出 tool call”不等于“系统能把任务做完”。

用户真正感知到的 agent 能力通常是:

  • 它会自己去查信息
  • 它会自己调用工具
  • 它会根据结果继续下一步
  • 它不是一轮问答,而是围绕任务持续推进

这些体验来自 runtime 闭环,而不是来自单次模型调用。

这一层到底解决什么问题

核心问题只有一个:

把模型、工具、上下文和外部反馈组织成一个持续运行的任务循环。

最短链路是:

用户提任务
-> 模型分析任务
-> 模型决定调用工具
-> 系统执行工具
-> 把工具结果回灌给模型
-> 模型继续分析和决策
-> 重复直到完成

只要这条链成立,系统才算 agent。

为什么叫 runtime

因为它更像一个持续运行的小系统(状态机),需要长期维护动态过程:

  • 接收用户输入
  • 发起模型调用
  • 监听模型输出事件
  • 识别工具调用
  • 触发工具执行
  • 接收工具结果
  • 更新上下文状态
  • 再次调用模型
  • 判断是否结束

agent 的核心不是“会说”,而是“会闭环”

闭环意味着:

  • 模型输出不是终点
  • 工具结果也不是终点
  • 每一轮输出都可能成为下一轮输入
  • 系统一直运行,直到达到可停止状态

pi-aipi-agent-core 的边界

pi-ai 负责

  • 统一模型调用
  • 统一上下文表示
  • 统一工具 schema 输入
  • 统一流式事件输出
  • 统一最终 assistant 消息
  • 统一 usage / cost / stop reason

pi-agent-core 负责

  • 决定什么时候调用模型
  • 决定什么时候执行工具
  • 决定工具结果如何进入后续上下文
  • 决定什么时候继续下一轮
  • 决定什么时候停止整个任务
  • 暴露 agent 级事件流

小结

tool calling 是原料,tool loop 才是 agent。

pi-agent-core 的价值就在于:把模型的动作意图工程化成一个可持续推进任务的闭环运行时。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号