01|从零读懂 Pi Mono:四层架构与主链路

这篇写什么

目标是建立一个稳定的全局理解框架:pi-mono 最核心的四层分别负责什么,以及一条“用户发一句话”会如何穿过这些层。

先记住四层

用最短的图记住:

第 4 层:pi-tui
第 3 层:pi-coding-agent
第 2 层:pi-agent-core
第 1 层:pi-ai

换个方向理解:

模型能力
-> agent 运行时
-> coding 产品
-> terminal 界面

一句话总结

pi-mono 的核心,是把大模型能力一步步落成一个能在终端里工作的编程代理:

统一模型调用
-> 让模型调用工具并循环工作
-> 做成面向编程场景的产品
-> 提供终端交互体验

第 1 层:packages/ai(pi-ai)

这一层的职责可以概括为:把不同 provider 的大模型统一成一套可调用接口。

它主要收敛这些差异:

  • 请求格式差异
  • 消息格式差异
  • tool calling 差异
  • 流式输出差异
  • token 与 cost 统计差异

你可以把它理解成:模型适配层 / LLM 抽象层。

第 2 层:packages/agent(pi-agent-core)

这一层解决的是:让“调用模型一次”变成“让模型持续工作”。

只有 pi-ai 时,系统更像:

用户提问
-> 调一次模型
-> 返回结果

但 agent 的主流程是:

用户提任务
-> 模型回答或调用工具
-> 系统执行工具
-> 把工具结果塞回上下文
-> 再调用模型
-> 重复直到任务结束

你可以把它理解成:Agent 运行时 / Agent 引擎。

它负责:

  • 管理 agent 状态与消息历史
  • 驱动多轮调用(loop)
  • 执行工具并回灌结果
  • 把过程暴露成 agent 级事件流

第 3 层:packages/coding-agent

这是用户真正接触到的“产品层”。

它把前两层装配成一个面向代码仓库工作的 agent,并提供默认工具集,例如:

  • read
  • write
  • edit
  • bash

你可以把它理解成:面向编程场景的 agent 产品层。

第 4 层:packages/tui

这是终端 UI 框架,负责交互体验(输入、渲染、选择器、弹层等)。

它不决定 agent 如何思考和执行,但决定用户体验是否顺畅。

四层之间的依赖关系

pi-coding-agent 使用 pi-agent-core
pi-agent-core 使用 pi-ai
pi-coding-agent 的界面由 pi-tui 支撑

一条完整执行链路(最重要的主线)

假设用户输入:

帮我检查这个项目的 README 并总结

系统内部大致会这样运行:

  1. pi-coding-agent 组织当前 session、上下文和可用工具。
  2. pi-agent-core 启动一轮执行,决定调用模型。
  3. pi-ai 将统一上下文转换为目标 provider 请求并发起调用。
  4. 模型返回结果,若需要外部信息,会发起 read 等工具调用。
  5. pi-agent-core 执行工具,拿到结果。
  6. pi-agent-core 把工具结果作为 toolResult 回灌到上下文。
  7. pi-ai 再次调用模型,让模型基于结果继续生成。
  8. pi-coding-agent 把过程与最终结果组织给用户。
  9. pi-tui 把消息/状态渲染到终端。

建议阅读顺序

如果你接下来要继续看源码,推荐按层推进:

  1. packages/ai
  2. packages/agent
  3. packages/coding-agent
  4. packages/tui

Read more

LTX-2.3 本地部署完整复盘

先把结论放前面:LTX-2.3(22B)这条 pipeline 在 4×RTX 3090(24GB)这套硬件上,按官方默认推理方式基本跑不起来。我最终得到的不是“没跑通”,而是一个更有价值的结果:把它为什么跑不起来、卡在哪、该怎么判断“物理不可行”,完整验证了一遍。 这篇文章是一次本地部署的工程复盘:从模型文件下载、依赖链补齐、环境和代码层踩坑,到显存拆分、多卡 device 规划,再到最终 OOM 的边界判断。希望你在遇到类似“看起来只要把权重放进去就能跑”的大模型工程时,可以少走很多弯路。 TL;DR(1 分钟读完) * LTX-2.3 不是单模型,而是一个多组件 pipeline:文本编码器(Gemma)+ 视频 diffusion 主模型(

By ladydd

一次 generate-prompts 服务连续超时事故的完整排查记录

背景 一个平时很稳定的服务,在 2026-04-02 这天突然出现“连续失败”。 最让人难受的不是失败本身,而是失败信息太少:日志里只有一串「第 1 次请求失败」,没有异常类型、没有耗时、没有栈。 这种时候人的直觉会把怀疑撒向四面八方:逻辑是不是坏了、参数是不是不对、上游是不是抽风、网络是不是波动……但没有证据,一切都只是猜。 1. 先把故障“照亮”:只补日志,不动行为 线上系统已经跑了很久,第一原则是:先让问题可见,但不要一上来就改主逻辑。 我加的日志只做两件事: * 把“这次请求到底发生了什么”讲清楚 * 保持所有行为不变(重试次数、超时、请求参数、返回解析都不动) 具体补充项包括: * 请求开始时的关键信息(目标地址、超时、参数摘要、prompt 长度) * 当前是第几次重试、总重试次数 * 每次请求耗时

By ladydd

快手 KAT-Coder-Pro V2 模型测试

市面上几乎没人聊这个模型,反倒让我很好奇,我决定全面测评使用一下 StreamLakeStreamLake溪流湖是快手toB视频云平台,提供领先的音视频AI解决方案。包含KAT-Coder智能编程助手、万擎大模型平台、视频云服务、直播云、点播云、实时音视频RTC等产品。基于前沿AI技术和音视频算法,为企业提供智能代码生成、视频处理、内容理解、智能审核等全链路服务,助力数字化转型。StreamLakeStreamLake 付完款发现上下文只有256K , 到今天来说 已经落后了 而且不支持视觉,也没有mcp接入 联网搜索之类的东西 确实是远远落后了 时隔半年再次看快手模型的官网,发现现在几乎就主打这一个模型了 coding plan用这个,然后api 调用这个是, 接入openclaw 也是这个,总之一个模型走天下,看上去太穷了,像是随时跑路的状态,但其实我很喜欢这种方式, 一个模型通杀所有场景 哈哈哈 接入 opencode 中使用 开了一个新的项目,决定保守一点,先让写文档, 之后再生成代码 下面是实际的体验 1. 不断 chat

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号