Latest

agent

pi-mono 学习 03|pi-ai 的输入输出:事件流、最终消息与可重放上下文

这篇写什么 聚焦 pi-ai 的统一输入输出协议:为什么要把输出分成“事件流”和“最终消息”,以及为什么“可重放性”是 agent 系统的关键约束。 先说结论 pi-ai 的核心价值是:把多厂商模型调用统一成一套对 agent 友好的输入输出协议。 对 agent 友好意味着它要覆盖: * 多轮上下文 * 工具调用 * 流式增量输出 * thinking/reasoning * usage/cost * 失败与中断 * 跨模型继续对话 统一输入:上层真正需要表达的只有四类 1. 用哪个模型 2. 当前上下文是什么 3. 这轮可以用哪些工具 4. 这轮调用的运行参数是什么 模型输入不是字符串 模型对象应携带能力与调用语义:provider、协议类型、上下文窗口、是否支持 reasoning/多模态、成本与兼容配置等。

By ladydd

agent

pi-mono 学习 02|pi-ai:为什么需要单独一层来统一模型调用

这篇写什么 只讲 packages/ai(pi-ai)的设计动机与职责边界:它到底统一了什么、为什么对 agent 很关键、它和 pi-agent-core 的分工是什么。 先说结论 pi-ai 的本质不是“又一个模型 SDK”,而是:一个面向 agent 场景的多模型统一抽象层。 它的目标是把不同厂商、不同协议、不同风格的大模型调用方式,收敛成一套统一输入输出标准,让上层系统稳定工作。 为什么值得单独做一层 如果没有这一层,上层会直接面对: * 不同厂商的 API 结构、消息格式、流式协议差异 * tool calling 表达差异 * reasoning/thinking 支持差异 * usage / cost 统计差异 最终会导致: * agent 层被 provider 细节污染 * 每加一个

By ladydd

agent

pi-mono 学习 01|从零读懂 Pi Mono:四层架构与主链路

这篇写什么 目标是建立一个稳定的全局理解框架:pi-mono 最核心的四层分别负责什么,以及一条“用户发一句话”会如何穿过这些层。 先记住四层 用最短的图记住: 第 4 层:pi-tui 第 3 层:pi-coding-agent 第 2 层:pi-agent-core 第 1 层:pi-ai 换个方向理解: 模型能力 -> agent 运行时 -> coding 产品 -> terminal 界面 一句话总结 pi-mono 的核心,是把大模型能力一步步落成一个能在终端里工作的编程代理: 统一模型调用 -> 让模型调用工具并循环工作 -> 做成面向编程场景的产品

By ladydd

agent

Pi Mono 源码阅读|博客系列目录(01-08)

这是一组由源码阅读笔记整理出的博客草稿,尽量只基于原笔记内容做删减、合并与结构化,不额外虚构实现细节。 阅读顺序(建议) 1. 从零建立全局认识:四层架构是什么 2. pi-ai:统一模型调用这一层到底解决了什么 3. pi-ai:输入输出与事件流(为什么对 agent 友好) 4. pi-agent-core:为什么 tool calling 不等于 agent 5. pi-agent-core:闭环、回灌、继续/停止策略 6. pi-coding-agent:把前两层装配成“可用产品” 7. 主 Agent 与 Tools:可迁移的设计方法论 8. 其余包扫盲:tui / web-ui / mom / pods 文章列表(发布用链接待填) * 01|

By ladydd

部署运维

opwen-webui 数据搬迁

背景:一次从 SQLite 到 PostgreSQL 的 Open WebUI 搬迁 Open WebUI 默认用的是 SQLite,部署起来很省心。但当你开始把它跑在更“正式”的环境里(多用户、长期保留聊天记录、附件和标签等),SQLite 往往就会成为瓶颈:备份、迁移、并发、运维手段都不如 PostgreSQL 顺手。 这篇文章记录我把一套旧版 Open WebUI(SQLite)迁移到新版 Open WebUI v0.8.11(PostgreSQL 16)的完整过程。核心目标很明确: * 保留多用户登录信息 * 保留历史聊天、消息、标签、文件等业务数据 * 新环境使用 Docker Compose,

By ladydd

MCP

fastmcp 学习

https://github.com/jlowin/fastmcp 这篇文章是我学习 FastMCP 的一次系统整理:从 MCP 到 FastMCP 的组件设计,再到 Provider、Transform、Context、任务与部署方式。目标是把零散笔记变成一条能走通的理解路径。 1. 我先把 MCP 讲清楚:它解决的到底是什么问题? 很多时候 AI “会想”,但它不会“做”。 * 想查数据库 * 想调用内部 API * 想发邮件或写文件 如果没有一套标准的协议,AI 客户端(Claude、Cursor 等)就很难稳定、安全、可扩展地调用你提供的能力。 MCP(Model Context Protocol)就是这套标准协议: * 客户端用统一的方式发起调用请求 * 服务器用统一的方式暴露工具、资源和提示词

By ladydd

论文翻译

RoBERTa:一种稳健优化的BERT预训练方法

https://arxiv.org/pdf/1907.11692 RoBERTa:一种稳健优化的BERT预训练方法 摘要 语言模型预训练已经带来了显著的性能提升,但对不同方法进行仔细比较具有挑战性。训练在计算上成本高昂,通常在不同大小的私有数据集上进行,并且,正如我们将展示的,超参数选择对最终结果有重大影响。我们提出了一项BERT预训练(Devlin等人,2019)的复制研究,该研究仔细测量了许多关键超参数和训练数据大小的影响。我们发现BERT的训练明显不足,并且可以匹配或超过其后发布的每个模型的性能。我们的最佳模型在GLUE、RACE和SQuAD上取得了最先进的结果。这些结果强调了先前被忽视的设计选择的重要性,并对最近报告的改进来源提出了质疑。我们发布了我们的模型和代码。 1 引言 ELMo(Peters等人,2018)、GPT(Radford等人,2018)、BERT(Devlin等人,2019)、XLM(Lample和Conneau,2019)和XLNet(Yang等人,2019)等自训练方法带来了显著的性能提升,但确定这些方法中哪些方面贡献最大可能具有挑

By ladydd

论文翻译

ReAct:在语言模型中协同推理与行动

发表于 ICLR 2023 会议论文 作者: Shunyu Yao*¹, Jeffrey Zhao², Dian Yu², Nan Du², Izhak Shafran², Karthik Narasimhan¹, Yuan Cao² ¹ 普林斯顿大学计算机科学系 · ² Google Research, Brain 团队 项目主页: https://react-lm.github.io/ 摘要 尽管大型语言模型(LLM)在语言理解和交互式决策任务中展现出了令人印象深刻的能力,但其推理(如链式思维提示)和行动(如动作计划生成)能力主要被作为独立课题研究。在本文中,我们探索使用 LLM 以交替方式同时生成推理轨迹和任务特定动作,从而在两者之间实现更大的协同效应:推理轨迹帮助模型归纳、追踪和更新行动计划并处理异常情况,而行动则允许模型与知识库或环境等外部来源交互以获取额外信息。 我们将该方法命名为 ReAct,并将其应用于多种语言和决策任务,证明了其相较于最先进基线的有效性,

By ladydd

论文翻译

GEO: 生成式引擎优化

GEO: 生成式引擎优化 摘要 大型语言模型(LLM)的出现开创了一种新的搜索引擎范式,这种搜索引擎使用生成模型来收集和总结信息以回答用户查询。我们将这项新兴技术在生成引擎(GE)的统一框架下进行形式化,它能够生成准确且个性化的响应,正在迅速取代像Google和Bing这样的传统搜索引擎。生成引擎通常通过综合来自多个来源的信息并使用LLM对其进行总结来满足查询需求。虽然这一转变显著提高了用户效用和生成搜索引擎的流量,但它给第三方利益相关者——网站和内容创作者——带来了巨大挑战。鉴于生成引擎的黑盒性质和快速发展特性,内容创作者几乎无法控制其内容何时以及如何被展示。随着生成引擎的持续存在,我们必须确保创作者经济不会处于不利地位。为了解决这个问题,我们引入了生成引擎优化(GEO),这是第一个帮助内容创作者通过灵活的黑盒优化框架来提高其内容在生成引擎响应中可见性的新颖范式,用于优化和定义可见性指标。我们通过引入GEO-bench来促进系统化评估,这是一个大规模的基准测试,包含跨多个领域的多样化用户查询,以及回答这些查询的相关网络来源。通过严格的评估,我们证明GEO可以将生成引擎响应中

By ladydd

论文翻译

COSMO:亚马逊的大规模电子商务常识知识生成与服务系统

COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon 摘要 大规模知识图谱在电子商务平台中的应用可以改善客户的购物体验。虽然现有的电子商务知识图谱(KG)整合了大量概念或产品属性,但它们未能发现用户意图,留下了与人们思考、行为和与周围世界互动方式之间的差距。在这项工作中,我们提出了COSMO,这是一个可扩展的系统,用于从大规模行为中挖掘以用户为中心的常识知识,并构建行业规模的知识图谱以赋能多样化的在线服务。 具体而言,我们描述了一个用于收集高质量种子知识断言的流程,这些断言从大型语言模型(LLM)中提取,并通过在人工参与标注数据上训练的评判分类器进一步精炼。由于这些生成的内容可能并不总是符合人类偏好且包含噪声,我们接着描述了如何采用指令调优来微调一个高效的语言模型(COSMO-LM),以实现大规模的忠实电子商务常识知识生成。COSMO-LM有效地将我们的知识图谱扩展到亚马逊的18个主要类别,仅使用30k个标注指令就生成了数百万条高质量知

By ladydd

论文翻译

HNSW:使用分层可导航小世界图进行高效且稳健的近似最近邻搜索

Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs https://arxiv.org/pdf/1603.09320 摘要 — 我们提出了一种基于可控层次导航小世界图(分层NSW,HNSW)的近似K-近邻搜索新方法。所提出的解决方案完全基于图,无需在粗搜索阶段使用额外的搜索结构,而这些结构通常用于大多数邻近图技术中。分层NSW增量地构建了一个多层结构,由存储元素嵌套子集的层次邻近图(层)组成。元素出现的最大层是随机选择的,具有指数衰减的概率分布。这使得生成的图类似于之前研究的导航小世界(NSW)结构,同时还能按特征距离尺度分离链接。从上层开始搜索,并利用尺度分离,与NSW相比可以提高性能,并实现对数复杂度扩展。额外使用选择邻近图邻居的启发式方法,显著提高了高召回率和高度聚类数据情况下的性能。性能评估表明,所提出的通用度量空间搜索索引能够大大超越之前开源的最先进的仅向量方法。该算法与跳跃列表结构的相似性允许直接平

By ladydd

论文翻译

BERT: 用于语言理解的深度双向 Transformer 的预训练

https://arxiv.org/pdf/1810.04805 https://github.com/google-research/bert BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 摘要 我们引入了一个新的语言表示模型,称为BERT,即Bidirectional Encoder Representations from Transformers(来自Transformers的双向编码器表示)。与最近的语言表示模型(Peters等人,2018a;Radford等人,2018)不同,BERT旨在通过在所有层中同时基于左右上下文来从未标记文本中预训练深度双向表示。因此,预训练的BERT模型只需添加一个额外的输出层就可以微调,从而为广泛的任务创建最先进的模型,如问答和语言推理,而无需进行大量特定于任务的架构修改。 BERT在概念上简单且在实证上强大。它在十一项自然语言处理任务上获得了新的最先进结果,包括将GLUE分数提高到80.5%(绝对提高

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号