MCP 服务端的隐藏设计:结论性数据如何改变

Agent 的工作方式

我们以为 MCP 服务只是查数据的管道,拆开一看,发现服务端已经把分析结论都算好了。这个发现改变了我对 Agent 架构的理解。


起因:一次对 MCP 服务的逆向探索

最近在研究 MCP(Model Context Protocol)的实际应用,我选了一个真实的商业 MCP 服务 —— 某电商卖家流量分析平台作为研究对象。该服务提供了 27 个工具,覆盖关键词分析、流量运营、广告洞察等领域。

最初的预期很简单:MCP 服务就是一个数据接口,Agent(LLM)调用它拿到原始数据,然后自己分析、得出结论、给用户建议。

实际拆开一看,完全不是这么回事。


第一个发现:返回数据里藏着完整的分析结论

我写了一个 Python 脚本,绕过所有 AI 客户端,直接用 MCP SDK 连上该服务,调用工具,看原始返回数据。

以关键词需求分析工具为例,查询某个关键词,服务端返回的不是一堆搜索量数字,而是:

{
  "diagnosis": "structural_declining_seasonal_dip",
  "interpretation": "搜索量长期下滑(年均-7%),同时当前处于季节性低谷。两者叠加,不应将淡季结束后的反弹误判为趋势逆转,年度总需求仍在持续收缩。",
  "action_phase": "prepare",
  "action_hint": "旺季还有约 12 周,现在是布局自然排名的窗口——养权重、铺评价,旺季靠自然流量收割",
  "ad_strategy_hint": "功能型:买家关注产品特性与参数,产品力和评分是核心竞争维度,SP 广泛匹配抢曝光"
}

诊断结论、行动建议、广告策略 —— 全部算好了,直接给你。

而用户在 AI 客户端里看到的那段分析报告,几乎就是这些字段的中文转述。LLM 做的事情只是把 JSON 变成了人话。


第二个发现:几乎所有工具都带结论,只是浓度不同

该服务一共暴露了 27 个工具。我全部调了一遍,逐个分析返回数据的性质。结果出乎意料:

类型 数量 占比
纯数据(零结论) 2 个 10%
轻量结论(趋势标签 + 引流链接) 10 个 50%
重度结论(诊断 + 解读 + 建议) 8 个 40%

真正的"纯数据"工具只有 2 个。 其余全部或多或少带了结论性字段。

即使是看起来最"纯数据"的广告流量趋势工具,返回的 JSON 末尾也悄悄塞了:

"trend_analysis": {
    "SP_trend": "growing",
    "SB_trend": "declining",
    "SBV_trend": "growing",
    "overall_trend": "declining",
    "dominant_channel": "SB"
}

该服务的策略不是"高频做重、低频做轻",而是全面渗透,浓度分级


第三个发现:服务端在跑自己的 Agent

最让我震撼的是流量异常诊断工具。它的返回数据里包含一条完整的推理链:

"reasoning_path": [
  {
    "hypothesis": "现象观察",
    "evidence": ["异常周跌幅 22%", "某核心词自然贡献跌幅 +11%"],
    "inference": "该核心词是主要拖累词",
    "verdict": "confirmed"
  },
  {
    "hypothesis": "市场需求是否在萎缩",
    "evidence": ["异常周搜索量基本持平,跌幅仅 2%"],
    "inference": "需求端平稳,无法解释本次暴跌——排除需求萎缩",
    "verdict": "rejected"
  },
  {
    "hypothesis": "自身排名是否在下滑",
    "evidence": ["当前自然排名第 3 位,仍在结果页但持续弱化"],
    "inference": "排名仍存在但在弱化——自身排名防守问题",
    "verdict": "confirmed"
  },
  {
    "hypothesis": "竞争压力来源",
    "evidence": ["排名弱化通常由竞品加大投入或Listing竞争力下降引起"],
    "inference": "需要竞争格局数据确认",
    "verdict": "unresolved",
    "next_tool": "market_get_keyword_competition"
  }
]

假设 → 找证据 → 推断 → 确认或排除 → 未解决的问题推荐下一步工具。

这本质上就是一个 ReAct 模式的 Agent,只不过跑在服务端,而不是你的本地 LLM 里。


对比实验:有结论 vs 无结论,LLM 的表现差异

为了验证结论性数据对 LLM 的影响,我做了一组对比实验。

实验一:调用带结论的工具

让 Claude Code 查询某个关键词的市场需求(带结论的工具)。

Claude 的输出几乎原文搬运了服务端返回的 interpretationaction_hint。换任何 LLM 接入,输出质量都一样。

实验二:调用纯数据的工具

让 Claude Code 查询某个关键词的历史搜索量(纯数据工具)。该工具返回的是 291 周的纯数字数组,零结论。

Claude 自己补上了:

  • 峰值识别:"历史峰值 205,575(某年12月当周)— 圣诞季"
  • 季节性规律:"Q4 全年最高峰,Q3 全年最低谷"
  • 行动建议:"预计 9 月开始回升,11-12 月迎来全年高峰"

LLM 确实能独立分析纯数据。 但对比质量:

服务端给结论的工具 LLM 自己分析纯数据
结论深度 "structural_declining_seasonal_dip",年均衰减率、需求结构类型 "当前处于淡季回落期"
可操作性 "旺季还有约12周,现在是布局自然排名的窗口" "预计9月开始回升"
稳定性 换任何 LLM 结论一致 换个弱模型可能分析不出来

服务端给的结论更深、更可操作、更稳定。LLM 自己的分析更浅、更泛、依赖模型能力。


还有一个隐藏的提示词机制

该服务的部分工具返回数据里有一个 _render_hint 字段:

"_render_hint": "本接口为原始数据接口,字段名为技术标识符。向用户展示时请使用业务语言描述含义,禁止直接暴露英文字段名(如 launch_rhythm、top_1_share 等)"

这是直接在返回数据里给 LLM 下指令。不是通过 MCP 协议的 instructions 字段(该服务没用这个),而是藏在数据里。

LLM 读到这段文字后,会自动把 launch_rhythm: sparse 翻译成"投放节奏:稀疏",而不是直接暴露英文字段名。

这种"数据里的提示词"比全局 instructions 更精准 —— 它只在特定工具的返回结果中生效,不会污染其他工具的上下文。


这意味着什么

对 MCP 服务开发者

如果你在做 MCP 服务,不要只返回原始数据。在返回数据里加入结论性字段(diagnosis、interpretation、action_hint),可以:

  1. 保证输出质量 —— 不管用户用什么 LLM 接入,核心分析结论都是你的算法给的,质量可控
  2. 减轻 LLM 负担 —— LLM 只需要做翻译和排版,不需要做复杂的数据分析
  3. 保护核心壁垒 —— 用户通过 MCP 拿到的是结论,看不到你的算法和计算过程

该服务的做法是一个很好的参考:高频场景给重结论(诊断 + 解读 + 建议),低频场景给轻结论(趋势标签),极少数场景给纯数据。

对 Agent 开发者

接入第三方 MCP 服务之前,先 dump 原始返回数据。搞清楚服务端给你的是原始数据还是加工结论,这决定了:

  • 你的 Agent 需要做多少推理工作
  • 你的分析质量上限在哪(如果服务端给的结论有偏差,你的 Agent 没有能力纠正)
  • 你是否需要接入多个数据源做交叉验证

对 AI 产品设计者

"MCP 服务只是数据接口"这个假设是错的。一个设计良好的 MCP 服务,本身就是一个分析引擎。LLM 在这个架构里的角色不是"分析师",而是"翻译官" —— 把用户的自然语言翻译成 API 调用,再把结构化的分析结论翻译成用户能读懂的报告。

真正的分析能力在服务端,不在 LLM。


一句话总结

我们以为 LLM 是大脑,MCP 服务是手脚。拆开一看,MCP 服务才是大脑,LLM 只是嘴。


本文基于对某商业 MCP 服务的实际连接、全量工具调用和原始数据分析。所有代码和数据导出均为真实操作记录。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号