一次 generate-prompts 服务连续超时事故的完整排查记录

背景

一个平时很稳定的服务,在 2026-04-02 这天突然出现“连续失败”。

最让人难受的不是失败本身,而是失败信息太少:日志里只有一串「第 1 次请求失败」,没有异常类型、没有耗时、没有栈。

这种时候人的直觉会把怀疑撒向四面八方:逻辑是不是坏了、参数是不是不对、上游是不是抽风、网络是不是波动……但没有证据,一切都只是猜。


1. 先把故障“照亮”:只补日志,不动行为

线上系统已经跑了很久,第一原则是:先让问题可见,但不要一上来就改主逻辑

我加的日志只做两件事:

  • 把“这次请求到底发生了什么”讲清楚
  • 保持所有行为不变(重试次数、超时、请求参数、返回解析都不动)

具体补充项包括:

  • 请求开始时的关键信息(目标地址、超时、参数摘要、prompt 长度)
  • 当前是第几次重试、总重试次数
  • 每次请求耗时
  • 异常类型与 repr(error)
  • traceback

-(如果有)上游返回的原始错误体

这一步的价值在于:它不会“修复”任何东西,但会把原本模糊的失败变成可定位的问题。


2. 新日志把矛盾点钉死在「连接阶段超时」

日志增强后,很快就捕捉到关键一行:

第 1/3 次请求失败, elapsed=180.86s, type=TimeoutError, repr=TimeoutError()

再看栈,核心落在:

TimeoutError: TimeoutError()

Traceback (most recent call last):
  File "/app/services/llm_service.py", line 107, in generate
    response = await asyncio.wait_for(...)
  File "httpcore/_async/connection.py", line xxx, in _connect
    ...
  File "httpcore/_backends/anyio.py", line xxx, in connect_tcp
    ...
TimeoutError

核心落点是:

  • connect_tcp
  • _connect

这意味着什么?

超时发生在 TCP 连接建立阶段。

也就是说,请求连“HTTP 响应处理”都没进入,更谈不上“业务返回了错误”。

到这里,很多直觉猜测可以先放下:

  • 不是返回体解析的问题
  • 不是返回格式不对
  • 不是应用层报错没处理

更像是:这台机器根本连不上对方的 443 端口


3. 把战场从代码切到网络:在机器上做连通性验证

既然栈指向了连接阶段,下一步就不该继续盯代码,而应该直接在服务器上做最朴素的网络验证。

3.1 DNS:先确认域名能解析

getent hosts upstream.example.com

能解析出 IP,说明 DNS 本身不是问题。

3.2 curl:直连 443,看是否能建立连接

curl -v --connect-timeout 5 --max-time 10 <https://upstream.example.com>

输出停在类似:

Trying xxx.xxx.xxx.xxx...
Connection timed out after 5001 milliseconds

这个信息非常“硬”:

  • 已经解析到 IP
  • 已经开始尝试连接
  • 卡死在 TCP 建连
  • 连 TLS 握手都没开始

3.3 更直接:探测端口是否可达

timeout 5 bash -c '</dev/tcp/110.42.10.198/443' && echo OK || echo FAIL

返回 FAIL

到这里基本闭环:不是某个 API 路径出错,而是 443 端口就是连不上。


4. 结论:表象是超时,根因是 TCP 连接没建立

这次故障表面看是“接口一直超时”,但真正的根因更底层:

服务器无法与 upstream.example.com:443 建立 TCP 连接。

换句话说:请求还没进入应用层,已经在连接层死掉了。


5. 这次排查里最有用的经验

5.1 不要让“失败但无细节”的日志拖着你猜

如果日志只写“失败了”,排查就会变成玄学。

对线上系统来说,日志不是装饰品,而是你在事故里唯一可信的传感器

5.2 先确认请求到底卡在哪一层

当你看到连续超时,优先问:

  • 是 DNS?
  • 是 TCP connect?
  • 是 TLS handshake?
  • 是 HTTP 响应慢?
  • 还是应用层返回错误?

把“卡在哪一层”确定下来,复杂问题往往会瞬间变简单。


6. 这次用到的关键命令(备忘)

getent hosts upstream.example.com
curl -v --connect-timeout 5 --max-time 10 <https://upstream.example.com>
curl -v --connect-timeout 5 --max-time 10 <https://upstream.example.com/v1/models>
openssl s_client -connect 110.42.10.198:443 -servername upstream.example.com -brief
timeout 5 bash -c '</dev/tcp/110.42.10.198/443' && echo OK || echo FAIL

总结

这次最重要的不是“修了哪个 bug”,而是确认了一件更基础的事:

当外部调用连续失败时,除了看代码,也一定要尽快确认机器是否真的连得上对方的端口。

很多事故并不是业务逻辑坏了,而是请求根本没走到业务逻辑那一层。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号