[ ← → ] Navigate · [ Esc ] Overview

CloudQ 架构治理实验(四)

Nginx 反向代理配置故障定位

腾讯云智能顾问(TSA)  |  CloudQ  |  2026

01 / 13

实验背景

  • SH-WEB 架构已完成无状态化升级:竞价实例 + AS 弹性伸缩
  • 数据层迁移:TDSQL-C Serverless + COS 对象存储
  • 前三轮实验覆盖:Redis 缓存层 / CDB 数据库层 / 应用层事件循环
  • 本次验证 CloudQ 对 网络/代理层故障 的三维检测能力
02 / 13

SH-WEB 架构概览

架构拓扑

SH-WEB 架构图

智能顾问视图

智能顾问架构图
03 / 13

故障设计

篡改 Nginx upstream 端口,制造局部 502

- proxy_pass http://127.0.0.1:3000; + proxy_pass http://127.0.0.1:3999;

端口 3999 无进程监听 → Nginx 无法连接上游

预期: ~50% 请求返回 502

04 / 13

基线采集

Q
CloudQ 智能顾问
企业微信
23:15
U
查询SH-WEB架构的CLB后端健康状态和CVM资源使用率
Q
CLB 后端健康状态:
ins-cmenipyj (172.17.0.9:80) → ✅ Alive
ins-cu05oexx (172.17.0.15:80) → ✅ Alive

CVM 资源使用率:
CPU: 1.29%  |  MEM: 21.08%

502/504: 均为 0
05 / 13

故障注入

$ sed -i 's/127.0.0.1:3000/127.0.0.1:3999/' /etc/nginx/conf.d/blog.conf
$ nginx -s reload
# Traffic test: 20 requests

200 502 502 502 502 200 200 200 502 502 200 502 502 502 502 502 502 502 502

70% failure rate
06 / 13

CloudQ 云监控检测

Q
CloudQ 智能顾问
企业微信
23:32
U
查询SH-WEB架构CLB最近10分钟的502/504异常状态码数量
Q
CLB 异常状态码统计:
23:22~23:29 | 502: 0  | 504: 0
23:30       | 502: ⚠️ 15 | 504: 0
23:31       | 502: ⚠️ 11 | 504: 0

检测结论: 23:30~23:31 出现 26 次 502
07 / 13

CloudQ CLS 日志分析

Q
CloudQ 智能顾问
企业微信
23:38
U
查询CLS日志shweb和clb_topic中最近15分钟的ERROR和502日志
Q
shweb — Nginx ERROR:
23:35:53 connect() failed
(111: Connection refused)
upstream: http://127.0.0.1:3999/
... 持续高频报错, 20+ 条

clb_topic — CLB 502:
GET /article/15
172.17.0.9:80 → 502
响应时间: 0.001s

结论: 所有 502 均指向 172.17.0.9:80
08 / 13

CloudQ 根因分析

Q
CloudQ 智能顾问
企业微信
23:40
Q
🔍 根因分析
客户端
 ↓
CLB (lb-iwh0o149)
 ↓
Nginx (172.17.0.9:80)
 ↓
127.0.0.1:3999

根因: Nginx upstream 配置错误
端口 3999 无进程监听

errno=111 Connection refused → 502
09 / 13

故障回滚

$ sed -i 's/127.0.0.1:3999/127.0.0.1:3000/' /etc/nginx/conf.d/blog.conf
$ nginx -s reload
# Verify recovery
$ for i in $(seq 1 10); do curl -s -o /dev/null -w "%{http_code} " http://localhost; done
200 200 200 200 200 200 200 200 200 200

10/10 请求均返回 200 ✅

服务完全恢复,零残留故障

10 / 13

三维度检测总结

🛡️

Well-Architected

预防

提前识别竞价实例回收风险、单可用区部署风险

📊

云监控指标

发现

26 次 502 异常
精确时间线: 23:30~23:31

🔍

CLS 日志

定位

精确到端口 3999
锁定故障 IP: 172.17.0.9

预防 发现 定位
11 / 13

核心启示

12 / 13

CloudQ: Just Q IT!

预防 发现 定位 完整闭环

腾讯云智能顾问  |  CloudQ Architecture Governance

查看实验报告详情:Nginx 反向代理配置故障 →
13 / 13