前言
AWS DevOps Agent 于 2025 年 12 月 re:Invent 大会亮相,2026 年 3 月 31 日正式 GA(全面可用),是目前云原生运维 AI Agent 领域最受关注的产品之一。本文基于官方文档、多篇第三方独立评测及社区讨论,整理了产品核心能力、真实用户口碑、定价策略与适用场景,供技术团队评估参考。
一、产品概述
AWS DevOps Agent 定位为自主运维 AI 伙伴,能够自主调查事件、主动预防故障、持续改善应用可靠性。从 Preview 到 GA 历时 4 个月,正式版新增了 Triage Agent、代码索引和自定义技能等能力。
参考链接:AWS 官方发布公告 | GA 博客
二、核心功能
| 功能 | 说明 |
|---|---|
| 事件自主调查 | 告警触发后立即启动,自动关联日志、最近部署、代码历史,输出根本原因报告(RCA) |
| 主动预防 | 分析历史事件模式,在问题复发前给出可行建议(可观测性增强、HPA 配置、CI/CD 改进等) |
| 按需 SRE 查询 | 支持自然语言提问,自动生成图表和报告 |
| Triage Agent(GA 新增) | 自动评估事件严重程度、识别重复工单并关联 |
| 代码索引(GA 新增) | 索引应用代码库,识别潜在 Bug 并建议代码级修复 |
| 学习/自定义技能(GA 新增) | 从组织调查模式中学习,可添加自定义排障 SOP |
三、集成生态
- 可观测性:Amazon CloudWatch、Datadog、Dynatrace、Grafana(含 Prometheus/Loki/OpenSearch)、New Relic、Splunk
- 代码与 CI/CD:GitHub、GitLab、Azure DevOps(GA 新增)、Amazon EventBridge
- 告警与工单:PagerDuty(GA 新增原生集成)、ServiceNow、Slack
- 扩展:支持自定义 MCP 服务器,可接入私有工具和本地环境
四、定价策略
核心计费模式
采用纯按用量付费,无最低消费、无前期承诺:
| 维度 | 详情 |
|---|---|
| 计费单位 | 每代理秒(Agent-second) |
| 统一单价 | $0.0083/秒(即 $0.50/分钟,约 $30/小时) |
| 三类任务同价 | Investigations / Evaluations / On-demand SRE Chat 均同一费率 |
| 典型成本 | 简单调查(5 分钟)≈ $2.5;复杂调查(30~60 分钟)≈ $15~$30 |
免费试用(分层叠加)
第 1 层:AWS Free Tier(新账户默认享有)
第 2 层:2 个月产品免费试用(从首次使用起计,按区域独立核算)
| 功能类型 | 免费额度 |
|---|---|
| Investigations(事件调查) | 20 小时/区域 |
| Evaluations(主动评估) | 15 小时/区域 |
| On-demand Chat(按需聊天) | 20 小时/区域 |
AWS Support 计划信用额度(重要隐性折扣)
| Support 计划 | 信用额度比例 |
|---|---|
| Unified Operations | 100%(上月 Support 费用全额抵扣) |
| Enterprise Support | 75% |
| Business Support+ | 30% |
Developer Support 及以下不享有信用额度
区域售卖情况(GA 覆盖 6 个区域)
us-east-1(弗吉尼亚北部)、us-west-2(俄勒冈)、ap-northeast-1(东京)、ap-southeast-2(悉尼)、eu-central-1(法兰克福)、eu-west-1(爱尔兰)
中国区暂不支持,国内用户需通过 Global 账号使用。只需在 1 个区域创建 Agent Space,即可跨所有 AWS 区域监控资源。
五、落地案例与用户口碑
官方客户案例
| 客户 | 行业 | 效果 |
|---|---|---|
| 澳大利亚联邦银行 | 金融 | 问题解决时间从数小时 → 15 分钟 |
| Western Governors University | 教育 | MTTR 从 2 小时 → 28 分钟(↓77%) |
| 皇家墨尔本理工大学 | 教育 | 故障排查从 4~7 小时 → 30 分钟内 |
| Zenchef | 餐饮 SaaS | 调查时间从 1~2 小时 → 20~30 分钟(↓75%) |
Preview 官方数据:MTTR 最高降低 75%,调查速度提升 80%,根因准确率 94%。
工程师实测反馈
vishnurachapudi.com 实测(2026-05-13):能同时分析 CPU、EBS、网络 I/O 等多路信号,区分根因与症状,「从可观测性仪表盘到真正的运维推理,是质的转变」,但配置不完整的环境下准确率大打折扣。查看原文
awsfundamentals.com 深度评测:Agent 找到了正确问题点但建议方向有误,「如果不经思考直接执行建议,你会需要第二次调查」。查看原文
cnblogs 国内实测(2026-04-29):单实例场景约 8 分钟完成调查,报告层次清晰,但对 P0 紧急事件(需分钟级响应)不适用。查看原文
社区声音
| 声音类型 | 内容 |
|---|---|
| 职业焦虑 | SRE/运维工程师担忧排障经验被自动化替代,但主流评测认为目前仍需人工验证 |
| 成本抱怨 | 无上限按秒计费,高频事故周可能产生数百美元账单,"Watch your usage" 是常见提醒 |
| 配置门槛 | CloudWatch 集成需 Lambda 桥接 + SSM 参数 + HMAC 签名,上手成本比宣传高 |
| 肯定声音 | 消灭「凌晨告警手动翻日志」场景价值明确;初级 On-Call 工程师能力补充作用受好评 |
六、竞品对比
| 维度 | AWS DevOps Agent | Datadog Bits AI | PagerDuty AIOps | Dynatrace Davis AI |
|---|---|---|---|---|
| 自主调查 | ★★★★★ 全自主 RCA | ★★★★ 日志/指标分析 | ★★★ 事件关联 | ★★★★ 根因分析 |
| 跨云支持 | ⚠️ 名义支持,实依赖 CloudWatch | ✅ 真正多云 | ✅ 平台无关 | ⚠️ 需 OneAgent |
| 自动修复 | ❌ 仅建议不执行 | ❌ 仅建议 | ⚠️ 半自动 | ⚠️ 有限 |
核心差异化:AWS DevOps Agent 是目前唯一具备「完全自主调查+结构化 RCA 报告」能力的云原生 Agent,代价是强绑定 AWS 可观测性栈。
独立分析师(iancloud.ai)评价:"AWS DevOps Agent is a strong incident-response agent for the AWS slice of the customer's environment. It is, by parent-cloud design, not a cross-cloud SRE agent."
七、售卖战略解读
AWS 的销售思路清晰:
- 低门槛进入:Free Tier + 2 个月免费试用叠加,几乎零成本试用
- 按用量计费:没事件就不花钱,降低决策门槛
- 锁定效应:深度依赖 CloudWatch/X-Ray/CloudTrail 全家桶,接入后形成运维数据粘性
- Land and Expand 策略:用免费额度装上去,靠数据依赖实现长期锁定
当前「只建议不执行」是审慎策略,未来大概率会推出可选的自动修复能力。ACP/MCP 集成已开放,DevOps Agent 可作为 MCP Server 被其他 Agent 编排系统调用。
八、适用场景建议
适合以下场景:
- AWS 原生基础设施,CloudWatch/Datadog 可观测性体系完善
- 团队频繁处理复杂 on-call 事件,MTTR 压降需求迫切
- 新用户:2 个月免费试用额度,低成本验证效果
- Enterprise/Business Support 客户(信用额度可大幅降低实际成本)
谨慎评估以下场景:
- 可观测性覆盖稀疏的环境
- 非 AWS 主导的多云基础设施
- P0 级别紧急事故(5~15 分钟调查窗口太长)
- 对成本敏感、调查频次极高的场景