RCA 事件归档 schema
谁用这个:Codex 在 thinktank 监测系统出现任何 issue 时,按本 schema 写入
~/Documents/学习/03_工具系统/AI与技术/CloudProjects/宋鸿兵_监控系统/incidents/<incident_id>.json,不是临时邮件、不是 Slack 消息、不是 commit message。
一、文件格式(JSON)
每一条事件 = 一个 JSON 文件,文件名格式 <YYYYMMDD>_<short_slug>.json:
{
"incident_id": "20260429_dxy_proxy_drift",
"detected_at": "2026-04-29T08:14:23+08:00",
"detected_by": "smoke|semantic_audit|proxy_mapping_audit|consensus_star_audit|user_report|claude",
"severity": "low|medium|high|critical",
"scope": {
"affected_indicators": ["FRED_DXY_INDEX", "..."],
"affected_mentors": ["付鹏", "..."],
"affected_audits": ["proxy_mapping_audit"]
},
"symptom": "DXY 实时值 vs 官方 ICE 数据偏离 0.5%(容忍 0.2%)",
"root_cause": "上游数据源 yahoo/DX-Y.NYB 遇到 30 秒延迟回传,触发 stale 容忍",
"fix_action": "增加 fred/DTWEXBGS 作为冗余源,并在 server.js 中实现两源中位数",
"files_changed": [
"/www/macro-think-tank-monitor/api/custom_sources.js",
"/www/macro-think-tank-monitor/api/data_map.js"
],
"verification": {
"smoke_status": "pass",
"deviation_post_fix": "0.08%"
},
"prevention_rule": "DXY 类核心实时指标必须双源中位数;任何单源延迟 >15 秒触发 fallback",
"recurrence_check": {
"applies_to": ["DXY-class indicators with single source"],
"patterns_to_grep": ["yahoo/", "single_source"],
"next_audit_extra_check": "在 proxy_mapping_audit 中加 'single source >15s stale' 检查"
},
"related_incidents": ["20260415_libor_legacy_drift"],
"claude_can_help_with": "如发现 prevention_rule 类似已存在于 patterns_index,触发循环 C 累积更新",
"tags": ["data_source", "stale", "redundancy"]
}二、七大字段语义
| 字段 | 必填 | 含义 | 示例 |
|---|---|---|---|
incident_id | ✓ | 唯一标识 | 20260429_dxy_proxy_drift |
detected_at | ✓ | ISO 8601 + 时区 | 2026-04-29T08:14:23+08:00 |
symptom | ✓ | 现象描述(事实层)——不带推断 | ”实时值偏离官方 0.5%“ |
root_cause | ✓ | 根因(推断层)——具体到机制 | ”yahoo 源 30 秒延迟” |
fix_action | ✓ | 实际操作 | ”增加 fred 冗余源 + 中位数” |
prevention_rule | ✓ | 防范规则(高层)——可被未来其他指标复用 | ”DXY 类必须双源中位数” |
recurrence_check | ✓ | 在哪些指标/模式中要 grep 警惕 | ["yahoo/", "single_source"] |
三、严重等级(severity)定义
| 等级 | 触发条件 | 响应时限 | 升级路径 |
|---|---|---|---|
low | 单个指标 stale/proxy;不影响 4-5 星 | 24h | Codex 自处理 |
medium | 4-5 星指标值偏离 >0.5%;smoke warnings >0 | 4h | Codex 处理 + 写入 incidents |
high | smoke failures >0;core indicator(DXY/SOFR/准备金)失效 | 1h | Codex 处理 + 通知用户 |
critical | thinktank 整站不可达 / 数据库损坏 / 大量指标错位 | 即时 | 立即响应 + 用户介入 |
四、月度索引文件
每月底 Codex 生成 incidents_index_YYYY-MM.md:
# Incidents Index 2026-04
## 概览
- 总 incidents: 12
- low/medium/high/critical: 7/3/2/0
- 最常出现 root_cause 类别: data_source_stale (5 次)
## Top 3 复发模式
1. **yahoo 源 stale**(5 次)→ 已升级 prevention_rule 到全部 yahoo 类指标
2. **NBS 子页面 parser 失败**(3 次)→ 增加 retry+exponential backoff
3. **CFTC 数据延迟披露**(2 次)→ 接受 8h tolerance
## 本月新增 prevention_rules
- DXY 类双源中位数
- yahoo stale >15s fallback
- NBS parser retry policy
## 累积 patterns_index 同步状态
- 已同步至 [[../05 作战手册/05 自我进化闭环架构]] 循环 C五、本 schema 与 Claude 候选指标交接 schema 的关系
两个 schema 都是 7 字段,但功能不同:
| Codex 候选指标交接 schema(生成新指标) | RCA 事件归档 schema(修复出问题的指标) | |
|---|---|---|
| 字段 | mentor / indicator_name / source_claim / frequency / formula / acceptable_proxy / must_not_proxy_with | incident_id / detected_at / symptom / root_cause / fix_action / prevention_rule / recurrence_check |
| 时点 | 添加新指标前 | 现有指标出问题后 |
| 主理 | Claude 生成草稿 + Codex 审定 | Codex 主理 |
二者通过 05 自我进化闭环架构_v1_20260429 循环 C 的 patterns_index 互通。
最后更新:2026-04-29