RCA 事件归档 schema

谁用这个:Codex 在 thinktank 监测系统出现任何 issue 时,按本 schema 写入 ~/Documents/学习/03_工具系统/AI与技术/CloudProjects/宋鸿兵_监控系统/incidents/<incident_id>.json不是临时邮件、不是 Slack 消息、不是 commit message

一、文件格式(JSON)

每一条事件 = 一个 JSON 文件,文件名格式 <YYYYMMDD>_<short_slug>.json

{
  "incident_id": "20260429_dxy_proxy_drift",
  "detected_at": "2026-04-29T08:14:23+08:00",
  "detected_by": "smoke|semantic_audit|proxy_mapping_audit|consensus_star_audit|user_report|claude",
  "severity": "low|medium|high|critical",
  "scope": {
    "affected_indicators": ["FRED_DXY_INDEX", "..."],
    "affected_mentors": ["付鹏", "..."],
    "affected_audits": ["proxy_mapping_audit"]
  },
  "symptom": "DXY 实时值 vs 官方 ICE 数据偏离 0.5%(容忍 0.2%)",
  "root_cause": "上游数据源 yahoo/DX-Y.NYB 遇到 30 秒延迟回传,触发 stale 容忍",
  "fix_action": "增加 fred/DTWEXBGS 作为冗余源,并在 server.js 中实现两源中位数",
  "files_changed": [
    "/www/macro-think-tank-monitor/api/custom_sources.js",
    "/www/macro-think-tank-monitor/api/data_map.js"
  ],
  "verification": {
    "smoke_status": "pass",
    "deviation_post_fix": "0.08%"
  },
  "prevention_rule": "DXY 类核心实时指标必须双源中位数;任何单源延迟 >15 秒触发 fallback",
  "recurrence_check": {
    "applies_to": ["DXY-class indicators with single source"],
    "patterns_to_grep": ["yahoo/", "single_source"],
    "next_audit_extra_check": "在 proxy_mapping_audit 中加 'single source >15s stale' 检查"
  },
  "related_incidents": ["20260415_libor_legacy_drift"],
  "claude_can_help_with": "如发现 prevention_rule 类似已存在于 patterns_index,触发循环 C 累积更新",
  "tags": ["data_source", "stale", "redundancy"]
}

二、七大字段语义

字段必填含义示例
incident_id唯一标识20260429_dxy_proxy_drift
detected_atISO 8601 + 时区2026-04-29T08:14:23+08:00
symptom现象描述(事实层)——不带推断”实时值偏离官方 0.5%“
root_cause根因(推断层)——具体到机制”yahoo 源 30 秒延迟”
fix_action实际操作”增加 fred 冗余源 + 中位数”
prevention_rule防范规则(高层)——可被未来其他指标复用”DXY 类必须双源中位数”
recurrence_check在哪些指标/模式中要 grep 警惕["yahoo/", "single_source"]

三、严重等级(severity)定义

等级触发条件响应时限升级路径
low单个指标 stale/proxy;不影响 4-5 星24hCodex 自处理
medium4-5 星指标值偏离 >0.5%;smoke warnings >04hCodex 处理 + 写入 incidents
highsmoke failures >0;core indicator(DXY/SOFR/准备金)失效1hCodex 处理 + 通知用户
criticalthinktank 整站不可达 / 数据库损坏 / 大量指标错位即时立即响应 + 用户介入

四、月度索引文件

每月底 Codex 生成 incidents_index_YYYY-MM.md

# Incidents Index 2026-04
 
## 概览
- 总 incidents: 12
- low/medium/high/critical: 7/3/2/0
- 最常出现 root_cause 类别: data_source_stale (5 次)
 
## Top 3 复发模式
1. **yahoo 源 stale**(5 次)→ 已升级 prevention_rule 到全部 yahoo 类指标
2. **NBS 子页面 parser 失败**(3 次)→ 增加 retry+exponential backoff
3. **CFTC 数据延迟披露**(2 次)→ 接受 8h tolerance
 
## 本月新增 prevention_rules
- DXY 类双源中位数
- yahoo stale >15s fallback
- NBS parser retry policy
 
## 累积 patterns_index 同步状态
- 已同步至 [[../05 作战手册/05 自我进化闭环架构]] 循环 C

五、本 schema 与 Claude 候选指标交接 schema 的关系

两个 schema 都是 7 字段,但功能不同:

Codex 候选指标交接 schema(生成新指标)RCA 事件归档 schema(修复出问题的指标)
字段mentor / indicator_name / source_claim / frequency / formula / acceptable_proxy / must_not_proxy_withincident_id / detected_at / symptom / root_cause / fix_action / prevention_rule / recurrence_check
时点添加新指标前现有指标出问题后
主理Claude 生成草稿 + Codex 审定Codex 主理

二者通过 05 自我进化闭环架构_v1_20260429 循环 C 的 patterns_index 互通。


最后更新:2026-04-29