自我进化闭环架构 v1.0

核心命题:自我进化不是目标,是问题驱动+知识库累积的自然结果。这套架构不发明新机制,而是把已经在 finance/宏观智库 项目里跑通的循环固化下来,让它能(1)自动维护 thinktank 监测系统、(2)持续优化 dossier+PV 表+Wiki、(3)跨域复用到生物/心理学。

关键证据:2026-04-29 当天,20 张 PV 表(占总数 51%)经历了 v1→v3→v4 三次审计迭代,每张表的 audit_log 字段记录了”Codex 找出 X 幻觉/Y 数值/Z 遗漏,Gemini 找出 …,回扫又发现 …”的具体迭代轨迹。这就是闭环的实证。


一、闭环全图

┌─────────────────────────────────────────────────────────────────┐
│                      问题驱动入口                                │
│  (1) 用户/读者反馈   (2) thinktank 监测异常   (3) 新素材入库    │
└──────┬──────────────────────────────────────────────────────────┘
       │
       ▼
┌──────────────────┐         ┌──────────────────┐
│  循环 A          │ 触发   │   循环 B           │
│  RCA 自动化运维  │◄───────►│   PV/Dossier 审计  │
│  (Codex 主理)    │         │   (Claude+双审)    │
└──────────────────┘         └──────────────────┘
       ▲                              ▲
       │                              │
       │ 共享 incidents/audit logs    │
       ▼                              ▼
┌──────────────────────────────────────────────────────────────────┐
│  循环 C:知识库累积(本架构的"记忆"层)                          │
│  - incidents/                <- 来自循环 A                       │
│  - audit_logs/               <- 来自循环 B                       │
│  - patterns_index.md         <- 累积出的失败模式 + 修正规则      │
└──────────────────────────────────────────────────────────────────┘
       │
       ▼
┌──────────────────┐         ┌──────────────────┐
│  循环 D          │         │   循环 E          │
│  公开发布层       │ 反馈    │   影响力追踪       │
│  (Wiki/Substack) │ ◄─────► │   (citations/PV)  │
└──────────────────┘         └──────────────────┘
       │                              │
       └──────────┬───────────────────┘
                  ▼
       ┌──────────────────────┐
       │  循环 F:跨域扩展     │
       │  (生物/心理学/其他)  │
       └──────────────────────┘

二、六个循环的具体定义

循环 A:RCA 自动化运维(Codex 主理)

目的:thinktank 监测系统 24×7 自动化。任何 bug 检出 → 自动诊断 → 修复 → 写入结构化 RCA 记录,让”运维大脑”逐月增强。

触发

  • daily smoke 任何 indicator 出 failures > 0warnings > 0
  • consensus_star_audit / proxy_mapping_audit 出现新 issue
  • live coverage 突然下降(当前基线 881/1584=55.6%,high-star 95%+)

输出工件

  • ~/Documents/学习/03_工具系统/AI与技术/CloudProjects/宋鸿兵_监控系统/incidents/<incident_id>.json
  • 每条记录用 06 RCA 事件归档 schema 七字段格式

Claude 在此循环的角色不动——这是 Codex 专属。Claude 只在内容侧(指标定义/source_claim/口径)按 7 字段 schema 移交候选。


循环 B:PV 表 + Dossier 审计(Claude+双审)

目的:金融领域已有 39 张 PV 表 + 36 个导师 dossier。每张/每位都需经过”生成→双审→应用→回扫”四步。

已跑通的实证(2026-04-29 当天):

  • 20 张 PV 表完成 v3/v4 迭代
  • 平均每张表:Codex 找 ~9 幻觉/6 数值/8 遗漏;Gemini 找 ~3 幻觉/2 数值/4 遗漏(部分重叠)
  • 命题数 v1→v3:14 → 28-34 条(约翻倍),且幻觉率 ~36% → ~0%
  • 典型错误模式(已成累积模式):
    1. 时点穿越(用 v(n+1) 事实背书 v(n) 课程录制窗口)
    2. 案例错配(茅台 vs 阿里巴巴;亚马逊 AWS vs 阿里)
    3. 概念截断(六赛道简写为 CRO/CDMO)
    4. 拼接幻觉(把不同导师/不同时间的判断合并成一条)
    5. 数据来源不明(Wind/Bloomberg/Codex 工程缺口元数据混入命题层)

输出工件

  • 每张 PV 表的 audit_log frontmatter 字段(已有标准)
  • 04 指标监测/_audit_logs/<mentor>_<artifact>_<reviewer>_<date>.md 归档原始审计
  • 07 PV 表审计 SOP 文件描述完整四步流程

Claude 角色主理——抽取 + 应用审计反馈 + 写 v3/v4。 Codex/Gemini 角色:独立审计,产出”幻觉/数值/遗漏”清单。


循环 C:知识库累积(“记忆”层)

目的:把循环 A/B 的输出累积成可被未来 Agent 调用的”集体记忆”。Codex/Claude 在做新工作前必须先 grep 这个层。

两份核心索引

incidents_index.md        ← 服务循环 A
patterns_index.md         ← 服务循环 B

incidents_index.md 字段(6 个月一次更新):

| date | category | 重复出现次数 | 标准应对 | reference incident |

patterns_index.md 字段(基于 PV 表审计累积):

| 错误模式 | 出现频次 | 典型案例 | 防御规则 | 应嵌入哪个 SOP |

初始 patterns_index 已有 5 类(来自今天双审):

  1. 时点穿越 → 防御:每张 PV 表必须 frontmatter 锁定 recording_period + 显式标注”禁止使用 X 之后事实”
  2. 案例错配 → 防御:每条命题至少标注 1 个具体源材料编号(B1/B2/dossier-XX_denoised)
  3. 概念截断 → 防御:源原文有清单/编号的命题必须按完整原文列出
  4. 拼接幻觉 → 防御:跨导师互补必须有 dossier-04 或 03 主题对照原文支持
  5. 数据来源不明 → 防御:所有 thinktank/工程元数据走单独段落”★ Codex 候选指标交接清单”,不进命题层

循环 D:公开发布层(Wiki + Substack)

目的:把内部加工层(dossier + PV 表 + 因果链)做成公开可被引用的资产。没有公开就没有外部反馈,没有外部反馈进化就只是内部循环

已就位

  • wiki.zarrddd.net Wiki 站(Cloudflare Worker Assets + DO 备份双层)
  • 285 篇 markdown / 625 静态文件
  • 标题:宏观智库 Wiki | 20 位导师 × 1584 指标 × 7 条因果链

还缺的发布动作

  1. Substack 频道:每周 1-2 篇基于 PV 表的”导师视角速读”——把 PV 表里的高置信命题包装成可读文章
  2. 微博/X/小红书:导流到 Wiki 的轻量内容
  3. Twitter/X 账户:英文版关键命题摘要(GEO 效应:让 AI 引用)
  4. AI 引用追踪:监测 Claude/ChatGPT/Perplexity/豆包/Kimi 等被问及”宋鸿兵美元环流”等命题时是否引用 wiki.zarrddd.net

Claude 角色:基于 PV 表内容生成 Substack 草稿(按 01 形势研判提问模板 格式)。 用户角色:人格上场(Substack 必须是真人发声,不能纯 AI)。 Codex 角色:维护发布通道与监测站。


循环 E:影响力追踪(外部反馈接入)

目的:建立”系统是否真在被用”的客观度量。这是循环 D→F 的桥梁。

核心指标三层

指标监测频率数据源
流量层wiki.zarrddd.net DAU/PV/dwell timeCloudflare Analytics
引用层被外部 AI(Claude/GPT/Perplexity)问及”美元环流”时是否引用 wiki.zarrddd.net人工/Codex 自动化测试
反馈层Substack 评论 / 微信公众号留言 / 邮件 / Telegram 反馈实时多渠道汇集

输出工件

触发反向流入

  • 反馈中出现的”事实更正” → 进入循环 B 的 audit_log
  • 反馈中出现的”指标缺口” → 进入循环 A 的 incidents
  • 反馈中出现的”新议题” → 进入循环 F(跨域扩展)

循环 F:跨域扩展(生物 / 心理学 / 其他)

目的:finance 这套架构能直接复用到任何”有导师/有方法论/有指标”的领域。最大化复用,最小化重新发明。

复用 vs 领域特定的明确切分

类型通用性备注
流水线(去噪→晶化→织网→风格→适配→质检)通用100% 复用已固化在 ~/.claude/agents/
dossier 6 件结构(00 总览/01 决策树/02 案例库/03 指标手册/04 框架边界/90 来源索引)通用100% 复用模板已建
PV 表 8 字段(命题/内容/验证方式/证据/来源/置信度等)通用100% 复用finance 已验证
跨导师因果链(链 1-7)通用结构 + 领域填充80%主链改为”机制层→细分层”
双审 SOP(Claude+Codex+Gemini)通用100% 复用详见 07 PV 表审计 SOP
实时数据接入(thinktank)通用结构 + 领域填充70%finance 是金融指标;生物可能是生物标志物/论文计量;心理学可能是问卷/实验结果
导师选择 + 语料形态领域特定0%各领域独立定义
指标体系领域特定0%各领域独立定义

详见 09 跨学科扩展模板


三、角色分工矩阵

循环Claude(内容侧)Codex(生产侧)Gemini(独立审计)User(决策侧)Reader(反馈侧)
A RCA不参与主理偶尔交叉验证授权 + 优先级
B PV 审计主理独立审计独立审计抽查 + 决策
C 知识库写入 patterns写入 incidents抽查
D 公开发布草稿 + Wiki 同步部署运维真人发声接收
E 影响力内容侧分析反馈工程侧采集数据决策响应驱动力
F 跨域框架迁移监测平台迁移跨域审计领域选择反馈引导

铁律

  • Codex 不动 dossier/PV 表/Wiki 内容;Claude 不动 thinktank 服务器代码与部署
  • 双审为强制——任何 PV 表/dossier 没有 audit_log 字段就不能进入 Wiki 公开层
  • 用户保留所有跨域扩展决策权(生物先做还是心理学先做不由 Agent 决定)

四、闭环健康度三大 KPI

不要做”无目标自我进化”——必须用以下 KPI 判断闭环是否真在工作:

KPI当前基线(2026-04-29)目标值(90 天)退化触发
PV 表平均幻觉率(Codex 标注的硬错误占比)v1 ~36% → v3 ~5%<2%任何新表 v3 仍 >10%
thinktank live indicator 覆盖率881/1584=55.6%(4-5 星 95%)live 1000+ / 4-5 星 ≥97%出现任何 4-5 星指标永久缺口
Wiki 外部引用0(DNS 刚就位)≥10 次(被 AI/读者引用)30 天内为 0

每月用户和 Claude/Codex 一起回顾这三项 → 退化时进入循环 A 或 B 修复。


五、本架构与 EvoAgentX/学术 self-evolving 项目的差异

维度EvoAgentX/Self-Refine 等本架构
进化机制算法驱动(GEPA/AFlow/MIPRO)问题驱动 + 累积记忆 + 双审强制
数据集静态 benchmark真实用户反馈 + 真实 bug
优化目标单一指标(accuracy/score)3 KPI 平衡(准确率+覆盖率+引用度)
失败处理黑箱回滚结构化 RCA + patterns_index 累积
跨域可移植需重新训练流水线+模板 100% 复用,领域特定层 0% 复用

简言之:学术项目擅长”机制原理”,本架构胜在”实战可累积+生产可部署+跨域可移植”。


六、子模块文件清单

文件职责
06 RCA 事件归档 schema循环 A 的标准记录格式
07 PV 表审计 SOP循环 B 的四步流程
08 Wiki 影响力追踪 schema循环 E 的指标采集
09 跨学科扩展模板循环 F 的迁移指南
01 形势研判提问模板(已有)Wiki 公开层内容生产模板
02 异常触发检查单(已有)循环 A 的人工对照表
03 Perplexity Computer 数据将军指令(已有)数据采集自动化
04 Telegram 桥 · 三层闭环(已有)反馈通道

七、本架构的元约束(critically important)

  1. 不要把”自我进化”当目标本身——目标永远是”解决某类真实问题”。进化是过程产物。
  2. 不要无限优化——3 KPI 退化才触发;KPI 平稳时 Agent 不动。
  3. 不要在金融领域产出公开影响前扩展到生物/心理学——这是用户已自陈的”高认知低产出”陷阱的最大风险点。
  4. 不要让 Codex 和 Claude 越界——边界铁律见 ~/.claude/projects/-Users-mengjunxu/memory/feedback_codex_claude_boundary.md
  5. 不要忘记 audit_log——任何 PV 表/dossier 没有 audit_log 不进 Wiki 公开层。

最后更新:2026-04-29