自我进化闭环架构 v1.0
核心命题:自我进化不是目标,是问题驱动+知识库累积的自然结果。这套架构不发明新机制,而是把已经在 finance/宏观智库 项目里跑通的循环固化下来,让它能(1)自动维护 thinktank 监测系统、(2)持续优化 dossier+PV 表+Wiki、(3)跨域复用到生物/心理学。
关键证据:2026-04-29 当天,20 张 PV 表(占总数 51%)经历了 v1→v3→v4 三次审计迭代,每张表的 audit_log 字段记录了”Codex 找出 X 幻觉/Y 数值/Z 遗漏,Gemini 找出 …,回扫又发现 …”的具体迭代轨迹。这就是闭环的实证。
一、闭环全图
┌─────────────────────────────────────────────────────────────────┐
│ 问题驱动入口 │
│ (1) 用户/读者反馈 (2) thinktank 监测异常 (3) 新素材入库 │
└──────┬──────────────────────────────────────────────────────────┘
│
▼
┌──────────────────┐ ┌──────────────────┐
│ 循环 A │ 触发 │ 循环 B │
│ RCA 自动化运维 │◄───────►│ PV/Dossier 审计 │
│ (Codex 主理) │ │ (Claude+双审) │
└──────────────────┘ └──────────────────┘
▲ ▲
│ │
│ 共享 incidents/audit logs │
▼ ▼
┌──────────────────────────────────────────────────────────────────┐
│ 循环 C:知识库累积(本架构的"记忆"层) │
│ - incidents/ <- 来自循环 A │
│ - audit_logs/ <- 来自循环 B │
│ - patterns_index.md <- 累积出的失败模式 + 修正规则 │
└──────────────────────────────────────────────────────────────────┘
│
▼
┌──────────────────┐ ┌──────────────────┐
│ 循环 D │ │ 循环 E │
│ 公开发布层 │ 反馈 │ 影响力追踪 │
│ (Wiki/Substack) │ ◄─────► │ (citations/PV) │
└──────────────────┘ └──────────────────┘
│ │
└──────────┬───────────────────┘
▼
┌──────────────────────┐
│ 循环 F:跨域扩展 │
│ (生物/心理学/其他) │
└──────────────────────┘
二、六个循环的具体定义
循环 A:RCA 自动化运维(Codex 主理)
目的:thinktank 监测系统 24×7 自动化。任何 bug 检出 → 自动诊断 → 修复 → 写入结构化 RCA 记录,让”运维大脑”逐月增强。
触发:
- daily smoke 任何 indicator 出
failures > 0或warnings > 0 - consensus_star_audit / proxy_mapping_audit 出现新 issue
- live coverage 突然下降(当前基线 881/1584=55.6%,high-star 95%+)
输出工件:
~/Documents/学习/03_工具系统/AI与技术/CloudProjects/宋鸿兵_监控系统/incidents/<incident_id>.json- 每条记录用 06 RCA 事件归档 schema 七字段格式
Claude 在此循环的角色:不动——这是 Codex 专属。Claude 只在内容侧(指标定义/source_claim/口径)按 7 字段 schema 移交候选。
循环 B:PV 表 + Dossier 审计(Claude+双审)
目的:金融领域已有 39 张 PV 表 + 36 个导师 dossier。每张/每位都需经过”生成→双审→应用→回扫”四步。
已跑通的实证(2026-04-29 当天):
- 20 张 PV 表完成 v3/v4 迭代
- 平均每张表:Codex 找 ~9 幻觉/6 数值/8 遗漏;Gemini 找 ~3 幻觉/2 数值/4 遗漏(部分重叠)
- 命题数 v1→v3:14 → 28-34 条(约翻倍),且幻觉率 ~36% → ~0%
- 典型错误模式(已成累积模式):
- 时点穿越(用 v(n+1) 事实背书 v(n) 课程录制窗口)
- 案例错配(茅台 vs 阿里巴巴;亚马逊 AWS vs 阿里)
- 概念截断(六赛道简写为 CRO/CDMO)
- 拼接幻觉(把不同导师/不同时间的判断合并成一条)
- 数据来源不明(Wind/Bloomberg/Codex 工程缺口元数据混入命题层)
输出工件:
- 每张 PV 表的
audit_logfrontmatter 字段(已有标准) 04 指标监测/_audit_logs/<mentor>_<artifact>_<reviewer>_<date>.md归档原始审计- 07 PV 表审计 SOP 文件描述完整四步流程
Claude 角色:主理——抽取 + 应用审计反馈 + 写 v3/v4。 Codex/Gemini 角色:独立审计,产出”幻觉/数值/遗漏”清单。
循环 C:知识库累积(“记忆”层)
目的:把循环 A/B 的输出累积成可被未来 Agent 调用的”集体记忆”。Codex/Claude 在做新工作前必须先 grep 这个层。
两份核心索引:
incidents_index.md ← 服务循环 A
patterns_index.md ← 服务循环 B
incidents_index.md 字段(6 个月一次更新):
| date | category | 重复出现次数 | 标准应对 | reference incident |
patterns_index.md 字段(基于 PV 表审计累积):
| 错误模式 | 出现频次 | 典型案例 | 防御规则 | 应嵌入哪个 SOP |
初始 patterns_index 已有 5 类(来自今天双审):
- 时点穿越 → 防御:每张 PV 表必须 frontmatter 锁定
recording_period+ 显式标注”禁止使用 X 之后事实” - 案例错配 → 防御:每条命题至少标注 1 个具体源材料编号(B1/B2/dossier-XX_denoised)
- 概念截断 → 防御:源原文有清单/编号的命题必须按完整原文列出
- 拼接幻觉 → 防御:跨导师互补必须有 dossier-04 或 03 主题对照原文支持
- 数据来源不明 → 防御:所有 thinktank/工程元数据走单独段落”★ Codex 候选指标交接清单”,不进命题层
循环 D:公开发布层(Wiki + Substack)
目的:把内部加工层(dossier + PV 表 + 因果链)做成公开可被引用的资产。没有公开就没有外部反馈,没有外部反馈进化就只是内部循环。
已就位:
- wiki.zarrddd.net Wiki 站(Cloudflare Worker Assets + DO 备份双层)
- 285 篇 markdown / 625 静态文件
- 标题:宏观智库 Wiki | 20 位导师 × 1584 指标 × 7 条因果链
还缺的发布动作:
- Substack 频道:每周 1-2 篇基于 PV 表的”导师视角速读”——把 PV 表里的高置信命题包装成可读文章
- 微博/X/小红书:导流到 Wiki 的轻量内容
- Twitter/X 账户:英文版关键命题摘要(GEO 效应:让 AI 引用)
- AI 引用追踪:监测 Claude/ChatGPT/Perplexity/豆包/Kimi 等被问及”宋鸿兵美元环流”等命题时是否引用 wiki.zarrddd.net
Claude 角色:基于 PV 表内容生成 Substack 草稿(按 01 形势研判提问模板 格式)。 用户角色:人格上场(Substack 必须是真人发声,不能纯 AI)。 Codex 角色:维护发布通道与监测站。
循环 E:影响力追踪(外部反馈接入)
目的:建立”系统是否真在被用”的客观度量。这是循环 D→F 的桥梁。
核心指标三层:
| 层 | 指标 | 监测频率 | 数据源 |
|---|---|---|---|
| 流量层 | wiki.zarrddd.net DAU/PV/dwell time | 日 | Cloudflare Analytics |
| 引用层 | 被外部 AI(Claude/GPT/Perplexity)问及”美元环流”时是否引用 wiki.zarrddd.net | 周 | 人工/Codex 自动化测试 |
| 反馈层 | Substack 评论 / 微信公众号留言 / 邮件 / Telegram 反馈 | 实时 | 多渠道汇集 |
输出工件:
04 指标监测/17 Wiki 影响力追踪.md(待建)- 详见 08 Wiki 影响力追踪 schema
触发反向流入:
- 反馈中出现的”事实更正” → 进入循环 B 的 audit_log
- 反馈中出现的”指标缺口” → 进入循环 A 的 incidents
- 反馈中出现的”新议题” → 进入循环 F(跨域扩展)
循环 F:跨域扩展(生物 / 心理学 / 其他)
目的:finance 这套架构能直接复用到任何”有导师/有方法论/有指标”的领域。最大化复用,最小化重新发明。
复用 vs 领域特定的明确切分:
| 层 | 类型 | 通用性 | 备注 |
|---|---|---|---|
| 流水线(去噪→晶化→织网→风格→适配→质检) | 通用 | 100% 复用 | 已固化在 ~/.claude/agents/ |
| dossier 6 件结构(00 总览/01 决策树/02 案例库/03 指标手册/04 框架边界/90 来源索引) | 通用 | 100% 复用 | 模板已建 |
| PV 表 8 字段(命题/内容/验证方式/证据/来源/置信度等) | 通用 | 100% 复用 | finance 已验证 |
| 跨导师因果链(链 1-7) | 通用结构 + 领域填充 | 80% | 主链改为”机制层→细分层” |
| 双审 SOP(Claude+Codex+Gemini) | 通用 | 100% 复用 | 详见 07 PV 表审计 SOP |
| 实时数据接入(thinktank) | 通用结构 + 领域填充 | 70% | finance 是金融指标;生物可能是生物标志物/论文计量;心理学可能是问卷/实验结果 |
| 导师选择 + 语料形态 | 领域特定 | 0% | 各领域独立定义 |
| 指标体系 | 领域特定 | 0% | 各领域独立定义 |
详见 09 跨学科扩展模板。
三、角色分工矩阵
| 循环 | Claude(内容侧) | Codex(生产侧) | Gemini(独立审计) | User(决策侧) | Reader(反馈侧) |
|---|---|---|---|---|---|
| A RCA | 不参与 | 主理 | 偶尔交叉验证 | 授权 + 优先级 | — |
| B PV 审计 | 主理 | 独立审计 | 独立审计 | 抽查 + 决策 | — |
| C 知识库 | 写入 patterns | 写入 incidents | — | 抽查 | — |
| D 公开发布 | 草稿 + Wiki 同步 | 部署运维 | — | 真人发声 | 接收 |
| E 影响力 | 内容侧分析反馈 | 工程侧采集数据 | — | 决策响应 | 驱动力 |
| F 跨域 | 框架迁移 | 监测平台迁移 | 跨域审计 | 领域选择 | 反馈引导 |
铁律:
- Codex 不动 dossier/PV 表/Wiki 内容;Claude 不动 thinktank 服务器代码与部署
- 双审为强制——任何 PV 表/dossier 没有 audit_log 字段就不能进入 Wiki 公开层
- 用户保留所有跨域扩展决策权(生物先做还是心理学先做不由 Agent 决定)
四、闭环健康度三大 KPI
不要做”无目标自我进化”——必须用以下 KPI 判断闭环是否真在工作:
| KPI | 当前基线(2026-04-29) | 目标值(90 天) | 退化触发 |
|---|---|---|---|
| PV 表平均幻觉率(Codex 标注的硬错误占比) | v1 ~36% → v3 ~5% | <2% | 任何新表 v3 仍 >10% |
| thinktank live indicator 覆盖率 | 881/1584=55.6%(4-5 星 95%) | live 1000+ / 4-5 星 ≥97% | 出现任何 4-5 星指标永久缺口 |
| Wiki 外部引用 | 0(DNS 刚就位) | ≥10 次(被 AI/读者引用) | 30 天内为 0 |
每月用户和 Claude/Codex 一起回顾这三项 → 退化时进入循环 A 或 B 修复。
五、本架构与 EvoAgentX/学术 self-evolving 项目的差异
| 维度 | EvoAgentX/Self-Refine 等 | 本架构 |
|---|---|---|
| 进化机制 | 算法驱动(GEPA/AFlow/MIPRO) | 问题驱动 + 累积记忆 + 双审强制 |
| 数据集 | 静态 benchmark | 真实用户反馈 + 真实 bug |
| 优化目标 | 单一指标(accuracy/score) | 3 KPI 平衡(准确率+覆盖率+引用度) |
| 失败处理 | 黑箱回滚 | 结构化 RCA + patterns_index 累积 |
| 跨域可移植 | 需重新训练 | 流水线+模板 100% 复用,领域特定层 0% 复用 |
简言之:学术项目擅长”机制原理”,本架构胜在”实战可累积+生产可部署+跨域可移植”。
六、子模块文件清单
| 文件 | 职责 |
|---|---|
| 06 RCA 事件归档 schema | 循环 A 的标准记录格式 |
| 07 PV 表审计 SOP | 循环 B 的四步流程 |
| 08 Wiki 影响力追踪 schema | 循环 E 的指标采集 |
| 09 跨学科扩展模板 | 循环 F 的迁移指南 |
| 01 形势研判提问模板(已有) | Wiki 公开层内容生产模板 |
| 02 异常触发检查单(已有) | 循环 A 的人工对照表 |
| 03 Perplexity Computer 数据将军指令(已有) | 数据采集自动化 |
| 04 Telegram 桥 · 三层闭环(已有) | 反馈通道 |
七、本架构的元约束(critically important)
- 不要把”自我进化”当目标本身——目标永远是”解决某类真实问题”。进化是过程产物。
- 不要无限优化——3 KPI 退化才触发;KPI 平稳时 Agent 不动。
- 不要在金融领域产出公开影响前扩展到生物/心理学——这是用户已自陈的”高认知低产出”陷阱的最大风险点。
- 不要让 Codex 和 Claude 越界——边界铁律见
~/.claude/projects/-Users-mengjunxu/memory/feedback_codex_claude_boundary.md。 - 不要忘记 audit_log——任何 PV 表/dossier 没有 audit_log 不进 Wiki 公开层。
最后更新:2026-04-29