PV 表 + Dossier 审计 SOP
本 SOP 不是设想出来的,是 2026-04-29 当天用户带 Codex+Gemini 实际跑通 20 张 PV 表的事实流程。我把它固化下来,让以后所有 PV 表/dossier/跨域文档(生物/心理学等)按同一流程走。
一、四步流程
Step 1:v1 抽取(Claude 主理)
输入:
- 导师 dossier 5 件(00 总览 / 01 决策树 / 02 案例库 / 03 指标手册 / 04 框架边界)
- 该导师的 N 篇 _denoised.txt(从
01 来源文稿/<mentor>/取) - 必要时加 persona
输出:
04 指标监测/16 <mentor>框架命题验证表_<YYYYMMDD>.md- 标准 frontmatter:
---
title: <mentor>框架命题验证表
date_generated: <YYYYMMDD>
extraction_method: Claude Opus 4.7 直接抽取自 dossier N 件 + M 篇 _denoised
audit_method: 待 v2
total_propositions: <数量>
recording_period: <严格的录制窗口,禁止超出>
domain: <本 PV 表覆盖的领域>
purpose: <一句话目的>
audit_log: |
v1(YYYY-MM-DD):Claude Opus 4.7 抽取 N 条
---v1 标准命题数量:单个导师 14-20 条;合集(如周期品大师课)20-32 条。
v1 关键铁律:
- 每条命题必须有
[来源: dossier-XX 或 BN _denoised]标注 recording_period必须严格——不允许”约 2018-2024”等宽口径- 不能引用录制窗口之后的事实背书命题
Step 2:v2 双审(Codex + Gemini 独立平行)
为何两家:单家审会漏。今天 20 张表的统计:
- Codex 平均每张找 ~9 幻觉/6 数值/8 遗漏
- Gemini 平均每张找 ~3 幻觉/2 数值/4 遗漏
- 重叠率约 50%——剩下 50% 是单家独占
Codex 调用模板(用户已多次实操):
cat <pv_table_v1.md> | codex exec --skip-git-repo-check "你是金融知识审计师。请按以下三类找问题:
A. 幻觉(HALLUCINATION):源文中找不到对应表述
B. 数值错误(FACTUAL ERROR):日期/数值/单位与源材料不一致
C. 遗漏(MISSING):源材料中明确出现但未收录的命题
只输出问题清单,不重写表。中文。
不要执行任何 shell 命令,不扫描文件系统,仅基于我提供的 stdin 内容。"Gemini 调用模板(适配限流情况):
cat <pv_table_v1.md> | gemini -m gemini-3.1-pro-preview -p "<同上 prompt>"两家输出归档至:04 指标监测/_audit_logs/16 <mentor>_<reviewer>_<date>.md
Step 3:v3 应用(Claude 主理)
输入:v1 + Codex 审计 + Gemini 审计
操作清单(按今天 20 张表的实战模式):
-
删除幻觉——所有”无源”命题:
- 时点穿越(“2025 年继续验证…”但课程录于 2019)
- 案例错配(“亚马逊 AWS 从传媒变云计算” → 应是阿里)
- 概念截断(“六赛道简写为 CRO/CDMO” → 完整列出)
- 拼接幻觉(v1 把”金融脱实向虚”等总结性术语塞进导师明确未使用的位置)
-
修正数值——所有”数错”:
- dossier 件数(4 → 5)
- 时点(2018 高峰 NIM → 实际是 2013 前后高位)
- 阈值(双边 6.5-6.7 → 6.5-7)
-
补入遗漏——所有”漏”:
- 通常 14 条 → 28-34 条(约翻倍)
- 重点补”反例排除(COUNTER)“和”量化阈值(QUANT)“两类
-
更新 audit_log frontmatter:
audit_log: |
v1(YYYY-MM-DD):Claude Opus 4.7 抽取 N 条
v2(YYYY-MM-DD):Codex X 幻觉/Y 数值/Z 遗漏;Gemini A 幻觉/B 数值/C 遗漏
v3(YYYY-MM-DD,本版):应用全部审计反馈,得到 M 条Step 4:回扫 v4(双审再跑一次)
为何还要回扫:v3 在补遗漏时会引入新幻觉——今天 20 张表中至少 8 张在回扫中被发现新错误。
典型 v3→v4 修正模式:
- 名称篡改(六阶段名称被 AI 用通用术语替换)
- 概念硬错(SRF 上限/下限混淆;“M2-GDP”减号被改成除号)
- 案例脑补(v3 补遗漏时加了无源的”通策/锦欣”案例)
- 人名硬错(朱镕基/楼继伟/周小川”朱楼周”被理解成”楼市/周转”)
v4 frontmatter:
audit_log: |
v1(...):抽取 N 条
v2 双审(...):Codex/Gemini 各 X/Y 问题
v3(...):应用全部反馈,得到 M 条
回扫(...):双审再跑发现 Z 条新错误(v3 补遗漏时引入)
v4(...,本版):修正以上 Z 条核心错误,最终 P 条二、累积出的 5 类典型错误模式
(来自 05 自我进化闭环架构_v1_20260429 循环 C 的 patterns_index 初始版)
模式 1:时点穿越
症状:v1 用 2024-2025 事实背书 2019 课程
防御:frontmatter 写死 recording_period,每条命题在违反时点前都做”是否超出窗口”检查
典型案例:袁骏”QE Lambda”无源;张忆东”2018 茅台”应为阿里巴巴
模式 2:案例错配
症状:把著名案例错塞进错误导师/错误时间 防御:每条 HIST 类命题必须 grep 对应 _denoised 验证 典型案例:武超则”亚马逊 AWS 从传媒变云计算” → 应是阿里
模式 3:概念截断
症状:源里有 6 类清单,v1 写成 4 类简化版 防御:源原文有清单/编号 → 必须完整列出 典型案例:徐佳熹六赛道(创新药/仿制药/中药/原料药/连锁医疗/生物制品 → 简写为 CRO/CDMO 破坏 MECE)
模式 4:拼接幻觉
症状:把不同来源的判断合并成一条命题 防御:每条命题最多引用 1-2 个相邻来源;3+ 来源必须分拆 典型案例:嘉实基金”基金 6 年跑赢+80% 客户亏损”是把易方达蓝筹精选案例和肖觅观点拼接
模式 5:数据来源不明
症状:把”thinktank 已接入 X 条”等工程元数据写进命题层 防御:所有运营元数据(thinktank 状态/审计反馈/Codex 候选指标)走单独段落”★ Codex 候选指标交接清单” 典型案例:v1 多张 PV 表写”已大部分接入”(无 Codex 工程审定)
三、SOP 应用范围
3.1 finance 领域
- 39 张 PV 表全部应跑完 v1→v3→v4
- 当前进度:20/39(51%)
- 剩余 19 张待用户决策优先级(建议按 high_star_gaps 中导师覆盖率优先)
3.2 跨域复用
本 SOP 100% 通用——无论生物/心理学/任何领域:
- v1 抽取(Claude 读 dossier+原始素材)
- v2 双审(Codex+Gemini 独立审)
- v3 应用 + v4 回扫
- 错误模式索引随领域累积,但流程结构不变
详见 09 跨学科扩展模板。
四、KPI
| 指标 | v1 基线 | v3 目标 | 退化触发 |
|---|---|---|---|
| 单张表幻觉率 | ~36% | <2% | 任何 v3 表仍 >10% |
| Codex 标的硬错误数(每张) | ~9 | ≤1 | 出现 ≥3 → 必回扫 |
| 命题数 v1→v3 | 14 | 28-34 | <22 → 双审遗漏不足 |
五、相关链接
- 主架构:05 自我进化闭环架构_v1_20260429
- 标准模板(已经经过双审):16 宋鸿兵预测验证表_20260428、16 付鹏框架命题验证表_20260428
- Codex/Gemini 协作约束:
~/.claude/projects/-Users-mengjunxu/memory/feedback_codex_claude_boundary.md - 双审实证:见任意 PV 表的
audit_logfrontmatter 字段
最后更新:2026-04-29