PV 表 + Dossier 审计 SOP

本 SOP 不是设想出来的,是 2026-04-29 当天用户带 Codex+Gemini 实际跑通 20 张 PV 表的事实流程。我把它固化下来,让以后所有 PV 表/dossier/跨域文档(生物/心理学等)按同一流程走。

一、四步流程

Step 1:v1 抽取(Claude 主理)

输入:

  • 导师 dossier 5 件(00 总览 / 01 决策树 / 02 案例库 / 03 指标手册 / 04 框架边界)
  • 该导师的 N 篇 _denoised.txt(从 01 来源文稿/<mentor>/ 取)
  • 必要时加 persona

输出:

  • 04 指标监测/16 <mentor>框架命题验证表_<YYYYMMDD>.md
  • 标准 frontmatter:
---
title: <mentor>框架命题验证表
date_generated: <YYYYMMDD>
extraction_method: Claude Opus 4.7 直接抽取自 dossier N 件 + M 篇 _denoised
audit_method: 待 v2
total_propositions: <数量>
recording_period: <严格的录制窗口,禁止超出>
domain: <本 PV 表覆盖的领域>
purpose: <一句话目的>
audit_log: |
  v1(YYYY-MM-DD):Claude Opus 4.7 抽取 N 条
---

v1 标准命题数量:单个导师 14-20 条;合集(如周期品大师课)20-32 条。

v1 关键铁律

  • 每条命题必须有 [来源: dossier-XX 或 BN _denoised] 标注
  • recording_period 必须严格——不允许”约 2018-2024”等宽口径
  • 不能引用录制窗口之后的事实背书命题

Step 2:v2 双审(Codex + Gemini 独立平行)

为何两家:单家审会漏。今天 20 张表的统计:

  • Codex 平均每张找 ~9 幻觉/6 数值/8 遗漏
  • Gemini 平均每张找 ~3 幻觉/2 数值/4 遗漏
  • 重叠率约 50%——剩下 50% 是单家独占

Codex 调用模板(用户已多次实操):

cat <pv_table_v1.md> | codex exec --skip-git-repo-check "你是金融知识审计师。请按以下三类找问题:
A. 幻觉(HALLUCINATION):源文中找不到对应表述
B. 数值错误(FACTUAL ERROR):日期/数值/单位与源材料不一致
C. 遗漏(MISSING):源材料中明确出现但未收录的命题
 
只输出问题清单,不重写表。中文。
不要执行任何 shell 命令,不扫描文件系统,仅基于我提供的 stdin 内容。"

Gemini 调用模板(适配限流情况):

cat <pv_table_v1.md> | gemini -m gemini-3.1-pro-preview -p "<同上 prompt>"

两家输出归档至04 指标监测/_audit_logs/16 <mentor>_<reviewer>_<date>.md


Step 3:v3 应用(Claude 主理)

输入:v1 + Codex 审计 + Gemini 审计

操作清单(按今天 20 张表的实战模式):

  1. 删除幻觉——所有”无源”命题:

    • 时点穿越(“2025 年继续验证…”但课程录于 2019)
    • 案例错配(“亚马逊 AWS 从传媒变云计算” → 应是阿里)
    • 概念截断(“六赛道简写为 CRO/CDMO” → 完整列出)
    • 拼接幻觉(v1 把”金融脱实向虚”等总结性术语塞进导师明确未使用的位置)
  2. 修正数值——所有”数错”:

    • dossier 件数(4 → 5)
    • 时点(2018 高峰 NIM → 实际是 2013 前后高位)
    • 阈值(双边 6.5-6.7 → 6.5-7)
  3. 补入遗漏——所有”漏”:

    • 通常 14 条 → 28-34 条(约翻倍)
    • 重点补”反例排除(COUNTER)“和”量化阈值(QUANT)“两类
  4. 更新 audit_log frontmatter

audit_log: |
  v1(YYYY-MM-DD):Claude Opus 4.7 抽取 N 条
  v2(YYYY-MM-DD):Codex X 幻觉/Y 数值/Z 遗漏;Gemini A 幻觉/B 数值/C 遗漏
  v3(YYYY-MM-DD,本版):应用全部审计反馈,得到 M 条

Step 4:回扫 v4(双审再跑一次)

为何还要回扫:v3 在补遗漏时会引入新幻觉——今天 20 张表中至少 8 张在回扫中被发现新错误。

典型 v3→v4 修正模式:

  • 名称篡改(六阶段名称被 AI 用通用术语替换)
  • 概念硬错(SRF 上限/下限混淆;“M2-GDP”减号被改成除号)
  • 案例脑补(v3 补遗漏时加了无源的”通策/锦欣”案例)
  • 人名硬错(朱镕基/楼继伟/周小川”朱楼周”被理解成”楼市/周转”)

v4 frontmatter

audit_log: |
  v1(...):抽取 N 条
  v2 双审(...):Codex/Gemini 各 X/Y 问题
  v3(...):应用全部反馈,得到 M 条
  回扫(...):双审再跑发现 Z 条新错误(v3 补遗漏时引入)
  v4(...,本版):修正以上 Z 条核心错误,最终 P 条

二、累积出的 5 类典型错误模式

(来自 05 自我进化闭环架构_v1_20260429 循环 C 的 patterns_index 初始版)

模式 1:时点穿越

症状:v1 用 2024-2025 事实背书 2019 课程 防御:frontmatter 写死 recording_period,每条命题在违反时点前都做”是否超出窗口”检查 典型案例:袁骏”QE Lambda”无源;张忆东”2018 茅台”应为阿里巴巴

模式 2:案例错配

症状:把著名案例错塞进错误导师/错误时间 防御:每条 HIST 类命题必须 grep 对应 _denoised 验证 典型案例:武超则”亚马逊 AWS 从传媒变云计算” → 应是阿里

模式 3:概念截断

症状:源里有 6 类清单,v1 写成 4 类简化版 防御:源原文有清单/编号 → 必须完整列出 典型案例:徐佳熹六赛道(创新药/仿制药/中药/原料药/连锁医疗/生物制品 → 简写为 CRO/CDMO 破坏 MECE)

模式 4:拼接幻觉

症状:把不同来源的判断合并成一条命题 防御:每条命题最多引用 1-2 个相邻来源;3+ 来源必须分拆 典型案例:嘉实基金”基金 6 年跑赢+80% 客户亏损”是把易方达蓝筹精选案例和肖觅观点拼接

模式 5:数据来源不明

症状:把”thinktank 已接入 X 条”等工程元数据写进命题层 防御:所有运营元数据(thinktank 状态/审计反馈/Codex 候选指标)走单独段落”★ Codex 候选指标交接清单” 典型案例:v1 多张 PV 表写”已大部分接入”(无 Codex 工程审定)


三、SOP 应用范围

3.1 finance 领域

  • 39 张 PV 表全部应跑完 v1→v3→v4
  • 当前进度:20/39(51%)
  • 剩余 19 张待用户决策优先级(建议按 high_star_gaps 中导师覆盖率优先)

3.2 跨域复用

本 SOP 100% 通用——无论生物/心理学/任何领域:

  • v1 抽取(Claude 读 dossier+原始素材)
  • v2 双审(Codex+Gemini 独立审)
  • v3 应用 + v4 回扫
  • 错误模式索引随领域累积,但流程结构不变

详见 09 跨学科扩展模板


四、KPI

指标v1 基线v3 目标退化触发
单张表幻觉率~36%<2%任何 v3 表仍 >10%
Codex 标的硬错误数(每张)~9≤1出现 ≥3 → 必回扫
命题数 v1→v31428-34<22 → 双审遗漏不足

五、相关链接


最后更新:2026-04-29