探索 PE faithfulness 指标(N6 思想 → R-PE 工程化)
Evaluation modality
Spec-levelA spec-motivation / governance borrow. Evaluated by spec review + contract tests, not A/B or ablation.
- Primary owner
- —
- Phase-A verdict
- —
- Shadow profile
- —
- Source papers
- N6 Y. Chen/Schulman/Leike/Perez 2025
- Specs
- docs/specs/prediction-error-loop.md
Blind spot (现状盲点)
VZ 的 R-PE 路线宣称"PE 是一级原始信号,控制器响应 PE 而非 token"。但**这个忠实性从未被量化**。N6 把同一个问题在 LLM 的 CoT 上做出了基线实证:CoT 大多数情况下不忠实反映 hint 的使用(reveal rate 多在 1-20%)。如果我们不引入 PE faithfulness 测量指标,永远无法回答"我们的 metacontroller 真的在响应 PE 吗,还是 PE 只是装饰"这个根本问题。
Adoptable suggestions (可落地动作)
- 1.给同一 input 构造两个版本:低 PE upstream 和高 PE upstream(通过控制 user_model / belief_assumption 等 owner 状态实现)。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.
- 2.验证 metacontroller 的 z_t / β_t **明显反映**这种 PE 差异(不只是均值不同,整个分布响应应可统计区分)。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.
- 3.度量 PE faithfulness = "高 PE 时控制器响应改变" 的统计频率。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.
- 4.验收阈值:metacontroller 的 PE faithfulness > 80%(远高于 N6 中 LLM CoT faithfulness 多在 1-20%,因为 z_t 在控制器空间,不应被 token 空间表面分布操控)。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.
- 5.这个指标本身**就是 VZ 路线"内部诚信度"的可测信号**——可以反过来当 R-PE 健康度的 dashboard。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.
Traceability
No plugins / runs linked yet. Scaffold a suggestion to start.
Expected benefit (预期收益)
- 把 R-PE 路线的"PE 是真实驱动信号"从信念升级为可测指标。 - 与 DM-1 (distributional PE) 联动:distributional PE 提供更丰富的输入信号,PE faithfulness 测量该信号是否真的驱动控制器。 - 一旦此指标走低,立即可作为 R-PE 链路出问题的早期警报(远比"用户抱怨"早得多)。
Cited paper (引用论文)
**N6. Y. Chen, J. Benton, ..., J. Schulman, J. Leike, E. Perez (Anthropic). *Reasoning Models Don't Always Say What They Think*. arXiv:2505.05410, 2025.**(同 OA-1 引用) - 关键观点:N6 提供的 pair-based faithfulness 测量方法(同一输入,控制 hint 是否出现,看 CoT 是否 verbalize 该 hint)可以直接迁移到我们的 PE 链路(同一输入,控制 PE upstream 是否高,看 z_t/β_t 是否变化)。**outcome-based RL 提升 faithfulness 但有 plateau**——意味着 PE faithfulness 不会自动达到 100%,必须主动测、主动维持。 ---