Catalog
OA-2OAP0/SSpec-levelPROPOSED

在 expression-layer spec 形式化 Mind/Face 隔离

Evaluation modality

Spec-level

A spec-motivation / governance borrow. Evaluated by spec review + contract tests, not A/B or ablation.

Primary owner
Phase-A verdict
Shadow profile
Source papers
N3 Drori et al. 2025
Specs
docs/specs/expression-layer.md

Blind spot (现状盲点)

[`docs/specs/expression-layer.md`](../specs/expression-layer.md) 当前是否明确写出"expression layer LLM(Face)不接收任何 reward 梯度 / metacontroller(Mind)不直接生成 user-facing token / 任何 online update 不可跨这两层传播"?如果只是隐式约定,那么未来某个 PR 把 expression 层加上 fine-tune loop 时,没有契约测试会拦住——而 N3 已经实证 output-only 训练**也**会污染 CoT,意味着这个隔离边界一旦松动,整个 R4 优势会塌陷。

Adoptable suggestions (可落地动作)

  1. 1.在 [`docs/specs/expression-layer.md`](../specs/expression-layer.md) 新增"Mind/Face 隔离不变量"小节,明确写: - **不变量 1**:Expression layer LLM(Face)不接收任何 reward 梯度。 - **不变量 2**:Metacontroller(Mind,z_t / β_t)不直接生成 user-facing token。 - **不变量 3**:任何 online update 不可跨这两层传播。PROPOSED

    Not a runnable A/B candidate — evaluated by the path above, not ablation.

  2. 2.在 `tests/contracts/` 加新契约测试 `test_no_gradient_through_expression_layer.py`:在任何 online-update 路径调用前后断言 expression layer 的参数 hash 不变。PROPOSED

    Not a runnable A/B candidate — evaluated by the path above, not ablation.

  3. 3.与 OA-9(PE faithfulness)联动:Mind 的 z_t/β_t 决策应**忠实地**反映 PE upstream 信号——如果不变量 2/3 被破坏,PE faithfulness 必然崩塌。PROPOSED

    Not a runnable A/B candidate — evaluated by the path above, not ablation.

Traceability

No plugins / runs linked yet. Scaffold a suggestion to start.

Expected benefit (预期收益)

- 把 R4(内部控制不在 token 空间)从"哲学立场"升级为"可机器验证的不变量"。 - 任何未来想做 "Face 层端到端 fine-tune" 的提议会立刻被 CI 拦住,不需要靠人工 review。 - 给我们的"VZ 在 N3 描述的失败模式上原理免疫"提供**可证**支撑(不再只是"我们认为")。

Cited paper (引用论文)

**N3. Drori J, Marks L, Woodworth B, Cloud A, Turner A M (MATS). *Output Supervision Can Obfuscate the Chain of Thought*. arXiv:2511.11584, 2025.**(同 OA-1 引用) - 关键观点:N3 的核心结论是 output supervision **也**会污染 CoT,反推出"如果 Face 层接收任何 reward 梯度,必然会污染 Mind 层"——这是 Mind/Face 隔离不变量的直接论证依据。论文还提出了"Mind/Face 双模型 + reward targeting"两个缓解,与我们 R4 路线天然契合。 ---