OA-2OAP0/SSpec-levelPROPOSED

在 expression-layer spec 形式化 Mind/Face 隔离

—

Evaluation modality

Spec-level

A spec-motivation / governance borrow. Evaluated by spec review + contract tests, not A/B or ablation.

Primary owner: —
Phase-A verdict: —
Shadow profile: —
Source papers: N3 Drori et al. 2025
Specs: docs/specs/expression-layer.md

Blind spot (现状盲点)

[`docs/specs/expression-layer.md`](../specs/expression-layer.md) 当前是否明确写出"expression layer LLM（Face）不接收任何 reward 梯度 / metacontroller（Mind）不直接生成 user-facing token / 任何 online update 不可跨这两层传播"？如果只是隐式约定，那么未来某个 PR 把 expression 层加上 fine-tune loop 时，没有契约测试会拦住——而 N3 已经实证 output-only 训练**也**会污染 CoT，意味着这个隔离边界一旦松动，整个 R4 优势会塌陷。

Adoptable suggestions (可落地动作)

1.在 [`docs/specs/expression-layer.md`](../specs/expression-layer.md) 新增"Mind/Face 隔离不变量"小节，明确写： - **不变量 1**：Expression layer LLM（Face）不接收任何 reward 梯度。 - **不变量 2**：Metacontroller（Mind，z_t / β_t）不直接生成 user-facing token。 - **不变量 3**：任何 online update 不可跨这两层传播。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.
2.在 `tests/contracts/` 加新契约测试 `test_no_gradient_through_expression_layer.py`：在任何 online-update 路径调用前后断言 expression layer 的参数 hash 不变。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.
3.与 OA-9（PE faithfulness）联动：Mind 的 z_t/β_t 决策应**忠实地**反映 PE upstream 信号——如果不变量 2/3 被破坏，PE faithfulness 必然崩塌。PROPOSED
Not a runnable A/B candidate — evaluated by the path above, not ablation.

Traceability

No plugins / runs linked yet. Scaffold a suggestion to start.

Expected benefit (预期收益)

- 把 R4（内部控制不在 token 空间）从"哲学立场"升级为"可机器验证的不变量"。 - 任何未来想做 "Face 层端到端 fine-tune" 的提议会立刻被 CI 拦住，不需要靠人工 review。 - 给我们的"VZ 在 N3 描述的失败模式上原理免疫"提供**可证**支撑（不再只是"我们认为"）。

Cited paper (引用论文)

**N3. Drori J, Marks L, Woodworth B, Cloud A, Turner A M (MATS). *Output Supervision Can Obfuscate the Chain of Thought*. arXiv:2511.11584, 2025.**（同 OA-1 引用） - 关键观点：N3 的核心结论是 output supervision **也**会污染 CoT，反推出"如果 Face 层接收任何 reward 梯度，必然会污染 Mind 层"——这是 Mind/Face 隔离不变量的直接论证依据。论文还提出了"Mind/Face 双模型 + reward targeting"两个缓解，与我们 R4 路线天然契合。 ---