SYS-1SYSP0/SRunnable A/BPROPOSED

基于 CPD (Change Point Detection) 的 $\beta_t$ 涌现切换：用 PE spike + reward shift 无监督检测边界

—

Evaluation modality

Runnable A/B

Compiles to a runnable VolvenceZero profile. This is the only modality that goes to SHADOW A/B + ablation.

Primary owner: ✓（PE-first 配对：边界识别 + 边界归因）
Phase-A verdict: —
Shadow profile: cpd-beta-switch
Source papers: CPD + Option-Critic 2025
Specs: docs/specs/emergent-action-abstraction.mddocs/specs/temporal-abstraction.md

Blind spot (现状盲点)

DM-3 提出了用 Interest Function 来触发 Regime 切换，但这仍然需要端到端学习一个函数。真正的"涌现"应该基于底层信号的突变。如果缺乏基于底层信号的无监督切换，$\beta_t$ 的边界依然是启发式或强监督的。

Adoptable suggestions (可落地动作)

1.在 [`docs/specs/emergent-action-abstraction.md`](../specs/emergent-action-abstraction.md) 中引入 CPD（Change Point Detection）机制作为 $\beta_t$ 切换的核心算法。PROPOSED
A/B (dry-run SMOKE)
2.**直接利用 PE spike（预测误差尖峰）+ Reward Shift** 来无监督地自动检测 Option 的边界。当系统突然预测不准了（PE 飙升），就说明当前的 $\beta_t$ 结束了，触发控制器切换。PROPOSED
A/B (dry-run SMOKE)
3.这完美契合 R-PE（PE 是一级信号）的哲学，将 PE 信号直接用于时间抽象的边界划分。PROPOSED
A/B (dry-run SMOKE)

Traceability

No plugins / runs linked yet. Scaffold a suggestion to start.

Expected benefit (预期收益)

- 让 $\beta_t$ 的切换真正实现"无监督涌现"，摆脱对硬编码规则或强监督 Interest Function 的过度依赖。 - 将 PE 信号的价值最大化，使其不仅用于学习，还直接用于控制流的调度。

Cited paper (引用论文)

**A4-04. Change Point Detection + Option-Critic. arXiv:2510.24988, 2025.** - 关键观点：利用 PE spike 和 reward shift 自动检测 option 边界（无需外部监督），这是 $\beta_t$ 切换信号最自然的实现路径。 ---