Catalog
SYS-1SYSP0/SRunnable A/BPROPOSED

基于 CPD (Change Point Detection) 的 $\beta_t$ 涌现切换:用 PE spike + reward shift 无监督检测边界

Evaluation modality

Runnable A/B

Compiles to a runnable VolvenceZero profile. This is the only modality that goes to SHADOW A/B + ablation.

Primary owner
✓(PE-first 配对:边界识别 + 边界归因)
Phase-A verdict
Shadow profile
cpd-beta-switch
Source papers
CPD + Option-Critic 2025
Specs
docs/specs/emergent-action-abstraction.mddocs/specs/temporal-abstraction.md

Blind spot (现状盲点)

DM-3 提出了用 Interest Function 来触发 Regime 切换,但这仍然需要端到端学习一个函数。真正的"涌现"应该基于底层信号的突变。如果缺乏基于底层信号的无监督切换,$\beta_t$ 的边界依然是启发式或强监督的。

Adoptable suggestions (可落地动作)

  1. 1.在 [`docs/specs/emergent-action-abstraction.md`](../specs/emergent-action-abstraction.md) 中引入 CPD(Change Point Detection)机制作为 $\beta_t$ 切换的核心算法。PROPOSED
  2. 2.**直接利用 PE spike(预测误差尖峰)+ Reward Shift** 来无监督地自动检测 Option 的边界。当系统突然预测不准了(PE 飙升),就说明当前的 $\beta_t$ 结束了,触发控制器切换。PROPOSED
  3. 3.这完美契合 R-PE(PE 是一级信号)的哲学,将 PE 信号直接用于时间抽象的边界划分。PROPOSED

Traceability

No plugins / runs linked yet. Scaffold a suggestion to start.

Expected benefit (预期收益)

- 让 $\beta_t$ 的切换真正实现"无监督涌现",摆脱对硬编码规则或强监督 Interest Function 的过度依赖。 - 将 PE 信号的价值最大化,使其不仅用于学习,还直接用于控制流的调度。

Cited paper (引用论文)

**A4-04. Change Point Detection + Option-Critic. arXiv:2510.24988, 2025.** - 关键观点:利用 PE spike 和 reward shift 自动检测 option 边界(无需外部监督),这是 $\beta_t$ 切换信号最自然的实现路径。 ---