Catalog
OA-8OAP2/SSpec-levelPROPOSED

reflection engine 显式"用弱模型 + 工具"

Evaluation modality

Spec-level

A spec-motivation / governance borrow. Evaluated by spec review + contract tests, not A/B or ablation.

Primary owner
Phase-A verdict
Shadow profile
Source papers
N8 + Lilian Weng/Karpathy blog 路线
Specs
docs/specs/multi-timescale-learning.md

Blind spot (现状盲点)

[`docs/specs/multi-timescale-learning.md`](../specs/multi-timescale-learning.md) 的 background-slow(reflection)章节是否对"reflection model 该用多大的模型"做了明确陈述?如果只是"沿用 expression layer 的同一个 LLM",会出现两个问题:(1) reflection 成本失控;(2) 更严重的是失去 scalable oversight 范式——本质上 N8 已经证明 GPT-4o / Claude Sonnet 4 等"中等强度模型 + 工具"能取得 56.2% 检测率,根本不需要让 reflection 模型与生产模型同等强大。

Adoptable suggestions (可落地动作)

No adoptable suggestions parsed for this candidate.

Traceability

No plugins / runs linked yet. Scaffold a suggestion to start.

Expected benefit (预期收益)

- 控制 reflection 成本——background-slow 高频跑大模型会让 lifeform 单位用户成本失控。 - 把 scalable oversight 的工程红利吸收进我们的 reflection 架构,不重复"reflection 也要顶配模型"的误区。 - 与 OA-4 VZ-Audit Agent 共享同一个"弱模型 + 工具"哲学。

Cited paper (引用论文)

**N8. Egler S, Schulman J, Carlini N. *Detecting Adversarial Fine-tuning with Auditing Agents*. arXiv:2510.16255, 2025.**(同 OA-4 引用) - 关键观点:N8 用的 base auditor 是 Claude Sonnet 4(远不是当时最强的模型),加上 inspect_dataset / query_models / run_benchmark / execute_python 等工具,达到 56.2% 检测率。这是"弱模型 + 好工具 > 强模型 + 裸聊"的硬证据。 **辅助来源**:[Lilian Weng *Why We Think* blog](https://lilianweng.github.io/posts/2025-05-01-thinking)(System 1 / System 2 dual process)+ [Karpathy *2025 LLM Year in Review*](http://karpathy.bearblog.dev/year-in-review-2025/)(RLVR paradigm shift)— 两篇 Thinking Machines / Eureka Labs 长文都把"用工具补强较弱推理模型"作为可持续工程方向。 ---