跳转至

本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。

S5 RL 与经典规控的贯穿关系与全方向收口(综述收官章)

文档类型:论文解读 / 综述贯穿(理论密度为主,少量伪代码与映射图) 定位:本章是整个「移动机器人规控方向」(10_时空 / 20_采样式MPC / 30_不确定性 / 40_博弈 / 50_多机 / 60_TAMP / 70_无人机,约 76 章 17000 行)的最后一章,也是 80_综述 五篇贯穿线(S1 时空 / S2 不确定性 / S3 博弈 / S4 交互预测 / S5 本章)的收口。它不再展开任何单一专题的技术细节——那些已在各 Part 详述——而是回答四个贯穿性问题:

  1. RL 与经典规控(MPC / 采样 / 搜索 / 博弈 / DP)在数学上是什么关系? 它们是对立的两派,还是同一枚硬币的两面?(统一视角与对偶,§1-§2)
  2. 面对一个具体任务,我该用 RL 还是经典方法? 有没有可操作的决策框架?(§3)
  3. 2023-2026 的主流为什么是"混合范式"? 混合有哪几类骨架?(§4)
  4. 七大方向的知识如何收口成一张图?学完之后往哪走?(§5-§7)

阅读前提:读者应已学过本方向至少一条主线(T / U / G / MPPI / Multi / D 之一),并具备 RL 基础(MDP、Bellman 方程、PPO/SAC、actor-critic)。若 RL 基础薄弱,本章 §1.1 会用 2-3 段重新激活核心概念,但不替代系统的 RL 课程。 预计阅读时间:4-5 小时(综述性章节,重在建立全局图景,不要求复现代码)。


前置自测

在进入正文前,请先尝试回答以下 5 题。若有 2 题以上答不出,建议先回到括号内指向的章节补齐——本章是收口章,默认你已经"见过"这些工具,只是没把它们串起来。

  1. (指向 MPPI_01 / U0) MPC 在每个控制周期做的事情,和 RL 的值迭代(value iteration)在数学上有什么共同的祖先?提示:两者都在求解同一个最优性原理(principle of optimality)的某种近似。

  2. (指向 U4) 一个用 LSTM 隐状态作为输入的 model-free RL 策略(如 R2D2、DreamerV3),它隐式地在近似 POMDP 里的什么量?为什么说"RNN 隐状态 ≈ belief 的充分统计"?

  3. (指向 G4 / Multi_10) Nash 均衡、Stackelberg 均衡和 MARL 里的 CTDE(centralized training decentralized execution)三者之间,哪个是"解概念",哪个是"训练范式"?把它们混为一谈会导致什么误解?

  4. (指向 U2 / U5) Tube MPC 里的 RPI(robust positively invariant)集合,和 Robust RL 里的 uncertainty set,在"对抗谁"这件事上是不是同一个对象?Safe RL 的 CMDP 约束和 Chance-Constrained MPC 的 chance constraint 在数学形式上能不能互相翻译?

  5. (指向 MPPI_05 / T6) 为什么说 Diffusion Policy 的逐步去噪(denoising)和 MPPI 的指数加权更新(exponential reweighting)在"把噪声样本推向高回报区域"这件事上是同一种操作?这个同构对"扩散规划是不是 RL"这个问题意味着什么?

自测说明:这 5 题没有标准答案的"填空",它们考的是结构性理解——你能不能在脑中把"经典规控的某个对象"和"RL 的某个对象"画上等号或不等号。本章的全部价值就是帮你把这张等号/不等号表补全。如果你现在答不出,读完本章再回来,应该能一句话说清每一题。


本章目标

读完本章,你应当能够:

  • 画出"经典规控 ↔ RL 同义/对偶表":对七大方向的每个核心范式,说出它在 RL 世界里的对应物,以及"等价在哪、不等价在哪"(这是 §4 阶段(RL 贯穿收官)课程作业的核心交付物)。
  • 用一张决策树回答"该用谁":给定任务的(模型已知性 × 维度 × 约束硬度 × 实时预算 × 安全要求 × 数据可得性)六维画像,判断该走经典优化、走 RL、还是走某种混合。
  • 辨识四类混合骨架:RL-for-MPC(学代价/权重/终端值)、MPC-for-RL(把 MPC 当可微策略层 / 安全滤波)、residual(残差叠加)、warm-start / amortization(一个摊销另一个),并说出每类的代表工作与适用边界。
  • 把七大方向收口成一张知识地图:时空 / 采样 / 不确定 / 博弈 / 任务 / 多机 / 无人机,理解它们共享的数学骨架(DP + 最优性原理)与各自的 RL 接口。
  • 规划后续学习与研究方向:知道自己处在"经典优化 → 混合 → 学习"光谱的哪个位置,下一步该补什么、可以做什么研究选题。

知识导航

S5 全章结构
├─ §1 统一视角:一切都从最优性原理长出来
│    ├─ §1.1 三个共同祖先:Bellman 最优性原理、HJB、动态规划
│    ├─ §1.2 经典规控是"已知模型的最优控制",RL 是"未知模型的最优控制"
│    └─ §1.3 一张总表:六个范式在统一坐标系里的位置
├─ §2 对偶关系:六组"同一枚硬币的两面"
│    ├─ §2.1 MPC ↔ 值迭代(Bertsekas 的 Newton-step 视角)
│    ├─ §2.2 采样式 MPC ↔ 策略梯度 / 去噪(MPPI≈REINFORCE≈DDPM)
│    ├─ §2.3 POMDP 搜索 ↔ model-based RL(belief=RNN 隐状态)
│    ├─ §2.4 Robust/CC/CVaR ↔ Safe / Robust / Distributional RL
│    ├─ §2.5 博弈求解 ↔ MARL(Nash↔均衡学习,PSRO↔double oracle)
│    ├─ §2.6 搜索式规划 ↔ 学习型搜索(A*↔Neural A*,MCTS↔MuZero)
│    └─ §2.7 六组对偶的统一全景:它们其实是同一组对偶
├─ §3 决策框架:面对一个任务,到底该用谁
│    ├─ §3.1 六维画像:模型/维度/约束/实时/安全/数据
│    ├─ §3.2 主决策树(一图流)
│    ├─ §3.3 五个边界案例的实证(自驾竞速、行人交互、四足、机械臂、集群)
│    └─ §3.4 反模式:常见的"用错工具"
├─ §4 混合范式:2023-2026 的主流形态
│    ├─ §4.1 为什么是混合:互补性的数学根源
│    ├─ §4.2 四类混合骨架的分类学
│    ├─ §4.3 骨架 A:RL-for-MPC(学代价/权重/终端值/可微 MPC)
│    ├─ §4.4 骨架 B:MPC-for-RL(安全滤波 / 可微策略层 / shielding)
│    ├─ §4.5 骨架 C:Residual(残差策略叠加)
│    ├─ §4.6 骨架 D:Amortization / Warm-start(互为初值)
│    ├─ §4.7 生成式规划:混合范式的当代集大成(Diffusion/TD-MPC2/VLA)
│    ├─ §4.8 一个走通的混合系统:把四类骨架拼进同一个自驾栈
│    └─ §4.9 选哪类混合骨架——一张速查表
├─ §5 全方向知识收口:七条线汇成一张图
│    ├─ §5.1 七方向 × RL 接口总览矩阵
│    ├─ §5.2 共享骨架:DP 是所有方向的最大公约数
│    ├─ §5.3 三条贯穿主轴(不确定性 / 交互 / 实时性)
│    └─ §5.4 七方向收口图(ASCII 全景)
├─ §6 学习路径总结:从这里往哪走
│    ├─ §6.1 三类读者的后续路径(工程 / 研究 / 交叉)
│    ├─ §6.2 "经典→混合→学习"光谱上的自我定位
│    └─ §6.3 阶段性能力检验清单
├─ §7 研究方向总结:开放问题地图
│    ├─ §7.1 七个高价值开放问题
│    └─ §7.2 选题建议与避坑
├─ 附 A:四专题 RL 贯穿关系(原始调研,保留)
├─ 附 B:四专题在 C++ 教学体系中的定位建议(原始调研,保留)
├─ 本章常见误解汇总
├─ 本章小结 + 速查表
├─ 故障排查手册(认知层面的"症状→病根")
└─ 延伸阅读

前置知识桥接

本章是收口章,几乎复用了整个方向的所有概念。为避免你来回翻页,这里用一张表重新激活将要反复出现的核心对象——每个对象给一句话定义 + 它出自哪一章。读到正文时若忘了某个词,回到这张表即可,不必翻回原章。

对象 一句话定义 出处 本章如何复用
最优性原理 "最优策略的尾段对尾段子问题仍最优"——DP 的公理 MPPI_01、U0 §1 证明经典与 RL 同源的支点
Bellman 方程 \(V^*(s)=\max_a [r(s,a)+\gamma\mathbb E V^*(s')]\),最优值的不动点方程 RL 基础、U4 §2.1 MPC = 它的有限步 Newton 近似
MPC(滚动时域) 每周期解一个有限时域 OCP,执行第一步,下周期重解 MPPI_01、D2、U2 全章的"经典"代表
MPPI(路径积分) 用指数加权的采样轨迹更新名义控制序列的采样式 MPC MPPI_01-02 §2.2 与策略梯度/去噪同构
POMDP 状态不可直接观测、需在 belief(状态后验)上决策的 MDP U4 §2.3 与 RNN-RL 的桥
belief(信念) 给定历史观测的状态后验分布,是 history 的充分统计 U4 §2.3 ≈ RNN 隐状态
Tube MPC 名义轨迹 + 不变管道(RPI 集),保证扰动下约束满足 U2 §2.4 RPI ≈ uncertainty set
CBF(控制屏障函数) 用前向不变集刻画安全的标量函数,配 QP 做安全滤波 U2 §4.4 安全滤波的代表
Chance Constraint 约束以概率 \(\ge 1-\delta\) 满足,而非硬满足 U3 §2.4 ≈ CMDP 的连续版
CVaR 尾部 \(\alpha\) 分位的条件期望,一致性风险度量 U5 §2.4 ≈ distributional RL 的风险头
Nash / Stackelberg 均衡 多智能体博弈的解概念(同时 / 领导-跟随) G0-G2 §2.5 ≈ MARL 收敛点
iLQGames / ALGAMES 求局部反馈 Nash / 约束 GNE 的实时博弈求解器 G2 §2.5 经典博弈代表
PSRO Nash meta-solver + best-response oracle 迭代扩策略池 G4 §2.5 = double oracle 的深度版
CTDE 集中训练、分散执行的 MARL 训练范式(≠解概念) Multi_10、G4 §2.5 澄清"范式≠解"
DP(动态规划) 用最优性原理把多步问题拆成递归子问题求解 贯穿全方向 §5.2 七方向的最大公约数
Diffusion Policy / Planner 把轨迹生成建成条件去噪过程的生成式规划 T6、MPPI_05 §4.7 混合范式集大成
TD-MPC2 在 learned latent world model 上做 MPPI + policy prior 的局部优化 MPPI_06 §4.7 model-based RL × 采样 MPC
VLA vision-language-action 大模型,像素/语言→连续动作 06_具身、S4 §4.7 端到端范式的顶层

本质洞察(贯穿全章的总纲) 本章只想让你记住一件事:经典规控和 RL 不是两门学科,而是同一个问题(序贯最优决策)在"模型是否已知、值函数是否显式、计算放在线上还是线下"三个轴上的不同切法。 把这三个轴想清楚,七大方向的所有方法——从 ST-A* 到 DreamerV3,从 Tube MPC 到 IQN,从 iLQGames 到 PSRO——都会落到同一张地图的不同坐标上。本章的全部章节,都是在给这张地图填坐标。

本章与前四篇综述(S1-S4)的关系

本章是 80_综述 五篇贯穿线的最后一篇。前四篇(S1-S4)各自从一个专题视角铺开了 RL 与经典规控的交界,本章(S5)则把它们收口成一个统一框架。理解这个分工,能帮你定位"本章在讲什么、不讲什么":

综述 视角 与本章的关系
S1 总览与时空联合规划 时空特化的发展脉络 + ST↔Neural A*/MuZero 本章 §2.6、§5.1 时空行的"母模板"来源
S2 不确定性规划 五条子路线 + 各自的 Safe/Dist RL 孪生 本章 §2.4 的专题细化在 S2,本章给统一翻译链
S3 博弈规划 博弈谱系 + MARL/PSRO 交界 本章 §2.5 的专题细化在 S3,本章给"解概念≠范式"
S4 交互意图预测 预测-规划一体化 + 生成式/VLA 本章 §4.7、§5.3 交互轴的素材来源
S5(本章) 七方向全收口 + 统一视角/对偶/选型/混合 把 S1-S4 的专题交界缝合成一张地图

一句话区分:S1-S4 是"逐个专题讲 RL 怎么重新表达该专题的经典方法"(深度优先,单方向钻透);本章是"跨所有方向抽取共同的数学骨架与选型框架"(广度优先,建立全局坐标)。所以本章刻意不重复 S1-S4 的专题细节(那些细节作为本章附录 A/B 保留),而专注于"它们共享什么、如何收口"。读本章前若对某个专题的交界细节生疏,回到对应的 S1-S4;读本章时,把注意力放在"统一"而非"细节"上。


§1 统一视角:一切都从最优性原理长出来 ⭐⭐⭐

为什么需要"统一视角"——先动机

初学者常把这门方向学成"互不相干的工具箱清单":周一学 MPC,周二学 PPO,周三学 POMCP,周四学 iLQGames……每个工具有自己的符号、自己的论文谱系、自己的开源库。学到最后,脑中是一堆并列的孤岛,遇到新任务时只能"凭印象"挑一个试试。

这种"工具箱"心智模型的根本缺陷,是它看不到方法之间的"翻译关系"。 当你真正理解"MPC 在做的事情其实是值迭代的一步 Newton 近似"时,你就不会再把"调 MPC 的终端代价"和"训 RL 的值函数"当成两件无关的事——它们在逼近同一个对象(最优值函数 \(V^*\)),只是一个在线显式解、一个离线隐式学。这种"翻译关系"才是专家和新手的真正分水岭。

反面来看:如果方法之间真的毫无关系,那么"用 RL 学出来的策略给 MPC 做 warm-start"(§4.6)、"用 MPC 给 RL 做安全滤波"(§4.4)这类混合范式根本不可能成立——它们能成立,恰恰证明了底层有一个共同的数学骨架在支撑。所以统一视角不是哲学口号,而是混合范式的工程前提

历史上,这个统一视角并非一开始就清晰。1950s 的 Bellman(动态规划)和 Pontryagin(极大值原理)分别从"值函数递归"和"协态方程"两条路给出了最优控制的刻画;1980s-90s 的 Sutton、Barto、Watkins 把 DP 的思想搬到"未知模型 + 采样"的场景,催生了 RL;而把两者重新缝合成"一套符号、一张图"的系统努力,要到 2010s 才成熟——代表是 Bertsekas 的《Reinforcement Learning and Optimal Control》(2019)Recht 的 "A Tour of Reinforcement Learning: The View from Continuous Control" (2018),以及 ETH 把两者用统一记号合开成一门课《Optimal and Learning Control for Autonomous Robots》。本节就沿着这条"重新缝合"的线,建立全章的地基。

§1.1 三个共同祖先:最优性原理、HJB、动态规划

无论你学的是哪个方向的哪个方法,只要它在求解"如何序贯地做决策以最优化某个长期目标",它就一定可以追溯到下面这一个方程及其变体。

离散时间最优性原理(Bellman 方程)。 给定状态 \(s\)、动作 \(a\)、即时奖励 \(r(s,a)\)、转移 \(s'\sim P(\cdot|s,a)\)、折扣 \(\gamma\),最优值函数 \(V^*\) 满足不动点方程:

\[ V^*(s) \;=\; \max_{a}\Big[\,r(s,a) + \gamma\,\mathbb{E}_{s'\sim P(\cdot|s,a)}\,V^*(s')\,\Big]. \]

这一个方程,是整个方向所有方法的最大公约数。它说的事情极朴素:当前状态的最优长期价值 = 当前最好的一步收益 + 折扣后的"下一状态最优长期价值的期望"。最优性原理(principle of optimality)就是它的文字版:"最优轨迹的任意尾段,对其对应的尾段子问题而言仍然是最优的"。

连续时间版本(HJB 方程)。 把时间连续化、把求和变积分,Bellman 方程的极限就是 Hamilton-Jacobi-Bellman 偏微分方程:

\[ -\frac{\partial V^*}{\partial t}(x,t) \;=\; \min_{u}\Big[\,\ell(x,u,t) + \nabla_x V^{*\top} f(x,u,t)\,\Big], \]

其中 \(f\) 是系统动力学、\(\ell\) 是阶段代价。最优控制(optimal control)整个学科——LQR、iLQR、DDP、MPC——本质都在(近似)求解 HJB 或其必要条件(Pontryagin 极大值原理给出的协态方程)。

微分博弈版本(HJI 方程)。 把单个 \(\min_u\) 换成两方对抗的 \(\min_u\max_d\)(或 \(\sup\inf\)),HJB 就变成 G1 讲的 Hamilton-Jacobi-Isaacs 方程——这正是博弈规划与可达性分析的理论根。所以博弈不是另起炉灶,而是在同一个方程里多塞了一个对手的极值算子

把"替换算子"这件事写成公式(让"特化"具象化)。 母方程 \(V^*(s)=\max_a[r(s,a)+\gamma\mathbb E\,V^*(s')]\) 里有几个可替换的"插槽",本方向的每个特化就是替换其中一个插槽。明确写出来:

\[ \begin{aligned} \text{母方程(MDP):}\quad & V^*(s)=\max_a\big[\,r+\gamma\,\textcolor{blue}{\mathbb E}\,V^*(\textcolor{red}{s'})\,\big] \\[2pt] \text{POMDP(U4):换状态}\;\textcolor{red}{s\to b}:\quad & V^*(b)=\max_a\big[\,r(b,a)+\gamma\,\mathbb E_{o}\,V^*(\textcolor{red}{b'})\,\big] \\[2pt] \text{风险敏感(U5):换算子}\;\textcolor{blue}{\mathbb E\to\rho}:\quad & V^*(s)=\max_a\big[\,r+\gamma\,\textcolor{blue}{\rho}\,V^*(s')\,\big],\;\;\rho=\mathrm{CVaR}_\alpha \\[2pt] \text{鲁棒(U2):换算子}\;\textcolor{blue}{\mathbb E\to\min_{w}}:\quad & V^*(s)=\max_a\textcolor{blue}{\min_{w\in\mathcal W}}\big[\,r+\gamma\,V^*(s'(w))\,\big] \\[2pt] \text{博弈(G):加玩家}\;\max_a\to\textstyle\min_u\max_d:\quad & V^*(s)=\textstyle\min_u\max_d\big[\,r+\gamma\,\mathbb E\,V^*(s')\,\big] \end{aligned} \]

看这五行:每一行只动了母方程的一处。 POMDP 把状态 \(s\) 换成 belief \(b\)(红色插槽),风险敏感把期望 \(\mathbb E\) 换成风险度量 \(\rho\)(蓝色插槽),鲁棒把 \(\mathbb E\) 换成对扰动取最坏 \(\min_w\),博弈把单方 \(\max_a\) 变成两方极值。这就是"特化 = 替换一个插槽"的字面意思——也是 §5.2 "七方向 = 母方程的七种特化"那句话的数学底座。理解了这张"插槽替换表",你就拿到了把任何新范式归位的母模板。

本质洞察 1:三个方程是同一棵树的三根枝。 Bellman(离散)、HJB(连续单方)、HJI(连续多方)不是三个独立的理论,而是同一个"最优性原理"在(时间离散性 × 玩家数量)两个维度上的三种实例化。U4 的 POMDP 是 Bellman 方程把状态 \(s\) 换成 belief \(b\) 的版本;U5 的 risk-sensitive 是把期望 \(\mathbb E\) 换成风险度量 \(\rho\)(如 CVaR)的版本。你每学一个"新"范式,先问:它把这个母方程里的哪个算子替换/近似了? 答案几乎总是:替换了 \(\{\)状态空间、期望算子、玩家数、求解时机\(\}\) 中的一个。

§1.1bis 母方程的统一性:一个更深层的数学论证

上面从"三个共同祖先"的角度建立了直觉。这里用更紧凑的数学语言把"统一性"钉得更牢——目标是让你在面对任何新的规控/RL 方法时,都能用"它替换了母方程里的哪个插槽"一句话定位它。

母方程(最一般的形式)

\[ V^*(s) = \underset{a}{\mathrm{opt}} \Big[\, r(s,a) + \gamma \, \underset{s'}{\mathrm{risk}} \, V^*(s') \,\Big] \]

其中 \(\mathrm{opt}\) 是"优化算子"(可以是 \(\max\)\(\min\)\(\min\max\)),\(\mathrm{risk}\) 是"风险聚合算子"(可以是 \(\mathbb{E}\)\(\min_w\)\(\mathrm{CVaR}_\alpha\)\(\max_d\) 等)。

这个母方程有四个可替换的插槽

插槽 默认值 替换选项 替换后得到什么
状态 \(s\) 真实状态 \(x\) belief \(b(x)\) POMDP 的 belief-space Bellman
优化算子 \(\mathrm{opt}\) \(\max_a\)(单人最大化) \(\min_u\max_d\)(两人零和) HJI 方程 / robust control
多个耦合的 \(\min_{u_i}\) Nash 均衡条件
风险算子 \(\mathrm{risk}\) \(\mathbb{E}\)(期望) \(\min_{w\in\mathcal{W}}\)(最坏情况) Robust MDP
\(\mathrm{CVaR}_\alpha\) 风险敏感 MDP
时间结构 离散时间 连续时间 \(dt\) HJB 方程

这张表的教学价值:每学一个新范式,先问"它换了母方程的哪个插槽"。例如: - Distributional RL:换了 risk 算子(从 \(\mathbb{E}\) 变成"学整个分布,再从分布抽取风险统计量") - MARL/PSRO:换了 opt 算子(从单个 \(\max\) 变成多个耦合的 opt) - Model-based RL(Dreamer):没有换任何插槽——它在 \(r\)\(P\)(即学母方程的系数),然后在学到的系数上用标准的 \(\mathbb{E}\)-opt 求解 - Imitation Learning:没有显式地解母方程——它直接从数据拟合最优策略 \(\pi^*\),绕过了值函数

本质洞察("插槽替换"是方法论的终极压缩):整个移动机器人规控方向的所有方法——从 A* 到 DreamerV3,从 Tube MPC 到 IQN,从 iLQGames 到 PSRO——都可以用"母方程 + 插槽替换"这一句话描述。这不是简化,而是数学的力量——一个好的数学框架应当用最少的符号容纳最多的方法。 Bellman 方程之所以能做到这一点,是因为它捕捉了所有序贯决策问题的本质——"当前最优 = 一步收益 + 折扣后的未来最优"——而所有规控/RL 方法都在解这个递归。差异只在于"递归的系数从哪来"(模型已知 vs 学)、"递归用什么算子"(期望 vs 风险 vs 博弈)、"递归在哪里执行"(在线 vs 离线)。

§1.1ter 三个共同祖先的历史关系

Bellman(1957 提出动态规划)、Pontryagin(1956 提出极大值原理)、Isaacs(1951 开始研究微分博弈,1965 出版专著)这三人几乎同时期独立工作,且最初互不知晓对方的成果——这是 20 世纪数学史上一个著名的"多路发现"现象。

  • Bellman 在兰德公司研究运筹学,关注的是"离散时间、有限状态"的多阶段决策——他的语言是"状态、策略、值函数、递归",工具是"函数方程"。
  • Pontryagin 在莫斯科的 Steklov 研究所研究连续时间最优控制,关注的是"连续动力学、状态约束"——他的语言是"协态、哈密顿量、横截条件",工具是"变分法"。
  • Isaacs 也在兰德公司,但研究的是"两方对抗的追逃"——他的语言是"值函数、saddle-point",工具是"偏微分方程"。

三人共享同一个核心直觉——"最优轨迹的尾段仍是最优的"(最优性原理)——但用三种不同的数学语言表达了它。 Bellman 的语言成了 RL 的基础(Bellman 方程),Pontryagin 的语言成了连续最优控制的基础(极大值原理、MPC 里的 costate),Isaacs 的语言成了博弈规划的基础(HJI 方程)。三条河流从同一个源头分出,各自浇灌了一片学科,现在又在"RL + 最优控制 + 博弈"的交叉处重新汇合。 本章做的,就是画出这个汇合的地图。

多视角理解(同一个原理的三种表达,像同一首曲子的三种演奏):最优性原理是"曲谱",Bellman 方程是"钢琴版"(离散、递归),Pontryagin 极大值原理是"小提琴版"(连续、微分),HJI 是"交响版"(多方、PDE)。像在于旋律相同(都在说"尾段最优");不像在于乐器不同(数学工具不同)、适合的"场馆"不同(离散有限状态 vs 连续高维 vs 多方对抗)。一个真正理解了"曲谱"的人,可以在任何乐器上演奏它——同理,一个真正理解了最优性原理的工程师,可以在 RL、MPC、博弈这三种"乐器"之间自由切换,因为他知道它们演奏的是同一首曲子。

§1.2 经典规控是"已知模型的最优控制",RL 是"未知模型的最优控制"

有了母方程,经典规控和 RL 的分野就可以一句话讲清:

经典规控 = 当 \(\{f, P, r, \ell\}\) 已知(或可建模)时,(近似)求解 HJB/Bellman 的方法。 RL = 当 \(\{f, P, r\}\) 未知、只能通过采样交互获得数据时,(近似)求解同一个 Bellman 方程的方法。

这不是我个人的归纳,而是 RL 领域的标准定位之一("RL is optimal control when the dynamics are unknown",见 Recht 2018、Bertsekas 2019、Kober & Bagnell IJRR 2013 综述)。它立刻澄清了一连串初学者的困惑:

  • "为什么 LQR 和 DQN 看起来完全不同?" 因为 LQR 在已知线性动力学 + 二次代价下解析地解出了值函数(Riccati 方程是 Bellman 方程在 LQ 假设下的闭式不动点),而 DQN 在未知动力学下用神经网络采样拟合值函数。它们逼近的是同一个 \(V^*\),只是一个有解析捷径、一个没有。
  • "为什么 MPC 不需要训练,RL 需要?" 因为 MPC 把"求解"放在每个控制周期的在线优化里(模型已知,可以现场算),而 RL 把"求解"放在离线训练里(模型未知,必须先用数据把策略/值函数学出来,在线只做前向推理)。这正是 §1.3 里"在线 vs 离线"那根轴。
  • "为什么 model-based RL 像是两者的杂交?" 因为它先学一个模型 \(\hat f\)(弥补"模型未知"),再在学到的模型上做规划/优化(借用经典方法)。DreamerV3、TD-MPC2、MuZero 全是这条路——它们是"用 RL 补齐模型,用经典方法做决策"的混合体,这也是 §4 混合范式的核心。

把 LQR↔DQN 这组对照做实(一张表看清"同一个 \(V^*\),不同的获取方式")。 LQR 和 DQN 在教科书里分属两个完全不同的章节,但它们求的是同一个东西。把求解链路并排写出来:

步骤 LQR(经典,已知模型) DQN(RL,未知模型)
目标 最优值 \(V^*(x)=x^\top P x\) 最优值 \(Q^*(s,a)\)(神经网络拟合)
用什么求 已知 \(f(x,u)=Ax+Bu\)、代价 \(x^\top Qx+u^\top Ru\) 未知 \(f\),只有交互样本 \((s,a,r,s')\)
如何求 \(V^*\) 解析:解 Riccati 方程 \(P=Q+A^\top PA-\dots\)(Bellman 在 LQ 下的闭式不动点) 采样拟合:最小化 TD 误差 \(\big(r+\gamma\max_{a'}Q(s',a')-Q(s,a)\big)^2\)
求解时机 离线一次解出 \(P\),得反馈增益 \(K\) 离线训练拟合 \(Q\)
在线做什么 \(u=-Kx\)(一次矩阵乘) \(a=\arg\max_a Q(s,a)\)(一次前向)
失效场景 模型非线性/未知时 \(P\) 无解析解 样本不足 / OOD 时 \(Q\) 拟合差

看这张表的关键:第一行(目标)两者都是"求 Bellman 方程的不动点 \(V^*/Q^*\)"——完全一样;分歧从第二行(模型是否已知)开始。 LQR 因为模型已知且是 LQ 结构,能走 Riccati 这条解析捷径;DQN 因为模型未知,只能用采样拟合这条"笨"路。它们不是两种东西,而是同一个不动点问题在"有没有解析捷径"上的两种走法。 一旦你能在脑中把任意一对"经典方法 vs RL 方法"都还原成这张表(目标相同、从模型已知性开始分叉),你就真正内化了统一视角——这也是 §2 六组对偶的通用模板。

对比性思维:不是"RL vs 经典",而是"已知模型 vs 未知模型"× "在线求解 vs 离线求解"。 真正区分方法的不是"它属于 RL 阵营还是控制阵营"(这是社区/会议的划分,不是数学的划分),而是两个正交问题:①模型是否已知?②求解放在线上还是线下?把这两个问题摆正,"RL"和"经典"这两个标签就退化成了同一张 2×2 表格里的四个格子(§1.3)。

§1.3 一张总表:六个范式在统一坐标系里的位置

现在把本方向的六大范式(时空搜索、采样 MPC、梯度 MPC、不确定性规划、博弈、RL)放进 §1.2 建立的坐标系。坐标轴有三根(为可读性,下表把"在线/离线"和"值函数显式/隐式"合并描述):

  • 轴 1:模型已知性 —— 动力学 \(f\) 和环境 \(P\) 是手工建模的(白盒)、学出来的(灰盒)、还是完全靠采样(黑盒)?
  • 轴 2:求解时机 —— 把优化放在每个控制周期的在线(online)求解,还是放在部署前的离线(offline)训练?
  • 轴 3:值函数表示 —— 是否显式维护一个值函数/代价-to-go?是解析的、查表的、还是神经网络拟合的?
范式(出处) 模型已知性 求解时机 值函数表示 求解的母方程算子 RL 对应物(详见 §2)
ST 搜索 / SIPP / A*(T2、Multi_03) 白盒(已知图/代价) 在线(每次重规划) 隐式(启发式 \(h\) 近似 to-go) Bellman,离散状态 Neural A*、MuZero(学 \(h\)/模型)
梯度 MPC / iLQR / DDP(D2、U2) 白盒(已知 \(f,\ell\) 在线(每周期 OCP) 隐式(终端代价≈to-go) HJB,局部二次近似 值迭代的 Newton 步(§2.1)
采样 MPC / MPPI / CEM(MPPI 线) 白盒或灰盒(仿真器即可) 在线(每周期采样) 隐式(rollout 估 to-go) HJB,路径积分形式 策略梯度 / 去噪(§2.2)
不确定性规划(U 线) 白盒 + 不确定集/分布 多为在线 隐式(带风险的 to-go) Bellman/HJB,期望→风险算子 Safe/Robust/Distributional RL(§2.4)
博弈规划(G 线) 白盒(已知各方 \(f,\ell\) 在线(每周期解均衡) 隐式(各方反馈 Nash 值) HJI,多方极值 MARL / PSRO(§2.5)
强化学习(贯穿) 黑盒或灰盒(学/采样) 离线训练 + 在线推理 显式(神经 \(V/Q/\pi\) Bellman,采样近似 —(它就是 RL)

这张表是本章后续所有讨论的"坐标原点"。请重点体会两件事:

第一,所有经典范式的"值函数表示"都是隐式的。 MPC 不显式存一个全局 \(V^*\),它用"有限时域 + 终端代价"来局部地、临时地逼近 to-go;A* 用启发式 \(h\) 逼近;MPPI 用 rollout 的样本均值逼近。唯独 RL 显式地把 \(V/Q/\pi\) 拟合成一个可重复调用的函数(神经网络)。 这就是 RL 最本质的"卖点":它把"求解"的成本一次性付清(训练),换取在线的极低延迟(一次前向传播)——代价是失去了在线重优化的灵活性和约束保证。

第二,"求解时机"那根轴是工程上最要命的轴。 经典方法把计算放在线上,所以它不需要训练、可解释、约束天然满足,但每周期都要现算(延迟受优化器速度限制)、且依赖准确模型;RL 把计算放在线下,所以它在线极快、能处理黑盒和高维感知,但需要海量数据/仿真、可解释性差、约束只能软性鼓励。§3 的整个决策框架,本质就是在这根轴上权衡"你愿意把计算和风险放在哪一端"。

练一遍:把三个"新"方法放进总表。 这张坐标系的价值在于它能安放任何方法,包括你没正式学过的。试着只凭名字和一句话描述,把下面三个方法定位到三根轴上——这正是 §6.3 能力清单第 5 条要的本事:

方法(一句话) 轴1 模型已知性 轴2 求解时机 轴3 值表示 落在哪
MuZero(学 latent 模型 + 在其上 MCTS) 灰盒(模型是学的) 离线训模型/值 + 在线 MCTS 显式(value/policy 网络) "学模型喂搜索"——介于 ST 搜索与 RL
GP-MPC(高斯过程学扰动 + MPC) 灰盒(名义白盒 + GP 学残差) 在线(每周期 MPC + GP 预测) 隐式(MPC 终端代价) 梯度 MPC 行 + 模型从白转灰
Diffusion Policy(条件去噪生成动作序列) 黑盒(从数据学,不需模型) 离线训生成器 + 在线去噪推理 隐式(生成器内隐含) 采样行 + 模型全黑、值离线摊销

做完这个练习你会发现:定位一个方法只需问三个问题,不需要读它的论文细节。 MuZero "模型是学的吗?是——灰盒;在线做什么?MCTS——在线搜索 + 离线训;有显式网络吗?有"——三问定位完毕。这就是坐标系作为"导航工具"的实战用法:任何新方法(哪怕是明年才出的)都能被这三问安放,从而立刻知道它的长处(落在哪格的优势)和死穴(那格的固有短板)。

理论-工程桥接(D 工具):统一视角如何指导你读代码。 当你打开任何一个规控开源库(acados、GCOPTER、despot、ilqgames、Stable-Baselines3、DreamerV3),先不要陷入它的 API。先问这张表的三个问题:①它假设模型已知吗(找 dynamics/step/model 的来源——是手写还是学的)?②它在哪里花最多时间(在线 solve()/plan() 还是离线 train())?③它有没有一个显式的值/策略网络?答完这三问,你就知道这个库站在表里的哪一格,也就知道它的长处和死穴在哪——这比读 100 页文档都快。本方向 100+ 个开源库,最终都落在这张 6 行表的某一格或某几格的组合里。

过渡:从"同源"到"对偶"。 §1 论证了所有方法共享同一个母方程(最优性原理),这是"同源"。但同源不等于"可互译"——苹果和橡树都从种子长出来,却不能互相替换。真正有工程价值的是更强的命题:某些经典范式和某些 RL 方法,是同一个数学操作的两种写法,可以逐项对应、互相翻译、甚至混合拼接。 这种"可互译"的关系,我们称为对偶(duality)。§2 就来逐一拆开六组最重要的对偶——每一组都给出"等价在哪、不等价在哪",因为这正是 §4 阶段课程作业要求学生交付的那张"经典 → RL 同义表达"映射图的内容。


§2 对偶关系:六组"同一枚硬币的两面" ⭐⭐⭐⭐

本节读法:六组对偶各自独立成段,结构统一为「经典侧在做什么 → RL 侧在做什么 → 数学桥(等价在哪)→ 边界(不等价在哪)→ 教学/工程含义」。你可以按需跳读自己最关心的方向:做无人机/自驾轨迹的看 §2.1-2.2,做不确定性的看 §2.3-2.4,做多机/博弈的看 §2.5,做搜索/MAPF 的看 §2.6。但强烈建议至少通读 §2.1(MPC↔值迭代),因为它是其余五组的"母对偶"。

§2.1 MPC ↔ 值迭代:Bertsekas 的 Newton-step 视角 ⭐⭐⭐⭐

这是六组里最深刻、也最该先理解的一组。Bertsekas 在《RL and Optimal Control》(2019) 及其 "Lessons from AlphaZero" (2022) 系列中给出的核心论断是:MPC 的一个滚动时域优化步,恰好等价于在最优值函数 \(V^*\) 上做一步 Newton 迭代。 把它讲透,其余对偶就都是它的变奏。

经典侧(MPC 在做什么)。 一个有限时域 MPC 在状态 \(s_0\) 求解:

\[ \min_{u_0,\dots,u_{N-1}} \;\; \sum_{k=0}^{N-1}\ell(s_k,u_k) + \underbrace{V_f(s_N)}_{\text{终端代价}}, \quad \text{s.t. } s_{k+1}=f(s_k,u_k),\; (s_k,u_k)\in\mathcal X\times\mathcal U. \]

执行 \(u_0^*\),下一周期在新状态重解。这里的终端代价 \(V_f\) 是对"\(N\) 步之后的最优 to-go" \(V^*\) 的近似。如果 \(V_f=V^*\)(且 \(N\ge1\)),那么 MPC 一步就给出全局最优控制——这是动态规划的直接推论。现实中我们不知道 \(V^*\),所以用一个粗糙的 \(V_f\)(常取 0、二次型、或某个 LQR 值)。

RL 侧(值迭代在做什么)。 值迭代反复应用 Bellman 算子 \(\mathcal T\)\(V_{i+1}=\mathcal T V_i\),其中 \((\mathcal T V)(s)=\max_a[r(s,a)+\gamma\mathbb E V(s')]\)\(\mathcal T\) 是一个压缩映射,迭代收敛到不动点 \(V^*\)

数学桥(等价在哪)。 Bertsekas 的洞察:把 \(\mathcal T\) 看成一个非线性方程 \(V=\mathcal T V\) 的算子,求 \(V^*\) 就是求 \(V-\mathcal T V=0\) 的根。对这个根求 Newton 迭代,每一步线性化 \(\mathcal T\),得到的迭代格式正好是"以当前 \(V_i\) 为终端代价、做一步前瞻(lookahead)优化"——这就是 MPC(当 \(N=1\) 时尤为精确)。 换言之:

\[ \boxed{\;\text{MPC(终端代价 }V_f\text{,前瞻 }N\text{ 步)} \;\equiv\; \text{在 }V_f\text{ 处对 Bellman 方程做一步(多步)Newton 修正}\;} \]

为什么"一步前瞻 = 一步 Newton"?(一个不诉诸黑箱的推导草图) 这个等价初看玄妙,其实可以用一行直觉讲透。Bellman 算子 \(\mathcal T\) 是分段线性、凹的(对 \(V\) 而言,因为它是若干仿射函数 \(r+\gamma P_a V\)\(\max\))。求 \(V^*\) 就是求 \(\mathcal T\) 的不动点,等价于求 \(F(V):=V-\mathcal T V=0\) 的根。对凹的 \(\mathcal T\) 求根的 Newton 法,每步要在当前 \(V_i\) 处用 \(\mathcal T\)切线(即固定住"当前最优动作"后 \(\mathcal T\) 退化成的那个仿射映射,对应一个固定策略 \(\mu_i\))替代 \(\mathcal T\) 本身,然后解这个线性化方程。而"固定策略 \(\mu_i\) 解线性化方程"恰好就是策略评估(policy evaluation),"再取一次 \(\max\) 更新切点"恰好就是策略改进(policy improvement)——合起来就是策略迭代(policy iteration)的一步。Bertsekas 的关键观察是:策略迭代 = Newton 法,而一步前瞻的 MPC(以 \(V_f\) 为终端代价)正是策略迭代的一步(前瞻负责"改进",\(V_f\) 充当被评估的"当前值")。这就是"MPC 一步 = Newton 一步"的来历——不需要记公式,记住"前瞻=改进、终端代价=被评估的值、凹算子求根的 Newton 就是策略迭代"这条链即可。

这个等价的威力在于它解释了三件经验事实:①为什么 MPC 即使终端代价很粗糙也常常表现很好? 因为 Newton 步有超线性局部收敛——哪怕初值(\(V_f\))不准,一步前瞻就能大幅拉近到 \(V^*\)。这也解释了 MPC 实践中的一个老经验:"终端代价的'方向'比'精确值'更重要"——Newton 步对初值的容忍度本就很高。②为什么把 RL 学到的值函数 \(\hat V\) 当作 MPC 的终端代价 \(V_f\),效果会显著提升? 因为你给 Newton 迭代喂了一个离 \(V^*\) 更近的初值(这正是 §4.3 的 RL-for-MPC 骨架,也是 AlphaZero 把神经网络 value 当 MCTS 叶节点估值的原理)。③为什么增大前瞻 \(N\) 能补偿不准的 \(V_f\) 因为多步前瞻 ≈ 多步 Newton,对初值误差更不敏感——这定量地解释了"longer horizon, sloppier terminal cost"这条 MPC 调参经验法则:horizon 和终端代价精度之间存在可互换的权衡。

边界(不等价在哪)。 三点关键的不等价,初学者最容易忽略:

  1. 约束。 MPC 的 OCP 里那些硬约束 \((s_k,u_k)\in\mathcal X\times\mathcal U\),在标准值迭代里没有天然对应物——RL 只能把约束转成惩罚项软性鼓励。这是 MPC 相对 RL 的结构性优势,也是 §4.4「用 MPC 给 RL 做安全滤波」存在的根本理由。
  2. 在线 vs 离线。 MPC 每周期现做一步 Newton(在线、需要模型);值迭代离线把所有 Newton 步做完、存成 \(V^*\)(离线、需要遍历状态空间)。维度低时值迭代可行(查表),维度一高就只能靠 RL 的函数逼近——这就是"维度诅咒"把两者分开的地方。
  3. 模型依赖。 MPC 的 Newton 步需要显式的 \(f\) 来展开 lookahead;model-free RL 用采样的 TD 误差近似这一步,不需要 \(f\),但要付出方差和样本量的代价。

本质洞察 2:MPC 和值迭代逼近的是同一个 \(V^*\),区别只是"做几步 Newton、在线还是离线、要不要模型"。 一旦接受这个等价,"调 MPC 的终端代价权重"和"训 RL 的 critic"在你眼里就变成了同一件事的两种做法——都在改进对 \(V^*\) 的估计。这也是为什么 RL-for-MPC(学终端代价)是所有混合范式里最自然、最有理论支撑的一类(§4.3)。Bertsekas 甚至直接说:"MPC 就是 RL,RL 就是 MPC"——指的正是这层 Newton-step 等价。

§2.2 采样式 MPC ↔ 策略梯度 / 去噪:MPPI ≈ REINFORCE ≈ DDPM ⭐⭐⭐⭐

这一组对偶横跨三个看似无关的领域——采样式最优控制(MPPI/CEM)、策略梯度 RL(REINFORCE)、生成式模型(扩散/DDPM)——却共享同一个数学操作:用回报对采样做指数加权,把采样分布推向高回报区域。MPPI_01、MPPI_05 已分别推导过 MPPI↔REINFORCE 同构与 MPPI↔去噪同构,这里把三者并到一张图上收口。

经典侧(MPPI 在做什么)。 MPPI 在名义控制序列附近采样 \(K\) 条扰动轨迹,按各自代价 \(S_k\) 做 softmax 加权,更新名义序列:

\[ u^{\text{new}} \;=\; \sum_{k=1}^{K} w_k\, u_k, \qquad w_k = \frac{\exp(-\tfrac1\lambda S_k)}{\sum_j \exp(-\tfrac1\lambda S_j)}. \]

温度 \(\lambda\) 控制"贪婪程度":\(\lambda\to0\) 退化为只取最优样本,\(\lambda\to\infty\) 退化为均匀平均。这个指数加权来自 Kappen 的自由能-KL 对偶(path integral control)。

RL 侧之一(REINFORCE)。 策略梯度 \(\nabla_\theta J=\mathbb E_{\tau\sim\pi_\theta}[R(\tau)\nabla_\theta\log\pi_\theta(\tau)]\),用回报 \(R(\tau)\) 加权 log-likelihood 梯度,把策略分布的概率质量挪向高回报轨迹。当策略是高斯、用 score-function 估计时,REINFORCE 的更新和 MPPI 的加权更新形式同构——MPPI 是 REINFORCE 的"零阶、单步、模型已知"特例(用仿真器 rollout 代替环境采样,用 softmax 代替对数梯度)。

RL 侧之二(扩散/去噪)。 DDPM 的逐步去噪,每一步把带噪样本朝"数据流形上高似然区域"推一点;当用回报/价值做 classifier guidance 时(Diffuser、Decision Diffuser、Diffusion-Planner),去噪方向被回报梯度调制,等价于把样本朝高回报区域推——这与 MPPI 把样本朝低代价区域加权是同一种"reweighting toward good"操作,只是 MPPI 一步完成、扩散分多步迭代完成。

数学桥(等价在哪)。 三者都在做信息投影 / 加权重采样:给定一个提议分布(MPPI 的高斯、REINFORCE 的策略、扩散的噪声先验),用一个"好坏评分"(代价、回报、价值梯度)对样本重新加权,得到一个更靠近最优分布的新分布。形式上都可写成对 KL 正则化目标的求解:

\[ q^* \;=\; \arg\max_{q}\;\Big[\,\mathbb E_{x\sim q}[R(x)] \;-\; \lambda\,\mathrm{KL}\big(q\,\|\,q_0\big)\,\Big], \]

其中 \(q_0\) 是提议分布、\(R\) 是回报(或负代价)、\(\lambda\) 是温度。这个变分问题有闭式解——用变分法(对 \(q\) 求导并令其为零,或直接套 Gibbs 变分原理)可得:

\[ \boxed{\;q^*(x) \;=\; \frac{1}{Z}\,q_0(x)\,\exp\!\Big(\tfrac{1}{\lambda}R(x)\Big),\qquad Z=\int q_0(x)e^{R(x)/\lambda}\,dx\;} \]

即"提议分布 × 回报的指数"再归一化——这就是指数倾斜(exponential tilting)。把这个唯一的闭式解和三种方法对照:①MPPI 用有限样本 \(\{x_k\sim q_0\}\) 蒙特卡洛近似它,权重 \(w_k\propto e^{R(x_k)/\lambda}\) 正是上式离散化后的归一化权重(softmax);②REINFORCE 用梯度上升迭代逼近它,\(\nabla_\theta\mathbb E[R]=\mathbb E[R\nabla_\theta\log\pi_\theta]\) 是把参数 \(\theta\)\(q^*\) 方向推;③扩散 guided denoising 把它分解成多步,每步的 guidance 项 \(\nabla_x R/\lambda\) 正是 \(\log q^*\) 相对 \(\log q_0\) 的梯度增量。所以 MPPI 的 softmax、REINFORCE 的 score、扩散的 guided denoising,是同一个指数倾斜解 \(q^*\) 的三种数值实现——一个一步采样近似、一个迭代梯度、一个多步分解。看清这一个公式,三个领域的"加权更新"就再也不是三件事了。

边界(不等价在哪)。时域结构:MPPI 每周期重采样一条新的有限时域轨迹(在线、滚动);策略梯度学一个可重复调用的策略网络(离线训练);扩散学一个可重复调用的生成器。②模型依赖:MPPI 需要仿真器做 rollout;REINFORCE 直接在真环境/仿真采样;扩散从离线数据集学,推理时不需要环境模型。③多步迭代 vs 单步:扩散的多步去噪能表达多峰分布(绕过障碍的左/右两条路都保留),MPPI 的单步 softmax 容易塌缩到单峰——这正是 2024-2025 用扩散先验增强 MPPI(Diffusion-MPPI、MPPI_05)的动机。

对比性思维:MPPI 不是"另一种 MPC",而是"把策略梯度的方差换成模型先验"的折中。 纯 RL 策略梯度方差大、需海量样本,但不需模型;纯梯度 MPC 需精确模型和可微性,但样本效率极高。MPPI 站在中间:用仿真器(弱模型假设,只需能 rollout,不需可微)做零阶估计,既绕开了梯度 MPC 对可微性的要求(所以能处理接触不连续、黑箱仿真),又比纯 RL 策略梯度的在线方差小(因为有模型 rollout 兜底)。这就是为什么 MPPI 在腿足/接触操作(MPPI_07)里如此受欢迎——那里梯度 MPC 因接触不连续失效,纯 RL 又太费样本。

§2.3 POMDP 搜索 ↔ model-based RL:belief = RNN 隐状态 ⭐⭐⭐⭐

这一组对偶回答 U4 反复强调的那句话——"belief 是 history 的充分统计"——在 RL 里到底对应什么。

经典侧(POMDP 求解在做什么)。 状态不可直接观测时,最优决策不能基于当前观测,而要基于 belief \(b_t=P(s_t\mid o_{1:t},a_{1:t-1})\)(状态后验)。POMDP 把 MDP 的状态空间换成 belief 空间,在其上做值迭代(SARSOP 的 \(\alpha\)-vector)或在线树搜索(POMCP/DESPOT 用粒子集表示 belief,做蒙特卡洛前瞻)。

RL 侧(model-free RL 怎么处理部分可观测)。 经验做法是给策略/值网络加一个 RNN(LSTM/GRU),让它从观测序列 \(o_{1:t}\) 中自行压缩出一个隐状态 \(h_t\),再基于 \(h_t\) 输出动作/价值。DRQN(Hausknecht & Stone 2015)、R2D2、IMPALA-LSTM、VariBAD 都是这条路。

数学桥(等价在哪)。 RNN 隐状态 \(h_t\) 是 belief \(b_t\) 的一个学出来的、有损的充分统计近似。 belief 之所以重要,是因为它是"对预测未来和做最优决策而言,history 的充分统计量"——理论上,知道 \(b_t\) 就不需要再看历史。RNN 隐状态在做同样的事:把变长历史 \(o_{1:t}\) 压缩成定长向量 \(h_t\),让 \(h_t\) 携带"做决策所需的全部历史信息"。DreamerV3(Nature 2025)把这点做到极致:它显式学一个 recurrent state-space model(RSSM),其隐状态既是 belief 近似、又是 world model 的状态——所以 DreamerV3 可以被精确地看成一个 amortized POMDP planner(用神经网络一次性摊销了 belief 更新 + 前瞻规划)。

边界(不等价在哪)。belief 的"正确性":POMCP/DESPOT 的粒子 belief 在已知观测模型 \(P(o|s)\) 下是渐近无偏的(粒子滤波保证);RNN 隐状态没有这个保证,它只是"对手头任务够用"的有损压缩——换个奖励函数,同一段历史该保留的信息可能不同。②模型:POMDP 求解需要显式的转移/观测模型;model-free RNN-RL 不需要,但因此也无法做"反事实的前瞻"("如果我采取动作 \(a\),观测会怎样")。③可解释性与剪枝:DESPOT 的信念树有遗憾界(regret bound)和可检查的剪枝;RNN 隐状态是黑箱。这就是为什么 2024-2026 的 neural-guided POMDP(把策略/价值网络当作 DESPOT 的 default policy / bound)成为前沿——它想同时拿到"树搜索的保证"和"神经网络的泛化"。

一个可操作的判断清单:我这个任务到底要不要上 RNN/序列模型? 上面的对偶给了原则("任务是 POMDP 就要"),但实战中你需要更具体的信号。问下面四个问题,任意一个为"是"就强烈提示需要序列模型/belief 处理

  1. 瞬时观测能唯一确定该做什么吗? 若同一个瞬时观测在不同历史下需要不同动作(如"看到岔路口"但该左该右取决于之前看到的路标),则观测非充分统计 → 需要记忆。
  2. 有遮挡 / 传感器噪声 / 部分视野吗? 这些直接破坏"观测=状态",是 POMDP 的典型来源(行人被车挡住、激光打不到的死角)。
  3. 任务需要"主动信息收集"吗? 若最优策略包含"先去看一眼再决定"(active perception、active SLAM),那它本质在 belief 上做探索-利用权衡 → POMDP。
  4. 奖励/目标依赖于不可直接观测的隐变量吗? 如他人的意图、物体的质量、地面摩擦——这些是隐状态,需要从历史推断。

反过来,若四问全"否"(瞬时观测就是充分状态、全可观、无需主动感知、无隐变量),加 RNN 反而是负担(增加训练难度和过拟合风险,§3.4 反模式的变体)。这张清单把"要不要上 RNN"从玄学变成了四个可检查的信号。

本质洞察 3:部分可观测下,"维护一个状态后验"是绕不开的,区别只在于你显式算它(POMDP)还是让网络隐式学它(RNN-RL)。 这解释了一个常见困惑——"为什么我的 RL 策略在有遮挡/传感器噪声的任务上不加 RNN 就学不好?"因为不加 RNN,策略就只能基于瞬时观测决策,等于强行把 POMDP 当 MDP 解,理论上次优。加了 RNN,等于让网络自己去学 belief 更新。理解了这层对偶,你就知道"什么时候必须上 RNN/序列模型"(答案:当任务本质是 POMDP、瞬时观测不是充分统计时),而不是盲目试。

§2.4 不确定性规划 ↔ Safe / Robust / Distributional RL ⭐⭐⭐⭐

U 线的五条子路线(分支/鲁棒/机会约束/POMDP/CVaR)几乎每一条都在 RL 里有一个"风险化"的孪生兄弟。这一组对偶把它们配对,澄清前置自测第 4 题。

配对总表。

经典不确定性方法(出处) 核心数学对象 RL 孪生 共享的数学操作
Tube MPC / min-max MPC(U2) RPI 不变集 / 最坏扰动 Robust RL(对抗扰动下最大化最坏回报) \(\min_u\max_{w\in\mathcal W}\):对不确定集取最坏
Chance-Constrained MPC(U3) \(P(\text{violate})\le\delta\) Safe RL / CMDP(约束期望成本 \(\le d\) 约束优化(Lagrangian / 对偶)
CVaR / risk-sensitive(U5) 尾部条件期望 \(\mathrm{CVaR}_\alpha\) Distributional RL(C51/QR-DQN/IQN 学回报分布,取风险头) 把"期望算子"换成"风险度量 \(\rho\)"
分支/场景规划(U1) 共享根的场景树 Model-based RL 的想象分支(Dreamer 想象多条 rollout) 在不确定未来上展开多分支前瞻
POMDP / belief 规划(U4) belief 上的 Bellman RNN-RL / Dreamer(见 §2.3) 状态后验上的序贯决策

深入两组最容易混淆的配对。

(a) Tube MPC 的 RPI 集 ↔ Robust RL 的 uncertainty set(前置自测 4 上半题)。 两者在"对抗谁"上确实是同一个对象:都把不确定性建模成一个集合 \(\mathcal W\)(扰动/模型误差的取值范围),然后对这个集合取最坏情况。Tube MPC 用 RPI 集刻画"扰动驱使状态偏离名义轨迹能到达的最大范围",并据此收紧约束;Robust RL 用 uncertainty set 刻画"环境可能的最坏动力学",并最大化最坏情况回报。形式上都是 \(\min_u\max_{w\in\mathcal W}\) 的 robust optimization。不等价处:Tube MPC 的 \(\mathcal W\) 是手工给定的有界集(需要先验知道扰动范围),RPI 集可以离线精确算(Raković 算法);Robust RL 的 uncertainty set 常常是隐式的(通过域随机化采样体现),且最坏情况靠对抗训练近似,没有 RPI 的精确性保证。

(b) Chance Constraint ↔ CMDP 约束(前置自测 4 下半题)。 能互相翻译,且翻译关系很清晰:CMDP 约束"期望累积成本 \(\mathbb E[\sum c_t]\le d\)",当成本取指示函数 \(c_t=\mathbb 1[\text{violate at }t]\) 时,\(\mathbb E[\sum \mathbb 1]\le d\) 就是"期望违约次数 \(\le d\)",这正是 chance constraint 的一种期望版本。

更精确地说,翻译的中转站是 CVaR 与 chance constraint 的 Rockafellar-Uryasev 关系。回顾 CVaR 的变分定义(U5):

\[ \mathrm{CVaR}_{1-\delta}\big(g(x)\big) \;=\; \min_{t\in\mathbb R}\;\Big\{\,t + \tfrac{1}{\delta}\,\mathbb E\big[(g(x)-t)^+\big]\,\Big\}. \]

关键不等式是 CVaR 是 VaR(分位数)的凸上界,而 VaR 又直接对应 chance constraint:\(\mathrm{VaR}_{1-\delta}(g)\le 0 \iff P(g(x)>0)\le\delta\)。由 \(\mathrm{CVaR}\ge\mathrm{VaR}\) 得到链条:

\[ \mathrm{CVaR}_{1-\delta}\big(g(x)\big)\le 0 \;\;\Longrightarrow\;\; \mathrm{VaR}_{1-\delta}\big(g(x)\big)\le 0 \;\;\Longleftrightarrow\;\; \underbrace{P\big(g(x)>0\big)\le\delta}_{\text{chance constraint}}. \]

也就是说:满足 CVaR 约束就一定满足同水平的 chance constraint(CVaR 是更保守、但凸、可解的代理)。这就是"用 CVaR 约束来强制 chance constraint"在工程上行得通的数学根据——chance constraint 本身非凸难解,CVaR 约束凸且能写成 LP/QP(RU 的 \(\min_t\) 引入一个辅助变量即可)。而 CVaR 约束又是 distributional RL 能直接处理的对象(IQN 内置 CVaR 采样器,直接对回报分布的尾部优化)。所以三者构成一条可逐步代换的翻译链

\[ \boxed{\;\text{chance constraint}\;\xleftarrow{\text{CVaR 上界}}\;\text{CVaR 约束(凸,可 LP 化)}\;\xrightarrow{\text{尾部采样}}\;\text{distributional RL 风险头}\;} \]

这条链是 U3-U5 与 Safe/Distributional RL 之间最重要的桥:左端(经典 chance-constrained 优化)和右端(distributional RL)通过中间的 CVaR 这个"公共货币"连通——你既可以在 OSQP 里解 CVaR-LP,也可以让 IQN 学 CVaR 风险头,两者优化的是同一个保守化的安全目标。

(c) 分支/场景规划 ↔ Dreamer 的想象 rollout(配对总表第四行的展开)。 这一组对偶常被忽略,却最直观。经典的分支/场景规划(U1 的 MPDM/EPSILON/scenario tree)做的是:对不确定的未来枚举若干"剧本"(他车会让/会抢、行人会停/会冲),在每个剧本上前向仿真,再综合各剧本的结果做决策——本质是"在不确定未来上展开多分支前瞻"。而 model-based RL 的 Dreamer 系做的是:在学到的 world model 里"想象"多条 rollout(每条对应一种可能的未来展开),用想象的回报来训练策略/值。两者的同构点一目了然:都是"在一个(手写或学出的)前向模型上,对不确定的未来展开多条分支,用分支结果指导当前决策"。差异在于:经典分支用手写的语义剧本(可解释、数量少、需人工设计剧本集),Dreamer 用学出的连续 latent rollout(不可解释、可大量采样、剧本集隐式)。这就是为什么 §附录 A.3 说"MPDM 前向仿真 = 带启发的 tree search"、CoRL 2022 Contingencies-from-Observations 与 Dreamer 系想象分支对应——它们是同一个"多分支前瞻"在经典与 RL 两侧的实现。

边界(共性之外的关键差异)。 经典侧(Tube/CC/CVaR-MPC)给的是带证书的保证——RPI 集保证约束满足、CVaR-LP 给确定的风险界;RL 侧(Robust/Safe/Distributional RL)给的是统计意义上的、训练收敛后的近似保证,且这些保证在分布外(OOD)状态可能失效。所以工程上常见的不是二选一,而是用 RL 学策略、用经典安全层兜底(§4.4 的安全滤波 / CBF + RL / shielding)——让 RL 负责性能、经典负责"绝不越界"。

理论-工程桥接:风险度量是连接控制与 RL 的"通用货币"。 一致性风险度量(coherent risk measure,Artzner 4 公理)这个数学对象,同时是 CVaR-MPC 的目标、distributional RL 的输出头、和 Safe RL 的约束形式。它像一种"通用货币"——一旦你的任务用风险度量 \(\rho\) 表达了目标(而不是只用期望),你既可以用经典优化解(CVaR-LP dual + OSQP),也可以用 distributional RL 学(IQN 内置 CVaR 采样器),还可以两者混合。这就是为什么 U5(CVaR)虽然 C++ 生态空白,却被定位为"理论顶帽"——它是整个不确定性谱系的统一语言。

§2.4bis 不确定性对偶的"翻译词典"速查

§2.4 的五组配对内容密集,这里给一张精炼的"翻译词典",方便查阅。每一行是一个经典概念→RL 概念的精确翻译,附"翻译是否精确"的标注:

经典不确定性概念 RL 翻译 翻译精确度 精确/不精确的原因
RPI 不变集 \(\mathcal{E}\) Robust RL 的 uncertainty set (同为对最坏情况鲁棒的集合) 都是"给扰动画一个盒子",但 RPI 可精确计算、RL 的集合常隐式
约束收紧量 \(\rho = \sup_{w\in\mathcal{W}} \|w\|\) Domain randomization 的范围 (精神类似但形式不同) 约束收紧是解析的、域随机化是采样的
CC 的 \(\delta\) 概率预算 CMDP 的约束阈值 \(d\) (可精确互译) \(\Pr[\text{violate}]\le\delta\)\(\mathbb{E}[\text{cost}]\le d\),取指示函数即等价
CVaR\(_\alpha\) IQN 的 \(\tau\sim U[0,\alpha]\) 精确(数学等价) IQN 的分位数重采样直接实现 CVaR
Chance constraint → CVaR 上界链 Safe RL → Distributional RL 链 结构同构 三者构成同一条"保守度递增的约束链"
分支/场景树 Dreamer 想象 rollout (精神类似但粒度不同) 经典分支是离散语义场景、Dreamer 是连续 latent rollout
belief \(b(s)\) RNN 隐状态 \(h_t\) 概念等价,精度不同 都是 history 的充分统计;RNN 是有损近似、belief 是无偏

本质洞察(翻译精确度的高低,对应着"混合时的无缝程度"):翻译精确度越高的配对,混合使用时越无缝。CVaR↔IQN 是精确的 → 可以直接用 IQN 的输出替代 CVaR-LP 的计算(§10 合流前沿)。belief↔RNN 是概念等价但精度不同 → 混合时需要额外的"精度对齐"(如 neural-guided POMDP 用网络值作剪枝 bound 而非直接替代 belief)。"翻译词典"不只是概念对照,更是混合架构的"兼容性检查表"——翻译越精确的配对,越适合做 §4 的混合骨架。

§2.5 博弈求解 ↔ MARL:Nash↔均衡学习,PSRO↔double oracle ⭐⭐⭐

这一组对偶澄清前置自测第 3 题——把"解概念"和"训练范式"分清楚,是理解 G 线与 MARL 交界的关键。

先厘清三个常被混为一谈的词。

  • 解概念(solution concept):Nash 均衡、Stackelberg 均衡、相关均衡——这是"什么叫'解出了'这个博弈"的定义,与用什么算法求无关。
  • 经典求解器:iLQGames(求局部反馈 Nash)、ALGAMES(求约束 GNE)、HJI(求零和微分博弈值)——这是在已知各方代价/动力学时求解概念的方法。
  • 训练范式:CTDE(集中训练分散执行)、self-play、population-based training——这是 MARL 里组织训练流程的方式,不是解概念。把 CTDE 当成"一种均衡"是初学者最常见的范畴错误(前置自测 3 的陷阱)。

为什么"解概念 ≠ 训练范式"这件事必须分清——一个会出错的例子。 解概念回答"我想要什么样的解",训练范式回答"我用什么流程去逼近它",二者正交。最常见的错误是把它们耦合:比如默认"用 CTDE 训出来的就是 Nash"。但 CTDE 只是"训练时让 critic 看到全局信息、执行时各自只用局部观测"的流程,它本身不规定收敛到哪种均衡——同样的 CTDE,配不同的目标/对手集,可能逼近 Nash,也可能逼近别的不动点,甚至不收敛。再如"self-play 训出的策略一定鲁棒"也是误解:self-play 是训练范式,它逼近的解概念取决于对手分布(只跟最新自己打 ≠ 跟整个历史策略池打,后者才更接近 Nash,这正是 §2.5 后面 PSRO 要解决的)。正确的思维顺序永远是:先定解概念(我要同时博弈的 Nash?还是领导-跟随的 Stackelberg?),再选训练范式去逼近它,最后验证它确实收敛到了想要的解概念——三步分开,缺一不可(§3.4 反模式 3 是这个错误的工程版)。

Nash vs Stackelberg:解概念选错,结果南辕北辙。 同一个交互场景,选 Nash 还是 Stackelberg 会给出完全不同的策略,这不是算法细节而是建模决策:Nash 假设各方"同时"决策、互为最优响应(适合对等的、无明显先后的交互,如两车对向会车);Stackelberg 假设有"领导者"先动、"跟随者"看到后再最优响应(适合有明显主导方的交互,如 AV 主动影响人类驾驶——Sadigh 2016 正是把 AV 建成 leader)。选错的后果很具体:把本该 Stackelberg 的场景(AV 该主动试探、人类会让)当成 Nash 解,AV 会过于保守(假设对方不会因自己而改变);反之把对等场景当 Stackelberg,会高估自己的影响力而过于激进。所以"用 Nash 还是 Stackelberg"是博弈规划的第一个、也是最容易被跳过的建模决策——它属于"解概念"层,必须在选求解器/训练范式之前定下来。

经典侧 ↔ MARL 侧的逐项对偶。

经典博弈(G 线) MARL 孪生(Multi_10、G4)
Nash 均衡(解概念) Nash-Q、MADDPG/QMIX 收敛点 MARL 算法(隐式)收敛到的不动点常是某种 Nash
iLQGames 反馈 Nash actor-critic 在 LQ 博弈上的收敛 两者都在求反馈策略的不动点
ALGAMES 约束 GNE Constrained MARL / safe MARL 都在约束策略空间求均衡
PSRO(G4) = double oracle 的深度 RL 版 best-response oracle 用深度 RL 算,meta-solver 求策略池上的 Nash
HJI 零和微分博弈 Robust adversarial RL(RARL) \(\min\max\) 的连续时间 vs 采样版

深入 PSRO ↔ double oracle 这一组(最优雅的对偶)。 Double oracle 是博弈论里求大规模零和博弈 Nash 的经典迭代算法:维护一个策略子集,每轮①对当前子集上的 meta-game 求 Nash(meta-solver),②对该 Nash 求 best response(oracle)并加入子集,直到 best response 不再带来增益。把两个算法的骨架并排写出来,对偶关系一目了然:

Double Oracle(经典)                       PSRO(深度 RL 版,Lanctot 2017)
─────────────────────────────────          ─────────────────────────────────
初始化策略池 Π = {π0}                        初始化策略池 Π = {随机策略}
repeat:                                      repeat:
  M ← 在 Π×Π 上算各策略对的收益矩阵            M ← 让 Π 里的策略互相对打,估计收益矩阵
  σ ← meta-solver(M)  # 解 meta-game Nash      σ ← meta-solver(M)  # 仍解 Nash / α-rank
  for 每个玩家 i:                              for 每个玩家 i:
    br_i ← 精确 best response to σ_{-i}          br_i ← 用深度 RL(PPO/DQN) 训练近似 BR
    Π ← Π ∪ {br_i}                              Π ← Π ∪ {br_i}
until BR 不再改进收益                          until BR 不再显著改进(或预算耗尽)
输出: meta-Nash σ over Π                      输出: meta-Nash σ over Π(策略混合)

逐行对照可见:PSRO 只把 double oracle 的两处"算子"换成了深度 RL——①收益矩阵 \(M\) 从"解析计算"变成"对打估计",②best-response oracle 从"精确解"变成"深度 RL 近似",meta-solver(解 meta-game Nash)则原样保留。 所以 PSRO、JPSRO、\(\alpha\)-PSRO、Pipeline-PSRO 这一整个家族,都是"经典博弈算法骨架 + 深度 RL 内核"的混合——恰好是 §4.2 骨架 A(用 RL 替换经典算法里最难精确算的零件)在博弈领域的体现。AlphaStar 的 league training、AlphaGo 的 self-play 本质都是这套(self-play 可看作 PSRO 的特例:meta-solver 退化成"总是对最新策略求 BR")。这个对偶的美妙之处在于:它让"求博弈 Nash"这个 PPAD-hard 的问题,借由经典骨架获得了收敛结构(double oracle 保证有限步收敛到 Nash),又借由深度 RL 获得了对大策略空间的可扩展性——单用任何一边都做不到。

边界(不等价在哪)。均衡的存在性与求解性:经典求解器(iLQGames)在 LQ 假设下求局部反馈 Nash 有较好的数值性质;一般博弈的 Nash 求解是 PPAD-hard,MARL 用梯度下降-上升(GDA)求均衡可能不收敛(循环、震荡)——这是 G4 和连续博弈 RL(Stackelberg actor-critic、GDA 收敛性分析)的核心难题。②信息结构:经典博弈明确区分开环/反馈、完全/不完全信息;MARL 的信息结构隐含在网络输入和 CTDE 的"集中 critic 能看到什么"里,容易被忽略而导致错误的均衡概念。③可扩展性:iLQGames 处理 N 人但 N 大时维度爆炸;PSRO 类方法能 scale 到大策略空间但每轮 oracle 训练昂贵。

本质洞察 4:博弈不是"多个 RL agent 各自学",而是"在耦合的最优性条件(HJI/GNE)上求不动点"。 这是初学者最大的认知升级。把多机问题简单地"每个 agent 跑一个独立 PPO"(independent learners),等于无视了"每个 agent 的最优策略依赖于别人的策略"这个耦合——会遇到非平稳性(环境随别人策略变化)和不收敛。正确的视角是:多智能体最优决策的解,是一组互相满足最优性条件的策略(Nash/GNE),无论你用经典求解器解它、还是用 CTDE/PSRO 学它,目标都是这个耦合不动点。理解这点,你就知道为什么 CTDE 的"集中 critic"是必要的(它让每个 agent 的更新考虑到别人),以及为什么独立学习常常失败。

§2.6 搜索式规划 ↔ 学习型搜索:A*↔Neural A*,MCTS↔MuZero ⭐⭐⭐

最后一组对偶收口 T 线(时空搜索)、Multi_03(MAPF)与 RL 的搜索分支。

经典侧(搜索式规划在做什么)。 A*/SIPP/Hybrid-A* 用启发式 \(h(s)\) 估计"从 \(s\) 到目标的最优 to-go",配合已花代价 \(g(s)\),按 \(f=g+h\) 展开节点。启发式 \(h\) 越接近真实 to-go(即越接近 \(V^*\)),搜索越高效;\(h\) 是可采纳的(admissible,不高估)就保证最优。MCTS 则用蒙特卡洛 rollout 估计节点价值,配 UCT 平衡探索-利用。

RL 侧(学习型搜索在做什么)。 Neural A*(ICML 2021)用 CNN 从地图预测一个 guidance map(本质是学出来的 \(h\) 或代价场),加速 A* 展开。MuZero(Nature 2020)更彻底:它学一个 latent dynamics model + value/policy 网络,在学到的模型上做 MCTS——用神经网络同时提供了"模型"(展开用)、"价值"(叶节点估值用)、"策略先验"(节点选择用)。GNN-guided CBS/SIPP(MAPF)用图神经网络预测冲突优先级,减少高层节点展开。

数学桥(等价在哪)。 学习型搜索 = 经典搜索 + 用神经网络学其中的 \(\{\)启发式 \(h\)、价值估计、模型 \(f\)、策略先验\(\}\) A* 的 \(h\) ≈ MuZero 的 value network ≈ MPC 的终端代价 ≈ RL 的 \(V\)——它们都在逼近 \(V^*\)(又回到 §2.1 的母对偶!)。MCTS 的 rollout 估值 ≈ MPPI 的 rollout 估值 ≈ TD 学习的 bootstrap——都在用前瞻样本估计 to-go。所以"经典搜索"和"RL 搜索"的差别,只是 \(V^*\) 的那些零件是手工设计还是神经网络学出来的

边界(不等价在哪)——把"可采纳性"这个核心权衡写清楚。 A* 的最优性保证依赖一个精确的条件:启发式 \(h\) 可采纳(admissible),即对所有 \(s\) 满足 \(h(s)\le h^*(s)\)(不高估真实 to-go)。在此条件下 A* 保证返回最优路径;进一步若 \(h\) 一致(consistent),还保证每个节点只展开一次。这里有一个手工启发式根本绕不开的张力

\[ \underbrace{h\to 0}_{\text{退化为 Dijkstra,慢但安全}} \quad\longleftrightarrow\quad \underbrace{h\to h^*}_{\text{理想:直奔目标,但需先知道 }V^*} \quad\longleftrightarrow\quad \underbrace{h>h^*}_{\text{快但可能丢最优解}} \]

手工设计 \(h\) 时,你只能在"保守(可采纳但松、搜索慢)"和"激进(紧但可能高估、丢最优)"之间手调,而最理想的 \(h=h^*\) 恰恰就是 \(V^*\)——你要是知道它就不用搜索了。这正是 Neural A* 切入的缝隙:它用神经网络学一个尽量贴近 \(h^*\) 但不保证可采纳的 \(h\),于是搜索极快(因为 \(h\) 紧),代价是牺牲了最优性保证(学出的 \(h\) 可能局部高估,丢掉最优解)。所以这一组对偶的不等价处可以精确地表述为:

最优性保证:经典 A* 在 admissible \(h\) 下保证最优;Neural A* 学的 \(h\) 不保证 admissible,换"快"丢"最优性证书"。②模型来源:经典搜索的转移模型是手工/已知图;MuZero 的模型是学的,可能在 OOD 状态出错。③泛化 vs 保证:神经零件带来跨实例泛化(学一次,多张地图都快),但失去逐实例的可验证保证——这是"学习型搜索"全家共同的权衡。理解了 \(h\) 可采纳性这个张力,你就懂了为什么"学启发式"是必然趋势(手工 \(h\) 难以同时紧又可采纳)、以及它的代价边界在哪(丢最优性证书)——以及在 MAPF(Multi_03)这类对最优性敏感的场景里,为什么人们要用"有界次优(bounded-suboptimal)"框架(如 focal search)来给学习型启发式套一个可控的次优界。

对比性思维:Neural A* 不是"用神经网络替代 A*",而是"用神经网络替代 A* 里那个最难手工设计的零件(启发式)"。 很多人误以为学习型搜索是"抛弃经典搜索、全用神经网络"。恰恰相反——它保留了 A*/MCTS 的搜索骨架(这部分有最优性结构、可控),只把骨架里最依赖领域知识、最难手工调好的零件(启发式 \(h\)、节点优先级、模型)换成神经网络。这是一种极聪明的分工:让经典结构提供保证和可控性,让神经网络提供那些"说不清但学得会"的先验。这个分工哲学,正是 §4 整个混合范式的缩影。

§2.7 六组对偶的统一全景:它们其实是同一组对偶 ⭐⭐⭐⭐

把 §2.1-§2.6 六组对偶并排看,一个更深的事实浮现:它们不是六个独立的巧合,而是同一组对偶在不同算子上的六次重演。 每一组的"经典侧"和"RL 侧",都在逼近母方程里的同一个对象——而那个对象,归根结底都是 \(V^*\)(或它的某种特化:belief 上的 \(V^*\)、风险化的 \(V^*\)、博弈的均衡值)。

对偶组 经典侧逼近什么 RL 侧逼近什么 共同逼近的母方程对象 同构操作
§2.1 MPC↔值迭代 终端代价 \(V_f\) critic \(\hat V\) \(V^*\) Newton 步 / 策略迭代
§2.2 MPPI↔策略梯度↔去噪 rollout 加权 score / guidance 指数倾斜的最优分布 \(q^*\) \(q^*\propto q_0 e^{R/\lambda}\)
§2.3 POMDP↔RNN-RL 粒子 belief RNN 隐状态 belief 上的 \(V^*\) history 的充分统计
§2.4 不确定性↔Safe/Dist RL 风险化 to-go distributional/robust value 风险算子下的 \(V^*\) 期望→风险度量 \(\rho\)
§2.5 博弈↔MARL 反馈 Nash 值 MARL 收敛点 HJI/GNE 的均衡值 耦合最优性的不动点
§2.6 搜索↔学习型搜索 启发式 \(h\) value/policy net \(V^*\)(to-go) 逼近 to-go 加速搜索

这张表是 §2 的"对偶的对偶"——它揭示六组对偶共享同一个母结构。 三件事值得反复体会:

  1. 第四列(共同逼近的对象)全是 \(V^*\) 的变体。 \(V^*\)、belief 上的 \(V^*\)、风险化 \(V^*\)、博弈均衡值——它们都是母方程 \(V^*=\mathcal T V^*\) 在不同算子(状态空间换 belief、期望换风险、单方换多方)下的不动点。所以六组对偶本质是一组:经典与 RL 都在逼近"母方程的不动点",只是母方程被特化成了不同形态。
  2. 第五列(同构操作)虽各异,却都是"用某种迭代/加权逼近不动点"。 Newton 步、指数倾斜、充分统计压缩、风险算子、不动点迭代、to-go 逼近——它们是逼近不动点的六种数值手段,但目标一致。
  3. 这解释了为什么混合范式(§4)能成立且自然。 既然经典与 RL 逼近的是同一个不动点,那么一方的中间产物(\(V_f\)、warm-start、belief、安全集)就能被另一方直接消费——这不是工程上的侥幸拼接,而是数学上的必然可对接。§4 的四类骨架,正是在这张全景表的不同列上"让经典和 RL 交换中间产物"。

本质洞察 4.5(§2 的总收口):你以为学了六组对偶,其实只学了一组——"经典与 RL 都在逼近母方程的不动点"。 这是把 §2 从"六个并列知识点"升维成"一个统一原理"的关键。初学者会把 MPC↔值迭代、MPPI↔策略梯度、POMDP↔RNN 当成六件要分别背的事;而一旦你看到第四列全是 \(V^*\) 的变体,六组就坍缩成一组。这种"把 N 个看似独立的事实统一成一个原理"的能力,正是 §1 开篇说的"专家与新手的分水岭"。 带着这个统一视角,你再去看 §4 的混合范式、§5 的全方向收口,会发现它们都是这同一个原理的展开。

过渡:从"对偶"到"决策"。 §2 的六组对偶,把"经典 ↔ RL 同义表达"这张映射图填满了——这正是 §4 阶段课程作业要交付的核心。但"知道它们对偶"还不等于"知道该用哪个"。苹果和橡树同源,但盖房子用橡木、做沙拉用苹果。下一节 §3 就把这些对偶关系翻译成可操作的选型决策:给定一个真实任务,到底落到 §1.3 总表的哪一格?


§3 决策框架:面对一个任务,到底该用谁 ⭐⭐⭐

为什么需要决策框架——先动机

学完整个方向,最容易陷入的不是"不会用工具",而是"面对新任务时不知道该挑哪个工具"。社区里充斥着两种极端误导:一种是"RL 是未来,经典方法都过时了"(多见于深度学习圈),另一种是"RL 不可靠,工业上还得靠 MPC"(多见于传统控制圈)。两种说法都把"该用谁"简化成了立场站队,而正确答案永远是"取决于任务的具体画像"。

最有说服力的反例,来自一项被反复引用的实证研究——Song, Romero, Müller, Koltun, Scaramuzza, "Reaching the limit in autonomous racing: Optimal control versus reinforcement learning," Science Robotics 2023。这项工作在同一个第一视角无人机竞速任务上,把精心调过的最优控制(MPC)和 RL 正面对比,结论极其精准、也极具教学价值:RL 赢了,但赢的不是"因为 RL 更聪明",而是因为这个任务的目标(贴着动力学极限飞最快)很难写成 MPC 需要的那种光滑、可微、低维的代价函数——RL 用回报信号绕开了"显式设计代价"这个瓶颈。换句话说,胜负不取决于"RL vs OC"这个标签,而取决于任务的目标能否被经典优化所需的结构(光滑代价、准确模型、可解约束)干净地表达。这正是本节要给你的决策框架的灵魂:先看任务画像,再选方法,而不是先有立场。

§3.1 六维任务画像

任何规控任务,都可以用下面六个维度刻画。填完这六个维度,方法选择就基本确定了——这是把 §1.3 总表"反过来用":总表告诉你每个方法站在哪一格,画像告诉你任务需要哪一格。

维度 问题 偏向经典(优化/搜索/MPC)当… 偏向 RL(学习)当…
D1 模型已知性 动力学 \(f\) 能准确建模吗? 能(刚体、轮式、四旋翼平坦模型) 不能(软体、复杂接触、像素→动作)
D2 状态/动作维度 状态维度多高?动作连续/离散? 中低维(< 几十维),结构清晰 高维(图像、点云)、长horizon
D3 约束硬度 安全约束是"必须满足"还是"尽量满足"? 硬约束(碰撞绝对禁止、力矩上限) 软约束(可用惩罚鼓励即可)
D4 实时预算 在线允许多少计算时间? 充裕(10-100ms 可解 OCP)或可离线 极紧(μs 级,只够一次前向)
D5 安全/可验证性 需要可证明的保证 / 可解释吗? 需要(认证、量产、安全关键) 不需要或有兜底层
D6 数据/仿真可得性 有高保真仿真器 / 海量数据吗? 不需要(模型即够) 有(否则 RL 无从训练)

怎么用这张表? 不是"多数票决",而是看有没有"一票否决"的维度

  • D3 = 硬约束 且 D5 = 需要可验证(如载人系统、量产自驾的底层安全):几乎一票否决纯 RL,必须有经典安全层(至少是 §4.4 的安全滤波兜底)。
  • D1 = 模型不可建模(如柔性操作、像素到动作):几乎一票否决纯经典优化,必须引入学习(纯 RL 或 §4.7 的 world model)。
  • D6 = 无仿真无数据:一票否决纯 RL(没法训练),只能走经典或 model-based(先学模型)。
  • D4 = μs 级且 D2 高维:在线解 OCP 来不及,倾向"离线学策略 + 在线推理",即 RL 或 amortized 优化。

§3.2 主决策树(一图流)

把六维画像组织成一棵可操作的决策树。这棵树不是教条,而是"默认起点"——多数任务从这里出发能选对大方向,特殊情况再微调。

                          ┌─ 任务来了 ─┐
                          │ 填六维画像  │
                          └──────┬──────┘
                  ┌──────────────────────────────┐
                  │ Q1: 安全约束是硬约束          │
                  │     且需要可验证保证吗?(D3,D5)│
                  └───────┬───────────────┬──────┘
                       是 │               │ 否
                          ▼               ▼
          ┌───────────────────────┐   ┌────────────────────────┐
          │ 经典优化必须在场       │   │ Q3: 模型能准确建模吗?  │
          │ Q2: 模型可建模吗?(D1)  │   │     (D1)                │
          └────┬──────────────┬───┘   └─────┬──────────────┬────┘
            是  │              │ 否          │ 是           │ 否
               ▼              ▼             ▼              ▼
       ┌──────────────┐ ┌─────────────┐ ┌──────────┐ ┌──────────────┐
       │ 纯经典 MPC/  │ │ 混合:学模型/ │ │ Q4:维度高 │ │ Q5:有仿真/   │
       │ 搜索/博弈    │ │ 学代价 + 经典│ │ 或 μs级? │ │ 数据吗?(D6) │
       │ (acados,     │ │ 安全层兜底   │ │ (D2,D4)  │ │              │
       │  GCOPTER,    │ │ (§4.3/§4.4)  │ └──┬────┬──┘ └──┬───────┬──┘
       │  ilqgames)   │ └─────────────┘   是│    │否    是│       │否
       └──────────────┘                     ▼    ▼        ▼       ▼
                                      ┌────────┐┌──────┐┌──────┐┌────────┐
                                      │RL/学策略││经典  ││纯RL  ││退化:   │
                                      │+在线推理││优化  ││或    ││只能经典│
                                      │(可加安全││足够  ││world ││/ 先搭  │
                                      │ 滤波)   ││      ││model ││ 仿真   │
                                      └────────┘└──────┘└──────┘└────────┘

这棵树的核心逻辑(用三句话总结):

  1. 安全 + 硬约束 + 可验证 → 经典优化必须在场(哪怕只是作为 §4.4 的兜底滤波层)。这是不可让渡的底线,载人/量产系统尤其如此。
  2. 模型不可建模 → 学习必须在场(纯 RL 或先学 world model 再规划)。硬靠手写模型做优化会因模型失配而失败。
  3. 两者都不极端时 → 看维度和实时预算:低维 + 模型好 + 时间够,经典优化往往是更省心、更可靠的选择(别为了用 RL 而用 RL);高维感知 / μs 级 / 黑箱,才轮到 RL 的主场。

本质洞察 5:决策树的根问题永远是"安全约束硬不硬",而不是"哪个方法更先进"。 这是工业界和学术界最大的认知差。学术 benchmark 上,性能(成功率、回报)是唯一指标,所以"更先进的方法赢"。但真实系统里,违约一次的代价(撞人、坠机、设备损毁)可能是无穷大,此时"可证明不违约"压倒一切性能优势。这就是为什么量产自驾的底层仍是经典优化 + 安全证书,而把 RL/神经网络放在"提性能"的上层——风险被经典层挡住了,神经网络才能放心地激进。理解这个"风险-性能分层",你就理解了 §4 混合范式为什么是工程主流。

§3.3 五个边界案例的实证

抽象的决策树需要具体案例锚定。下面五个案例覆盖五大方向,每个都给出"画像 → 结论 → 为什么",并尽量引用有据可查的实证。

案例 1:无人机竞速贴极限飞行(D 方向)——RL 胜,但因为代价难写。 画像:D1 模型较好(四旋翼平坦),但 D2 目标维度上"贴动力学极限"这个目标极难写成光滑代价,D4 实时紧、D6 有高保真仿真。结论:RL(Song et al. Science Robotics 2023 实证 RL 跑出更快圈速)。 为什么:MPC 需要一个光滑、可微、能反映"逼近极限"的代价函数,而这个目标本质是非光滑的(极限处行为剧变);RL 用稀疏的"圈速"回报绕开了显式代价设计。教学含义:这不是"RL 比 MPC 强"的证据,而是"当目标难以解析表达时,RL 的回报信号是更自然的接口"的证据。

案例 2:城市自驾的行人交互决策(自驾 / U1 / S4)——POMDP/混合,纯经典或纯 RL 都不够。 画像:D1 行人意图不可精确建模(POMDP)、D3 安全硬约束、D5 需可验证、D6 仿真不完美。结论:经典 POMDP(DESPOT,NUS Bai 2015 行人交互驾驶是金牌案例)或"学预测 + 经典规划 + 安全层"的混合(Apollo 路线)。 为什么:纯 RL 难给安全保证(D3/D5 否决),纯确定性优化无法处理意图不确定(D1 否决),所以落到"belief 上决策"——经典走 POMDP 树搜索,工业走"神经预测喂给经典规划器 + CBF 兜底"。

案例 3:四足在崎岖地形的敏捷运动(C1 / MPPI_07)——RL 或采样 MPC,梯度 MPC 因接触失效。 画像:D1 接触动力学不连续、难精确建模,D2 全身高维,D4 实时紧。结论:RL(sim-to-real 域随机化,ANYmal/Cheetah 主流)或采样式 MPPI(DIAL-MPC)。 为什么:接触不连续让梯度 MPC 的可微性假设破裂(§2.2 已述),所以要么用零阶的采样 MPPI(不需梯度),要么用 RL(仿真里学、域随机化迁移)。这里经典梯度优化被"接触不连续"这个 D1 子维度直接否决

案例 4:工厂机械臂重复抓取已知物体(B 方向)——经典优化足够,别上 RL。 画像:D1 模型好(刚体 + 已知物体)、D2 中维、D3 有力矩约束但可解、D4 时间充裕、D6 不一定有数据。结论:经典 MPC / 轨迹优化(acados、Crocoddyl)。 为什么:这是经典优化的舒适区——模型准、约束可解、重复性高。硬上 RL 反而是反模式:要造仿真、要调奖励、要担心 sim-to-real,换来的"泛化"在"重复抓取已知物体"这个固定任务上毫无价值。这个案例专门用来对治"RL 万能"的迷思。

案例 5:百级无人机集群协同(D10 / Multi)——分层混合,单一范式都不可扩展。 画像:D2 联合状态维度爆炸(百机)、D1 单机模型好但耦合复杂、D4 分布式实时。结论:分层混合——上层 MARL/PSRO 或学习型分配,下层每机经典 MPC/MINCO(ZJU EGO-Swarm 路线)。 为什么:集中式经典优化在百机维度爆炸(D2 否决集中经典),纯端到端 MARL 在百机上训练不收敛且无单机安全保证。所以用学习处理"高层协调/分配"(维度高、难建模),用经典处理"单机轨迹"(低维、要安全)——这正是 §5.3 "学习管调度、优化管执行"主轴的体现。

反事实分析:同一个任务,改一个画像维度,结论就翻转。 决策框架的真正威力,体现在"画像微变 → 结论可预测地变化"上。把上面五个案例各做一次"扰动一个维度"的反事实推演,你会看到选型对画像的敏感性——这也是 R6 对比性思维的核心训练:

基准案例 改动一个维度 结论如何翻转 教学含义
案例 1 竞速(RL 胜) D3 改为硬约束(赛道边界绝对不能越) 从纯 RL → RL + 安全滤波(§4.4),RL 仍管性能但 CBF 兜底 安全维度一变硬,经典层立刻被拉进来
案例 1 竞速(RL 胜) 目标可写成光滑代价(如最小时间 + 已知赛道几何) 从 RL → MPC 重新有竞争力(这正是 Song et al. 的微妙之处:胜负在于代价可写性) "RL 胜"不是绝对的,取决于代价能否解析表达
案例 4 抓取(经典够) D1 改为未知/可变形物体(抓毛巾、线缆) 从经典 → 学习(视觉抓取 RL/IL),模型不可建模否决经典 模型维度一变黑,学习立刻成为必需
案例 4 抓取(经典够) D2 改为像素直接输入(无物体姿态估计) 从经典 → 端到端学习或"感知学习 + 经典规划"混合 高维感知输入把经典优化推向上游
案例 3 四足(RL/MPPI) 改为平地缓速行走(接触规律、可线性化) 从 RL/MPPI → 凸 MPC 重新够用(MIT Cheetah convex MPC) 接触一旦可近似,梯度 MPC 回归
案例 2 行人(POMDP/混合) D6 改为有完美仿真 + 海量数据 belief 规划权重下降,end-to-end IL/RL(如 UniAD 路线)更有竞争力 数据维度改变学习的可行性
案例 5 集群(分层混合) D2 改为仅 3-5 机 集中式经典博弈/优化(iLQGames/集中 MPC)重新可行,无需 MARL 规模维度决定集中 vs 分布

这张反事实表是本节最该带走的东西。 它证明:选型不是"记住某任务用某方法",而是"理解每个画像维度如何把结论往哪边推"。 一旦掌握这种敏感性分析,你面对任何变体任务都能即时调整——这才是"会选型"的真正含义,远比背下五个案例的标准答案有用。

§3.4 反模式:常见的"用错工具"

把上面的正面案例反过来,列出五个高频反模式(陷阱)。每个按"错误描述 → 现象/后果 → 根本原因 → 正确做法"四要素展开(R9)。

反模式 1:在模型已知的低维任务上硬上 RL。 - 错误描述:明明是轮式机器人点到点导航(模型清楚、约束简单),却要训一个端到端 RL 策略。 - 现象/后果:花几周搭仿真、调奖励、处理 sim-to-real,最终性能还不如一个 200 行的 MPC,且无任何安全保证。 - 根本原因:把"RL 更先进"当成默认选择,忽略了任务画像(D1 模型好、D2 低维 → 经典优化的舒适区)。 - 正确做法:先问决策树 Q3/Q4——模型好 + 低维 + 时间够,直接经典优化。RL 的价值在 D1/D2 不利时才显现。

反模式 2:在安全关键系统里用纯 RL,无经典兜底。 - 错误描述:载人/近人系统直接部署一个 RL 策略做底层控制,期望它"学会安全"。 - 现象/后果:分布外状态(训练没见过的场景)下行为不可预测,可能违约(碰撞、超限);无法通过安全认证。 - 根本原因:误以为"奖励里加了惩罚项 = 安全保证"。软惩罚不是硬保证,OOD 下尤其失效(§2.4 边界)。 - 正确做法:决策树 Q1=是 → 经典安全层必须在场。用 §4.4 的安全滤波 / CBF-QP 给 RL 输出兜底,让经典层"绝不越界",RL 只在安全集内激进。

反模式 3:把 CTDE / self-play 当成"解概念"。 - 错误描述:声称"我用 CTDE 解出了这个博弈的均衡"。 - 现象/后果:分不清自己求的是哪种均衡(Nash?相关均衡?还根本没收敛?),导致对结果的错误解读和不可复现。 - 根本原因:混淆训练范式(CTDE)与解概念(Nash/Stackelberg)(§2.5 前置自测 3)。 - 正确做法:先明确解概念(你要的是同时博弈的 Nash 还是领导-跟随的 Stackelberg?),再选训练范式去逼近它,并验证收敛性。

反模式 4:忽略部分可观测,把 POMDP 当 MDP 解。 - 错误描述:在有遮挡/传感器噪声的任务上,用瞬时观测直接喂给前馈策略或 MDP 求解器。 - 现象/后果:策略学不好或次优,表现为"在需要记忆的地方反复犯错"。 - 根本原因:瞬时观测不是充分统计,任务本质是 POMDP(§2.3),强行当 MDP 解理论上次优。 - 正确做法:识别 POMDP 特征(观测 ≠ 状态),经典走 belief 规划(DESPOT),RL 走 RNN/序列模型(让网络学 belief)。

反模式 5:为了用扩散/大模型而用,无视实时与可验证需求。 - 错误描述:在 μs 级、安全关键的底层控制回路里塞一个大扩散模型或 VLA。 - 现象/后果:推理延迟远超控制周期、行为不可验证,系统失稳或不安全。 - 根本原因:把"前沿 = 适用"画等号,忽略 D4(实时)和 D5(可验证)。 - 正确做法:生成式大模型适合高层(任务规划、轨迹提议、慢回路),底层快回路仍交给轻量经典优化或蒸馏后的小策略(§4.7 的分层)。

过渡:选型之后,为什么答案常常是"都要"。 §3 的决策树常常把你导向一个"混合"的叶节点——加安全滤波、学代价 + 经典优化、分层。这不是巧合:真实任务的六维画像很少是"全偏经典"或"全偏 RL"的纯色,几乎总是"某些维度要经典的保证、某些维度要学习的灵活"。于是问题从"用谁"变成了"怎么把两者拼起来"。§4 就系统地回答这个"怎么拼"——给出四类混合骨架的分类学。


§4 混合范式:2023-2026 的主流形态 ⭐⭐⭐⭐

§4.1 为什么是混合:互补性的数学根源

如果 §3 的结论是"真实任务往往落在混合叶节点",那么一个自然的问题是:混合凭什么能成立、又凭什么能比单一范式更好? 答案藏在 §1-§2 建立的统一视角里。

经典优化(MPC/搜索/博弈)和 RL 的优劣,几乎是逐项互补的——一方的短板恰好是另一方的长板:

能力维度 经典优化(MPC/搜索) RL(学习) 互补点
约束 / 安全保证 强(硬约束、可证明) 弱(软惩罚、OOD 失效) 经典补 RL 的安全短板
在线计算延迟 受优化器限制(ms 级) 极低(一次前向,μs 级) RL 补经典的实时短板
模型依赖 强(需准确 \(f\) 弱(可黑箱/学模型) RL 补经典的建模短板
高维 / 感知输入 弱(维度诅咒) 强(神经网络天然处理) RL 补经典的高维短板
长期值估计 弱(有限时域 + 粗糙终端代价) 强(学全局 \(V\) RL 补经典的 to-go 短板
可解释 / 可调试 强(每步有物理意义) 弱(黑箱) 经典补 RL 的可解释短板
样本 / 数据需求 低(模型即够) 高(海量交互) 经典补 RL 的样本短板

这张表为混合提供了数学根据:既然双方的强弱项几乎正交,那么"让各方做自己擅长的部分"的组合,理论上能同时拿到两边的长板。这不是经验主义的拼凑,而是有 §2 的对偶关系作支撑——正因为它们逼近的是同一个 \(V^*\)/同一个最优策略(§1.2),所以一方的中间产物(值函数、warm-start、安全集)才能被另一方直接消费,拼接处才"接得上"。多篇 2024-2025 综述(自驾混合规划 arXiv 2406.05575、数据驱动最优控制 arXiv 2512.11944、Bertsekas MPC-RL 讲义)都把这种"互补性"列为混合范式兴起的核心驱动。

为什么互补性是数学必然而非工程巧合? 回到 §1.3 的总表,经典范式和 RL 在三个轴上占据互补的极端——经典在"模型已知"轴的左端(需模型但可约束),RL 在"模型已知"轴的右端(不需模型但无约束);经典在"求解时机"轴的上端(在线现算但慢),RL 在下端(离线训好但不灵活)。这种"强弱项正交"不是偶然——它源于根本的信息论权衡:要约束满足就得有模型(知道约束长什么样),要不依赖模型就只能从数据学(但数据不直接告诉你约束边界)。 混合范式之所以有效,是因为它让每一方只做自己信息充足的那部分——经典做约束(因为它知道约束的解析形式),RL 做性能优化(因为它从数据学到了人工难以显式建模的代价/动力学)。这种"信息匹配的分工"是比"能力互补"更深一层的解释——也是为什么随意拼凑(不按信息匹配分工)的混合会失败的根本原因。

类比(有边界的类比):混合范式之于经典+RL,就像一个企业里"技术部+市场部"的分工——技术部(经典优化)擅长"把产品做对"(约束满足、可靠性),市场部(RL)擅长"把产品做好"(适应用户、灵活创新)。让技术部去做市场(经典优化去学用户偏好)或让市场部去把关质量(RL 去保证硬约束)都是错位。最优的组织是让两者在各自擅长的领域输出最大价值、在接口处高效对接。像的地方是"分工互补"的逻辑;不像的地方是企业里的分工靠组织设计,混合范式里的分工靠数学接口(值函数、安全集、warm-start)——后者的"对接"是精确的、可验证的,不像组织管理那样依赖沟通和信任。

本质洞察 6:混合范式不是"折中妥协",而是"分工到各自最优"。 "混合"听起来像"两边都不极致的中庸",恰恰相反。它的理想形态是让经典层把它能给的保证给满(安全、约束、可解释),让学习层把它能给的灵活给满(高维、泛化、长期值),两者在接口处对接——结果是在保证不打折的前提下逼近学习的性能上限。Residual MPC 的论文标题"blending RL with GPU-parallelized MPC"、MPC-RL 把"RL 学权重、MPC 保安全"分开,都是这个分工哲学的实例。

反面:混合也会帮倒忙——"何时不该混合"的四个信号。 既然要培养判断力,就不能只讲混合的好。混合有真实成本(系统更复杂、更难调试、接口更多失败点、训练更昂贵),所以它不是默认选择,而是"画像确实跨纯色时"才值得。下面四个信号提示你"别为了混合而混合"(呼应 §3.4 反模式与 §7.2 避坑):

信号 为什么不该混合 该怎么做
任务画像是"纯色"的 若六维画像全偏经典(模型好+低维+约束可解+时间够),纯经典优化已最优,加 RL 只增加复杂度和不确定性 用纯经典(§3.3 案例 4 工厂抓取)
接口处的"中间产物"对不上 若经典层需要的输入(如安全集、终端代价)无法从学习层可靠获得(OOD、分布漂移),拼接处就是新的失败点 先解决接口可靠性,或退回单一范式
混合带来的收益 < 复杂度成本 若 RL 残差只带来 1-2% 性能、却让系统多两个失败模式和数倍调试成本,得不偿失 量化收益再决定;小收益不值复杂度
没有数据/仿真支撑学习侧 混合里的学习组件仍需训练数据;D6=无数据时,混合的学习侧无从训练,徒增空壳 退回纯经典,或先建仿真

对比性思维:混合是"有成本的工具",不是"更高级的默认"。 学界论文里混合范式光鲜,容易让人以为"混合 = 进步"。工程现实是:每多一个组件,就多一处会半夜报警的地方。所以成熟的判断是——先问"纯经典或纯 RL 能不能达标",只有当单一范式确实被某个画像维度否决、且混合的收益明显压过复杂度成本时,才上混合。这个"克制",和 §3.4 反模式 1(别为用 RL 而用 RL)是同一种工程审美的两面。

§4.2 四类混合骨架的分类学

混合的具体形态五花八门,但按"谁是主体、谁是辅助、在哪个层面对接"可以干净地归成四类骨架。记住这四类,你就能给任何一篇"RL + 经典"的论文快速归档

骨架 主体 / 辅助 对接层面 一句话 代表工作
A. RL-for-MPC MPC 主体,RL 辅助 RL 学 MPC 的"零件"(代价/权重/终端值/模型) 用学习改进优化器的输入 可微 MPC(acados+leap-c)、MPC-RL 学终端代价、AlphaZero value
B. MPC-for-RL RL 主体,MPC 辅助 MPC 当 RL 的安全层 / 可微策略层 / shielding 用优化给学习兜底或当结构 安全滤波、CBF+RL、MPC as policy layer、shielding
C. Residual 并列,输出相加 在动作/力矩层面叠加 经典出主控,RL 出修正量 Residual MPC、residual RL、residual policy learning
D. Amortization / Warm-start 一方摊销/初始化另一方 用一方的解做另一方的初值/蒸馏 互为热启动或蒸馏 RL warm-start MPC、MPC 蒸馏成策略、DAgger

下面逐类展开。每类给"机制 → 为什么有效(回到 §2 的对偶)→ 代表工作 → 边界/坑"。

§4.3 骨架 A:RL-for-MPC(学代价 / 权重 / 终端值 / 可微 MPC) ⭐⭐⭐⭐

机制。 MPC 的骨架(滚动时域、约束、优化器)保持不动,但它的某些"零件"由学习提供——最常见的是终端代价 \(V_f\)、阶段代价权重、参考轨迹、甚至动力学模型。极端形态是可微 MPC:把整个 MPC 求解器实现成一个可微的计算层(对其参数求梯度),于是 MPC 的代价/权重可以用 RL 的回报信号端到端反向传播来训练。最小心智模型:

# 骨架 A:RL 学 MPC 的零件 θ(终端代价/权重/模型),MPC 仍是主体
每个控制周期:
    θ = neural_net(s)                 # ← RL/学习提供的零件(如终端代价权重)
    u = MPC.solve(s, terminal_cost=V̂(·;θ), constraints=hard)  # 经典优化主体
    execute(u[0])
训练(可微 MPC 时):
    loss = -return(rollout) ; loss.backward()  # 梯度穿过 MPC 求解器回传到 θ

为什么有效(回到 §2.1 母对偶)。 §2.1 已证明 MPC 的终端代价 \(V_f\) 就是对最优 to-go \(V^*\) 的近似,而 RL 最擅长的就是学 \(V^*\)。所以"用 RL 学 \(V_f\) 喂给 MPC"= 给 §2.1 的 Newton 迭代喂一个更接近 \(V^*\) 的初值,理论上必然改善——这是所有混合里理论支撑最硬的一类。AlphaZero 把神经网络 value 当 MCTS 叶节点估值,本质就是这个骨架在树搜索版的体现(MCTS 是 MPC 的离散搜索亲戚)。

代表工作。 - 可微 MPC / acados + leap-c:让 NMPC 成为神经网络的一层,支持用 RL 梯度端到端训练 cost/权重(U2、本章原始调研均提及);同类还有 Theseus(Meta)、OptNet、diff-MPC。 - MPC-RL 学终端代价 / 权重:搜索结果中的电动车智能充电案例(DRL 实时选 MPC 终端代价权重,性能较经典 MPC 提升约 4.3% 且计算更省)、MPC4RL 软件包(把 RL 建立在 MPC 之上,Gros-Zanon 的"MPC as function approximator in RL"路线)是典型范式。 - 学动力学模型喂给 MPC:GP-MPC(Hewing-Zeilinger)、神经动力学 + MPC,用学到的 \(\hat f\) 替换/增强手写模型。

边界 / 坑。 ①可微 MPC 的反向传播要对 KKT 条件做隐函数微分,数值上可能不稳定(病态、退化约束处梯度爆炸)。②学出来的 \(V_f\) 若在 OOD 状态外推错误,会把 MPC 引向坏方向——所以常需限制 \(V_f\) 的作用范围或加正则。③训练这类系统需要同时跑优化器和梯度,计算昂贵。

§4.4 骨架 B:MPC-for-RL(安全滤波 / 可微策略层 / shielding) ⭐⭐⭐⭐

机制。 RL 是主体(负责性能、处理高维),但它的输出不直接执行,而是先过一道经典优化构成的"安全闸门":给定 RL 提议的动作 \(a_{\text{RL}}\),安全层求解一个小优化,输出离 \(a_{\text{RL}}\) 最近、但满足硬约束的安全动作 \(a_{\text{safe}}\)。最常见的实现是 CBF-QP 安全滤波(U2 详述)和 shielding(运行时屏蔽不安全动作)。另一变体是把 MPC 当作策略网络的一个结构层(policy-as-MPC),让策略的输出天然落在可行域内。最小心智模型:

# 骨架 B:RL 出动作,经典优化做"最小改动的安全投影"
a_RL = policy(s)                       # RL 主体(可能不安全)
a_safe = argmin_a ‖a - a_RL‖²          # CBF-QP:离 a_RL 最近的安全动作
         s.t.  ḣ(s,a) ≥ -α·h(s)        #   CBF 约束保证前向不变(绝不越界)
execute(a_safe)                        # 经典层兜底,RL 性能 + 经典保证

为什么有效(回到 §2.4 边界)。 §2.4 指出 RL 的约束只能软性鼓励、OOD 下失效,而经典优化的硬约束有证书。所以让经典层做"绝不越界"的守门员、RL 做"在安全集内尽量激进"的前锋,正好补上 RL 最致命的安全短板。这也是 §3.2 决策树 Q1=是(安全硬约束)时的标准落点。

代表工作。 - CBF + RL / 安全滤波:RL 策略输出经 CBF-QP 投影到安全集;shielding(probabilistic shielding)把 chance constraint 做成 runtime filter。开源生态如 OmniSafe、safety-gym。 - Predictive safety filter:用一个短时域 MPC 检查 RL 动作是否能被安全地"接住"(存在可行的后续轨迹回到安全集),不行就修正——把 MPC 的可行性当安全证书。 - Latent safety + RL:把安全约束编码进 RL 的动作空间或奖励的硬截断。

边界 / 坑。 ①滤波层会"改写"RL 的动作,造成 RL 训练时看到的动作与实际执行的不一致(distribution shift)——需要让 RL 在训练时就感知到滤波(differentiable safety layer 或把滤波纳入环境)。②CBF/安全集的设计本身需要模型知识,模型不准则安全集不准(保证打折)。③过度保守的滤波会把 RL 的性能优势"滤掉",退化成纯经典——安全与性能的边界要仔细调。

§4.5 骨架 C:Residual(残差策略叠加) ⭐⭐⭐

机制。 经典控制器(MPC / PID / 名义策略)给出主控信号 \(u_{\text{base}}\),RL 学一个残差 \(\Delta u_{\text{RL}}\) 叠加上去:\(u = u_{\text{base}} + \Delta u_{\text{RL}}\)。RL 只需学"经典控制器没顾好的那部分修正",而不必从零学整个控制——学习问题被极大简化。最小心智模型:

# 骨架 C:经典出主控,RL 出(受限幅度的)残差修正
u_base = MPC.solve(s)                  # 经典主控(管 80%)
Δu = clip(residual_policy(s), -Δmax, +Δmax)   # RL 残差,幅度受限(保护 base 保证)
u = u_base + Δu                        # 相加执行
# RL 只需学"模型失配/扰动"那 20%,样本效率高,可解释主干保留

为什么有效。 经典控制器已经把 80% 的活儿干对了(在它建模准确的部分),RL 只补剩下 20%(模型失配、未建模动态、扰动)。这把 RL 的学习目标从"学整个 \(V^*\)/策略"降为"学一个小修正项",样本效率和稳定性大幅提升,且保留了经典控制器的可解释主干

代表工作。 - Residual MPC(搜索结果 arXiv 2510.12717):GPU 并行 MPC 出主控,residual policy 在力矩层做targeted 修正,"结合 model-based 的可解释性/约束处理与 RL 的适应性"——是这一骨架近期最清晰的范式。 - Residual policy learning / residual RL(机器人操作经典套路):在脚本化/MPC base 上叠 RL 残差,广泛用于接触操作、装配。 - 四足/无人机的 RL 残差 + 名义 MPC/几何控制器,处理风扰、地形等未建模项。

边界 / 坑。 ①残差的幅度需要约束(否则 RL 可以把残差开大到等于"接管全部控制",丧失 base 的保证)。②base 控制器太差时,残差要学的太多,退化成纯 RL,失去 residual 的优势。③稳定性分析变复杂(base + 残差的闭环稳定性需要重新论证)。

§4.6 骨架 D:Amortization / Warm-start(互为初值 / 蒸馏) ⭐⭐⭐

机制。 两种方向:①RL → 经典(warm-start):用一个快速的 RL/学习策略给经典优化器提供一个好初值(warm start),让优化器从接近最优处起步,几次迭代就收敛——既保留经典优化的约束/最优性,又把它最慢的"从差初值迭代到收敛"那段省掉。②经典 → RL(amortization / 蒸馏):用昂贵的经典优化器(在线解不动)离线生成大量"最优解"数据,蒸馏成一个快速策略网络(imitation / DAgger)——把"在线解 OCP"摊销(amortize)成"离线训练 + 在线一次前向"。最小心智模型:

# 骨架 D-①(warm-start):学习给优化器喂好初值
u0 = warm_start_net(s)                 # 学习提供接近最优的初值
u  = MPC.solve(s, init=u0)             # 经典优化从好初值起步,几步收敛

# 骨架 D-②(蒸馏/摊销):把昂贵的在线优化离线固化成快策略
离线: D = {(s, MPC.solve(s)) for s in 海量状态}     # 经典优化器当"专家"
      train  π(s) ≈ MPC.solve(s)  on D  (+ DAgger 增广 OOD)
在线: u = π(s)                          # 一次前向,不再解 OCP

为什么有效(回到 §1.3 在线/离线轴)。 §1.3 指出经典与 RL 的最大工程差异是"求解放在线上还是线下"。这一骨架正是在这根轴上做转换:warm-start 用学习加速在线优化(把离线学的先验注入在线求解),蒸馏用学习把在线优化变成离线(把在线优化的结果固化成策略)。两者都在"用一方的算力换另一方的算力"。

代表工作。 - RL/学习 warm-start 优化:学习提供 MPC/轨迹优化的初值或 active set 预测,广泛用于实时 NMPC、MIQP(如把 RL 用于混合整数最优控制的分支预测,搜索结果中的 F1 赛车策略 MIP 即此类)。 - 经典优化蒸馏成策略:MPC 蒸馏成神经网络策略("MPC-guided policy search"、Levine 的 GPS)、DAgger 把专家 MPC 蒸馏成快策略;TAMP 的符号-连续解蒸馏成策略。 - Amortized optimization:把"对每个问题实例解优化"摊销成"学一个从问题到解的映射"(amortized inference 的控制版)。

边界 / 坑。 ①warm-start 的学习初值若严重偏离可行域,反而拖慢优化(坏初值比无初值更糟)。②蒸馏的策略只在"经典优化器见过的分布"内可靠,OOD 退化——需要 DAgger 式的在线数据增广。③蒸馏丢失了经典优化的在线重优化能力(遇到新约束无法现场调整)。

§4.7 生成式规划:混合范式的当代集大成 ⭐⭐⭐⭐

2023-2026 最受关注的几条线——Diffusion Planner、TD-MPC2、可微 MPC、VLA——不是上述四类骨架的替代,而是它们的深度组合与升华。它们之所以是"集大成",因为每一条都同时踩了 §2 的多组对偶和 §4 的多类骨架。

(a) Diffusion Planner(Diffuser / Decision Diffuser / Diffusion Policy / Diffusion-Planner)。 - 踩的对偶:§2.2(去噪 ≈ MPPI 加权 ≈ 策略梯度)。它把轨迹优化折进扩散去噪,用回报/约束做 guidance。 - 踩的骨架:A(用学习的去噪器当"优化器")+ D(一次生成摊销了迭代优化)。 - 为什么强:多步去噪能表达多峰轨迹分布(绕障的左右两条路都保留),这是单峰 MPPI 和单点 MPC 做不到的;条件生成(return/constraint/skill)支持测试时组合约束。 - 边界:采样慢(多步去噪)、无硬约束保证(仍需 §4.4 兜底)、需大量离线数据。

(b) TD-MPC2(latent world model + 采样 MPC)。 - 踩的对偶:§2.1(MPC↔值迭代)+ §2.3(world model ≈ belief/model-based RL)+ §2.2(latent 空间的 MPPI)。 - 踩的骨架:A(学的 world model + value 喂给采样 MPC)。它在 learned latent 空间做 MPPI + policy prior 的局部轨迹优化,用学到的 value 当终端估值。 - 为什么强:一个配置跨 104 个任务不调参、317M 参数单 agent 训 80 任务超 SAC/DreamerV3——证明"学模型 + 在模型上做经典优化"的混合可以高度通用。 - 边界:latent 模型的 OOD 误差会误导规划;JAX/PyTorch 实现不适合直接 C++ 部署。

(c) 可微 MPC(acados + leap-c / Theseus)。 已在 §4.3 详述——是骨架 A 的极致形态,让 NMPC 成为可被 RL 端到端训练的神经网络层。它是"经典优化"和"深度学习"在代码层面真正融为一体的代表。

(d) VLA(OpenVLA / π0 / π0.5)。 - 踩的对偶:这是 §2 所有对偶的"顶层塌缩"——一个大模型直接从像素/语言映射到连续动作,把感知-预测-规划-控制全栈吞进一个网络。 - 踩的骨架:本质是 D 的极端(用海量数据把整个决策栈摊销成一次前向)+ IL/RL 混合训练(π0.5 走 co-training)。 - 产业背景:Tesla FSD v12 据报道用端到端神经网络替换"300k 行 C++ 控制代码"(注:源自发布会/媒体转述,非同行评审),是"神经网络吃掉 C++ 规控"路线的标志。 - 边界:黑箱、无安全证书、实时性受模型大小限制——所以 VLA 目前主要在高层/慢回路,底层快回路仍需轻量经典或蒸馏小策略兜底(§3.4 反模式 5)。

四条生成式线的横向对比(它们各自牺牲了什么换取了什么)。 这四条线常被笼统称为"前沿",但它们的取舍各不相同。把它们摆在同一张表上,你才能判断"我的任务该用哪条":

线 经典结构保留了多少 最大优势 最大代价 适合的回路
Diffusion Planner 中(轨迹优化的"提议"被去噪取代,可加约束 guidance) 多峰轨迹分布、测试时组合约束 采样慢、无硬约束保证 中频规划层(需配硬约束兜底)
TD-MPC2 高(仍是 MPC/MPPI,只是在 latent 空间 + 学的模型/值) 跨任务通用、样本高效 latent 模型 OOD 误差、难 C++ 部署 中高频控制(model-based RL)
可微 MPC 最高(MPC 结构完整,只是变可微) 保留约束/最优性 + 可端到端训 隐函数微分数值不稳、训练贵 各频段(结构最"经典")
VLA 最低(整栈塌缩成一个网络,几乎无显式结构) 泛化最强、语言可控、零件最少 黑箱、无证书、慢 高层慢回路

这张表的核心规律:从上到下"保留的经典结构递减、泛化能力递增、可验证性递减"。 可微 MPC 最"经典"(结构最全、最可验证、但最不灵活),VLA 最"学习"(最泛化、最灵活、但最不可验证)——它们正好铺满了 §6.1 那条"经典→学习"光谱的混合区到学习端。选哪条,本质还是 §3 的画像问题:要硬约束/可验证就靠左(可微 MPC),要泛化/语言交互就靠右(VLA),要通用且样本省就选 TD-MPC2,要多峰轨迹就选 Diffusion Planner。

本质洞察 7:当代前沿不是"RL 取代经典",而是"用一个可微的计算图把经典优化和神经网络焊在一起"。 把 §4.7 的四条线连起来看,一个清晰的趋势浮现:最强的系统正在变成端到端可微的混合体——可微 MPC 让优化器变成网络层,diffusion/world model 让"规划"变成可学习的生成过程,VLA 让整个栈变成一个网络。它们都在做同一件事:保留经典优化的结构(约束、滚动时域、最优性),但让结构的每个零件都可学、可端到端训练。这就是为什么本章反复强调"统一视角"——只有当你看清经典和 RL 共享一个 \(V^*\)、可以互译(§2),你才能理解为什么 2026 年的前沿能把它们焊成一个可微计算图。这,就是本方向未来五年的主旋律。

§4.8 一个走通的混合系统:把四类骨架拼进同一个自驾栈 ⭐⭐⭐

前面四类骨架是分开讲的,但真实系统往往同时用上多类。这里用一个(简化但贴近工业的)城市自驾规控栈,把 A/B/C/D 四类骨架和七大方向的多个特化拼到一起走一遍——让你看到"混合"在系统层面长什么样,而不是停在单个骨架的抽象。这也回应 §3.3 案例 2(行人交互)和 §5.3 三主轴:这个栈同时要处理不确定性、交互、实时三条轴。

系统分层(自上而下)与每层的骨架归属:

┌──────────────────────────────────────────────────────────────┐
│ L4 任务/路由层(慢回路, ~1Hz)                                 │
│   LLM/规则给出导航目标与语义指令("在前方路口左转,礼让行人")  │
│   → 骨架 D(高层用大模型,TAMP 特化:符号目标)                │
├──────────────────────────────────────────────────────────────┤
│ L3 预测层(~10Hz)                                             │
│   神经预测器(VectorNet+LSTM)输出他车/行人多模态轨迹分布      │
│   ego 计划反馈进预测(joint PnP)                              │
│   → 交互特化 + 骨架 A(学的预测喂给下游优化)                  │
├──────────────────────────────────────────────────────────────┤
│ L2 决策/博弈层(~10Hz)                                        │
│   场景分支(MPDM/EPSILON) + 对交互车做轻量博弈(iLQGames)         │
│   终端代价由离线 RL 学的 V̂ 提供                               │
│   → 博弈特化 + 不确定性特化(belief分支) + 骨架 A(学终端代价)    │
├──────────────────────────────────────────────────────────────┤
│ L1 轨迹优化层(~20-50Hz)                                      │
│   时空联合优化(MINCO/ST-QP),RL 残差微调舒适度/激进度          │
│   → 时空特化 + 骨架 C(残差策略叠加)                          │
├──────────────────────────────────────────────────────────────┤
│ L0 安全滤波层(~100Hz, 快回路)                               │
│   CBF-QP / predictive safety filter 兜底,绝不越界            │
│   → 不确定性特化(硬约束) + 骨架 B(MPC/CBF 给上层兜底)        │
└──────────────────────────────────────────────────────────────┘

逐层的"为什么这样混"——把决策框架(§3)落到每层:

  • L0 安全滤波(骨架 B):这是 §3.2 决策树 Q1=是(安全硬约束 + 可验证)的直接落点。无论上层(L1-L4)输出什么,L0 都用 CBF-QP 把它投影到安全集——这一层是整个栈的"安全地基",可形式化验证(OP2)。它的存在,使得上层可以放心地用不可验证的神经网络(风险被这层挡住了)。
  • L1 轨迹优化 + 残差(骨架 C):时空联合优化(MINCO/ST-QP,时空特化)保证轨迹平滑可行(D1 模型好、D3 有约束 → 经典优化舒适区),RL 只学一个小残差调"舒适度/激进度"这类难以手工写进代价、但能从数据学到的偏好。残差幅度受限(§4.5 边界),保证不破坏 L1 的可行性。
  • L2 决策/博弈 + 学终端代价(骨架 A):场景分支(belief 特化)处理"行人会不会横穿"这类不确定性(D1 意图难建模),轻量博弈(博弈特化)处理与交互车的耦合,而离线 RL 学的 \(\hat V\) 当终端代价(§2.1 母对偶 + §4.3)——把"长期价值"这个 MPC 最弱的部分交给 RL。
  • L3 预测 + joint PnP(骨架 A + 交互特化):神经预测器处理高维感知输入(D2,RL/学习主场),且把 ego 计划反馈进预测(PRECOG/PiP 的 joint 思想),避免"预测-规划解耦"的次优(§5.3 主轴二)。
  • L4 任务层(骨架 D + TAMP):大模型/规则给语义目标,是慢回路(D4 时间充裕),用 §4.6 的摊销/高层 LLM。

这个例子的三个教学要点(也是 §4 的总收口):

  1. 混合是分层的,不同层用不同骨架。 没有"一种混合骨架包打天下"——快回路要安全(B),优化层补偏好(C),决策层补长期值(A),高层用大模型(D)。层与层的接口,就是 §1.3 那根"在线/离线"轴的不同取值:L0 纯在线、L4 纯离线、中间各层混合。
  2. 越靠近执行(L0),越偏经典、越要保证;越靠近语义(L4),越偏学习、越要泛化。 这是 §6.1 光谱在系统纵向上的体现——一个系统内部就横跨了整条"经典→学习"光谱。
  3. 每一层都能独立替换/升级。 今天 L3 用 VectorNet,明天换成 MTR;今天 L2 用 iLQGames,明天换成可微博弈——只要接口(轨迹分布、终端代价、安全集)不变,单层升级不影响全栈。这种"骨架稳定、零件可换"的结构,正是 §5.4 收口图"母方程稳定、特化算子可组合"在工程上的回响。

本质洞察 7.5:真实系统不是"选一个范式",而是"在不同层各选最合适的范式并用接口焊起来"。 初学者问"自驾到底用 MPC 还是 RL",这个问题本身就问错了——答案是"L0 用 CBF-QP、L1 用 MINCO+RL残差、L2 用博弈+RL终端代价、L3 用神经预测、L4 用 LLM"。整个栈是一个混合体,每层的选择由该层的六维画像(§3.1)独立决定。 理解这点,你就从"范式信徒"升级成了"系统架构师"——而这正是本方向想培养的最终能力。

§4.9 选哪类混合骨架——一张速查表

如果说 §3.2 的决策树回答"用经典还是 RL 还是混合",那么当答案落到"混合"时,本节速查表进一步回答"用四类骨架里的哪一类"。它把"你最缺什么"映射到"该用哪个骨架"——因为每类骨架补的短板不同(呼应 §4.1 互补性表)。

你的主体范式是… 你最想补的短板 该用骨架 典型落点
MPC/优化(主体) to-go 估计差 / 代价权重难调 A:RL-for-MPC 用 RL 学终端代价/权重(§4.3),自驾 L2、四足 MPC
RL/学习(主体) 没有安全/约束保证 B:MPC-for-RL CBF-QP/安全滤波兜底(§4.4),安全关键系统
有个能用的经典 base base 在某些工况差一点 C:Residual RL 残差叠 MPC/几何控制器(§4.5),无人机抗扰、四足地形
经典优化在线解不动 / 想加速 在线延迟太高 / 想要好初值 D:Amortization 学策略 warm-start 或蒸馏(§4.6),实时 NMPC、MIQP
需要多峰/可组合的轨迹分布 单点 MPC 表达力不足 生成式(§4.7) Diffusion Planner、TD-MPC2,离线数据充足时

怎么用这张表(三步):①先用 §3.2 决策树确认"确实该混合";②问自己"主体是经典还是 RL,最缺的短板是什么";③按上表定位骨架,再回 §4.3-§4.7 看该骨架的机制、伪代码和坑。注意四类骨架并非互斥——§4.8 的自驾栈就同时用了 A/B/C/D(不同层用不同骨架)。所以这张表是"单层/单组件"的选择指南;系统级则是把多个骨架按层组合(§4.8)。

理论-工程桥接:这张速查表 + §3.2 决策树 + §3.1 六维画像,三者构成完整的"选型工具链"。 流程是:六维画像(任务长什么样)→ 决策树(经典/RL/混合)→ 若混合则查本表(哪类骨架)→ 对应小节(怎么实现)。把这条链走顺,你面对任何新任务,都能在几分钟内从"零认知"推进到"知道该搭什么架构、用哪个开源库起步"——这就是本章 §3-§4 想交付给你的、可立即上手的工程判断力。

过渡:从"方法关系"到"知识地图"。 §1-§4 完成了本章的"关系论证":同源(§1)→ 对偶(§2)→ 选型(§3)→ 混合(§4)。现在我们换一个视角——不再问"方法之间什么关系",而是问"我学过的七大方向,作为一个整体,长什么样?它们如何收口成一张可以挂在墙上的地图?"§5 就来画这张全方向收口图。


§5 全方向知识收口:七条线汇成一张图 ⭐⭐⭐

为什么要"收口"——先动机

本方向有七大 Part(10_时空 / 20_采样式MPC / 30_不确定性 / 40_博弈 / 50_多机 / 60_TAMP / 70_无人机),约 106.5 周的内容。学到这里,你脑中很可能是七棵独立的知识树——每棵树自己枝繁叶茂,但树与树之间是什么关系?它们共享什么根?这正是收口要解决的问题:把七棵树的根连起来,让你看到它们其实长在同一片土壤(DP + 最优性原理)上,只是朝不同方向(时间维 / 随机性 / 多智能体 / 任务层 / 协作 / 平台)生长。

不收口的代价是:你会觉得"换个方向就要从头学"。收口之后你会发现——时空规划的 ST-A*、采样 MPC 的 MPPI、不确定性的 POMDP、博弈的 iLQGames、多机的分布式 MPC,本质都在解同一个母方程(§1.1),只是各自把母方程里的某个算子特化了。 一旦看清这点,跨方向迁移就变成"换算子"而非"换学科"。

§5.1 七方向 × RL 接口总览矩阵

下表是本章最核心的"收口表"。它把七大方向逐一拆解为:这个方向特化了母方程的哪个算子、它的经典代表方法、它最强的 RL 接口、以及对应的混合骨架(§4.2)。这张表是 §4 阶段课程作业"经典 → RL 同义表达映射图"的方向级版本。

方向(Part) 特化了母方程的什么 经典代表(出处章) 最强 RL 接口 主导混合骨架
时空规划(T) 时间加进状态维(\((x,t)\) 空间求解) ST-A*/SIPP、MINCO/GCOPTER、Apollo ST 图 Neural A*(学启发式)、Diffusion 采样整条轨迹、MuZero learned-model 搜索 A(学启发式/模型)+ D(扩散摊销)
采样式 MPC(MPPI) 采样 + 指数加权近似 HJB(绕开可微性) MPPI、CEM、Tube-MPPI §2.2 同构于策略梯度/去噪;TD-MPC2 latent MPPI A(latent model)+ C(残差)
不确定性(U) 期望算子换成 belief / 风险 / 最坏情况 Tube MPC、CC-MPC、DESPOT、CVaR-LP Safe/Robust/Distributional RL、Dreamer(§2.4) B(安全滤波兜底)
博弈(G) 把单方 \(\min\) 换成多方极值(HJI/GNE) iLQGames、ALGAMES、HJI MARL、PSRO(=深度 double oracle,§2.5) A(学 cost)+ PSRO 自带混合
多机(Multi) 把单体扩成耦合的多体(共识/分配/编队) CBS/LaCAM、分布式 MPC、ADMM MARL(CTDE/MAPPO/QMIX)、学习型分配 分层(学协调 + 经典单机执行)
任务运动(TAMP) 在连续 MDP 上加一层符号/离散决策 PDDL + 运动规划接口、逻辑-几何 LLM planner(SayCan/Code as Policies)、HRL D(符号-连续解蒸馏)+ LLM 高层
无人机(D) 不是新算子,而是最干净的应用平台(微分平坦让 ST 参数化最简) 微分平坦 + SE(3) 控制、MINCO、acados NMPC RL 飞控(Song et al. Science Robotics)、集群 MARL 全骨架的试验场

怎么读这张表(三个要点)。

  1. 第二列"特化了什么"是钥匙。 七个方向不是七个并列学科,而是母方程(§1.1)的七种特化:时空特化"状态维"、采样特化"求解方式"、不确定性特化"期望算子"、博弈特化"玩家数"、多机特化"体的数量与耦合"、TAMP 特化"加一层离散"、无人机不特化算子(它是平台)。这就是七方向的最大公约数与最小差异。
  2. 每个方向都有非空的 RL 接口。 没有任何一个方向是"RL 进不来"的——哪怕最经典的 ST 搜索,也有 Neural A*/MuZero。这印证了 §1.2 的论断:经典与 RL 是同一问题的两面,所以每个方向必然两面都有。
  3. 混合骨架在方向间复用。 安全滤波(B)不只用于不确定性,也用于无人机/多机;残差(C)不只用于采样 MPC,也用于无人机飞控。骨架是跨方向的"乐高接口"——学会一类骨架,七个方向都能用。

七方向逐一收口(把矩阵的每一行还原成一句"它在全局图里是谁")。 矩阵把每个方向压成一行,这里给每个方向一段话,明确它"特化了什么、为什么是这个特化、它的 RL 接口为什么是那个、在收口图里站哪"——读完这七段,你脑中的七棵树就真正连成一片森林了。

  • 时空规划(T)——把"时间"请进状态空间。 它的全部动机是:路径与速度解耦(先规划路径再规划速度)在动态障碍/时序约束下次优,所以把时间 \(t\) 升格为状态的一个维度,在 \((x,t)\)\((q,t)\) 空间一次性求解。母方程层面,它只是把状态 \(s\) 扩成 \((s,t)\),其余不变——这就是为什么 ST-A*/SIPP 仍是标准 Bellman 搜索、MINCO 仍是标准轨迹优化。它的 RL 接口(Neural A*/MuZero)之所以聚焦"学启发式/学模型",正因为时空搜索的瓶颈在"to-go 估计"(§2.6)。在收口图里,它是"状态维特化"那一列,也是无人机平台最先用上的方向。

  • 采样式 MPC(MPPI)——换一种"解 HJB"的方式。 它和梯度 MPC 解的是同一个最优控制问题,唯一区别是用采样 + 指数加权(零阶)代替梯度(一阶)来逼近 HJB——这让它能处理梯度 MPC 致命的"不可微/接触不连续/黑箱仿真"。它的 RL 接口最特殊:MPPI 本身就和策略梯度/去噪同构(§2.2),所以它与 RL 的边界最模糊,TD-MPC2 干脆把它搬进 learned latent 空间。在收口图里它是"求解方式特化",是连接经典优化与 RL 最短的一座桥。

  • 不确定性规划(U)——把"期望"换成更诚实的算子。 确定性规划假装世界没有噪声;真实世界有扰动(→鲁棒)、有概率约束(→机会约束)、有遮挡(→POMDP)、有尾部风险(→CVaR)。这四条子路线,本质都是把母方程里的期望算子 \(\mathbb E\) 换成"最坏情况 / 概率约束 / belief / 风险度量"。这就是为什么它的 RL 接口是一整排(Robust/Safe/RNN/Distributional RL,§2.4)——每个算子替换都有一个 RL 孪生。在收口图里它是"期望算子特化",也是三主轴里"不确定性"那条轴的化身。

  • 博弈规划(G)——把单方极值变成多方极值。 当世界里不止你一个决策者,"最优"就不再是单方 \(\min\),而是各方互相依赖的 Nash/Stackelberg 均衡(HJI 的 \(\min\max\)、GNE)。它的难点(PPAD-hard、不收敛)和它的 RL 接口(MARL/PSRO)都源于"耦合不动点"这个本质(洞察 4)。在收口图里它是"玩家数特化",是三主轴里"交互"那条轴走到博弈这一环。

  • 多机协作(Multi)——把单体复制成耦合的多体。 它和博弈共享"多智能体"这个外壳,但侧重合作(共识/分配/编队)而非对抗,且要面对"维度随机数爆炸"。所以它的经典解法是分布式(CBS/ADMM/分布式 MPC),RL 接口是 CTDE 类 MARL,而工程主流是分层(学协调 + 经典单机执行,§3.3 案例 5)。在收口图里它是"耦合多体特化",是"交互"轴上协作这一端。

  • 任务运动规划(TAMP)——给连续决策加一层离散大脑。 它在标准的连续 MDP 之上叠了一层符号/离散决策("先抓哪个、按什么顺序"),是唯一显式引入"离散+连续混合"的方向。它的 RL 接口(HRL、LLM planner)天然对应"高层离散、低层连续"的分层结构。在收口图里它是"加符号层特化",是把本方向和 06_具身智能/语言模型接起来的关键接口。

  • 无人机(D)——不特化算子,而是最干净的试验场。 它是七方向里唯一"不特化母方程"的——它是一个应用平台。之所以单列,是因为四旋翼的微分平坦性让时空参数化最干净、动力学最规整,使得上面六个方向的特化都能在它身上以最清晰的形态实现和验证(从 MINCO 到 RL 飞控到集群 MARL)。在收口图里它在所有列的下方,是"理论落地的标准考场"。

§5.2 共享骨架:DP 是所有方向的最大公约数

把 §5.1 再压缩一层,七方向的共享骨架可以浓缩成一句话:

动态规划(DP)/ 最优性原理,是移动机器人规控全部七个方向的最大公约数。

具体而言,每个方向都在求解"Bellman/HJB 母方程"的一个特化版本,只是:

                          母方程:最优性原理 (Bellman / HJB)
                          V*(s) = max_a [ r(s,a) + γ E V*(s') ]
        ┌──────────────┬──────────────┬──┴───────────┬──────────────┬──────────────┐
        ▼              ▼              ▼               ▼              ▼              ▼
   s → (x,t)      max_a 用采样     E → belief/      max_a →       单体 →        + 符号层
   【时空 T】      指数加权近似     风险/最坏        min·max·       耦合多体      (离散+连续)
                  【采样 MPPI】    【不确定 U】     【博弈 G】     【多机 Multi】 【TAMP】
        │              │              │               │              │              │
        └──────────────┴──────────────┴───────┬───────┴──────────────┴──────────────┘
                                  无人机 D:以上所有方向最干净的应用平台
                          每个特化都有"经典解法"和"RL 解法"两条腿(§2 对偶)
                          差别只在:模型已知? 求解在线/离线? 值函数显式/隐式? (§1.3)

这张图是整章的"压缩包"。如果只让你带走一张图,就是它。它说的是:你学的不是七门课,而是一门课(序贯最优决策)的七种特化 × 两种解法(经典/RL)× 三个工程轴(模型/时机/表示)。 把这个结构刻进脑子,你面对任何新论文、新任务、新方向,都能快速定位它在这张图的哪个位置。

本质洞察 8:七方向的差异在"特化了哪个算子",统一在"都是 DP 的特化"。 这是本方向最高层的认知收口。初学者看到的是七个不同的工具箱;专家看到的是一个母方程被七种方式特化。这个视角的实用价值极大:①迁移——四足的接触调度(特化"离散+连续")和自驾的场景分支(特化"belief")共享 DP 骨架,方法可互鉴;②创新——很多研究就是"把 A 方向的特化套到 B 方向"(如把博弈的 GNE 套进预测-规划得到 GameFormer);③判断——遇到任何"新方法",先问"它特化了母方程的哪个算子、用经典还是 RL 解",十有八九能秒懂它的定位。

把"迁移 = 换算子/叠算子"落成一张可操作的迁移地图。 洞察 8 的第①②点(迁移与创新)听起来抽象,但它其实给出了一个极具体的"做研究/做工程的招式":把母方程在 A 方向特化的算子,叠加或替换到 B 方向上。下表列出若干已发生(或正在发生)的跨方向迁移,每一行都是"某方向的特化算子被搬到另一方向"的实例——这正是大量论文的"创新点"的来源:

源方向(特化) 目标方向 迁移产物(叠算子的结果) 代表工作
博弈(多方极值 \(\min\max\) 预测-规划(交互) 把 ego-他车建成博弈 → 交互式联合预测 GameFormer(Level-k 博弈 + Transformer)
不确定性(belief 上决策) 时空规划 在 belief 空间做 ST 搜索 → belief-space MINCO/RRBT RRBT、belief-space planning
采样(指数加权 / 去噪) 时空规划 用扩散直接采样整条 \((x,t)\) 轨迹 + MINCO 投影 Diffuser + 轨迹投影、Diffusion-Planner
博弈(GNE) + 不确定性(belief) 自驾决策 belief-space 博弈 → 不完全信息交互决策 贝叶斯逆博弈、Auto-Encoding Bayesian Inverse Games
时空(接触序列 = 时序相位) 多机 loco-manip 多体 × 接触切换 × 物体动态的 ST + hybrid 多足协同 loco-manipulation
TAMP(符号层) 无人机/集群 给集群加任务级符号规划 → 语义化集群任务 LLM-planner + 集群(VoxPoser 思想外推)
不确定性(CVaR 风险头) 采样 MPC risk-aware MPPI(对 rollout 分布取 CVaR 而非均值) CVaR-MPPI、risk-sensitive sampling control

怎么用这张迁移地图(两个动作):找空白格——表里没出现的"源×目标"组合,很多就是尚未做透的研究机会(如"把博弈的 GNE 系统性搬进腿足多接触"目前还很薄)。②理解已有工作的本质——下次读到一篇"新方法",先问"它把哪个方向的什么算子,搬到了哪个方向",十有八九能一句话说清它的贡献定位。这就是把"知识地图"从"被动记忆"变成"主动生成研究/工程思路"的工具——洞察 8 不只是理解的终点,更是创新的起点。

§5.3 三条贯穿主轴(不确定性 / 交互 / 实时性)

除了"DP 母方程"这条纵向骨架,七方向还被三条横向主轴串联。这三条轴是 S1-S4 综述反复出现的主题,在此收口。

主轴一:不确定性(从确定性世界到真实世界)。 确定性规划(T 线的基础)→ 加入扰动/模型误差(U2 鲁棒)→ 加入概率约束(U3)→ 加入部分可观测(U4 POMDP)→ 加入风险偏好(U5 CVaR)。RL 侧的镜像:MDP → Robust RL → Safe RL → RNN-RL/Dreamer → Distributional RL(§2.4 全配对)。这条轴回答"如何从教科书的理想世界走到有噪声、遮挡、风险的真实世界"。

主轴二:交互(从单体到多智能体)。 单体规控(T/U/MPPI)→ 把他人当障碍(被动)→ 预测他人(S4 交互预测)→ 与他人博弈(G 线)→ 与他人协作(Multi 线)。RL 侧的镜像:single-agent RL → 预测模型 → MARL/博弈学习/PSRO(§2.5)。这条轴回答"当世界里不止你一个智能体时,决策如何升级"。它也是"预测-规划一体化"(S4)的灵魂——预测和规划本是这条轴上相邻的两环,强行解耦才是次优的根源。

主轴三:实时性 / 计算时机(从离线到在线到摊销)。 离线求全局解(值迭代、SARSOP)→ 在线滚动优化(MPC、POMCP)→ 离线训练 + 在线推理(RL 策略)→ 摊销/蒸馏(§4.6)。这条轴就是 §1.3 的"求解时机"轴,贯穿所有方向——每个方向都要回答"我把计算放在部署前还是运行时"。无人机竞速(D9)选 RL 是因为这条轴上"在线 μs 级"的约束,工厂机械臂(B)选 MPC 是因为"在线时间充裕"。

把三轴坐标落到典型任务上(一张定位表)。 三轴坐标系的实用性,在于它能把"凭感觉选方法"变成"读坐标查落点"。下表给若干典型任务在三轴上的坐标读数及其结论——把它当成"三轴 → 方法"的查表,配合 §3 的六维画像一起用:

任务 不确定性轴 交互轴 实时轴 三轴合成的结论
工厂机械臂抓已知物体 低(模型准) 无(无他人) 充裕(时间够) 三轴全偏经典 → 纯 MPC/轨迹优化(案例 4)
城市自驾行人交互 高(意图隐变量) 强(多车多人) 中(10-50Hz) belief + 博弈 + 安全层 → POMDP/混合(案例 2)
无人机竞速贴极限 中(气动难建模) 弱(单机为主) 极紧(μs 级) 实时轴极端 → 离线学策略(RL,案例 1)
四足崎岖地形行走 中(接触不连续) 紧(高频全身) 接触否决梯度 MPC → RL/采样 MPPI(案例 3)
百级无人机集群 强(耦合多体) 分布式实时 交互轴 + 维度爆炸 → 分层混合(案例 5)
active SLAM / 主动感知 高(需主动减不确定) 不确定性轴主动收集 → POMDP/belief 规划
仓库多机 MAPF 低(环境已知) 强(路径冲突) 可离线预算 交互(冲突)+ 可离线 → 经典 CBS/LaCAM 搜索

读这张表的方式:先在三轴上给任务定坐标(哪条轴"拉满"了?),那条被拉满的轴往往就是决定性因素——竞速是实时轴拉满,行人交互是不确定性+交互轴拉满,工厂抓取三轴都不拉满(所以经典够用)。这与 §3.2 决策树的"一票否决"逻辑一致:某条主轴一旦走到极端,就基本锁定了方法大类。三轴坐标和六维画像是同一件事的两种粒度——三轴是"宏观三维定位",六维是"细化到可操作"。

对比性思维:三条主轴不是独立的,真实任务是三轴坐标。 一个具体任务在这三条轴上各有一个坐标:城市自驾行人交互 = (高不确定性 × 强交互 × 中实时)→ 落到 POMDP/混合(§3.3 案例 2);工厂抓取 = (低不确定性 × 无交互 × 充裕实时)→ 落到经典优化(案例 4);无人机竞速 = (中不确定性 × 弱交互 × 极紧实时)→ 落到 RL(案例 1)。学会用这三轴给任务定位,比记住任何单个算法都重要——算法会过时,三轴坐标系不会。

§5.4 七方向收口图(ASCII 全景)

最后,把 §5.1-§5.3 的所有线索合成一张可挂墙的全景图。这是本章、也是整个方向的"终极一图"。

╔══════════════════════════════════════════════════════════════════════════════╗
║         移动机器人规控 · 全方向收口图(以最优性原理为根)                       ║
╠══════════════════════════════════════════════════════════════════════════════╣
║                                                                                ║
║   根:序贯最优决策 = 最优性原理 (Bellman / HJB / HJI)                          ║
║        V*(s)=max_a[r+γE V*(s')]    ←── 整个方向的最大公约数                    ║
║                         │                                                      ║
║   ┌─────────────────────┴──────────────────────┐                              ║
║   │  两种解法(§2 对偶,逼近同一个 V*)          │                              ║
║   │   经典:模型已知、在线解、值隐式             │                              ║
║   │   RL  :模型未知、离线学、值显式             │                              ║
║   │   混合:§4 四骨架 (A/B/C/D) + 生成式         │                              ║
║   └─────────────────────┬──────────────────────┘                              ║
║                         │                                                      ║
║   七方向 = 母方程的七种特化:                                                  ║
║   ┌────────┬─────────┬──────────┬─────────┬──────────┬─────────┐              ║
║   │时空 T  │采样MPPI │不确定 U  │博弈 G   │多机 Multi│TAMP     │              ║
║   │+时间维 │采样近似 │期望→风险 │单→多方  │单→耦合体 │+符号层  │              ║
║   │ST-A*   │MPPI     │POMDP     │iLQGames │CBS/分布  │PDDL+运动│              ║
║   │MINCO   │CEM      │Tube/CVaR │ALGAMES  │MPC/MARL  │LLM 高层 │              ║
║   │↕Neural │↕策略梯度│↕Safe/Dist│↕PSRO    │↕CTDE     │↕HRL     │              ║
║   │ A*     │ /去噪   │ RL       │         │          │         │              ║
║   └────────┴─────────┴──────────┴─────────┴──────────┴─────────┘              ║
║                         │                                                      ║
║              无人机 D:以上全部的最干净应用平台(微分平坦)                    ║
║                         │                                                      ║
║   三条贯穿主轴(任务的三维坐标):                                             ║
║   ① 不确定性:确定 → 鲁棒 → 机会约束 → POMDP → 风险                            ║
║   ② 交互  :单体 → 预测他人 → 博弈 → 协作                                      ║
║   ③ 实时  :离线全局解 → 在线滚动 → 离线训练+在线推理 → 摊销蒸馏               ║
║                                                                                ║
║   选型 = 在三轴坐标上定位 + 六维画像(§3.1) → 决策树(§3.2) → 多半落到混合       ║
╚══════════════════════════════════════════════════════════════════════════════╝

理论-工程桥接:这张图就是你的"导航坐标系"。 以后无论读到什么新论文、接到什么新任务,做三件事:①找它在七列里属于哪个特化(或哪几个的组合);②判断它走经典/RL/混合哪条腿;③在三条主轴上给它定坐标。三步做完,新东西就被你"安放"进了这张已有的地图,而不是变成又一个孤立的知识点。这就是"收口"的终极价值——让你的知识从"清单"变成"地图",从此学得越多,地图越密,而不是清单越长越乱。

过渡:从"地图"到"路线"。 §5 给了你一张静态的全方向地图。但地图是用来走的——你现在站在地图的某个位置,下一步该往哪走?§6 就给三类读者(工程 / 研究 / 交叉)各画一条后续学习路线,并帮你在"经典→混合→学习"的光谱上定位自己。


§6 学习路径总结:从这里往哪走 ⭐⭐

你现在在哪——先定位

读完本章,你已经完成了本方向的"主体学习 + 收口"。但"学完综述"不等于"到达终点"——它更像是登上了一个观景台,看清了全貌,接下来要选一条路下山去做事。不同目标的读者,下山的路完全不同。 本节按三类典型读者画路线,你大概率属于其中之一(或介于两者之间)。

在选路之前,先用一句话给自己定位——你更信任"可证明的结构"还是"数据里学到的灵活"? 这决定你在下面这条光谱上的初始位置:

   纯经典优化 ◄──────────────────────────────────────────────► 纯端到端学习
   (acados/MPC)    RL-for-MPC   安全滤波   残差   蒸馏   world-model   (VLA)
   全可证明                        混合区(§4 四骨架)                  全数据驱动
        ▲                              ▲                                  ▲
     传统控制                      工程主流落点                      深度学习
     工程师起点                  (2026 的现实)                     研究者起点

本质洞察 9:成熟工程师的终点,几乎都在光谱中段(混合区),而不是两端。 两端(纯经典、纯端到端)都是"信仰纯粹"的位置,适合做研究或特定场景;但真实产品系统,因为同时要性能和安全(§3.4),几乎都落在混合区。所以无论你从哪端出发,职业成长的方向都是向中段移动——经典出身的人要学会"在哪里让位给学习",学习出身的人要学会"在哪里必须用经典兜底"。本章 §3-§4 给的就是这个"向中段移动"的地图。

§6.1 三类读者的后续路径

路径甲:工程落地型(目标:把规控系统做到能上车/上机)。 - 你的光谱起点:偏左(经典优化)。 - 下一步补什么:①把一个经典栈做到生产级——T4(Apollo/Autoware)或 D 线(PX4+acados)选一个吃透,到能读源码、能调参、能部署;②学一类混合骨架 B(安全滤波/CBF)——这是工程上最先用得上的混合,让你能在经典系统里"安全地"引入学习模块;③MPPI_10(Mini-MPPI 实战)或 D12(无人机综合实战)做一个端到端项目。 - 避坑:别一上来追前沿(VLA、diffusion),工程岗位最值钱的是"把一个栈做透、做稳、可维护",而不是"什么都试过但什么都没上线"。 - 能力终点:能独立交付一个有安全保证、可调试、可维护的规控系统,并知道在哪里可以安全地接入学习模块提性能。

路径乙:研究创新型(目标:发论文 / 做方法创新)。 - 你的光谱起点:偏右(学习),但需要补左边的"结构感"。 - 下一步补什么:①选一条主轴深挖——不确定性(U4/U5)、博弈(G3/G4)、或生成式规划(T6/MPPI_05/MPPI_06)选一个做到前沿;②吃透一类混合骨架的理论(可微 MPC 的隐函数微分、PSRO 的收敛性、distributional RL 的风险头);③跟踪 §7 的开放问题,找一个能"把 A 方向的特化套到 B 方向"的选题(§5.2 洞察 8 提到的创新模式)。 - 避坑:别只刷 benchmark 性能(§3.4 反模式 1 的学术版)。审稿人和真正的贡献,看的是"你解决了哪个结构性难题"(如安全保证、收敛性、可验证性),而不是"又涨了 2 个点"。 - 能力终点:能在某条主轴上提出有结构性贡献的方法,并清楚它在 §5 地图上的位置和边界。

路径丙:交叉融合型(目标:在 RL 与控制交界处做事,如具身智能、VLA、world model)。 - 你的光谱起点:通常已在中段,但两边的根基都不够深。 - 下一步补什么:①把本章 §1-§2 的统一视角和六组对偶真正吃透(这是你的核心竞争力——多数人只懂一边);②深入 §4.7 的生成式规划全部四条线(diffusion/TD-MPC2/可微 MPC/VLA),到能复现、能改进;③跨到 06_具身智能 和 S4 交互预测,把"规控"和"感知-语言-动作"接起来。 - 避坑:交叉方向最容易"两边都懂一点、两边都不深"。要么以控制为根、学习为翼,要么反之,避免悬空。 - 能力终点:能在 RL-控制交界处设计端到端可微的混合系统,并理解其每个零件的经典/学习归属与保证边界。

把三条路径落成"接下来 8-12 周做什么"的行动清单。 路线讲方向,清单讲动作——下面把三条路径各压成一个可立即开干的周计划骨架(具体周数按个人节奏伸缩),让"读完综述"直接对接"动手做事":

阶段 路径甲(工程落地) 路径乙(研究创新) 路径丙(交叉融合)
第 1-2 周 选定一个生产级栈(Apollo 或 PX4+acados),跑通官方仿真 选定一条主轴(U/G/生成式),精读其 3-5 篇核心论文 重读本章 §1-§2,手写"经典↔RL 对偶映射图"
第 3-5 周 读源码 + 改一个模块(如换个 cost、加一个场景) 复现一个 baseline(DESPOT/iLQGames/Diffuser 之一) 复现一条生成式规划线(TD-MPC2 或 Diffusion Policy)
第 6-8 周 加一层骨架 B 安全滤波(CBF-QP),验证零违约 针对一个"边界/坑"(§7.1 某 OP)做小实验,验证难点 跨到 06_具身/S4,把一个 RL 策略接回经典导航/控制栈
第 9-12 周 做一个端到端项目(Mini-MPPI / D12),写部署报告 把小实验扩成一个方法贡献,对照 §7.2 自查"补了什么保证" 设计一个小型端到端可微混合系统,标清每个零件的保证边界
交付物 可部署、可调试、有安全保证的栈 一个有结构性贡献的方法 + 它在 §5 地图的定位 一个 RL-控制交界的混合系统 + 零件归属分析

这张表的用法:挑你所属的那一列,从第 1 周开始,每个阶段结束时对照 §6.3 能力清单自查。三条路径在第 1 阶段都从"本章学过的东西"出发(栈/论文/对偶图),这不是巧合——本章的统一视角和选型框架,正是三条路共同的起跑线。

§6.2 "经典→混合→学习"光谱上的自我定位练习

光谱定位不是一次性的,而是随项目变化。做下面这个小练习,校准你当前的位置:

  1. 拿你手头/最近的一个任务,填 §3.1 的六维画像。 它把你导向决策树的哪个叶节点?
  2. 对照你实际用的方法——你用的方法在光谱的哪一段?和决策树的建议一致吗?
  3. 如果不一致,问为什么:是任务画像变了、是有非技术约束(团队只会某个栈、deadline 太紧),还是你"为了用某个方法而用"(§3.4 反模式)?
  4. 写下"如果重来会怎么选"——这一步是元认知,长期看比任何单个项目都重要。

对比性思维:光谱位置是"任务的属性",不是"人的标签"。 常见误区是把"我是 RL 派/控制派"当成身份标签,于是所有任务都往自己熟悉的一端拉。成熟的做法是:让任务的六维画像决定光谱位置,而不是让自己的偏好决定。同一个人,做工厂抓取就该往左(经典),做竞速飞行就该往右(RL)——这不是"立场摇摆",而是"专业"。

§6.3 阶段性能力检验清单

用这份清单自检你是否真正完成了本方向的学习(而不只是"读过")。能对每一条给出具体的、自己的回答,才算到位。

  • 统一视角:能向一个只懂 MPC 的人,用 3 分钟讲清"MPC 和 RL 逼近同一个 \(V^*\)"(§2.1)。
  • 对偶映射:能默写出至少 4 组"经典 ↔ RL"对偶,并说出每组"等价在哪、不等价在哪"(§2)。
  • 选型决策:给一个陌生任务,能填六维画像、走决策树、给出选型并说明理由(§3)。
  • 混合骨架:能把一篇随机抽取的"RL+经典"论文归到四类骨架之一,并指出它的边界(§4.2)。
  • 全方向收口:能凭记忆画出 §5.4 收口图的主干(母方程 → 七特化 → 两解法 → 三主轴)。
  • 反模式辨识:能在一个真实项目里指出至少一个"用错工具"的风险点(§3.4)。
  • 研究品味:能说出本方向至少 2 个你认为有价值的开放问题,并解释为什么(§7)。

理论-工程桥接:这份清单就是 §4 阶段(RL 贯穿收官)课程作业的验收标准。 课程要求学生交付"经典 → RL 同义表达映射图"——上面第 1、2、5 条就是这张图的内容;要求"能判断哪里该用经典 C++、哪里该让位给 Python+神经网络"——第 3、4、6 条就是这个判断力。这份清单同时也是你面试机器人规控/具身智能岗位时,区分"会用工具"和"理解工具"的分水岭。


§7 研究方向总结:开放问题地图 ⭐⭐⭐

为什么收尾要谈开放问题——先动机

一本好的教科书,最后一章不应该让你觉得"这个领域已经成熟、没什么可做了",而应该让你看到地图的边缘还有大片空白,并且你已经具备了走进空白的工具。本节就把 §1-§5 反复触及的"边界""不等价处""坑"收集起来,整理成一张开放问题地图。这些不是空泛的"未来展望",而是从本章每一节的"边界"讨论里自然浮现的、有抓手的研究方向。

§7.1 七个高价值开放问题

下面七个开放问题,每个都标注了它的"母节点"(来自本章哪节的边界讨论)、难点、和一个可上手的切入角度。

OP1:可微 MPC 的数值稳定性与可扩展性。(母节点 §4.3) - 难点:对 KKT 条件做隐函数微分,在退化约束/病态处梯度爆炸或不存在;高维问题反向传播昂贵。 - 切入角度:正则化的隐式微分、二阶方法、利用问题结构(稀疏性、平坦性)的高效微分;acados+leap-c 生态是现成实验台。 - 一个可做的小实验:在一个简单 NMPC(如四旋翼悬停)上,用 leap-c 端到端训练终端代价权重,刻意构造一个会触发约束退化(active set 切换)的工况,定量观察梯度何时爆炸、加 Tikhonov 正则后改善多少——这能直接复现并量化"病态处梯度不稳"这一难点。

OP2:神经-经典混合系统的形式化安全保证。(母节点 §4.4) - 难点:安全滤波/CBF 兜底能给"瞬时"安全,但 RL + 滤波的闭环长期行为(稳定性、活性 liveness、无死锁)缺乏统一的形式化保证;OOD 下安全集本身可能失真。 - 切入角度:可学习 CBF 的保证、neural Lyapunov/barrier 证书、把安全集的不确定性显式建模(conformal prediction + 安全滤波)。 - 一个可做的小实验:在一个 2D 导航任务里给 RL 策略加 CBF-QP 滤波,构造一个"瞬时安全但会被逼进死角(活性失败)"的场景,证明瞬时安全 ≠ 长期活性;再尝试用 predictive safety filter(多步前瞻)能否消除死锁——这把 OP2 的"瞬时 vs 长期"难点做成一个可演示的反例。

OP3:部分可观测下"belief 学习"的保证与可解释。(母节点 §2.3) - 难点:RNN 隐状态 ≈ belief 但无正确性保证;neural-guided POMDP 想要"树搜索保证 + 神经泛化"但理论尚不完整。 - 切入角度:带遗憾界的 neural-guided DESPOT、把 belief 的充分统计性作为辅助损失、可解释的 latent belief。 - 一个可做的小实验:在 tiger 或 rock_sample 上,对比"RNN-RL 的隐状态"与"DESPOT 的粒子 belief"在同一段观测序列后的状态后验——用一个解码器从 RNN 隐状态重建真实状态分布,定量看它离真 belief 多远,验证"有损充分统计"这一论断。

OP4:连续多智能体博弈的均衡求解收敛性。(母节点 §2.5) - 难点:一般博弈 Nash 求解 PPAD-hard,GDA 动力学可能不收敛(循环、震荡);连续动作 + 深度网络下更难。 - 切入角度:Stackelberg actor-critic 的收敛保证、最后迭代收敛(last-iterate convergence)的算法、PSRO 的样本效率。 - 一个可做的小实验:在一个 2 车交叉的连续博弈上,分别用 iLQGames(经典)与 independent-PPO(朴素 MARL)求解,画出后者的策略迭代轨迹证明它震荡/不收敛到 Nash,再换 PSRO 看是否稳定收敛——直观对比"耦合不动点"被解 vs 被学的差异(呼应洞察 4)。

OP5:风险敏感决策的统一框架与高效求解。(母节点 §2.4) - 难点:CVaR/coherent risk 在控制(CVaR-MPC)、RL(distributional RL)、安全(CMDP)里各有实现,缺乏统一、可端到端、有保证的框架;time-consistent dynamic risk 的高效求解仍难。 - 切入角度:把风险度量做成可微层接入任意管线、distributional RL + 经典风险约束的混合、nested CVaR 的高效近似。 - 一个可做的小实验:在一个有"低概率大损失"尾部风险的导航任务(如偶发强风)上,对比"期望-最优 MPC"、"CVaR-LP(OSQP)"、"IQN 的 CVaR 风险头"三者的轨迹,验证 §2.4 翻译链——三种实现是否在同一风险水平下给出相近的保守行为。

OP6:生成式规划的实时性与硬约束。(母节点 §4.7) - 难点:扩散规划采样慢(多步去噪)、无硬约束保证;如何在 μs 级回路用、如何保证生成轨迹严格可行。 - 切入角度:少步/一步扩散(consistency models)、约束投影与去噪的融合、扩散提议 + 经典 feasibility projection 的混合(已有 Diffuser+MINCO 雏形)。 - 一个可做的小实验:在 Maze2D 上跑 Diffuser,统计它生成的轨迹有多大比例违反障碍约束(无硬保证),再加一层 MINCO/QP feasibility projection,量化"提议 + 投影"混合在可行率和延迟上的代价——这把 OP6 的"无硬约束"难点和 §4.7 的混合解法连起来。

OP7:跨方向/跨平台的范式迁移。(母节点 §5.2 洞察 8) - 难点:很多方法是"某方向特化",迁到别的方向需要重新设计;缺乏"特化算子可组合"的理论。 - 切入角度:把博弈的 GNE 套进多机/预测(GameFormer 已做了一半)、把 TAMP 的符号层套进无人机集群、统一的"母方程特化语言"。 - 一个可做的小实验:从 §5.2 迁移地图里挑一个"空白格"(如"把 CVaR 风险头套进 MPPI 得到 risk-aware MPPI"),在一个有尾部风险的 MuJoCo 任务上实现"对 rollout 分布取 CVaR 而非均值"的 MPPI 变体,验证它比标准 MPPI 更避险——这是一个小而完整的"叠算子"研究练习。

§7.2 选题建议与避坑

把上面七个问题落到"怎么选题",给三条务实建议:

  1. 从"边界"而非"性能"切入。 本章每组对偶的"不等价处"、每个混合骨架的"坑",就是研究的金矿——它们是"已知的未解",比"再涨两个点"有价值得多。审稿人记住的是"你补上了哪个保证/解决了哪个结构难题"。
  2. 优先选"有现成实验台"的问题。 OP1(acados+leap-c)、OP3(DESPOT)、OP4(OpenSpiel/PSRO)、OP6(Diffuser/nuPlan)都有成熟开源台,能让你把精力放在方法而非搭框架上。承认 C++ 前沿生态的现实鸿沟(原始调研 §附B 的务实警示)——前沿多在 Python/JAX,C++ 多在工业部署,选题时想清楚你要站在哪一侧。
  3. 避坑——别做"为混合而混合"的工作。 §4 的混合骨架很诱人,但"把 A 和 B 拼起来"本身不是贡献,"为什么拼、拼了之后多拿到了什么保证/性能、拼接处的新难题是什么"才是贡献。能用 §4.1 互补性表说清"我让谁补了谁的什么短板",才算想清楚了。

一个判断"选题值不值得做"的五问 rubric。 把上面三条建议落成可自查的清单——一个研究选题,若五问都能给出清晰回答,多半值得做;若卡在某一问,先想清楚再动手:

问题 想确认的事 卡住的信号
Q1 它解决哪个"边界/不等价处"? 选题对准的是 §2 某组对偶的边界、或 §4 某骨架的坑,而非"再涨点" 答不出"补了什么结构性缺陷" → 可能是刷榜
Q2 它在 §5 地图的哪个坐标? 能说清它特化了母方程的哪个算子、走经典/RL/混合哪条腿 定位不了 → 对问题理解还不够
Q3 有现成实验台吗? 有开源 baseline/环境可起步(§7.2 建议 2) 要从零搭框架 → 评估时间成本
Q4 成功的判据是什么? 有明确的、可测的"补上了什么保证/性能"的指标 判据模糊 → 难以说服审稿人/自己
Q5 最坏情况下学到什么? 即使主假设不成立,过程也能产出有价值的负结果/洞察 全押一个假设 → 风险过高

这个 rubric 的精神和 §3 的选型框架一脉相承:都是"先想清楚画像/判据,再动手",而不是"凭热情或时髦"。研究和工程在这一点上是相通的——最贵的不是算力,是方向错了之后浪费的时间

本质洞察 10(全章收尾):你学的不是一套会过时的算法,而是一个不会过时的"提问框架"。 具体算法(DESPOT、iLQGames、PPO、Diffuser)都会被更新的方法取代——五年后榜单上多半是别的名字。但本章给你的东西不会过时:①母方程(最优性原理)是数学,永不过时;②"经典 vs RL = 模型已知性 × 求解时机 × 值表示"这个坐标系,能安放任何未来的新方法;③"六维画像 → 决策树 → 混合骨架"这套选型框架,是判断力而非知识点。所以当你五年后看到一个全新的方法,不要慌——把它丢进 §5.4 的收口图,问它特化了哪个算子、走哪条腿、补了谁的短板,它就被你驯服了。这,就是"贯穿"二字的终极含义:不是记住所有点,而是掌握把任何新点接入已有网络的能力。


附录 A:四横切专题的 RL 贯穿关系(专题级细化,原始调研保留)

本附录定位:§2 给的是"方向级"的六组对偶(粗粒度,覆盖七大方向);本附录是 80_综述 S1-S4 四个横切专题(时空 / 不确定性 / 博弈 / 预测-规划)的"专题级"RL 贯穿细化,列出每个专题最具体的论文-到-论文桥接。两者是"地图 vs 街景"的关系——§2 让你看清结构,本附录给你可直接引用的论文名。这部分内容来自本方向横切层的原始调研,作为细粒度参考保留。

这一附录不单独展开某专题,而把 RL 与四横切专题的五条交界缝合起来,作为专题级的贯穿视角补充。

A.1 POMDP 与 RL 的本质关系

RL (model-free) 本质在解 MDP;partial observability 下就是 POMDP(呼应 §2.3)。DRQN (Hausknecht & Stone 2015) 用 LSTM 处理 POMDP,在 Atari flickering 实验中比 4-frame DQN 更鲁棒。DreamerV3 (Hafner 2023, Nature 2025) 是 amortized POMDP planner 在 150+ 任务上的单配置 SOTA,首个不靠人类数据在 Minecraft 挖到钻石的 agent;关键机制包括 symlog observation、KL balancing + free bits、1% unimix categoricals、percentile return 归一化、symexp two-hot loss、block-GRU + RMSNorm + SiLU、LaProp 优化器。MuZero (Schrittwieser Nature 2020) 的 MCTS 在 learned model 上进行 planning,与 POMDP 在 belief space 搜索的思想共轭。教学上:DESPOT + Dreamer 构成"经典 + 深度"两视角;C++ 侧 DESPOT 主导,Python/JAX 侧 Dreamer 收官。

A.2 Safe RL 与 Risk-aware Planning

Constrained MDP (Altman 1999) 是理论起点(呼应 §2.4 的 chance constraint ↔ CMDP)。CVaR-RL:Chow-Ghavamzadeh NeurIPS 2014 + Chow-Ghavamzadeh-Janson-Pavone JMLR 2017/18 "Risk-Constrained RL with Percentile Risk Criteria"(百分位风险与 CVaR 的策略梯度,multi-timescale 收敛证明,是 CPPO、distributional-CVaR、robust-MDP 所有后续工作的基础)。Distributional RL:C51 (Bellemare ICML 2017)、QR-DQN (2018)、IQN (2018) 已是工业标配,IQN 内置 Wang/CPW/CVaR 采样器。2023-2026 safe RL:CPO、Lagrangian-PPO、safety-critic 方法;safety filter + RL(CBF + RL、shielding,呼应 §4.4);开源 OmniSafe、safety-gym。教学映射:CVaR-RL 讲在专题 U5;Robust RL 讲在专题 U2;CBF+RL shielding 跨 U2-U4

A.3 MCTS 与 Contingency Planning

MCTS 每次 rollout 展开一个 scenario,本质是 contingency(呼应 §2.6)。MuZero 的 learned-model planning、POMCP 的 POMDP+MCTS、AlphaStar/AlphaGo 的 self-play 与博弈搜索共享同一搜索骨架。教学上:MPDM=简化 MCTS、EPSILON=简化 POMCP 的类比使专题 U1-U4 与 MuZero 衔接自然。近 2-3 年出现把 policy/value network 作为 DESPOT default policy 的 neural-guided POMDP,是经典搜索 + RL 的合流标志。

A.4 Multi-Agent RL 与博弈规划

Nash Q-learning (Hu & Wellman 2003)、Nash-VI 是经典值方法(呼应 §2.5)。MADDPG (Lowe NeurIPS 2017) 采用 centralized-critic decentralized-execution 处理非平稳性,并支持 policy ensemble 与对手 policy 建模。QMIX (Rashid 2018)、VDN、MAPPO 隐式博弈求解。PSRO (Lanctot NeurIPS 2017) 泛化 Double Oracle 到策略空间,以 (深度 RL) best-response + meta-strategy solver 迭代扩展策略池,奠基 Pipeline PSRO、XDO、α-PSRO、JPSRO (Marris 2021)、APSRO (McAleer 2022);OpenSpiel 实现完整。连续动作博弈 RL:Stackelberg actor-critic (Fiez 2020);GDA dynamics 收敛性 (Giannou NeurIPS'22)。教学上:MARL 讲在专题 G4 / Multi_10;OpenSpiel 是唯一成熟 C++ MARL 栈;连续博弈用 ilqgames 收尾。

A.5 Diffusion / 生成式规划(2022-2026 最重要混合范式)

真正的"规划层 RL + 经典融合"在 2023-2026 的主流形态是 Diffusion PlannerTD-MPC2可微 MPCVLA(呼应 §4.7 的详细展开)。

  • Diffuser (Janner et al. ICML 2022 long talk) 把轨迹优化折进 diffusion 模型,迭代降噪整条轨迹;classifier-guided sampling 与 inpainting 重新诠释为 planning 策略;D4RL/Maze2D/MuJoCo 验证。
  • Decision Diffuser (Ajay et al. ICLR 2023 Oral) 用 return/constraint/skill 条件生成,classifier-free guidance + low-temperature sampling 绕过 DP,支持测试时组合约束与 skill。
  • Diffusion Policy (Chi et al. RSS 2023) 视觉运动 BC 作为条件 DDPM over action sequences + receding horizon,+46.9% 平均超过 SOTA;bimanual 真实机器人任务(打蛋器、叠衬衫等)。
  • TD-MPC2 (Hansen et al. ICLR 2024) 在 implicit decoder-free world model 的 latent 空间做 MPPI + policy prior 的局部轨迹优化;SimNorm 归一化、LayerNorm、Mish、Q-ensemble、离散回归;104 个任务不调参,317M 参数单 agent 训练 80 任务,超 SAC/DreamerV3/TD-MPC。
  • VLAOpenVLA (Kim et al. CoRL 2024) 7B 参数 Llama-2 + DINOv2/SigLIP,970k 集 Open X-Embodiment,超 RT-2-X (55B) 16.5% 绝对;π0 / π0.5 (Physical Intelligence 2024-2025) VLA + flow matching,50Hz 连续动作。
  • Learned heuristic for search:Neural A* (ICML 2021)、PlanT (CoRL 2022);GNN-guided CBS/SIPP(呼应 §2.6)。
  • 可微 MPC:acados + leap-c 让 NMPC 成为神经网络一层,支持 RL 梯度端到端训练 cost/权重;Theseus (Meta)(呼应 §4.3)。
  • LLM planner:SayCan、Code as Policies、VoxPoser(任务级 HLP,呼应 §5.1 TAMP 行)。

教学映射:Diffusion Planner 讲在专题 T6 / S4(与 joint prediction-planning 合流);TD-MPC2 讲在 MPPI_06(ST 优化 + model-based RL);可微 MPC 讲在 U2;VLA 讲在 S4 与机器人整体顶层;Neural A* 讲在 T 线


附录 B:四专题在 C++ 教学体系中的定位建议(原始调研保留)

本附录定位:本章主体(§1-§7)面向"理解贯穿关系";本附录回到更务实的"教学工程"层面,给出四横切专题在 C++ 教学体系中的定位矩阵与推进建议。它承接 S1-S4 的 C++ 生态评估,作为课程设计参考保留。

这四个专题作为"第四层经典规控范式横切层",应定位为机器人规控课程的进阶模块,建议放在学生已完成公共基础(优化、最优控制、SLAM 基础)与至少一个方向主线之后。综合 C++ 生态成熟度、概念难度、对各方向的覆盖面三维度,给出如下教学定位矩阵:

专题 概念难度 C++ 成熟度 方向覆盖 推荐定位 核心抓手
时空联合规划 ★★★★★ 全覆盖(无人机/自驾最强) 必修进阶,以无人机为主线 GCOPTER、ego-planner、MADER、Apollo、OMPL
Contingency/MPDM ★★★★ 自驾>机械臂>loco 必修进阶(与 MCTS 衔接) EPSILON、Apollo scenario_manager
Robust/Tube MPC ★★★★ 无人机/机械臂/四足强 必修(MPC 深化) acados、OCS2、Crocoddyl、TinyMPC
Chance-Constrained ★☆ 自驾/无人机 选修 + 大作业 学生自写(Eigen+OSQP+RRT*)
POMDP / Belief-space 中高 ★★★★★ 自驾/机械臂/active SLAM 必修(不确定性核心) DESPOT、SARSOP、OPPT、TAPIR
Risk-Sensitive / CVaR ★☆ 全覆盖但应用浅 理论顶帽 + 小作业 CVaR LP dual + 分布 RL(Python)
博弈规划 ★★★ 多机/HRI/自驾 进阶选修(双语言:C++ 骨架 + Julia SOTA) ilqgames + OpenSpiel + Algames.jl
Joint Pred-Planning ★☆ 自驾/社交导航/VLA 前沿窗口(主讲 Python + Apollo C++ 锚) Apollo modules/prediction + openpilot + nuPlan devkit

教学推进建议(单学期 15-18 周):

第 1 阶段(时空+鲁棒,~6 周):时空规划以 GCOPTER-MINCO 与 Apollo ST 图为核心,Robust MPC 用 acados + do-mpc 建立 NMPC 与 tube 直觉。

第 2 阶段(不确定性核心,~5 周):POMDP 以 DESPOT 为教学主轴,tiger/rock_sample → ROS laser_tag → 行人交互式驾驶 Bai 2015;穿插 EPSILON 讲 MPDM;CC-MPC 与 CVaR 作为小作业(CC-MPC、CVaR-LP in C++)。

第 3 阶段(博弈与预测-规划,~4 周):博弈以 ilqgames 为主,作业为三车交叉、无人机 2v2 追逃;预测-规划用 Apollo modules/prediction 读码 + nuPlan devkit / PLUTO / GameFormer-Planner 做 Python 对照。

第 4 阶段(RL 贯穿收官,~2-3 周):把 DreamerV3、TD-MPC2、Diffusion Policy、OpenVLA、MuZero、PSRO 作为"当代 RL 如何重新表达经典四范式"的收束讨论,不要求 C++ 复现,只要求学生能画出"经典 → RL 同义表达"的映射图(即本章 §2 + §5.1 两张表的内容)。

最后一条写入课程概述的务实警示:四个专题里,CVaR 与预测-规划一体化 在 C++ 侧基本空白,不可强求学生用 C++ 复现前沿;承认"Python → C++ 部署"的现实鸿沟,恰恰是让学生理解工程-研究分工、建立跨语言审美的最好机会。Tesla FSD v12 的 "300k 行 C++ 被神经网络替换"(厂商披露、未经同行评审)与 π0/OpenVLA 的 VLA 范式,本身就是第四层横切专题在 2026 年必须正视的产业背景——这层课程的意义不是死守 C++,而是教会学生判断"哪里该用经典 C++、哪里该让位给 Python+神经网络"(即本章 §3 决策框架的能力)。


2024–2026 前沿深化:RL 与经典规控的最新合流 ⭐⭐⭐⭐

本节定位:§1–§4 建立的"统一视角—对偶—选型—混合"框架截至约 2023 年。本节补录 2024–2026 年 RL 与经典规控合流的最新进展,聚焦五条最活跃的前沿线,并验证本章框架的预测力。

前沿线一:可微 MPC 的工程化——§4.3 骨架 A 的 2026 形态

§4.3 的"RL-for-MPC"骨架(用 RL 学代价权重/终端值/约束参数)在 2024–2026 年获得了工程化的关键突破,主要归功于两个工具的成熟:

acados solution-sensitivity + leap-c。acados 现在原生支持在 NMPC 求解后输出"解对参数的雅可比" \(\partial u^*/\partial \theta\)——这让 MPC 成为一个真正的可微层,可以嵌进 PyTorch 的反向传播。leap-c(Learning-enhanced acados solver wrapper)提供了开箱即用的"PyTorch ↔ acados"接口:在训练时,RL 的 critic 通过 MPC 层反向传播梯度到参数 \(\theta\)(代价权重、终端代价矩阵、甚至约束边界);在部署时,训好的 \(\theta\) 被冻结,MPC 以固定参数实时求解——保留了 MPC 的全部约束满足能力,同时代价函数是数据驱动学出来的

这个进展在 §2.1 的"MPC↔值迭代 Newton 步"对偶框架里有一个精确的解释:传统 MPC 的终端代价 \(V_f\) 是手调的(粗糙的 \(V^*\) 近似),RL-for-MPC 把 \(V_f\) 换成了 RL 学出来的(更精细的 \(V^*\) 近似)——Bertsekas 的 Newton 步等价意味着,更好的 \(V_f\) 直接转化为更好的 MPC 性能。这不是一种隐喻,而是数学上精确的保证:\(V_f\) 越接近 \(V^*\),MPC 的一步前瞻越接近全局最优。

类比(有边界的类比):可微 MPC 之于传统 MPC,就像"自动调参的 PID"之于手调 PID——结构不变(PID/MPC 的算法骨架保留),但参数从手工试错变成数据驱动优化。像的地方是"结构保留 + 参数学习";不像的地方是可微 MPC 学的不只是几个标量增益,而是整个代价函数的形状(可以是一个神经网络参数化的非线性函数),自由度远大于 PID 调参。

Theseus(Meta 的可微优化库)。除了 acados + leap-c 这条嵌入式 MPC 路线,Meta 的 Theseus 提供了另一条路——在 PyTorch 内部实现一个通用的非线性最小二乘(NLS)可微求解器,让"约束轨迹优化"成为一个可微的 nn.Module。它的适用范围比 acados 更广(不限于 MPC 结构,可以做任意 NLS 优化),但没有 acados 在嵌入式实时部署上的成熟度。

本质洞察(可微优化层是"§2.1 对偶的工程兑现"):§2.1 从理论上论证了 MPC 和值迭代在数学上等价(Newton 步)。可微 MPC 把这个理论等价变成了工程现实:MPC 的终端代价/参数由 RL 的值函数训练来填——两个曾经由不同社区(控制 vs RL)独立开发的工具,现在共享同一组可学习参数。这是"统一视角"从课堂走向代码的标志。

前沿线二:世界模型 + 规划(TD-MPC2 / Dreamer / DIAMOND 的演进)

§4.7 提到 TD-MPC2 和 Dreamer 是"model-based RL 与采样 MPC 的合流"。2024–2026 年这条线的关键演进包括:

TD-MPC2(ICLR 2024)的规模化。TD-MPC2 把 TD-MPC 的"latent world model + MPPI 规划 + policy prior"推到了 104 个任务、跨 4 个 benchmark 的规模,证明同一套方法论可以跨任务泛化。它在 §1.3 总表里的位置是"轴1 灰盒(模型是学的)、轴2 在线搜索(latent MPPI)+ 离线训模型/策略、轴3 显式(policy+value 网络)"——是六个范式格子里"最中间"的那一个,三个轴都不在极端。这解释了它的跨任务适应性:不像纯经典优化那样需要为每个任务手写模型,也不像纯 RL 那样需要为每个任务从零训练——它学一个通用 world model,然后在上面做经典的 MPPI 规划。

DreamerV3 → DIAMOND → 视觉世界模型。DreamerV3 的 RSSM 隐状态在 §2.3 被解释为"摊销的 belief"。2024–2025 的 DIAMOND 用 diffusion model 替代了 RSSM 的确定性 decoder,使世界模型能生成视觉级的未来预测(不只是 latent 向量,而是可视化的未来帧)。这在概念上回应了 §2.3 的"belief = 隐状态"桥——DIAMOND 的 diffusion decoder 让 belief 从"一个抽象向量"变成了"一个可看到的未来图像",从而让 belief 更易调试和理解。

反事实推理:如果世界模型的预测在 50 步之后完全不准(滚雪球式误差累积),那么在它上面做 100 步 MPPI 规划就是在幻觉里做决策。这正是世界模型规划的核心瓶颈——"latent dynamics 在长时域上的预测衰减"。TD-MPC2 用短时域(\(H=5\)\(15\) 步)的 MPPI + 学到的 value function 作终端代价来缓解这个问题——短时域保证模型预测不会衰减太多,value function 补偿长期 to-go。这又一次验证了 §2.1 的"终端代价近似 \(V^*\)"逻辑——而且在 world model 场景下更加紧迫:模型越不准(长时域衰减),越需要 value function 兜底(终端代价更重要)

前沿线三:安全 RL 的工程落地——§4.4 骨架 B 的 2026 形态

§4.4 的"MPC-for-RL"骨架(用经典安全层给 RL 策略兜底)在 2024–2026 年从理论概念变成了多形态部署的标准架构

形态 安全层方案 RL 策略 工程状态
四足(ANYmal/Unitree) convex MPC + 关节限位 PPO+域随机化 已量产
无人机竞速 CBF-QP + 赛道边界 PPO/SAC 实车验证
自动驾驶(辅助) predictive safety filter + AEB 端到端 IL/RL 限定场景量产
机械臂(协作) 速度/力矩限制 QP 视觉 RL 工业场景试点

本质洞察("RL 管性能,经典管安全"不是妥协,是最优分工):初学者常把"RL + 安全层"当成一种"因为 RL 不够好才需要兜底"的妥协。§4.1 的互补性分析论证了恰恰相反——这是一种分工最优的架构,因为 RL 和经典优化的强弱项精确正交:RL 擅长高维感知、长尾适应、难以显式建模的目标(§1.2 总表右半列),经典优化擅长硬约束、可验证性、低维结构化问题(左半列)。让每一方做自己最擅长的事(RL 管"怎么灵活地达到目标",经典管"不管怎么灵活都不能越界"),就是把两方的能力上限叠加而非取其较低者。这个分工之所以成立,数学上的根据是——RL 的值函数 \(\hat V\) 和安全层的约束 \(g\le 0\) 作用在不同的"空间"上(值空间 vs 约束空间),互不干扰:安全层只修正那些会违反约束的动作,对不违反约束的动作透明放行,因此不损害 RL 在安全域内的最优性。

前沿线四:生成式规划的多模态安全化

§4.7 的"生成式规划集大成"(Diffusion Policy、TD-MPC2、VLA)在 2024–2026 年面临的最大挑战是多模态输出的安全化——扩散模型可以生成多条候选轨迹(路口左转和右转各一条),但它们不保证任何一条满足动力学约束或碰撞安全

2025 年出现了三种"生成 + 安全化"的工程方案:

方案一:生成后投影(Generate-then-Project)。扩散模型先自由生成多条候选,然后每条通过一次轻量 QP/NLP 投影到满足约束的最近可行点。优点是模型本身不需要改动,投影是"即插即用"的后处理;缺点是投影可能大幅改变轨迹的形状(当候选严重违反约束时),损失扩散模型的多模态表达能力。

方案二:约束 guidance(Constrained Guidance)。在去噪过程中,把约束违反量的梯度作为 guidance 注入——类似 classifier-free guidance 注入条件信号。去噪过程同时朝"高似然"和"满足约束"两个方向推。优点是约束在生成过程中逐步满足(而非事后硬投影),轨迹更自然;缺点是只对可微约束有效(碰撞约束的不可微性需要近似处理),且不保证最终完全满足。

方案三:安全滤波后置(Safety Filter Post-hoc)。扩散模型生成多条候选,安全滤波器(CBF-QP 或 predictive safety filter)逐条检查,通过的放行、不通过的丢弃或修正。这是 §4.4 骨架 B 在生成式规划上的直接应用——把"安全验证"从 MPC 的约束满足转移到了生成模型的后处理。优点是安全保证最硬(滤波器独立于生成模型,不依赖模型正确性);缺点是如果所有候选都不通过,系统需要有后备策略(通常是紧急制动或保守直行)。

对比性思维(三种方案是"安全化力度"的三个档位):方案一最弱(只做事后修正,可能改动大)、方案二居中(生成中逐步引导,但不硬保证)、方案三最强(独立安全滤波,硬保证)。选哪个取决于 §3 的六维画像——D3=硬约束且 D5=需可验证时选方案三(最安全但可能丢弃所有候选),D3=软约束时选方案二(最自然但无硬保证),快速原型验证时选方案一(最简单但最粗糙)。这三个档位再次验证了 §3 的核心论断——安全约束的硬度是选型的根问题

前沿线五:"经典→混合→学习"光谱的 2026 更新

§6.2 给了"经典→混合→学习"的光谱定位工具。2025–2026 年的产业实践给这个光谱增添了新的数据点:

产品/系统 光谱位置 2024–2026 变化趋势
Apollo 9.0 偏经典(EM + 规则 + 轻量学习辅助) 渐往混合移(引入学习预测、神经代价)
Waymo Driver 混合偏经典(结构化 ML + 手写安全层) 持续在混合区精细化
Tesla FSD v12+ 混合偏学习(端到端 + 残留安全规则) 往学习端推(厂商披露,未经同行评审)
机器人操作(π0/OpenVLA) 偏学习(VLA 端到端) 往学习端推,但安全层缺失是公认短板
四足运动(ANYmal/Unitree) 混合中央(RL 策略 + 经典安全层) 稳定在混合区,架构已成熟

本质洞察(光谱的"引力中心"在向混合区移动,但两端不会消亡):2024–2026 的数据点显示,无论从"纯经典"端(Apollo 引入学习)还是从"纯学习"端(Tesla 保留安全规则),都在向"混合"区域收敛。但这个收敛有极限——"纯经典"在结构化、低维、安全关键的底层会长期存活(PID 不会消亡),"纯学习"在数据丰富、高维感知、长尾场景的高层会长期存活(VLA 不需要手写规则)。光谱的两端不会消亡,混合区会越来越宽——这是因为真实系统的不同层天然需要不同位置的方法(底层要可验证 → 经典,高层要泛化 → 学习,中层要两者 → 混合)。所以 §3 的决策框架不是一个"终将过时"的权宜之计,而是一个反映了系统分层本质的持久框架。

⚠️ 前沿陷阱专栏

🧠 思维陷阱:以为"可微 MPC = MPC 变成了 RL"
   新手想法:"MPC 能被 RL 梯度训练了,那它就是 RL 的一部分了"
   实际上:可微 MPC 在训练时利用 RL 梯度调参数,但在部署时它仍然是一个
          完整的在线优化器——它在每帧解 QP/NLP、硬性满足约束、输出可解释
          的轨迹。它不是"变成了 RL",而是"用 RL 的梯度让自己变得更好"
   根本原因:§2.1 的等价是在"逼近 $V^*$"这个目标上的,不是在"方法的运行机理"
          上的。MPC 仍是在线优化(每帧解问题),RL 仍是离线训练(学值/策略),
          可微 MPC 只是让二者的中间产物(参数 $\theta$)可以互相传递梯度
   正确做法:理解可微 MPC 是"MPC 和 RL 共享参数的混合体",不是"其中一个
          取代了另一个"。它保留了两方的全部特性——MPC 的约束满足和在线灵活性,
          RL 的数据驱动代价调整
💡 概念误区:以为"世界模型学好了就不需要真实模型了"
   新手想法:"DreamerV3 学了世界模型就能替代手写动力学模型"
   实际上:学到的世界模型在训练分布内可能很准,但在分布外(OOD)——
          比如从未见过的碰撞场景、极端天气、非常规交互——可能输出"幻觉"
          (看似合理但物理上不可能的预测)
   根本原因:学到的模型是对训练数据分布的拟合,而真实世界的状态空间远大于
          训练分布。手写物理模型虽然粗糙,但它**在整个状态空间上都满足牛顿定律**,
          不会在 OOD 区域"幻觉"。这就是为什么 GP-MPC 用"手写名义模型 + 学到的残差"
          比纯学到的模型更安全——名义模型提供"全局合理"的兜底
   正确做法:用"手写物理模型 + 学到的残差"(灰盒),而非"纯学到的模型"(黑盒),
          除非你能保证测试分布 $\subset$ 训练分布(在真实世界几乎不可能保证)
💡 概念误区:以为"六组对偶 = 可以随意互换两侧方法"
   新手想法:"MPC 和值迭代等价,所以我可以在任何场景用值迭代替代 MPC"
   实际上:对偶意味着"逼近同一目标",但逼近的路径、代价、副作用完全不同。
          MPC 需要模型但在线灵活、能约束;值迭代不需模型但离线昂贵、约束弱
   根本原因:§2.1-§2.6 每组对偶都明确列出了"不等价在哪"——模型依赖、
          约束处理、在线/离线、方差/偏差等差异。"等价"只在"目标"层面成立,
          "路径"层面各有取舍
   正确做法:用 §3 的六维画像判断"我的任务在六个维度上长什么样",再选
          "路径代价最低"的那一侧——而非因为它们"等价"就随意替换

本章常见误解汇总

把全章散落的"对比性思维"与"反模式"收成一张误解表。左列是初学者常持的错误观念,中列是为什么错,右列指向纠正它的小节。这张表是本章 G4 门禁(认知深度)的浓缩自检表。

# 常见误解(❌) 为什么是错的(✓) 纠正出处
1 "RL 和经典控制是两个对立学科" 它们逼近同一个 \(V^*\),是"模型已知性×求解时机×值表示"上的不同切法 §1.2、§1.3
2 "MPC 不需要值函数,RL 才需要" MPC 的终端代价就是对 \(V^*\) 的隐式近似;MPC=值迭代的 Newton 步 §2.1
3 "MPPI 是一种特殊的梯度 MPC" MPPI 是零阶采样法,与策略梯度/去噪同构,恰恰不需要梯度 §2.2
4 "给 RL 奖励加惩罚项 = 安全保证" 软惩罚不是硬保证,OOD 下失效;硬约束需经典优化/CBF §2.4、§3.4 反模式 2
5 "Tube 的 RPI 集和 Robust RL 的 uncertainty set 是两回事" 在"对抗谁"上是同一对象(不确定集取最坏),差别在精确性与给定方式 §2.4
6 "CTDE / self-play 是一种均衡" 它们是训练范式,不是解概念;解概念是 Nash/Stackelberg §2.5、§3.4 反模式 3
7 "Neural A* 用神经网络替代了 A*" 它只替代了 A* 最难手工设计的零件(启发式),保留搜索骨架 §2.6
8 "RL 更先进,所以新任务默认用 RL" 选型取决于六维画像;模型好+低维+时间够时经典优化更省心可靠 §3.1-§3.4 反模式 1
9 "混合范式是性能上的中庸折中" 混合是"分工到各自最优",理想下保证不打折而逼近学习性能上限 §4.1 洞察 6
10 "把瞬时观测喂前馈网络就能解部分可观测任务" POMDP 需 belief(历史的充分统计),要么显式算要么用 RNN 学 §2.3、§3.4 反模式 4
11 "扩散/VLA 是前沿,应该用在所有层" 大模型慢且无证书,适合高层慢回路;底层快回路需轻量经典/蒸馏 §4.7、§3.4 反模式 5
12 "七大方向是七门独立的课" 七方向是同一母方程的七种特化,共享 DP 骨架,可跨向迁移 §5.2 洞察 8

本章小结

本章是整个移动机器人规控方向的收口章。它不教任何新算法,只做一件事:把你学过的所有方法和方向,串成一张以"最优性原理"为根的统一地图。

四步主线回顾:

  1. 同源(§1):经典规控与 RL 都从 Bellman/HJB/HJI 母方程长出,区别只在"模型已知性 × 求解时机 × 值函数表示"三个轴。经典=已知模型的最优控制,RL=未知模型的最优控制。
  2. 对偶(§2):六组"同一枚硬币的两面"——MPC↔值迭代(Newton 步)、MPPI↔策略梯度/去噪、POMDP↔RNN-RL、不确定性规划↔Safe/Robust/Distributional RL、博弈↔MARL/PSRO、搜索↔学习型搜索。每组都给了"等价在哪、不等价在哪"。
  3. 选型(§3):六维任务画像 → 主决策树 → 五个边界案例 → 五个反模式。核心是"先看任务画像,再选方法",根问题永远是"安全约束硬不硬"。
  4. 混合(§4):四类骨架——RL-for-MPC(学代价/值)、MPC-for-RL(安全滤波)、Residual(残差叠加)、Amortization(互为初值/蒸馏),外加生成式规划(Diffusion/TD-MPC2/可微 MPC/VLA)这一当代集大成。

两步收口:

  1. 全方向收口(§5):七方向 = 母方程的七种特化(时空特化时间维、采样特化求解、不确定特化期望算子、博弈特化玩家数、多机特化耦合体、TAMP 特化离散层、无人机是平台);DP 是最大公约数;三条主轴(不确定性/交互/实时)是任务的三维坐标;§5.4 收口图是终极一图。
  2. 路径与方向(§6-§7):三类读者的后续路线、"经典→混合→学习"光谱自我定位、七个高价值开放问题。

速查表:经典 ↔ RL 对偶速记

经典 RL 孪生 同构的数学操作
MPC 滚动优化 值迭代一步 Newton \(V_f\) 处对 Bellman 方程做 Newton 修正
MPPI softmax 加权 REINFORCE / 去噪 guidance \(q^*\propto q_0\exp(R/\lambda)\) 指数加权
POMDP belief 更新 RNN 隐状态 history 的充分统计压缩
Tube MPC RPI 集 Robust RL uncertainty set \(\min_u\max_{w\in\mathcal W}\) 取最坏
Chance constraint CMDP 约束 经 CVaR 互译的约束优化
CVaR-MPC Distributional RL 风险头 期望算子 → 风险度量 \(\rho\)
Nash / GNE 求解 MARL 收敛点 / PSRO 耦合最优性条件的不动点
A* 启发式 \(h\) MuZero value / Neural A* 都在逼近 \(V^*\)

速查表:六维选型画像

维度 偏经典 偏 RL
D1 模型已知性 可精确建模 难建模/黑箱
D2 维度 中低维 高维/感知输入
D3 约束硬度 硬约束 软约束
D4 实时预算 充裕/可离线 μs 级
D5 可验证性 需要 不需要/有兜底
D6 数据可得性 不需要 有仿真/数据

本章的一句话总结:移动机器人规控的七大方向,是"序贯最优决策"这一个问题在七个维度上的特化,每个特化都有"经典"和"RL"两条逼近同一最优解的腿,而 2026 年的工程主流是把两条腿焊成一个端到端可微的混合体——理解了这句话,你就理解了整个方向。


知识点总表

知识点 难度 核心结论 出处
三个共同祖先(Bellman/HJB/HJI) ⭐⭐⭐ 同一最优性原理在(时间离散×玩家数)上的实例 §1.1
经典=已知模型OC,RL=未知模型OC ⭐⭐⭐ 区分两者的是模型已知性与求解时机,非阵营 §1.2
六范式统一坐标系 ⭐⭐⭐ 三轴:模型已知性/求解时机/值表示 §1.3
MPC↔值迭代 Newton 步 ⭐⭐⭐⭐ 终端代价=\(V^*\)近似,MPC=一步 Newton §2.1
MPPI↔策略梯度↔去噪 ⭐⭐⭐⭐ 共享指数加权 \(q^*\propto q_0e^{R/\lambda}\) §2.2
belief↔RNN 隐状态 ⭐⭐⭐⭐ RNN 隐状态是 belief 的有损充分统计 §2.3
不确定性规划↔Safe/Dist RL ⭐⭐⭐⭐ chance→CVaR→distributional RL 翻译链 §2.4
博弈↔MARL/PSRO ⭐⭐⭐ PSRO=深度 double oracle;解概念≠训练范式 §2.5
搜索↔学习型搜索 ⭐⭐⭐ 神经网络替代搜索骨架里的难调零件 §2.6
六维画像 + 决策树 ⭐⭐⭐ 先画像再选型,根问题是安全约束硬度 §3.1-§3.2
五边界案例 + 五反模式 ⭐⭐⭐ 用错工具的高频场景与纠正 §3.3-§3.4
混合互补性 ⭐⭐⭐⭐ 强弱项正交→分工到各自最优 §4.1
四类混合骨架 A/B/C/D ⭐⭐⭐⭐ RL-for-MPC/MPC-for-RL/残差/摊销 §4.2-§4.6
生成式规划集大成 ⭐⭐⭐⭐ Diffusion/TD-MPC2/可微MPC/VLA 踩多组对偶 §4.7
七方向×RL接口矩阵 ⭐⭐⭐ 七特化,每个都有非空 RL 接口 §5.1
DP 是最大公约数 ⭐⭐⭐ 七方向=母方程的七种特化 §5.2
三条贯穿主轴 ⭐⭐⭐ 不确定性/交互/实时=任务三维坐标 §5.3
七方向收口图 ⭐⭐⭐ 终极一图,导航坐标系 §5.4
七个开放问题 ⭐⭐⭐⭐ 从"边界"而非"性能"切入选题 §7.1

故障排查手册(认知层面的"症状 → 病根")

本章是综述收口章,没有可运行代码,所以故障排查表针对的是学习/理解/选型层面的"认知故障"——你在学完整个方向后最可能卡住的几个症状,以及对应的"病根"和"复健"路径。

# 症状 可能的病根 排查/复健步骤 相关小节
1 "学了一堆方法,但面对新任务还是不知道选哪个" 停在"工具箱清单"心智模型,没建立统一坐标系 ①重读 §1.3 总表,把你会的每个方法填进去;②对新任务填 §3.1 六维画像走决策树 §1.3、§3
2 "总觉得 RL 和 MPC 是两回事,混合范式看不懂为什么能拼" 没接受 §2.1 的 MPC↔值迭代等价 ①重推 §2.1 Newton 步等价;②理解"两者逼近同一 \(V^*\)"是混合的前提(§4.1) §2.1、§4.1
3 "我的 RL 策略在有遮挡/噪声的任务上学不好" 把 POMDP 当 MDP 解,瞬时观测非充分统计 ①确认任务是否 POMDP(观测≠状态?);②加 RNN/序列模型,或走 belief 规划 §2.3、§3.4-4
4 "在安全关键系统里部署纯 RL,偶发危险行为" 误把软惩罚当硬保证,OOD 失效 ①决策树 Q1=是 → 加经典安全层;②CBF-QP/predictive safety filter 兜底 §2.4、§4.4、§3.4-2
5 "说不清自己求的多智能体解是什么均衡" 混淆训练范式(CTDE)与解概念(Nash) ①先定解概念(同时博弈Nash?领导-跟随Stackelberg?);②再选范式逼近并验收敛 §2.5、§3.4-3
6 "把两个方法拼成混合,但审稿人说没贡献" 为混合而混合,没说清补了谁的什么短板 ①用 §4.1 互补性表说清分工;②聚焦"拼接处的新难题/新保证"而非拼接本身 §4.1、§7.2
7 "在低维、模型好的任务上硬上 RL,效果还不如 MPC" "RL 万能"迷思,无视任务画像 ①重看 §3.3 案例 4(工厂抓取);②承认经典优化的舒适区,别为用 RL 而用 §3.1、§3.4-1
8 "学完感觉这领域已经没什么可做了" 只看到"点"(算法),没看到"边界"(开放问题) ①把每组对偶的"不等价处"、每个骨架的"坑"列出来;②对照 §7.1 七个开放问题找选题 §7

⚠️ 综合陷阱专栏(全篇补充)

陷阱:把"对偶"理解为"可互换"

💡 概念误区:因为 MPC 和值迭代"等价",就在任何场景用值迭代替代 MPC
   新手想法:"Bertsekas 说 MPC=值迭代的 Newton 步,所以用值迭代更好——
          它直接给出全局 $V^*$,不需要每帧重解"
   实际上:值迭代需要遍历整个状态空间(维度诅咒),实际可用的只是用神经网络
          近似的 $\hat V$(有近似误差)。MPC 虽然每帧重解,但它能硬性满足
          约束、不需要预先遍历状态空间、且对模型变化实时适应。
          "等价"只在"目标函数"层面成立,在"实现路径"层面完全不同
   根本原因:§2.1 的等价是**目标等价**(都逼近 $V^*$),不是**实现等价**
          (一个在线解约束优化、一个离线拟合网络)。忽视这个区分,
          就像因为"英语和中文都能表达同一个意思"就认为可以随意互换
   正确做法:用 §3 的六维画像判断任务需求,再选"实现代价最低"的那条路径。
          有精确模型 + 需要硬约束 → MPC;无模型 + 高维感知 → RL

陷阱:混合范式选型时"为混合而混合"

🧠 思维陷阱:看了 §4 的四类骨架后,每个项目都想做成混合
   新手想法:"混合是趋势,我的项目也做成 RL+MPC 的混合"
   实际上:混合范式只在"RL 和经典各自有明确的、互补的贡献"时才有价值。
          如果你的任务用纯经典已经够好(案例 4 工厂抓取),硬加一层 RL
          只增加了复杂度、训练成本和调试难度,没有增加任何能力
   根本原因:§4.1 的互补性分析表明——混合有价值的**前提**是"两方的强弱项
          正交"。如果任务完全落在经典的舒适区(有模型、低维、有约束),
          RL 那一方没有短板可补,混合就是纯粹的过度工程
   正确做法:先走 §3.2 决策树确认"是否真需要混合"——只有决策树的叶子是
          "混合"时才做混合;如果落到"纯经典"或"纯 RL"的叶子,就老老实实
          用单一范式

陷阱:以为"七方向学完 = 全部掌握"

🧠 思维陷阱:把本方向当成"学完就毕业"的封闭体系
   新手想法:"移动机器人规控方向有 76 章,学完就掌握了所有规控知识"
   实际上:本方向覆盖的是"移动机器人"的规控——不包括机械臂精细操作、
          软体机器人、水下机器人、空间机器人等形态的特有问题。
          即使在移动机器人范畴内,本方向也主要聚焦"规划与控制"——
          感知、定位、建图(SLAM 在另一方向)、系统集成、硬件等
          都是独立的方向
   根本原因:任何教学体系都有边界。本方向的边界是"移动机器人的规划与控制
          方法论"——它给你的是"方法论工具箱",不是"完整的机器人系统能力"
   正确做法:把本方向当成"工具箱的一格"——它给了你规控这格里最丰富的工具,
          但完整的机器人系统能力还需要感知、硬件、系统集成等其他格子。
          §6.1 的三条路径正是"从这格往其他格走"的导航

延伸阅读

统一视角与对偶(§1-§2 的源头): - Bertsekas, Reinforcement Learning and Optimal Control (2019) 及 "Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control" (2022)——MPC↔值迭代 Newton-step 视角的权威出处。 - Recht, "A Tour of Reinforcement Learning: The View from Continuous Control" (Annual Review of Control 2019 / arXiv 2018)——从连续控制视角看 RL 的统一论述。 - Kober, Bagnell & Peters, "Reinforcement Learning in Robotics: A Survey" (IJRR 2013)——机器人 RL 与最优控制关系的经典综述。 - ETH Zürich, Optimal and Learning Control for Autonomous Robots (课程讲义)——用统一记号合讲 OC 与 RL。

何时用谁(§3 的实证基础): - Song, Romero, Müller, Koltun, Scaramuzza, "Reaching the limit in autonomous racing: Optimal control versus reinforcement learning" (Science Robotics 2023)——OC vs RL 最具说服力的同任务正面对比。 - 综述:"A Survey of RL-Based Motion Planning for Autonomous Driving"(arXiv 2503.23650)、"A Survey on Hybrid Motion Planning Methods for Automated Driving"(arXiv 2406.05575)、"A Review of Learning-Based Motion Planning: Toward a Data-Driven Optimal Control Approach"(arXiv 2512.11944)。

混合范式(§4 的代表工作): - Residual MPC: "Residual MPC: Blending Reinforcement Learning with GPU-Parallelized Model Predictive Control"(arXiv 2510.12717)——骨架 C 的清晰范式。 - MPC-RL 学权重/终端代价:MPC4RL 软件包(arXiv 2501.15897)、Gros & Zanon "Data-Driven Economic NMPC using RL"(IEEE TAC 2020)——骨架 A 的理论与工具。 - 可微 MPC:acados + leap-c、Theseus (Meta)、Amos et al. "Differentiable MPC for End-to-end Planning and Control" (NeurIPS 2018)。 - 生成式规划:Janner et al. Diffuser (ICML 2022)、Ajay et al. Decision Diffuser (ICLR 2023)、Chi et al. Diffusion Policy (RSS 2023)、Hansen et al. TD-MPC2 (ICLR 2024)、Kim et al. OpenVLA (CoRL 2024)。

专题级深入:见本方向各 Part 的详细大纲(T/U/G/MPPI/Multi/TAMP/D)与 80_综述 S1-S4,以及本章附录 A/B 列出的逐篇桥接论文。

2024–2026 前沿(§前沿深化的来源): - V-Max: "A Reinforcement Learning Framework for Autonomous Racing"(RLC 2025)——RL 竞速的最新标杆,继 Song et al. Science Robotics 2023 后的进一步实证。 - "Recent Advances in Reinforcement Learning-Based Autonomous Driving Behavior Planning: A Survey"(Transportation Research Part C, 2024)——RL 在自动驾驶行为规划中的系统综述,覆盖 DRL 架构、层次 RL、安全约束。 - "Deep Reinforcement Learning in Autonomous Car Path Planning and Control: A Survey"(arXiv:2404.00340, 2024)——RL 路径规划与控制的最新综述,与本章 §3 选型框架互补。 - "A Survey on Hybrid Motion Planning Methods for Automated Driving"(arXiv:2406.05575, 2024)——混合运动规划的系统分类,直接支撑本章 §4 四类骨架。 - DIAMOND(NeurIPS 2024 Workshop)——用 diffusion model 替代 Dreamer 的确定性 decoder,让世界模型输出视觉级未来帧。 - Hi-Drive(RA-L 2025)——层次化 POMDP 规划器,在行为层和轨迹层同时处理不确定性。 - "A Review of Learning-Based Motion Planning: Toward a Data-Driven Optimal Control Approach"(arXiv:2512.11944, 2025)——从数据驱动最优控制视角统一 RL 与经典规划的综述。 - Residual MPC: "Blending RL with GPU-Parallelized MPC"(arXiv:2510.12717)——骨架 C(残差叠加)的清晰定义与 GPU 并行实现。


附录 E:七方向 × RL 接口精炼总表

本附录把 §5.1 的七方向 × RL 接口矩阵精炼成一张可快速查阅的"接口速查表",每行用一句话说清"这个方向和 RL 怎么接"。

方向 经典核心工具 RL 接口(怎么接) 接口代表工作 接口成熟度
时空规划(T) A*/SIPP/MINCO/Apollo EM 启发式→Neural A*;终端代价→学;扩散生成轨迹 Neural A*、Diffuser、PLUTO ★★★
采样 MPC(MPPI) 路径积分/CEM/GPU rollout MPPI ≈ REINFORCE(§2.2);world model+MPPI=TD-MPC2 TD-MPC2、DIAL-MPC ★★★★
不确定性(U) Tube/CC/CVaR/POMDP RPI≈uncertainty set;CC≈CMDP;CVaR≈IQN;belief≈RNN GP-MPC、DRQN、IQN ★★★
博弈(G) iLQGames/ALGAMES/HJI Nash≈MARL 收敛点;PSRO=深度 double oracle;逆博弈≈IRL PSRO、GameFormer ★★★
多机(Multi) CBS/ORCA/ADMM MAPF→Neural CBS;分布式MPC→MARL;集群→GCBF+ Neural CBS、MAPPO ★★★
TAMP(任务运动) PDDL/LGP/PDDLStream 任务层→LLM;运动层→RL;联合→学习式 LGP SayCan、Code-as-Policies ★★
无人机(D) GCOPTER/PX4/微分平坦 飞控→sim2real RL;轨迹→学习生成;集群→MARL Learning to Fly、OmniDrones ★★★★

接口成熟度的判断标准

★ 数 含义 判断依据
概念验证 只有论文级 demo,无可复现代码
★★ 学术可用 有开源 Python 实现,但无 C++ 版本
★★★ 工程探索 有 C++ 实现或 Python→C++ 的部署路径,但未量产
★★★★ 工程成熟 有量产案例或近量产的工程验证
★★★★★ 产业标准 多家量产、有行业标准/认证

本质洞察(接口成熟度揭示了"混合的工程阻力"):七个方向的 RL 接口成熟度都在 ★★–★★★★ 之间——没有一个达到 ★★★★★(产业标准)。这意味着"RL + 经典"的混合在 2026 年仍处于"工程探索到工程成熟"的过渡阶段——理论和学术验证已经充分(§2 的六组对偶给了坚实的理论基础),但工业标准化还没到。对你而言,这意味着现在正是参与"把混合从★★★推到★★★★★"的黄金时期——理论框架(§1–§2)和工程工具(acados/DESPOT/iLQGames)都已就绪,缺的是"有人把它们在量产系统上跑通并沉淀为标准"——这正是你这样的 C++ 工程师最适合做的工作。


附录 F:全章关键 LaTeX 公式汇总

本附录汇集全章所有带编号的核心公式,便于回查。

F.1 母方程(Bellman 方程)

\[ V^*(s) = \max_a \Big[ r(s,a) + \gamma \, \mathbb{E}_{s'\sim P} V^*(s') \Big] \tag{1} \]

F.2 母方程的四种特化

\[ \text{POMDP:} V^*(b) = \max_a \big[ r(b,a) + \gamma \, \mathbb{E}_o V^*(b') \big] \tag{2} \]
\[ \text{风险敏感:} V^*(s) = \max_a \big[ r + \gamma \, \mathrm{CVaR}_\alpha V^*(s') \big] \tag{3} \]
\[ \text{鲁棒:} V^*(s) = \max_a \min_{w\in\mathcal{W}} \big[ r + \gamma V^*(s'(w)) \big] \tag{4} \]
\[ \text{博弈:} V^*(s) = \min_u \max_d \big[ r + \gamma \, \mathbb{E} V^*(s') \big] \tag{5} \]

F.3 MPC ↔ 值迭代的 Newton 步等价

\[ \text{MPC(终端代价 } V_f \text{,前瞻 } N \text{ 步)} \equiv \text{在 } V_f \text{ 处对 Bellman 方程做一步 Newton 修正} \tag{6} \]

F.4 MPPI / 策略梯度 / 去噪的共同母结构

\[ q^*(x) = \frac{1}{Z} q_0(x) \exp\!\Big(\frac{1}{\lambda} R(x)\Big) \tag{7} \]

F.5 CVaR 的 Rockafellar-Uryasev 变分公式

\[ \mathrm{CVaR}_\alpha(Z) = \min_t \Big\{ t + \frac{1}{1-\alpha} \mathbb{E}\big[(Z-t)^+\big] \Big\} \tag{8} \]

F.6 Chance Constraint → CVaR → Distributional RL 翻译链

\[ \text{chance constraint} \xleftarrow{\text{CVaR 上界}} \text{CVaR 约束} \xrightarrow{\text{尾部采样}} \text{distributional RL 风险头} \tag{9} \]

本质洞察(九个公式就是整章的骨架):这九个公式构成了本章的全部数学内容。公式 (1) 是母方程,(2)–(5) 是四种特化,(6) 是 MPC↔RL 的桥,(7) 是采样/梯度/扩散的统一,(8) 是风险度量的核心,(9) 是不确定性的翻译链。记住这九个公式的"关系"(谁是谁的特化、谁和谁同构),你就掌握了整章的数学骨架——具体的推导和实现在各 Part 正文里,但骨架只有这九个公式。


附录 G:全章缩写表

缩写 全称 首次出现
MDP Markov Decision Process §1.1
POMDP Partially Observable Markov Decision Process §1.1
HJB Hamilton-Jacobi-Bellman §1.1
HJI Hamilton-Jacobi-Isaacs §1.1
DP Dynamic Programming §1.1
MPC Model Predictive Control §1.2
LQR Linear Quadratic Regulator §1.2
iLQR iterative Linear Quadratic Regulator §2.1
DDP Differential Dynamic Programming §2.1
MPPI Model Predictive Path Integral §2.2
CEM Cross-Entropy Method §2.2
DDPM Denoising Diffusion Probabilistic Model §2.2
KL Kullback-Leibler divergence §2.2
DRQN Deep Recurrent Q-Network §2.3
RSSM Recurrent State-Space Model §2.3
RPI Robust Positively Invariant (set) §2.4
CC Chance Constraint §2.4
CVaR Conditional Value at Risk §2.4
CMDP Constrained Markov Decision Process §2.4
IQN Implicit Quantile Network §2.4
GNE Generalized Nash Equilibrium §2.5
CTDE Centralized Training Decentralized Execution §2.5
PSRO Policy-Space Response Oracle §2.5
MARL Multi-Agent Reinforcement Learning §2.5
MCTS Monte Carlo Tree Search §2.6
UCT Upper Confidence Trees §2.6
CBF Control Barrier Function §4.4
PPO Proximal Policy Optimization §3.3
SAC Soft Actor-Critic §3.3
IL Imitation Learning §4.7
VLA Vision-Language-Action §4.7
OCP Optimal Control Problem §2.1
NLP Nonlinear Programming §3.1
QP Quadratic Programming §3.1
GP Gaussian Process §2.4
SDP Semidefinite Programming §2.4
SOCP Second-Order Cone Program §2.4
TD Temporal Difference §2.2
DQN Deep Q-Network §1.2
SIPP Safe Interval Path Planning §2.6
CBS Conflict-Based Search §2.6
FSM Finite State Machine §3.3
ONNX Open Neural Network Exchange §4.7
TensorRT NVIDIA TensorRT §4.7
OOD Out-of-Distribution §2.3
DR Distributionally Robust 前沿深化
DRO Distributionally Robust Optimization 前沿深化
ADMM Alternating Direction Method of Multipliers §5.1
RVO Reciprocal Velocity Obstacles §5.1
LGP Logic-Geometric Programming §5.1
PDDL Planning Domain Definition Language §5.1
PX4 PX4 Autopilot §5.1
SITL Software In The Loop §5.1
BC Behavioral Cloning §4.7
GAIL Generative Adversarial Imitation Learning §4.7
DAgger Dataset Aggregation §4.7
GDA Gradient Descent-Ascent §2.5
MADDPG Multi-Agent DDPG §2.5
QMIX Q-value Mixing §2.5
MAPPO Multi-Agent PPO §2.5
UCB Upper Confidence Bound §2.6
EKF Extended Kalman Filter §前置
UKF Unscented Kalman Filter §前置
PF Particle Filter §2.3
SLAM Simultaneous Localization and Mapping §前置
ROS Robot Operating System §前置
ISO 21448 Safety of the Intended Functionality (SOTIF) §4.4

附录 H:全方向七线的"一句话灵魂"速记

方向 一句话灵魂 在母方程里换了什么
时空规划 "空间和时间必须一起定" 把时间从隐变量升格为显式维度
采样 MPC "代价不可微?那就采样" 用采样代替梯度
不确定性 "模型不完美?那就给安全裕度" 期望算子 → 风险/鲁棒算子
博弈 "他人有自己的目标?那就求均衡" 单个 min → 多个耦合 min
多机 "不止一个?那就协调" 单体 → \(N\) 体耦合
TAMP "任务要先做决策?那就离散+连续联合" 加离散任务层
无人机 "方法论落地?那就找最干净的形态" 平台特化(微分平坦)

本质洞察(七个"一句话灵魂"就是七个"松绑的假设"的另一种说法):把第二列和 S1(总览)§1.1 的七专题松绑表对照——完全一一对应。时空规划松绑"时空可分",采样 MPC 松绑"代价可微",不确定性松绑"模型精确",博弈松绑"无他人",多机松绑"单体",TAMP 松绑"任务已定"。这七句话是整个方向的终极压缩——记住它们,你就记住了七条线各自在回答什么问题。


后续章节关系

本章是整个移动机器人规控方向的最后一章,向后不再有正文章节。它的"后续"是读者自己的实践与研究:

  • 向工程:回到 T4 / D 线把一个栈做到生产级,用 §6.1 路径甲。
  • 向研究:选 §7.1 一个开放问题,用 §6.1 路径乙,参考各 Part 详细大纲的"前沿工作与开放问题"小节。
  • 向交叉:跨到 06_具身智能/(VLA/world model)与本方向 S4(交互预测),用 §6.1 路径丙。
  • 向上游回看:若本章某个对偶(如可微 MPC、POMDP、博弈)让你意犹未尽,回到对应 Part(U2/U4/G)的详细章节深挖——本章给的是地图,那里给的是街景。

至此,移动机器人规控方向(约 76 章、106.5 周、100+ 开源项目、200+ 论文)全部收口完毕。愿这张以"最优性原理"为根的地图,成为你此后面对任何新方法、新任务时的导航坐标系。

本质洞察("收口"不是"完结",而是"坐标系建立完毕"):一个常见的误解是"学完这 76 章我就掌握了移动机器人规控"。实际上,这些章节建立的是一个坐标系——一个能容纳新方法、新论文、新工程挑战的参照框架。2027 年会出现的新方法(也许是"神经符号博弈"、"基础模型安全规划"或某种我们今天无法命名的范式),它们必然可以在 §1.3 的三轴坐标系(模型已知性 \(\times\) 求解时机 \(\times\) 值表示)里找到位置——因为三轴捕捉的是问题的结构("你知道多少模型""你离线还是在线算""你显式还是隐式存值函数"),而不是具体算法的实现细节。结构比算法持久——这就是为什么本章花了全部篇幅建坐标系,而不是列算法清单。


累积项目衔接

本章是收口章(综述),不含可运行代码。但它是整个方向所有累积项目的"元导航"——它告诉你每个 Part 的累积项目在全局地图中的位置、彼此怎么关联、做完后该怎么检验"我真的掌握了吗"。

全方向累积项目地图

本方向有多条累积项目线,分布在各 Part 的正文里。本章作为收口章,把它们放在同一张图上,标出它们在 §1.3 总表里的位置和彼此的关系:

累积项目线 所属 Part §1.3 总表位置(轴1模型×轴2求解×轴3值) 完成后你获得的核心能力
时空规划 T1–T6 时空线 白盒 × 优化/搜索 × 隐式 从 Frenet ST 到 MINCO 的完整实现链
MPPI 教学实现 采样 MPC 线 灰盒 × 采样 × 隐式 理解"零阶+并行"的采样式规划
Tube MPC / CC-MPC 不确定性 U 线 白盒+集合/概率 × 优化 × 隐式 约束收紧 + 概率预算的实操
DESPOT 教学实现 不确定性 U 线 白盒+belief × 搜索 × 隐式 C++ POMDP 的完整开发闭环
iLQGames 教学实现 博弈 G 线 白盒 × 优化 × 隐式 "换内核"从 iLQR 到 N 人博弈
GCOPTER 实飞 无人机 D 线 白盒 × 优化 × 隐式 方法论在完整系统上的落地体验
RL 训练 + 安全滤波 本章 §4 黑盒 × 学习 × 显式 + 白盒兜底 混合范式的端到端构建

收口检验:完成所有累积项目后你该能做到什么

§6.3 给了阶段性能力检验清单。这里给出终极检验——如果你完成了至少 3 条累积项目线,你应该能够:

  1. 给任意方法打五轴坐标(§1.3)——10 秒内不查资料。
  2. 填 §3 的六维画像给一个新任务——2 分钟内完成并给出推荐方法。
  3. 识别一篇新论文用了 §4 四类骨架中的哪一类混合——读摘要即可判断。
  4. 说清"我实现的这个 XX 方法,和 RL 的对偶物 YY 是什么关系"——§2 六组对偶各能说出至少一句。
  5. 画出 §5.4 的七方向收口图的简化版——在白板上 5 分钟内完成。

本质洞察(终极检验测的是"坐标系"而非"算法细节"):注意上面五条检验没有一条要求你"默写某个算法的推导步骤"——那些是各 Part 正文的职责。本章作为收口章,检验的是你是否拥有了一个能容纳和组织所有算法的坐标系。算法细节会遗忘(半年不用就模糊了),但坐标系一旦建立就像自行车一样——你可能多年不骑,但永远不会忘记怎么骑。本章的全部 5000+ 行,归根结底只想在你脑中建立一个东西:一个以"最优性原理"为根、以"模型已知性×求解时机×值表示"为三轴的坐标系——任何过去、现在、未来的规控方法都能在里面找到位置。


版本信息

  • 文档类型:方向收口综述(综述/贯穿类,理论密度为主,少量伪代码与映射图)。
  • 定位:移动机器人规控方向(80_综述)五篇贯穿线的最后一篇(S5),也是整个方向的最后一章。
  • 覆盖范围:统一视角(Bellman/HJB/HJI 同源)、六组经典↔RL 对偶、六维选型决策框架、四类混合骨架、生成式规划集大成、七方向×RL 接口收口、七个高价值开放问题、2024–2026 前沿合流(可微 MPC、世界模型规划、安全 RL 落地、生成式安全化、光谱更新)。
  • 前沿截止:纳入 2024–2026 年 acados+leap-c 工程化、TD-MPC2 规模化、DIAMOND 视觉世界模型、四足/自驾安全 RL 量产、Diffusion-Planner 安全化三方案、产业光谱更新等关键进展。
  • 活文档:后续教学讨论中产生的新对偶关系、新混合骨架案例、新选型边界案例、新开放问题应回写本篇(R12)。
  • 与姊妹综述的配套关系:本章(S5)是五篇综述的收口章,前四篇分别覆盖:S1 时空联合规划总览(10_总览与时空联合规划.md)、S2 不确定性规划(20_不确定性规划.md,五谱横切)、S3 博弈规划(30_博弈规划.md,四时代八流派)、S4 交互意图预测(40_交互意图预测.md,六时代四脉)。本章的六组对偶(§2)直接复用了 S2–S4 的概念(如 Tube↔Robust RL 来自 S2 §4,Nash↔MARL 来自 S3 §3.6,预测↔条件生成来自 S4 §4.4),因此本章读起来"特别烧脑"的原因不是它自身难,而是它要求你同时激活前四篇综述的核心结论。如果某组对偶读不通,回到对应的姊妹综述补齐再回来——本章的故障排查表指明了每组对偶回指哪篇综述的哪一节。

附录 C:六组对偶的精炼速查表

本附录把 §2 的六组对偶精炼成一张可快速查阅的"翻译卡"——每组用三行:经典侧做什么、RL 侧做什么、桥(等价在哪 + 不等价在哪)。

速查表的使用方法

这六张翻译卡的设计目的是:当你在读一篇新论文或评估一个新工具时,能在 30 秒内找到它在"经典↔RL"光谱上的位置。具体操作:(1) 判断这篇论文/工具属于六组对偶中的哪一组(MPC 系?采样系?博弈系?安全系?搜索系?POMDP 系?);(2) 翻到对应的卡片;(3) 看"桥"行——它告诉你"这个工具和它对面的工具等价在哪、不等价在哪"。一旦你知道了"等价在哪",你就知道了"如果把这个工具换成对面的会得到什么、失去什么"——这是混合系统设计(§4)的判断基础

对偶 1:MPC ↔ 值迭代

内容
经典侧 每帧解有限时域 OCP,终端代价 \(V_f\) 近似 to-go,执行 \(u_0^*\),重解
RL 侧 离线对 Bellman 方程做无穷步迭代,存 \(V^*\)\(Q^*\),在线查表/前向
等价:都逼近 \(V^*\)(MPC = Newton 步)。不等价:MPC 需模型+能约束;RL 不需模型但约束弱

对偶 2:MPPI ↔ 策略梯度 ↔ 去噪

内容
经典侧 采样 \(K\) 条 rollout,按代价 softmax 加权更新名义控制
RL 侧 REINFORCE:用回报加权 log-likelihood 梯度。扩散:用回报梯度引导去噪方向
等价:共享 \(q^*\propto q_0 e^{R/\lambda}\) 指数倾斜。不等价:MPPI 在线+需仿真器;REINFORCE 离线+需环境;扩散多步迭代+多模态

对偶 3:POMDP ↔ RNN-RL

内容
经典侧 在 belief \(b(s)\) 上做值迭代或在线树搜索(SARSOP / DESPOT)
RL 侧 RNN 隐状态 \(h_t\) 近似 belief,基于 \(h_t\) 输出动作(DRQN / R2D2 / Dreamer)
等价:\(h_t \approx b_t\)(都是 history 的充分统计)。不等价:belief 渐近无偏;RNN 有损压缩、任务特化

对偶 4:不确定性规划 ↔ Safe/Robust/Distributional RL

内容
经典侧 Tube RPI 收紧约束 / CC 概率约束 / CVaR 尾部代价
RL 侧 Robust RL 对抗训练 / CMDP 约束优化 / IQN 分布头 CVaR 采样
等价:管同一种不确定性的同一种态度。不等价:经典给证书(精确保证);RL 给统计近似(OOD 失效)

对偶 5:博弈 ↔ MARL

内容
经典侧 iLQGames/ALGAMES 在已知代价/动力学下求 Nash/GNE
RL 侧 CTDE 训练 + self-play / PSRO 逼近 Nash(不需已知代价)
等价:都在求耦合最优性的不动点。不等价:经典需已知代价+收敛有保证;MARL 不需代价但可能不收敛

对偶 6:搜索 ↔ 学习型搜索

内容
经典侧 A*/SIPP/MCTS 用手工启发式 \(h\) 加速展开
RL 侧 Neural A*/MuZero 用神经网络学 \(h\)/模型/策略先验
等价:\(h \approx V^*\)(都在逼近 to-go 加速搜索)。不等价:手工 \(h\) 可保证 admissible;学出的 \(h\) 可能高估丢最优

本质洞察(六张卡的"收口"):把六张卡的"桥"列提取出来看——每一张都写了"等价:都逼近 \(V^*\) 的某种变体"和"不等价:经典有 X 保证但需 Y 假设,RL 放弃 X 保证但绕开 Y 假设"。这是一个反复出现的交换律:经典用"假设"换"保证",RL 用"数据/采样"换"保证的放弃"——它们是同一个"假设-保证-数据"三角的两种帕累托选择。 这个三角是整章的"元三角"——§3 的选型决策树、§4 的混合骨架、§7 的开放问题,归根结底都在这个三角里做权衡。


附录 D:混合范式四类骨架的速查决策表

本附录为 §4.2–§4.6 的四类混合骨架提供"什么时候用哪类"的速查表,是 §4.9 速查表的扩展版。

四类骨架的选择流程

问题1:你的混合目标是什么?

├─ "让 MPC 的代价/参数更好"
│   └─ 骨架 A:RL-for-MPC
│      ├─ 方式 1:学终端代价($V_f$ → 神经网络)
│      ├─ 方式 2:学代价权重($\theta$ → RL 梯度优化)
│      └─ 方式 3:可微 MPC(acados+leap-c,$\theta$ 端到端训练)
├─ "给 RL 的策略加安全保证"
│   └─ 骨架 B:MPC-for-RL
│      ├─ 方式 1:CBF-QP 安全滤波器(后置,修正不安全动作)
│      ├─ 方式 2:Predictive safety filter(短时域 MPC 检查)
│      └─ 方式 3:可达集查表(offline 预计算安全集)
├─ "在经典控制器上叠加学习的残差"
│   └─ 骨架 C:Residual
│      └─ $u = u_{\text{classic}} + u_{\text{RL}}$,RL 学"经典做不好的那部分"
└─ "用一个方法给另一个方法提供初值/蒸馏"
    └─ 骨架 D:Amortization / Warm-start
       ├─ 方式 1:RL 策略输出作为 MPC 的 warm-start
       └─ 方式 2:MPC 的解轨迹蒸馏进轻量策略网络(离线→在线加速)

骨架 D 的特殊价值:互为加速器

骨架 D(Amortization / Warm-start)与前三类骨架有本质区别——它不是"一方改善另一方",而是"双方互相加速"。这种互利关系在实际系统中体现为两个方向的信息流:(1) RL 策略网络的一次前向推理(\(\sim\)1 ms)为 MPC 提供高质量初值,让 MPC 的迭代次数从 20 次降到 3–5 次(收敛时间缩短 4 倍);(2) MPC 的最优解轨迹反过来作为 RL 的训练数据(专家示范),让 RL 的样本效率提升一个量级。这种"互为加速器"的关系让骨架 D 特别适合实时性和样本效率同时是瓶颈的场景——典型如四足在复杂地形上的实时步态生成。

选骨架的三条启发规则

  1. 如果你已有一个调好的 MPC 但代价函数不满意 → 骨架 A(用 RL 学更好的代价)。
  2. 如果你已训好一个 RL 策略但偶发不安全 → 骨架 B(用经典安全层兜底)。
  3. 如果你已有一个经典控制器但在某些状态下表现差 → 骨架 C(用 RL 学残差补偿)。

骨架 D 比较特殊——它不是"改善一方",而是"让两方互相提速":RL 的策略给 MPC 好初值(MPC 收敛更快),MPC 的解给 RL 训练提供高质量轨迹(RL 样本效率更高)。

对比性思维(四类骨架不是"四选一",而是"可叠加的积木"):实际系统常常叠加多个骨架。例如一个四足机器人的规控栈可能同时用:骨架 A(RL 学 MPC 的地形自适应代价权重)+ 骨架 B(CBF-QP 防摔倒)+ 骨架 C(RL 残差补偿模型误差)。三个骨架各管一个层面——A 管"目标怎么定",B 管"底线怎么守",C 管"模型怎么补"。它们不冲突,因为它们作用在不同的决策层上。

叠加骨架时的工程实践原则

当多个混合骨架叠加在同一系统中时,"怎么叠"往往比"叠什么"更关键。以下三条原则帮助你避免叠加时最常见的工程陷阱:

原则一:安全层(骨架 B)必须在最外层,且不可被训练梯度穿透。 CBF-QP 或可达集安全滤波器作为最后一道防线,其参数(安全集边界 \(h(x)\)、类 \(\mathcal{K}\) 函数 \(\alpha\))不应被 RL 的训练梯度更新。如果让 RL 的反向传播穿过安全层,策略可能学会"利用"安全滤波器的修正行为——即输出一个它知道会被修正的危险动作,用安全层作为"免费的动作投影"。这会导致安全层的触发频率异常升高,在安全层自身有延迟或误差时变得危险。正确做法是把安全层视为不可微的黑盒后处理——RL 策略只能看到安全层修正后的结果作为环境反馈,但梯度不穿过安全层本身。

原则二:残差层(骨架 C)的输出必须有硬界限。 残差策略 \(u_{\text{RL}}\) 的作用是"在经典控制器基础上做小修正",因此其输出应被裁剪到一个合理的范围内(如 \(\|u_{\text{RL}}\| \le \epsilon\)\(\epsilon\) 是经典控制器输出量级的 10–30%)。没有这个界限,RL 可能在训练后期"吃掉"经典控制器——残差变得比基线还大,经典控制器形同虚设,系统退化为纯 RL(失去了残差架构的鲁棒性优势)。

原则三:先单独验证每个骨架,再叠加。 叠加三个骨架后系统出问题时,调试空间是三个骨架的笛卡尔积——远大于单个骨架的调试空间。正确的工程流程是:(1) 先跑纯经典 baseline(无任何 RL 组件);(2) 只加骨架 C(残差),验证残差的贡献;(3) 加骨架 B(安全层),验证安全过滤行为;(4) 最后加骨架 A(学代价权重),观察全栈协同。每一步叠加都应有明确的"这一步解决了上一步的什么问题"的答案——如果说不出来,这一步叠加很可能是不必要的复杂化。

本质洞察(叠加的极限是"可解释性衰减"):每叠加一个骨架,系统的行为就变得更难解释——"这个动作是经典控制器给的、还是残差补的、还是安全层修正的?"当三个骨架都活跃时,出了问题你首先要做的是"拆开看是哪层出了错",这需要每一层的输出都可以独立记录和回放。一个设计良好的混合系统,应当在运行时记录每一层的输入输出——不只记最终动作 \(u\),还记 \(u_{\text{classic}}\)\(u_{\text{RL}}\)\(u_{\text{safety\_corrected}}\),以及安全层是否被触发、触发了多少修正量。这些日志是"事后诊断"和"持续改进"的唯一可靠信息来源。