跳转至

方向级综述(一):移动机器人规控全景与时空联合规划

所属:移动机器人规控方向 · 综述层(Part-S)· 第一篇定位:本文是整个"移动机器人规划与控制"方向(横切六大专题 + 无人机应用 + 综述)的最高层导航图。它不深入任何单一算法的推导(那是各专题章的职责),而是站在方向尺度回答四个问题:① 这个方向到底由哪几块拼成、它们彼此什么关系?② 把这些方法摆在同一组坐标轴上,它们如何分布、如何演进?③ 在所有横切范式里,时空联合规划为什么是那条最值得先吃透的主干,它的发展脉络、流派分化、优劣矩阵、选型决策是什么?④ 还有哪些悬而未决的开放问题,决定了这个方向未来五年往哪走? 文档类型:方向级综述(综述/对比类,参照论文解读与理论教学规范——重在脉络梳理对比综合,而非从零推导;几乎无代码)。 与专题内综述的区别:本方向有两层综述。专题内综述(如 04/10_时空规划/80_综合对比与附录.md)打通的是单个专题的 T1–T6 六章——是"专题内部的林"。本文是方向级综述——打通的是七大专题彼此之间、以及它们与无人机应用之间的关系,是"专题之上的林海"。读专题内综述前先读本文建立全局坐标系;读完所有专题后再回看本文,检验自己能否在"方法空间"里自由导航。 怎么用这篇综述:第一次进入移动规控方向时通读一遍第一、二节,拿到"全方向地图";准备深入时空联合规划专题前精读第三至六节;学完若干专题后回看第七、八节(开放问题与选型决策),把零散的方法收束成判断力。


〇、写在最前面:综述要解决的"只见树木不见林"问题

如果你是按推荐路径走到这里的,你大概已经读过 SLAM 主线、补齐了凸优化与非线性优化的公共基础,甚至已经动手实现过某个具体规划器——给四旋翼生成过 min-snap 轨迹,给机械臂做过时间参数化,或者在 Apollo 里调过一次 EM Planner 的参数。

换句话说,你已经会"用"某些规划方法了。但很可能你脑中的这些方法是彼此孤立的岛屿:MINCO 是一个岛,CBS 是另一个岛,MPPI 又是一个岛,POMDP、CBF、iLQGames 各自漂在远处——你知道每个岛上有什么,却说不清这些岛是怎么连成一片大陆的,更说不清"给我一个新问题,我该上哪个岛"。

本质洞察(综述存在的理由):单个专题章教你把一棵树看透——MINCO 的梯度怎么闭式求、CBS 的冲突怎么解、POMDP 的 belief 怎么更新。但工程师真正稀缺的能力,不是"会用某一棵树",而是在森林里快速定位——面对一个陌生场景,三十秒内判断"这属于哪一类问题、该调哪一族方法、代价是什么、坑在哪里"。这种判断力来自把所有方法压到同一组坐标轴上反复对比,而这正是综述(而非专题章)的独有职责。专题章给你深度,综述给你导航。

这篇综述的写法,刻意区别于专题章:它不推导(推导在专题章里)、不贴代码(代码走读在专题章里),而是密集地对比、归类、画地图。读它的正确姿势不是"学新知识",而是"把已学的知识重新摆放,摆成一张能用来做决策的地图"。

本文与全套文档的关系

本文(方向级综述)= 全方向的"林海图"
   ├── 第一节:全方向地图(7 专题 + 无人机应用,它们是什么、怎么连)
   ├── 第二节:方法空间的统一坐标轴(把所有方法摆到同一张图上)
   ├── 第三~六节:时空联合规划深度综述(主干专题,脉络/流派/矩阵/选型)
   │      发展脉络 → 流派分化 → 优劣矩阵 → 选型决策树
   ├── 第七节:跨专题的横向联系(时空规划 ↔ 其他六专题的接口)
   └── 第八节:开放问题与未来方向(决定本方向往哪走)
后续四篇方向级综述(不确定性 / 博弈 / 交互预测 / RL 贯穿)各深挖一个专题

前置自测

这几道题不考记忆,是确认你具备读懂这篇方向级综述的最小背景。综述假设你已经接触过至少两三个具体规划方法——如果下面 ≥ 3 题完全没概念,建议先选一个专题(推荐时空联合规划 T1)入门后再回看本文。

  1. 路径-速度解耦(PVD)是经典规划栈的地基。请用一句话说清它"先做什么、后做什么",再举一个它会悄无声息失效的具体场景。(答不出 → 本文 §3.1 会重述,但你应先有直觉)
  2. 同样是"找一条轨迹",搜索类(A*/RRT)、优化类(QP/NLP)、采样类(MPPI/CEM)三族方法的根本区别是什么?各自最怕遇到什么样的问题?(答不出 → §2.2 系统对比)
  3. "完备性(completeness)"和"最优性(optimality)"是两个不同的算法性质。一个算法"完备但不最优"在工程上意味着什么?为什么很多大规模方法主动放弃最优性?(答不出 → §2.3)
  4. 自动驾驶规划近年有两条范式之争:模块化管线(pipeline) vs 端到端(end-to-end)。它们的分界线划在哪里?端到端最大的软肋是什么?(答不出 → §3.2、§8.3)
  5. (开放题,凭直觉答)如果让你给"移动机器人规控"这个方向画一张地图,你会用哪几个维度当坐标轴?你觉得"无人机规划"和"自动驾驶规划"的最大差异在哪一维上?(无标准答案 → §2 给出本文采用的坐标系,读完对照你的直觉)

本章目标

读完本章,你应当能够:

  1. 画出移动机器人规控方向的全景地图——说清七大横切专题(时空联合 / 采样式 MPC / 不确定性 / 博弈 / 多机协作 / 任务运动规划)+ 无人机应用实例之间"谁是方法、谁是应用、谁消费谁"的关系。
  2. 建立一组统一坐标轴(联合程度 / 求解范式 / 不确定性处理 / 交互建模 / 计算负担),并能把任意一个规划方法快速定位到这张坐标系里的某个区域。
  3. 复述时空联合规划从 1986 PVD 到 2026 扩散式生成的完整发展脉络,说清每一代解决了上一代的什么问题、又引入了什么新局限。
  4. 辨析时空联合规划的四大流派(解耦迭代 / 走廊+QP / 连续优化 / 端到端生成)的本质差异,并在一张优劣矩阵里说清它们在最优性、实时性、可验证性、生态成熟度上的得失。
  5. 运用选型决策树——给定一个具体场景(高速结构化 / 城市强交互 / 泊车竞速 / 多机协调 / 研究探索),快速定位到合适的方法族,并讲清选它的理由与代价。
  6. 指出本方向 5–8 个真正悬而未决的开放问题(可验证的学习式规划、实时性 vs 联合性的根本张力、交互的鸡生蛋问题、长尾安全等),并说清每个问题卡在哪里。

本章知识导航

本章是一篇"双层"综述——前半部分(§1–§2)是方向级宏观图,后半部分(§3–§8)是时空联合规划这一主干专题的深度综述。两半的关系是"先给整片林海定位,再放大其中最大那座山"。

小节 内容 在地图中的角色 难度
§1 全方向地图:七专题 + 无人机应用 林海全景 ⭐⭐
§2 方法空间统一坐标轴 给林海画经纬度 ⭐⭐⭐
§3 时空联合规划发展脉络(1986→2026) 放大主干山脉的"地质史" ⭐⭐⭐
§4 四大流派分化与对比 主干山脉的"水系分流" ⭐⭐⭐
§5 优劣矩阵与代表方法卡片 主干山脉的"等高线图" ⭐⭐⭐
§6 选型决策树 "登山路线推荐" ⭐⭐⭐
§7 跨专题横向联系 主干与其他山脉的"山脊连线" ⭐⭐⭐⭐
§8 开放问题与未来方向 "尚未勘探的区域" ⭐⭐⭐⭐

推荐阅读路径:初次通读 §1→§2 建立全局观,§3→§6 重点精读(这是本文核心),§7→§8 略读留印象;回看时直接跳 §6(选型)和 §8(开放问题),它们是最有"回查价值"的两节。

前置知识桥接

本文站在所有专题之上,因此它"回顾"的不是某一章,而是整个方向已建立的概念底座。这里只激活三个贯穿全文的核心概念,细节在对应专题章:

  • 回顾"轨迹 = 路径 + 速度剖面":一条机器人轨迹 \(\boldsymbol{\xi}(t)\) 可以拆成"几何路径"\(\sigma(s)\)(走哪条线)和"速度剖面"\(s(t)\)(沿这条线何时多快)两部分。经典规划的地基 PVD 正是利用这个拆分分两步求解。本文反复用到的"时空联合程度"这条主轴,量的就是一个方法在多大程度上拒绝这个拆分、把空间与时间放在一起解。
  • 回顾"凸 vs 非凸":凸问题(如 QP)的局部最优即全局最优,可实时可靠求解;非凸问题(如带碰撞约束的完整轨迹优化)可能有多个局部最优、对初值敏感、求解慢。本方向几乎所有"实时性 vs 最优性"的权衡,根子都在"要不要、敢不敢解非凸问题"。
  • 回顾"模型有多可信":经典最优控制假设模型精确、状态可观;现实里模型不完美(鲁棒规划要管)、状态部分可观(POMDP 要管)、他人有自己的目标(博弈要管)。本方向的不同专题,本质是在逐层松绑这些理想假设

如果跳过本章会怎样

不读这篇方向级综述,你仍然可以逐个专题地学下去——但会遇到两类具体困境:

  1. 学到一半迷路:当你在不确定性规划专题读到"EPSILON 的 belief tree"时,会突然发现它和时空规划专题的"时空走廊"是同一套 SSC 代码——但因为没有全局地图,你会以为这是两个无关的东西,重复学、学不透。综述的"跨专题横向联系"(§7)正是为了防止这种"同一个东西在不同专题里被当成两个"的认知浪费。
  2. 学完不会选型:你可能把七个专题全学完,却在面对一个真实项目时依然卡壳——"这个城市路口加塞场景,我该用 EPSILON 的分支、CILQR 的连续优化、还是 MPPI 的采样?"没有把方法压到同一坐标轴上对比过,就没有这种横向决策能力。这正是 §6 选型决策树要给你的。

预计阅读时间

阅读方式 时间 适合谁
精读(含对照自己的方法库重新归类) 4–5 小时 准备系统进入移动规控方向、想先建全局观的读者
速读(跳过 §7 跨专题细节) 2 小时 已学过 2–3 个专题、想补一张全局地图的读者
速查(只看 §1 全景表 + §5 优劣矩阵 + §6 决策树) 30 分钟 做选型决策时回来查的读者

一、全方向地图:移动机器人规控由哪几块拼成

在放大任何一座山之前,先要看清整片林海的轮廓。这一节回答最基础的问题:"移动机器人规划与控制"这个方向,到底由哪几块组成?它们彼此是什么关系?

§1.1 一个统一的问题,七种"理想假设松绑"的方式

先给整个方向一句话定性。移动机器人规划与控制要解决的根问题只有一个

在一个不完美、动态、可能有他人的世界里,为机器人算出一条安全、可行、优的运动,并实时执行它。

这句话里的每个形容词,对应着一个理想假设的松绑,也对应着一个专题:

如果世界是… 那问题就退化为… 松绑这个假设的专题
静态、空间时间可分 经典"先路径后速度"(已会,是基线) —(地基,PVD)
动态、空间时间不可分 时空必须联合求解 时空联合规划(10)
代价不可微、模型是黑箱 不能用梯度,只能采样 采样式 MPC / MPPI(20)
模型不完美、感知不完全 必须在不确定性下规划 不确定性规划(30)
有他人,且他人有自己的目标 不是避障,是博弈 博弈规划(40)
不止一个机器人 要协调多体共享时空 多机器人协作(50)
任务本身需要先做离散决策 任务层与运动层要联合 任务与运动规划 TAMP(60)

本质洞察(七专题的统一视角)这七个专题不是七个并列的"话题",而是同一个根问题在逐层松绑七个理想假设后裂变出的七个分支。 经典规划(PVD)站在最理想的世界——静态、可分、模型精确、无他人、单体、任务已定。每松开一个假设,就长出一个专题。理解这一点,你就不会把它们当成七堆零散知识,而会看到它们共享同一棵根、彼此用同一套底层工具(搜索/优化/采样/学习),只是各自多扛了一种"现实的不完美"。

这个视角立刻解释了一个初学者常困惑的现象:为什么这些专题的方法长得这么像、还经常互相调用? 因为它们本就同源——CBS(多机)的低层用的是 SIPP(时空规划),EPSILON(不确定性)的走廊用的是 SSC(时空规划),分布式 MPC(多机)用的是单体 MPC(最优控制基础),MARL(多机)和博弈(博弈规划)共享 Nash 均衡的语言。专题之间的边界是"松绑了哪个假设",而不是"用了哪套工具"。

§1.2 方法 vs 应用:横切专题与无人机实例的关系

上面七个是横切专题——它们不属于任何单一机器人形态(无人机/地面车/机械臂/足式),而是为所有形态提供通用方法论。但光有方法论是悬空的,所以本方向还配了一整块应用实例

横切专题(10–60)          无人机应用(70)          综述(80)
═══ 方法论工具箱 ═══       ═══ 完整应用实例 ═══      ═══ 贯穿连接线 ═══

时空联合规划 ──┐                                      本文(全景 + 时空)
采样式 MPC  ──┤                                      不确定性综述
不确定性规划 ──┼──► 在无人机上"落地"成 ──► 微分平坦/MINCO/  ◄── 博弈综述
博弈规划    ──┤      具体可飞的系统        感知引导/集群/RL    交互预测综述
多机器人协作 ──┤                          敏捷飞行/仿真       RL 贯穿综述
任务运动规划 ──┘                                      

为什么单独挑无人机做应用实例? 三个原因,每个都值得记住:

  1. 微分平坦让数学最干净:四旋翼是微分平坦系统——整条轨迹及其所需控制量,都能由"位置 + 偏航"这 4 个平坦输出及其导数代数地表达出来。这意味着时空轨迹的参数化在无人机上最简洁(MINCO 的闭式梯度就建立在此),是理解"时空联合"最不受形态细节干扰的载体。
  2. 闭环最短、反馈最快:无人机从规划到看见效果的闭环短(仿真里几分钟就能看到一条轨迹飞出来),适合"学方法 → 立刻看效果"的教学节奏。
  3. 生态最完整:从仿真(PX4 SITL/Gazebo/OmniDrones)到轨迹生成(GCOPTER/EGO-Planner)到集群(EGO-Swarm/MADER)到 RL 飞控,无人机侧有一条端到端、全开源、可复现的链路——这是地面车(受限于真车)和足式(受限于硬件)都不具备的。

对比性思维(无人机应用 vs 自动驾驶基线):本方向把无人机当"完整应用实例"、把自动驾驶当"贯穿各专题的通用基线",这个分工是刻意的。无人机的优势在"链路完整、数学干净",适合从头跟到尾走一遍;自动驾驶的优势在"场景丰富、工业代码公开(Apollo/Autoware)",适合作为每个专题"工业上怎么做"的对照锚点。学方法时跳进无人机看实际效果,学应用时回溯横切专题理解底层原理——这是本方向架构的核心使用方式。

"方法-应用"双层架构解决了一个教学的根本两难。 纯讲方法(横切专题)容易悬空——学了一堆算法不知道在真实系统里长什么样;纯讲应用(如"从零搭一台无人机")容易碎片化——为了让系统跑起来,每个模块都只能浅尝辄止,学不到方法论的深度。双层架构的解法是:横切专题把每个方法讲到"方法论深度"(为什么这样设计、有哪些流派、怎么选),无人机应用把这些方法串成"系统级完整度"(它们怎么协同、接口怎么对、实飞要注意什么)。 一个给深度,一个给完整度,互补而非重复。

本质洞察(为什么需要"双层"而非"单层"):很多教材要么是"算法大全"(只有方法、无系统),要么是"项目教程"(只有系统、方法浅)——它们的共同缺陷是单层。单层的根本问题在于:方法的深度和系统的完整度,是两个无法在同一条叙述线里同时最大化的目标。 讲方法讲到深处必然偏离系统主线(要展开流派、推导、对比),串系统串到通畅必然牺牲单个方法的深度(要赶进度让系统跑起来)。双层架构承认这个矛盾,用两条线分别承载——横切专题这条线只管深度(不必让系统跑起来),应用实例这条线只管完整度(复用专题已讲透的方法,不再重复推导)。 理解这个设计,你就知道读本方向时该怎么配合:遇到"这个方法为什么这样"的疑问去横切专题,遇到"这些方法怎么拼成系统"的疑问去无人机应用——别在应用实例里找方法论深度,也别在横切专题里找系统完整度,各取所长。

§1.3 七专题的"成熟度 vs 难度"全景表

把七个横切专题放在一张表里,用三个对工程师最实用的维度刻画:概念难度(学起来多烧脑)、C++ 生态成熟度(能不能直接上车)、当前热度(值不值得押注未来)。这张表是整篇综述里"回查价值"最高的一张之一。

专题 松绑的假设 概念难度 C++ 生态成熟度 当前热度 一句话定位
时空联合规划(10) 时空可分 ⭐⭐⭐ 极高(Apollo/GCOPTER/OMPL/MADER) C++ 抓手最丰富的主干专题,先学它
采样式 MPC(20) 代价可微/模型白箱 ⭐⭐⭐ 高(自写为主,GPU 友好) 高(世界模型/扩散加持) 不可微/黑箱场景的"万能兜底"
不确定性规划(30) 模型精确/全可观 ⭐⭐⭐⭐ 中(EPSILON/DESPOT 各撑一路) 中高 概念跨度最大,从 Tube MPC 到 CVaR-POMDP
博弈规划(40) 无他人/他人无目标 ⭐⭐⭐⭐ (仅 ilqgames/HJ,SOTA 在 Julia) 唯一需"C++ 骨架 + Julia SOTA"双语言
多机器人协作(50) 单体 ⭐⭐⭐ 高(CBS/RVO2/MADER + MARL) 消费前五专题成果的系统级集成
任务运动规划(60) 任务已定 ⭐⭐⭐⭐ 中(PDDLStream/OMPL) 中(LLM+TAMP 复兴) 离散任务层与连续运动层的缝合
无人机应用(70) —(是应用不是方法) ⭐⭐⭐ 极高(全链路开源) 方法论的完整落地实例

本质洞察(生态成熟度的"反直觉规律"):把"当前热度"和"C++ 生态成熟度"两列对照着看,会发现一条贯穿全方向的反相关规律——越前沿热门的方向,C++ 生态往往越不成熟。博弈规划热度中等却 C++ 生态最薄(SOTA 跑去了 Julia),端到端学习(在时空专题 T6)最前沿却几乎无 C++ 原生实现(全是 PyTorch)。原因是方法从论文到工业级 C++ 沉淀需要数年,且学习式/黑箱方法天然不契合 C++ 强调的确定性与可验证性。 这条规律给学习投入定了一个清醒的标尺:要"现在就能上车的技能",重心放在时空联合(10)/多机(50)/无人机(70)这些成熟生态;要"押注未来做研究",博弈(40)和学习式规划是方向,但要接受其工程不成熟。 这一点在 §8 开放问题里还会从"前沿性 vs 可落地性"的角度再深挖。

§1.4 为什么综述从"时空联合规划"切入

本文是方向级综述的第一篇,后续还有四篇分别深挖不确定性、博弈、交互预测、RL 贯穿。为什么第一篇的深度综述部分选时空联合规划,而不是别的?

三条理由,构成一个递进:

  1. 它是地基松绑的第一步。七专题里,时空联合规划松绑的"时空可分"是最贴近经典基线、最容易理解的一个假设——你已经会"先路径后速度",只需理解"它何时失效",就跨进了这个专题。其他专题(POMDP、博弈)松绑的假设抽象得多,不适合作为综述的切入点。
  2. 它的方法谱系最完整、最有代表性。从纯搜索(SIPP)到纯优化(MINCO)到纯学习(扩散式),时空联合规划一个专题就横跨了本方向所有四大求解范式(搜索/优化/采样/学习)。吃透它的流派分化,等于预演了整个方向的方法地图。
  3. 它的 C++ 生态最成熟,最适合"读代码学方法"。Apollo、GCOPTER、OMPL、MADER 提供了从工业级到学术级的完整 C++ 抓手。综述里讲的每一个流派,都能在真实代码里找到对应——这让"对比综合"不悬空。

本质洞察(综述的主干选择策略):选哪个专题作为方向级综述的"放大对象",本身就是一种判断力的体现——应选那个"最能以一斑窥全豹"的专题。时空联合规划恰好满足:它的演进史(§3)浓缩了整个领域"实时性 vs 最优性 vs 可验证性"的根本张力,它的流派分化(§4)覆盖了所有求解范式,它的选型逻辑(§6)可以平移到任何其他专题。读完这一篇深度综述,你拿到的不只是"时空规划的地图",而是"读任何规划专题综述的方法论"。

§1.5 七专题速写:每座山的核心问题、招牌方法与当前前沿

前面给了七专题的"成熟度表"(§1.3),但表格只有坐标、没有血肉。这一节为每个横切专题做一段"速写"——用统一的三句式(核心问题 / 招牌方法 / 当前前沿)勾勒它的轮廓。这是后续四篇方向级综述的"预告片",也让你在深入任何一个专题前,先知道它大概长什么样。

专题 10 · 时空联合规划(本文主干,§3–§8 深挖) - 核心问题:空间和时间不可分离时(cut-in/动态绕障/多机穿林),如何同时决定"走哪"和"何时多快"。 - 招牌方法:Frenet ST 图(解耦基线)、SSC 时空走廊、MINCO 连续优化、扩散式生成。 - 当前前沿:扩散加速逼近实时、可微优化层、世界模型上的时空搜索。

专题 20 · 采样式 MPC(MPPI) - 核心问题:代价函数不可微、动力学是黑箱仿真器时,怎么做实时规划(梯度类失效)。 - 招牌方法:路径积分 MPPI、CEM 家族、GPU 并行 rollout、世界模型 TD-MPC2。 - 当前前沿:扩散启发的采样 MPC、可微 MPC(acados + leap-c)、世界模型 + MPPI 的 model-based RL。

专题 30 · 不确定性规划 - 核心问题:模型不完美、感知不完全时,如何规划出对不确定性鲁棒/敏感的轨迹。 - 招牌方法:五条子路线——分支场景(MPDM/EPSILON)、鲁棒 Tube MPC、机会约束(CC-MPC)、POMDP/信念规划(DESPOT/SARSOP)、风险敏感(CVaR)。 - 当前前沿:CVaR-POMDP、distributional RL、安全滤波器 + 学习策略。 - 特点:概念跨度全方向最大——从实践成熟的 Tube MPC 到理论前沿的 CVaR-POMDP,是第二篇方向级综述的主题。

专题 40 · 博弈规划 - 核心问题:环境里的"他人"有自己的目标、且会响应自车动作时,避障变成了博弈。 - 招牌方法:微分博弈 + HJI 可达性、实时博弈求解器(iLQGames/ALGAMES)、逆博弈、Level-k。 - 当前前沿:可微 Nash、贝叶斯逆博弈、博弈安全证书、MARL 交界(PSRO)。 - 特点:唯一需"C++ 骨架 + Julia SOTA"双语言策略的专题(SOTA 多迁到 Julia),是第三篇方向级综述的主题。

专题 50 · 多机器人协作 - 核心问题:从单体到多体,N 个机器人如何在共享时空里互不冲突、协同完成任务。 - 招牌方法:共识 + 分布式优化(ADMM)、MAPF(CBS/LaCAM/PIBT)、分布式 MPC、协同搬运、MARL(MAPPO/QMIX)。 - 当前前沿:千台级去中心化实时协调、MARL 与传统规控混合、异构地空协同。 - 特点:消费前五专题成果的"系统级集成层"——CBS 用时空规划的 SIPP、分布式 MPC 用最优控制、MARL 用博弈语言。

专题 60 · 任务与运动规划(TAMP) - 核心问题:任务本身需要先做离散决策(先抓 A 还是 B、走哪个房间)时,离散任务层与连续运动层如何联合。 - 招牌方法:PDDL/PDDLStream 流式集成、LGP(逻辑几何规划)、分层任务网络。 - 当前前沿:LLM + TAMP(用大模型做高层语义任务分解)的复兴、可微 TAMP。 - 特点:离散搜索(任务层)与连续优化(运动层)缝合,下层的"几何"本质就是时空规划(§7.5)。

专题 70 · 无人机应用(完整实例,非方法) - 核心问题:把上述方法论落到一个具体形态上,跑通从仿真到实飞的端到端链路。 - 招牌内容:微分平坦 + 几何控制、多项式/B样条/MINCO 轨迹、感知引导自主探索、集群协同、RL 敏捷飞行。 - 当前前沿:sim-to-real RL 飞控、视觉-惯性敏捷飞行、大规模集群。 - 特点:本方向的"完整应用实例"——数学最干净(微分平坦)、生态最完整(全开源链路),是观察所有方法论落地的最佳窗口。

本质洞察(七速写连起来就是后续综述的版图):把这七段速写并排读,你会发现五篇方向级综述的分工自然浮现——本文(一)讲时空规划 + 全景,综述(二)深挖不确定性,综述(三)深挖博弈,综述(四)深挖交互预测,综述(五)缝合 RL 贯穿。 采样式 MPC(20)、多机(50)、TAMP(60)、无人机(70)不单独成方向级综述,因为它们要么是"求解方法论"(MPPI 贯穿各范式)、要么是"系统集成层"(多机消费前五专题)、要么是"应用实例"(无人机)——它们的综述价值已分散融入其他四篇。看懂这个版图,你就知道每一篇方向级综述在整张地图上补的是哪一块、彼此怎么衔接——这正是 §0 强调的"先有林海图再看每棵树"的最高层兑现。


二、方法空间的统一坐标轴:把所有规划方法摆到同一张图上

第一节给了林海的轮廓(七专题各是什么)。但"轮廓"还不够——要能做选型决策,需要给这片林海画上经纬度:一组统一的坐标轴,让任意一个规划方法(无论它来自哪个专题)都能被定位到坐标系里的某个区域,从而能彼此比较。

这一节的目标,是建立这组坐标轴。这是整篇综述对比综合能力的地基——后面所有的优劣矩阵、选型决策,都建立在这五条轴上。

§2.1 五条坐标轴:刻画一个规划方法的五个本质维度

一个规划方法,无论表面多复杂,都可以用以下五个维度刻画。这五条轴不是随意选的——它们各自对应着第一节里"一个理想假设的松绑",因此正交、完备、贴合根问题

量什么 一端 ←──────→ 另一端 对应松绑的假设
轴1 时空联合程度 多大程度拒绝"先路径后速度" 完全解耦 ←→ 完全联合/天然联合 时空可分
轴2 求解范式 用什么数学机器找解 搜索 / 优化 / 采样 / 学习 (正交于假设,是手段)
轴3 不确定性处理 怎么对待"模型/感知不完美" 确定性 ←→ 鲁棒 ←→ 概率 ←→ 风险敏感 模型精确/全可观
轴4 交互建模 怎么对待"环境里的他人" 无视/障碍 ←→ 预测 ←→ 博弈 无他人/他人无目标
轴5 计算负担位置 算力压在何时 全在线 ←→ 部分离线 ←→ 几乎全离线 (正交,是实现策略)

下面逐条解释每条轴的两端各意味着什么,以及为什么这条轴对选型至关重要。

轴1:时空联合程度(本文主轴)。 这是贯穿整篇综述、也是时空规划专题的核心轴。它量的是一个方法在多大程度上把"走哪条线"(空间)和"何时多快"(时间)放在一起决定:

完全解耦 ───── 半联合 ───── 联合搜索 ───── 完全联合 ───── 天然联合
(纯 PVD)      (EM 迭代)    (走廊+QP)      (连续优化)     (端到端生成)
先路径后速度   分两步多轮    联合空间圈      时间是决策      网络直接吐
一锤定音      迭代逼近      安全区再优化     变量一次解      (x_t,y_t)序列

为什么这条轴重要?因为它直接决定一个方法能不能处理强耦合场景(cut-in、动态绕障、抢行)。解耦端高效但在强耦合下失效,联合端能处理强耦合但更贵。§3–§6 整个时空规划深度综述,就是沿这条轴展开的。

轴2:求解范式(手段轴)。 不管解什么问题,最终都要用某种数学机器找解。本方向只有四族机器,理解它们的边界是工程师的基本功(§2.2 详展):

范式 核心机器 适合 不适合
搜索 图上展开节点(A*/RRT/SIPP/CBS) 离散/低维、需完备性或全局最优 高维连续(维度灾难)
优化 梯度/牛顿迭代(QP/NLP/iLQR/MINCO) 连续、代价可微、要平滑最优 非凸多模态、不可微代价
采样 大量 rollout 打分(MPPI/CEM) 不可微代价、黑箱模型、GPU 并行 高精度最优、维度极高
学习 神经网络拟合映射(IL/RL/扩散) 复杂模式、多模态、长尾 可验证性、分布外、可解释

轴3:不确定性处理。 量的是方法怎么对待"模型不完美、感知不完全"。从"假装一切精确"(确定性,绝大多数经典方法)到"对最坏情况鲁棒"(Robust/Tube MPC)到"显式建模概率分布"(POMDP/机会约束)到"优化尾部风险"(CVaR)。这条轴是不确定性规划专题(30)的主轴,但它横切所有方法——任何确定性方法都可以问"如果模型错了会怎样",从而沿这条轴往右走。

轴4:交互建模。 量的是方法怎么对待"环境里的他人"。从"无视/当静态障碍"(最简单)到"预测他人未来轨迹再规划"(预测-规划,主流自驾)到"承认他人会响应我的动作"(博弈,最难)。这条轴是博弈规划(40)和交互预测的主轴。它的右端藏着本方向最深的一个开放问题——交互的"鸡生蛋"循环(§8.4)。

轴5:计算负担位置。 量的是算力压在何时。从"全在线求解"(经典优化/搜索,每帧重算)到"部分离线"(预计算地图/查找表/warm-start)到"几乎全离线"(端到端,离线训练海量算力、在线只做前向)。这条轴看似是实现细节,实则暗中决定了一个方法能同时做到多强的联合性和多快的实时性——这是 §3、§8 反复点出的"暗线"。

本质洞察(五轴的关系:三条"假设轴" + 两条"手段轴"):这五条轴不是平权的。轴1/轴3/轴4 是"假设轴"——它们各自对应一个被松绑的理想假设(时空可分/模型精确/无他人),刻画的是一个方法敢面对多复杂的现实轴2/轴5 是"手段轴"——求解范式和计算负担位置,刻画的是一个方法用什么招、把力气花在何时。一个方法的完整画像 = 它敢面对的现实(三条假设轴的坐标)+ 它选用的手段(两条手段轴的坐标)。选型的本质,就是先用假设轴框定"我的场景有多不理想",再用手段轴挑"哪套招最划算"。

§2.2 求解范式四象限:搜索 / 优化 / 采样 / 学习的根本边界

轴2(求解范式)值得单独展开,因为它是工程师最容易混淆、也最影响落地的一条轴。四族范式不是"谁比谁先进",而是各自占据问题空间的不同象限。用两个最关键的问题把它们分开:代价/动力学可微吗?解空间是离散还是连续?

                   解空间连续
              优化       │       采样
        (QP/NLP/iLQR/    │   (MPPI/CEM/
         MINCO/MPC)      │    扩散采样)
        要可微、要平滑    │   不要可微、要并行
    ────────────────────┼────────────────────► 代价不可微/黑箱
        搜索             │       学习
     (A*/RRT/SIPP/       │   (IL/RL/端到端)
      CBS/LaCAM)         │   离线学映射
      离散、要完备/最优   │   连续或离散皆可
                   解空间离散

这张四象限图怎么用? 拿到一个规划问题,先问两个问题定位象限:

  1. 代价函数和动力学可微吗? 可微 → 左半(搜索/优化)有戏;不可微/黑箱(如"舒适度"难以写成可微式、动力学是仿真器)→ 右上(采样)或右下(学习)。
  2. 解空间天然离散还是连续? 离散(选哪个 lane、哪个同伦类、哪个任务顺序)→ 下半(搜索/学习);连续(一条平滑轨迹的无穷多控制点)→ 上半(优化/采样)。

对比性思维(四范式不是替代而是互补):初学者常犯的错是把四范式当成"进化关系"——以为学习最先进、该取代搜索和优化。这是根本误解。 真相是它们各占象限、长期共存,且现代系统几乎总是混合使用:搜索给优化提供初值(front-end search + back-end optimization,时空规划的标准架构)、采样在优化卡住(非凸、不可微)时兜底、学习给搜索提供启发(Neural A*)或给采样提供先验(扩散引导 MPPI)。不是"用哪个",而是"在管线的哪一环用哪个"。 这个"分工而非替代"的认知,是看懂本方向所有混合架构的钥匙。

一个具体的混合范式例子(贯穿全方向):时空联合规划的现代标准管线就是三范式接力—— - 前端搜索(A*/kinodynamic RRT/SIPP)在离散空间快速找一个"大致走哪、何时到"的初解,跨越同伦类; - 中端构造安全飞行走廊(SFC/SSC,把非凸的避障约束转成凸约束); - 后端优化(MINCO/QP)在走廊内把初解精修成平滑、动力学可行、时空联合的轨迹。

搜索负责"全局选对篮子(同伦类)",优化负责"篮子里磨出最优"。这个分工不是巧合——它精确对应四象限:选同伦类是离散问题(搜索的象限),磨平滑轨迹是连续可微问题(优化的象限)。

§2.3 两个常被混淆的算法性质:完备性与最优性

在用上面的坐标轴做选型前,还要厘清两个贯穿全方向、却极易被混淆的性质。它们不是坐标轴(不是连续维度),而是算法的离散标签,但对选型判断至关重要。

完备性(Completeness):如果存在解,算法保证能找到它(无解时能报告无解)。

  • 分辨率完备(resolution-complete):在给定离散分辨率下完备(如栅格 A*——栅格够细就找得到)。
  • 概率完备(probabilistically complete):采样数趋于无穷时,找到解的概率趋于 1(如 RRT/PRM)。
  • 不完备:可能找不到存在的解(如纯梯度优化——会卡在局部最优或不可行域)。

最优性(Optimality):找到的解是否代价最小。

  • 最优:保证全局最优(如 A* 配可采纳启发、凸 QP)。
  • 渐近最优(asymptotically optimal):采样数趋于无穷时收敛到最优(如 RRT*、SST)。
  • 次优 / 局部最优:只保证可行或局部最优(如 RRT、一般非凸 NLP、PIBT、ORCA)。

本质洞察(为什么大规模方法主动放弃最优性):这两个性质常被初学者当成"越强越好",但工程现实是强保证 = 高代价。最优 + 完备的方法(如最优 MAPF 的 CBS)在规模上爆炸——10 个智能体还能解,100 个就跪。于是大规模方法(PIBT、LaCAM、ORCA、EGO-Swarm)主动放弃最优性、甚至放弃完备性,换取"几百上千智能体实时可解"。选型时的关键判断不是"要不要最优",而是"我的规模/实时预算下,能负担多强的保证"——小规模高价值任务(泊车、竞速)值得上最优方法,大规模实时任务(仓储集群、人群避让)必须接受次优。这条判断贯穿多机协作(50)和时空规划的多智能体部分(§6 选型会反复用到)。

§2.4 求解范式的混合模式:现代系统如何在一条管线里串联四象限

§2.2 强调四范式"互补非替代、混合使用"。这一节把"怎么混合"系统化——因为现代规划系统几乎从不用单一范式,理解常见的混合模式是看懂任何真实系统架构的钥匙。把四范式的串联方式归成四种典型模式:

混合模式 结构 典型例子 为什么这样混
搜索→优化(前端-后端) 搜索出粗解/初值 → 优化精修 时空规划标准管线、Hybrid A* + OBCA 搜索负责跨同伦类选篮子(离散),优化负责篮子内磨最优(连续)
学习→搜索(神经启发) 网络预测启发/cost → 搜索用它加速 Neural A*、GNN-guided CBS 学习压缩搜索空间,搜索保住完备性
学习→优化(神经先验) 网络出先验/初值 → 优化做可行性投影 扩散出轨迹 + MINCO 投影、可微 MPC 学习提供多模态创意,优化保证动力学可行
生成→验证(创意-安全) 学习生成候选 → 经典栈验证过滤 工业自驾 E2E + 经典兜底 学习提供能力上限,经典提供安全下限

这四种混合模式有一个共同结构——都是"用一个范式补另一个范式的裸维":

  • 搜索的裸维是"连续精度差"→ 用优化补;
  • 优化的裸维是"非凸挑初值、跨不过同伦类"→ 用搜索或学习补;
  • 学习的裸维是"无硬保证"→ 用优化/验证补;
  • 搜索/优化的裸维是"想不出人没设计的解"→ 用学习补。

本质洞察(混合是常态,纯粹是特例):初学者读论文时,习惯问"这篇用的是搜索还是优化还是学习"——这个问题本身就预设了"方法是单一范式",而现实恰恰相反:成熟系统几乎都是混合的,纯单一范式反而是教学简化或早期工作。 正确的问法是"这篇在管线的哪一环用了哪个范式、它们怎么接力"。比如时空规划的现代标准管线就是"搜索→优化"两段接力,工业自驾是"生成→验证"两段接力。当你拿到任何一个真实规划系统,先别问它"是什么范式",而问它"由哪几个范式按什么顺序串成"——这个视角能让你瞬间看穿绝大多数看似复杂的系统架构。 这也呼应了 §8.7 的组合创新——混合模式不仅是工程常态,更是创新的主战场。

§2.5 把一个方法摆上坐标系:三个完整定位示范

理论讲完,做三个完整的"定位示范"——把三个有代表性的方法逐一摆到 §2 的五条轴 + 四象限上,演示这套工具怎么用。这是把 §2 从"概念"变成"肌肉记忆"的关键一步。

示范一 · Apollo EM Planner

坐标 判断依据
轴1 联合程度 半联合 Path↔Speed EM 迭代,分步但多轮逼近
轴2 求解范式 优化(DP+QP,左上+左下接力) DP 搜索初解 + QP 精修,"搜索→优化"混合
轴3 不确定性 确定性 把预测当固定,不显式建模概率
轴4 交互 预测后当障碍 用他车预测但不建模其响应
轴5 计算负担 全在线 每帧重算,无离线训练
→ 定位结论:左下-偏中区域,可验证、实时、半联合的工业基线。

示范二 · MINCO/GCOPTER

坐标 判断依据
轴1 联合程度 完全联合 段时间 \(T_i\) 是显式优化变量
轴2 求解范式 优化(左上,需搜索 warm-start) 连续可微优化 + 前端搜索初值
轴3 不确定性 确定性 假设环境已知
轴4 交互 障碍(静/动态已知) 走廊避开时空禁入区,不博弈
轴5 计算负担 全在线(可在线重规划) 闭式梯度让在线求解够快
→ 定位结论:右上-完全联合区域,最优、灵活,但挑初值。

示范三 · UniAD

坐标 判断依据
轴1 联合程度 天然联合 网络直接吐 \((x_t,y_t)\)
轴2 求解范式 学习(右下,IL + 模块化) 模仿学习 + query 贯通
轴3 不确定性 隐式(数据中学) 不显式建模,从数据吸收
轴4 交互 隐式建模(MotionFormer 预测) 网络内隐式处理预测-规划耦合
轴5 计算负担 几乎全离线 海量离线训练 + 在线前向
→ 定位结论:最右上+学习象限,能力最强但黑箱、计算前置离线。

本质洞察(定位的价值:把"陌生"变"已知"):做完这三个定位,回看 §5.2 的 9 张卡片,你会发现它们其实就是九次这样的定位。这套定位工具的终极价值,是把任何陌生方法"翻译"成五个坐标——一旦翻译完成,你就能立刻拿它和你已知的方法比较(坐标接近的就是亲戚),并预判它的得失(坐标决定了它在 §5.1 优劣矩阵里的大致行为)。 这就是为什么 §0 说综述教的是"导航"而非"知识"——导航的本质,就是给陌生的东西标上你熟悉的坐标。练到能对任意新方法脱口而出它的五轴坐标,你就真正出师了。

§2.6 五条轴并非独立:它们之间的相关性

最后点出一个深层结构——这五条轴不是相互独立的,它们之间存在系统性相关。 理解这些相关,能让你在选型时"一叶知秋":定了一条轴的位置,往往就大致框定了其他几条轴的可行范围。

相关性 表现 为什么
轴1(联合)↗ 轴5(离线) 联合程度越高,越倾向把计算前置离线 完全/天然联合在线算不动,只能靠离线训练(§3.2 暗线)
轴1(联合)↗ 求解非凸性 联合程度越高,问题越非凸 把时间也当变量、约束精确,必然破坏凸性
轴2=学习 → 轴5=离线 + 可验证性↘ 选了学习范式,几乎必然计算离线 + 不可验证 学习的本质是离线拟合,黑箱不可验证(§4.5)
轴3(不确定性)↗ 计算成本 越认真处理不确定性,计算越贵 概率/风险约束比确定性约束难解(机会约束、POMDP)
轴4(交互)↗ 轴3 + 计算成本 越认真建模交互(博弈),越要处理不确定性、越贵 博弈耦合了对他人意图的不确定性推断(§8.4)

本质洞察(轴间相关性 = "选型的连锁反应"):这些相关性意味着选型不是五个独立的旋钮,而是一组联动的滑块——你推高一个,另几个会跟着动。比如你决定"要最高的时空联合程度"(轴1 推满),那么轴5 几乎必然被拉向"离线"、求解几乎必然变非凸、若走学习路线则可验证性必然下滑。这就是为什么选型不能"既要又要"——你想要联合程度满分、又要可验证满分、又要在线实时,这三个要求在轴间相关性下相互矛盾(正是 §8.1 的根本张力、§5.4 散点图右上角的空白)。 看懂轴间相关性,你就明白选型的本质是在一组联动的约束里找一个自洽的组合,而非在每条轴上独立挑最优。这是 §2 全节最深的一层——从"五条独立的轴"上升到"一个相互纠缠的约束系统"。

把 §2 的五条轴 + 四象限 + 两性质 + 混合模式 + 定位示范 + 轴间相关性合起来,你现在拥有了一套完整的"方法定位与组合工具"。下面从 §3 开始,我们用这套工具放大本方向最大的那座山——时空联合规划——做一次深度综述,演示这套工具如何把一个专题的所有方法梳理成可决策的地图。


三、时空联合规划的发展脉络:从 PVD 到扩散式生成(1986→2026)

现在放大主干山脉。综述深挖一个领域,第一步永远是梳理脉络——不是罗列方法,而是讲清"每一代解决了上一代的什么问题、又留下了什么新坑给下一代"。一条好的脉络线,能让你理解的不是 N 个孤立方法,而是一条连贯的演进逻辑。

§3.1 起点:为什么需要"时空联合"——PVD 的成功与失效

任何脉络都得从"起点为什么是这个起点"讲起。时空联合规划的起点,是它的反面——路径-速度解耦(Path-Velocity Decomposition, PVD),由 Kant & Zucker 在 1986 年提出。

PVD 做了什么。 它把"规划一条轨迹"这个难问题,拆成两个容易的子问题:

  1. 路径规划:先在静态环境里找一条几何路径 \(\sigma(s)\)(走哪条线),暂时不管速度;
  2. 速度规划:再在这条固定路径上排一个速度剖面 \(s(t)\)(沿这条线何时多快),处理动态障碍。

为什么这个拆分如此成功,统治了整个经典规划栈三十年? 因为它把一个高维、非凸、难解的联合问题,降维成两个低维、近凸、可实时求解的子问题。在结构化道路(高速公路)上,路径基本由车道和参考线定死、主要决策是速度——此时路径与速度弱耦合,分两步几乎不损失最优性,却换来了实时性和工程可靠性。这就是为什么 Apollo 这样的工业系统至今仍以 PVD 为骨架。

它何时失效? 当路径与速度强耦合时——也就是"走哪"取决于"多快"、"多快"取决于"走哪",二者无法先后决定。三个经典场景:

场景 为什么强耦合 PVD 的困境
Cut-in(加塞) 让它(减速不变道)还是超它(加速不变道)还是绕它(变道)——最优路径取决于打算用什么速度通过 先定路径就堵死了速度的最优选择,反之亦然
动态绕障 绕障的左右选择,和何时加减速死死绑定 固定路径可能让速度规划无解(为不撞必须急刹)
多机穿林 每架的避障路径,取决于其他架在每个时刻飞到哪 N 架轨迹相互耦合,无法各自先定路径

本质洞察(整个专题的灵魂):时空联合规划的全部存在理由,就是"PVD 在强耦合场景下会悄无声息地失效"这一句话。注意"悄无声息"——PVD 不会报错,它会给你一个看似合理实则次优甚至危险的解(比如急刹、或绕了不该绕的路)。整个专题的演进史,就是一部"如何在 PVD 失效的地方,把空间和时间重新捏回一起解"的历史。理解了这个起点,后面每一代方法的动机你都能自己推出来——它们都在回答同一个问题:"如何在保住实时性的前提下,把 PVD 丢掉的时空耦合赎回来?"

一个 cut-in 场景的完整走查:看 PVD 怎么"悄无声息"地给出坏解。 抽象的"强耦合失效"不够直观,走一遍具体场景:你在中间车道匀速行驶,右侧一辆车正以一定角度切入你的车道前方。PVD 会这样处理:

  1. 第一步(定路径,不管速度):路径规划器看当前静态快照,发现本车道前方暂时没有完全占据的障碍(切入车还在车道线上),于是规划出"保持车道直行"的路径。
  2. 第二步(在这条直行路径上排速度):速度规划器现在面对一个既成事实——路径已定为直行,而切入车即将占据前方。它唯一能做的就是在直行路径上减速,甚至急刹,来给切入车让出空间。

问题出在哪? PVD 的两步各自都"正确",但组合起来是坏解——因为最优应对可能是"轻微左偏 + 维持速度"(路径和速度协同微调),既不急刹也不被逼停。但 PVD 第一步定死直行路径时,把"左偏"这个选项永久关闭了;第二步只能在被关闭了选项的残局里挑最不坏的(急刹)。

PVD 的解 时空联合的解
路径 先定死直行 轻微左偏(与速度协同)
速度 被迫急刹 维持匀速
结果 顿挫、不舒适、可能追尾风险 平顺、安全
根因 第一步关闭了第二步需要的选项 路径速度同时定,不互相锁死

对比性思维(PVD 的失效本质是"过早承诺"):PVD 失效的根,不是"分了两步"本身,而是"第一步在信息不足时就对路径做了不可撤销的承诺"。它在还没考虑速度(也就没考虑切入车的时序)时,就把路径定死了——这是一种"过早承诺"。时空联合的所有流派,本质都在推迟这个承诺,直到把空间和时间一起考虑清楚再定。流派二(走廊)推迟到"圈出时空安全区后",流派三(连续优化)推迟到"联合优化收敛时",流派四(端到端)干脆不显式承诺、让网络隐式权衡。理解"过早承诺"这个失效机理,你就抓住了所有时空联合方法的共同动机——它们都是'反过早承诺'的设计。

§3.1bis 为什么偏偏是"时间"这一维如此特殊

读到这里可能会有一个疑问:避障问题里要协调的维度很多(横向、纵向、朝向…),为什么单单"时间"被拎出来、专门有一个"时空联合"专题,而没有"空间-朝向联合"专题?这个问题值得正面回答,因为它点出了时间维的独特性。

时间维的三个特殊之处:

  1. 时间是单向的、不可逆的。空间维度可以来回(左了可以右、前了可以后),但时间只能向前——这让"何时到某处"成为一种硬约束(动态障碍在 \(t_1\) 占据某格,你早到或晚到都行,但不能在 \(t_1\) 到)。这种单向性使时间约束的结构与空间约束根本不同。
  2. 时间把"静态避障"变成"时序会合/错开"问题。在纯空间里,避障是"别和障碍占同一个点";加入时间后,变成"别和障碍在同一时刻占同一个点"——你可以和障碍占同一个空间点,只要不同时。这是 SIPP"安全区间"思想的根基,也是时空规划比纯空间规划"多一个自由度"的来源(可以用时序错开换空间冲突)。
  3. 时间耦合了路径与速度这两个本来分属不同物理量的东西。横向和纵向都是"位置",本就同质、容易一起优化;但路径(几何)和速度(运动学)是异质的——PVD 正是利用这种异质性把它们拆开。时间维是唯一同时牵动几何和运动学的维度,所以"是否联合处理时间"成了规划范式的分水岭。

本质洞察(时间维是规划的"特殊维度"):这三点合起来解释了为什么"时空联合"配得上一个独立专题,而"空间各维联合"不配——因为时间维既是硬约束(单向不可逆)、又提供新自由度(时序错开)、还耦合异质物理量(几何×运动学)。 它不是众多空间维里普通的一维,而是一个性质完全不同的维度。这也是为什么把时间显式写进搜索状态(time-bounded lattice,§3.2 时代II 的开山)会被视为一个里程碑——它第一次正面对待了这个特殊维度,而非把它藏在速度剖面里当隐变量。理解时间维的特殊性,你就理解了整个专题为什么存在、以及它的名字为什么叫"时空联合"而非"多维联合"。

§3.2 脉络主线:四个时代的演进

把 1986–2026 的时空联合规划放在时间轴上,恰好分成四个时代,每个时代由一个核心矛盾驱动。下面这张脉络表是本节的骨架,随后逐时代展开。

时代 年份 核心矛盾 代表工作 突破点
I. 解耦时代 1986–2009 实时性 vs 联合性,选了实时性 PVD(1986)、Frenet(2010 前夜) 用分解换可解性
II. 显式时空时代 2009–2018 把时间升格为搜索/约束维度 ST-lattice(2009)、Frenet ST(2010)、SIPP(2011)、Apollo EM(2018) 时间不再藏在速度里,成为独立维度
III. 连续优化时代 2018–2022 把时间变成可优化的决策变量 MADER(2021)、EGO-Swarm(2021)、MINCO/GCOPTER(2022)、ST-RRT*(2022) 段时间 \(T_i\) 闭式可微,时空一次解
IV. 学习生成时代 2022–2026 用离线训练绕开在线实时性瓶颈 Diffuser(2022)、UniAD(2023)、Diffusion Policy(2023)、PLUTO(2024)、Diffusion Planner(2025) 网络直接吐时空轨迹,联合"不再是问题"

一个关键的补充维度:全局规划 vs 局部规划。 上面的四时代分类沿"联合程度"展开。但工程实践中还有一个正交的分类维度——全局规划 vs 局部规划

  • 全局规划(global planning)在整条路线上做一次性规划(如 A* 找从起点到终点的路径),时域覆盖整个任务。它关注"走哪条路"这个大问题,通常在拓扑/语义层面。
  • 局部规划(local planning)在一个短时域(如 5–10 秒)内做高频滚动规划,处理当前周围的动态障碍和精细运动。它关注"当下怎么动"这个细问题,通常在几何/运动学层面。

为什么这个维度在时空联合规划里特别重要? 因为时空联合的需求主要出现在局部规划层——全局规划处理的是"走不走高速、从哪个出口下"这类不涉及动态障碍时序配合的决策,时空耦合弱。局部规划处理的才是"前方那辆车要加塞、我该加速闪还是减速让"——这里路径和速度强耦合,PVD 失效,§3.1 的所有分析都在这个层面。

层级 典型方法 时空联合需求 频率
全局(路线级) A*/Dijkstra/D* 一次或低频
行为(决策级) FSM/MPDM/EUDM 中(意图时序) 1–5 Hz
局部(轨迹级) PVD/EM/MINCO/扩散 (时空耦合核心战场) 10–50 Hz
跟踪(控制级) PID/MPC/LQR 无(跟踪给定轨迹) 50–1000 Hz

对比性思维(四时代主要在"局部层"展开,但行为层也在演进):§3.2 的四时代主要描述的是局部规划层的演进(PVD→ST-lattice→MINCO→Diffusion)。但行为决策层也有平行的演进——从手写 FSM(Apollo scenario manager)到 MPDM/EUDM 的闭环仿真森林,到 GameFormer 的学习式博弈决策。完整的自动驾驶规划栈,是"行为层选意图 + 局部层出轨迹"的两层串联——本章的时空规划主要聚焦后者,但 §7 的跨专题接口会把两层的关系理清。

时代 I(1986–2009)解耦时代——用分解换可解性。 这个时代的主旋律是"承认时空联合太难,先分而治之"。PVD(1986)是奠基,随后 Frenet 坐标系(在 Werling 2010 集大成)提供了结构化道路上做解耦的标准语言——把笛卡尔坐标换成沿参考线的 \((s, l)\),让路径规划(SL 图)和速度规划(ST 图)各有清晰的低维舞台。这个时代的成就是把规划"做实时了",代价是把时空耦合"丢掉了"。 它不是错误,而是算力受限年代的理性妥协——也是后面三个时代要逐步偿还的"技术债"。

时代 II(2009–2018)显式时空时代——时间升格为独立维度。 转折点是 Kushleyev & Likhachev 2009 的 time-bounded lattice:首次把时间 \(t\) 显式写进搜索状态,在 \((x, t)\) 空间里搜索,用"时间窗外退化为 2D"缓解组合爆炸。这是脉络上第一次正面承认时间是一个搜索维度,而非藏在速度剖面里的隐变量。随后两条线并进:

  • 搜索线:Phillips & Likhachev 2011 的 SIPP(Safe Interval Path Planning) 是这个时代最关键的加速器——它不把时间离散成一格一格(那会让节点数爆炸),而是把每个格子的时间轴压缩成若干"安全区间",搜索状态变成 \((\text{格子}, \text{安全区间})\)。SIPP 至今仍是 ST-A* 的工业级底座,在 MAPF(多机)和 MoveIt 动态避障里长期流通——这是一个跨专题复用的典型例子(§7 详述)。
  • 工程线:百度 Apollo 在 2017–2018 把 Path-Time(ST)图 + 动态规划(DP)+ 二次规划(QP)工程化为 EM Planner,成为 L4 自动驾驶 ST 规划的代表栈。它的"半联合"(Path↔Speed 的 EM 迭代)是时代 I 解耦和时代 III 完全联合之间的过渡形态。

对比性思维(时代 II 的两条线:搜索 vs 工程):SIPP 走的是"学术上把时间维压缩得最优雅"的路,Apollo EM 走的是"工业上把解耦做到可量产"的路。二者看似无关,实则是同一个矛盾的两种答案——都在问"如何在引入时间维后还能实时"。SIPP 用安全区间压缩状态空间,Apollo 用 EM 迭代避免一次性解联合问题。这种"学术求优雅、工业求可靠"的双线并进,是本方向几乎每个专题都会重演的模式。

时代 III(2018–2022)连续优化时代——时间成为可优化的决策变量。 这是机器人侧(尤其无人机)的爆发期,核心突破是把段时间 \(T_i\) 本身当成优化变量,让空间形状与时间分配在同一个优化问题里联合求解。三个里程碑:

  • MINCO / GCOPTER(Wang Zhepei et al., T-RO 2022):用"航点 + 段时间"的稀疏参数化表示轨迹,关键创新是空间梯度和时间梯度都能闭式求导——这让"时间分配"从过去的外层启发式搜索,变成了和空间一起做梯度下降的内层变量。这是"完全联合"最干净的实现,也是无人机轨迹生成的当代标杆。
  • MADER(Tordesillas & How, T-RO 2021):面向多无人机 + 动态障碍,用 Bernstein 基 + 凸分解 + 异步协商,把多机时空规划做成 MIQP。
  • EGO-Swarm(Zhou et al., RA-L 2021):去中心化、ESDF-free 的梯度规划 + 多机时空共识,把单机的梯度规划扩展到 swarm。
  • ST-RRT*(Grothe et al., ICRA 2022):把时间最优采样规划并入 OMPL,让采样类方法也能原生处理 space-time。

这个时代偿还了时代 I 的大部分技术债——时空耦合被"完全联合"赎回来了。但它撞上了一堵新墙:非凸性 vs 实时性。完整时空轨迹优化通常非凸,求解慢、对初值敏感、可能陷局部最优。各方法(MINCO 的闭式梯度、CILQR 的二次近似、TEB 的稀疏结构)本质都在"想办法让这个非凸问题解得快一点"——但它们都没能跳出"在线求解"这个根本约束。

时代 IV(2022–2026)学习生成时代——离线训练绕开在线瓶颈。 最新的一代做了一件前三代都没敢做的事:不在线求解了,改成离线训练 + 在线前向。神经网络从数据直接学出"观测 → 时空轨迹"的映射,输出带时间戳的点序列 \((x_t, y_t)\),路径和速度信息浑然一体——"时空联合"在这里甚至不再是一个需要单独处理的问题,因为网络直接吐出完整轨迹。脉络上的关键工作:

  • Diffuser(Janner et al., ICML 2022):开山之作,把轨迹优化折进扩散模型,迭代降噪整条轨迹,classifier-guided 采样重新诠释为 planning。
  • UniAD(Hu et al., CVPR 2023 Best Paper):模块化端到端,query 贯通感知-预测-规划,规划头直接输出轨迹。
  • Diffusion Policy(Chi et al., RSS 2023):视觉运动 BC 作为条件扩散 over action sequences,机器人操作侧的标杆。
  • PLUTO(2024)、Diffusion Planner(Zheng et al., ICLR 2025 Oral):自驾侧的扩散/模仿规划,把多模态(路口"抢行 vs 让行"两个都合理的解)天然表达出来。

本质洞察(时代 IV 是时代 I 的"算力平反"):这是整条脉络最深刻的一个反转。时代 IV 在数学上回到了时代 I 一开始就放弃的"完整轨迹直接生成"——只不过用神经网络的离线训练,换掉了在线求解的算力瓶颈。 PVD(时代 I)当年放弃完整联合,是因为在线算不动;连续优化(时代 III)把联合赎回来了,但仍卡在在线实时性;学习生成(时代 IV)把计算负担整体挪到离线,在线只做轻量前向,于是"既快又联合"。回看 §2 的轴5(计算负担位置)——整条脉络的本质,是"计算负担从在线向离线持续转移"的历史。 这也预示了未来:谁能把更多计算前置到离线、在线只留推理,谁就能在"联合程度"和"实时性"上同时取胜。但时代 IV 也带回了一个时代 I–III 从未有过的新问题——黑箱不可验证(§8.3)。

§3.3 一张脉络全景图:四时代如何沿"联合程度"和"计算负担"两轴移动

把四个时代同时投影到 §2 的两条关键轴上,能看出演进的方向性:

计算负担位置
  几乎全离线 │                                    ◄ 时代IV 学习生成
            │                                      (UniAD/Diffusion)
   部分离线  │                  ◄ 时代III 连续优化
            │                    (MINCO/MADER)
            │       ◄ 时代II 显式时空
   全在线   │ ◄时代I  (ST-lattice/SIPP/Apollo)
            │ 解耦
            └──────────────────────────────────────► 时空联合程度
              完全解耦   半联合   联合搜索  完全联合  天然联合

这张图揭示了一个清晰的趋势:四个时代沿对角线从左下(解耦 + 在线)走向右上(天然联合 + 离线)。每一代都同时在两个维度上往右上挪一点——联合程度更高、计算更多地前置到离线。

对比性思维(演进不是"新的取代旧的"):看这张图最容易犯的错,是以为右上角(学习生成)取代了左下角(解耦)。事实恰恰相反——四个时代的方法今天全都在用,而且常常在同一个系统里协同。 工业自动驾驶的现实架构是"时代 IV 生成候选 + 时代 I–III 兜底验证":让端到端网络出有创意的候选轨迹,再用解耦/优化/搜索这些可验证的经典方法做安全把关。为什么?因为右上角的黑箱性质让它不敢单独上车(§8.3)。演进给了我们更强的工具,但没有废弃任何旧工具——它只是让工具箱更丰富,让"在管线哪一环用哪代方法"的选型更讲究。

§3.4 代表性论文脉络表:把演进钉在具体工作上

脉络(§3.2)讲的是"逻辑演进",但综述还需要把这条逻辑钉在具体的、可查证的论文上——这样读者能按图索骥去读原始工作。下表按时代列出时空联合规划的里程碑论文,标注它在脉络上的"角色"(开山/加速器/工程化/桥接/SOTA),并用一句话说清"它把脉络往前推了哪一步"。

年份 论文 / 工作 载体 脉络角色 把脉络往前推了哪一步
1986 PVD(Kant & Zucker) IJRR 反面起点 确立"先路径后速度"的解耦地基(后三代要偿还的债)
2009 Time-bounded Lattice(Kushleyev & Likhachev) ICRA 开山 首次把时间显式写进搜索状态,时间从"速度的隐变量"升格为"独立维度"
2010 Frenet Frame Planner(Werling et al.) ICRA 标准语言 把高速驾驶建模为 (s,d,t) 联合采样,给结构化道路一套标准坐标语言
2011 SIPP(Phillips & Likhachev) ICRA 加速器 用安全区间压缩时间维,让时空搜索从"逐时刻爆炸"变为工业可用
2017–18 Apollo EM Planner(Fan et al.) arXiv 工程化 把 ST 图 + DP + QP 工程化为量产栈,确立"半联合 EM 迭代"过渡形态
2021 MADER(Tordesillas & How) T-RO 多机扩展 Bernstein + 凸分解 + 异步协商,多无人机 + 动态障碍的 MIQP
2021 EGO-Swarm(Zhou et al.) RA-L 去中心化 ESDF-free 梯度规划 + swarm 时空共识,去中心化集群
2022 MINCO / GCOPTER(Wang et al.) T-RO 范式标杆 段时间闭式可微,把"时间分配"从外层搜索变成内层梯度变量——完全联合最干净的实现
2022 ST-RRT*(Grothe et al.) ICRA 采样补全 时间最优采样规划并入 OMPL,让采样类也原生处理 space-time
2022 Diffuser(Janner et al.) ICML 学习开山 把轨迹优化折进扩散模型,开启"用生成模型直接吐轨迹"的时代 IV
2023 UniAD(Hu et al.) CVPR Best 端到端标杆 query 贯通感知-预测-规划的模块化端到端,规划头直接输出时空轨迹
2023 Diffusion Policy(Chi et al.) RSS 操作侧标杆 条件扩散 over action sequences,机器人操作侧的天然多模态生成
2024–25 PLUTO / Diffusion Planner arXiv / ICLR SOTA 自驾侧扩散/模仿规划,把多模态决策(抢行 vs 让行)做成可学习的分布

本质洞察(论文脉络表的读法:看"角色"而非"年份"):这张表最有价值的列不是"年份",而是"脉络角色"。一个领域的论文可以按角色分成几个固定类型——开山(开新方向)、加速器(让方向工程可用)、工程化(落地量产)、桥接/补全(连接两条线)、标杆/SOTA(确立新范式上限)。 读综述时,识别一篇论文的"角色"比记住它的年份重要得多:开山之作教你"为什么这个方向存在",加速器教你"它如何变得实用",标杆教你"当前能力上限在哪"。当你能给任意一篇新论文判定角色,你就能立刻把它插进脉络的正确位置——这又是综述训练的元能力(呼应 §5.2 卡片库洞察、§8.6 开放问题落点)。

§3.5 跨形态迁移:同一套时空脉络在五大机器人形态上的落地差异

时空联合规划是横切方法论——同一套脉络要落到无人机、地面车、机械臂、四足、人形/复合体五种形态上。但落地难度和形态特性差异极大。这一节做一次横向迁移对比,回答"为什么本方向推荐'无人机 → 自动驾驶 → 机械臂 → 四足/人形'的难度递进"。

形态 时空规划相关度 为什么这个难度 典型方法
无人机 / swarm ★★★★★ 微分平坦让时空参数化最干净——整条轨迹由平坦输出代数表达,MINCO 闭式梯度直接可用 EGO-Swarm、MADER、GCOPTER
自动驾驶(基线) ★★★★ 结构化道路 + Frenet 坐标让 (s,l,t) 解耦/联合都有成熟工业代码 Apollo EM、Frenet ST、EPSILON
机械臂(动态避障) ★★★★ 高维构型空间 + 动态障碍,采样类(SIPP-RRT)友好但维度灾难压力大 Safe Interval RRT*、SIPP-MoveIt
四足 / 人形 ★★★ 步态本身就是接触序列 + 时序相位——时空联合隐含在接触调度里,但混合动力学(连续 + 离散接触切换)极难 TOWR、Crocoddyl(本质是 ST 联合优化)
Loco-manipulation(复合体) ★★★★ 移动基座 × 末端接触切换 × 物体动态,天然 ST + hybrid,维度与耦合最复杂 移动操作的时空 + 混合规划

对比性思维(为什么从无人机入手最划算):把这张表按"相关度"和"难度"交叉看,会发现一个反直觉的推荐顺序——相关度最高(★★★★★)的无人机反而是入门最佳,因为微分平坦让它的时空参数化最干净、最不受形态细节干扰。 四足/人形相关度看似低一档(★★★),实则更难——它的时空联合藏在"接触序列调度"这个混合动力学问题里,初学者很难一眼看出"步态规划本质就是时空联合优化"。所以本方向的难度递进不是按相关度排,而是按"时空联合在这个形态上有多直观可见"排:无人机最直观(一条平滑轨迹),自驾次之(ST 图可视化),机械臂再次(高维但仍是轨迹),四足/人形最隐晦(藏在接触里)。这解释了 §1.2 为什么选无人机做完整应用实例——它是观察"时空联合"最清澈的窗口。

本质洞察(横切方法论的"形态不变量"与"形态差异量"):跨五种形态看时空规划,能分离出两层东西——形态不变量(无论什么机器人,"时间是一个需要和空间一起决定的维度"这个核心思想不变,§3.1 的 PVD 失效逻辑普适);形态差异量(时空联合在不同形态上"长什么样"差异巨大——无人机是平滑轨迹、四足是接触序列、复合体是混合动力学)。学一个横切专题的正确姿势,是先抓住形态不变量(这是专题的灵魂,跨形态复用),再针对你的目标形态学差异量(这是落地的细节)。 抓反了——只学某一形态的细节而没抓住不变量——你换个形态就得重学;抓住了不变量,换形态只需补差异量。这是本方向"横切专题 + 应用实例"双层架构的认知红利。

§3.6 脉络的暗面:哪些路被走过又被淘汰了

一条完整的脉络,不只包含"成功活下来的方法",还应包含"试过但被淘汰/边缘化的路"——因为理解为什么某条路走不通,和理解为什么某条路走得通同样重要。这些"暗面"往往不写进教科书,但对避免重复踩坑极有价值。

被淘汰/边缘化的路 曾经的想法 为什么走不通/边缘化 留下的教训
朴素时间离散搜索 把时间按固定步长离散成网格,直接 A* 节点数随时间步长爆炸(一个格子变几百个时空节点) 催生了 SIPP 的"安全区间"压缩——别硬离散连续维
纯人工势场做动态避障 用斥力场实时推开障碍 局部极小、震荡、无法保证可行性 势场只配做辅助,不配做主规划器
全局重规划每帧从零算 每帧都把整条轨迹从头优化 算力浪费 + 帧间不连贯(抖动) 催生了 warm-start / 增量优化——复用上一帧的解
追求"一个求解器解所有场景" 一个万能优化器通吃高速/泊车/竞速 不同场景的最优结构差异太大,万能=都不精 催生了场景化 FSM(Apollo scenario manager)——分场景用专门方法
纯端到端"传感器→控制"(早期) 一个网络从像素直接出方向盘 不可验证 + 数据效率低 + 不可调试 催生了"模块化端到端"(UniAD)——保留可解释的中间表示

本质洞察(淘汰史是另一种脉络):这张"暗面表"和 §3.2 的"成功脉络"是同一段历史的两面——每一个被淘汰的方法,几乎都催生了一个成功的方法:朴素时间离散的爆炸催生了 SIPP,全局重规划的浪费催生了 warm-start,纯端到端的不可调试催生了模块化端到端。这揭示了技术演进的一个深层规律:成功的方法往往不是凭空设计的,而是'对某个失败的精确反应'。 所以读综述时,遇到一个看似"理所当然"的设计(如 SIPP 为什么用安全区间),别只记住它怎么做,要去问"它在反对什么失败"——找到那个被它替代的失败,你才真正理解它的设计动机。淘汰史不是历史垃圾,而是理解成功方法的钥匙。 这也是为什么本方向反复强调"先动机后理论"(R5)——动机往往就藏在某个被淘汰的前驱里。


四、四大流派分化:同一座山的四条水系

脉络(§3)是按时间纵向看演进。这一节横向切——把今天并存的方法按"怎么处理时空耦合"归成四大流派,逐一剖析其核心思想、换来了什么、付出了什么。这四大流派恰好对应 §3 脉络里沉淀下来、至今仍在用的四种范式,也精确分布在 §2 轴1(时空联合程度)的四个区段上。

本质洞察(流派 vs 脉络的区别):脉络回答"先有谁后有谁",流派回答"今天有哪几类、怎么选"。一个领域成熟的标志,就是早期的"时间先后"沉淀成了稳定的"并存流派"——后来者不再废黜前辈,而是各占生态位。读综述时,脉络给你历史感(理解动机),流派给你决策框架(指导选型)。 二者缺一不可。

四流派一览(详展见 §4.1–§4.4,这里先给一张定位锚):

流派 联合程度(轴1) 核心机制 一句话灵魂 代表
一 解耦迭代 半联合 先路径后速度 + EM 迭代补偿 假装能分离,再迭代修正 Apollo EM
二 走廊+QP 联合搜+优 在 (s,l,t) 圈凸走廊再 QP 在联合空间圈出安全地带 SSC/EPSILON
三 连续优化 完全联合 时间作决策变量一次解 时间是变量,联合到底 MINCO/TEB/OBCA
四 端到端 天然联合 网络直接吐时空轨迹 不建模,从数据学联合 UniAD/Diffusion

这四行沿 §2 轴1 从上到下单调递进——这不是巧合,而是 §3 脉络"补洞链"(§4.6)沉淀的结果。下面逐流派深挖。

§4.0bis 为什么"四大流派"是四个而非更多或更少

在展开四大流派之前,值得先回答一个元问题——为什么恰好是四个流派?这不是随意的"凑整",而是有结构性原因的。

回到 §2.1 轴1(时空联合程度),它是一条连续轴,两端分别是"完全解耦"和"天然联合"。理论上这条轴上可以有无穷多种方法。但在工程实践中,沿这条轴自然形成了四个稳定的聚集点——因为每个聚集点对应着一个在特定约束条件下的帕累托最优

聚集点 为什么稳定 它在什么约束下是帕累托最优的
半联合(流派一) 子问题保凸、可实时,迭代可收敛 约束:必须实时 + 必须可调试 + 容忍弱耦合次优
联合搜优(流派二) 走廊几何保凸、搜索跨同伦类 约束:要处理动态障碍 + 要凸保证 + 容忍走廊保守度
完全联合(流派三) 联合非凸优化当代可解(闭式梯度/稀疏结构) 约束:要最优轨迹 + 有好初值 + 容忍在线计算贵
天然联合(流派四) 离线训练一次性付清、在线推理极快 约束:有大量数据 + 容忍黑箱 + 有安全兜底层

四个聚集点之间的"中间地带"不是不存在,而是不稳定——略偏左就不如直接落到左边的聚集点(纯粹更容易实现),略偏右就不如直接落到右边的聚集点(能力更强)。这和化学里的"稳定同素异形体"类似——碳可以是石墨也可以是钻石,但中间态不稳定。

对比性思维(流派数量的"为什么"):如果技术持续演进,可能出现第五个聚集点——比如"可微优化 + 学习"的混合点(§前沿补遗已讨论的"可微 MPC 层")。它之所以目前还不算独立流派,是因为它还没有形成足够稳定的工程生态和方法论共识。但如果 acados+leap-c 路线在 2027 年形成标准化的工具链和一批成功案例,它可能会从"流派三的延伸"升格为"独立的流派五"。流派数量不是永远固定的——它随工程生态的稳定化而增长

§4.1 流派一:解耦迭代(PVD + EM)——半联合

核心思想。 坚持 PVD 的"先路径后速度"分解,但用 EM 迭代补偿耦合损失:Path 优化和 Speed 优化交替进行、互相用对方的最新结果更新自己的约束,多轮迭代后两者趋于一致。代表是 Apollo EM Planner。

时空联合程度:半联合。 联合不是在一次求解里完成,而是通过 Path↔Speed 的迭代逐步逼近。每一轮内部仍是解耦的(固定一个优另一个),只是多轮后收敛。比纯 PVD 强(不止一轮),比一次性联合弱(仍分步)。

换来 / 付出: - 换来:实时性 + 工程可靠性。每个子问题是凸的(或近凸),可用成熟 QP(OSQP)毫秒级求解,SL/ST 两图可分别可视化、分别调参——工业系统敢用、好调。 - 付出:强耦合场景失效。城市路口需同时定"绕行还是直行"和"加速还是减速",分步迭代可能收敛到次优,甚至来回震荡。EM 迭代是给这个赌注上的"保险",但保险不万能——迭代次数有限、每轮仍解耦。

§4.2 流派二:走廊 + QP——联合搜索 + 联合优化

核心思想。 不先定路径,而是直接在 \((s, l, t)\) 三维联合空间里,把"安全可通行区域"表示为一串凸多面体(cube)序列——这就是时空走廊(spatio-temporal corridor)。先用搜索(ST 图 DP / 时空 A*)找走廊骨架,再在走廊约束内用 QP 优化平滑轨迹。代表是 HKUST 的 SSC(Spatio-temporal Semantic Corridor)和建于其上的 EPSILON。

时空联合程度:联合搜索 + 联合优化。 关键跃迁是——安全区域本身就定义在时空联合空间里。每个 cube 同时约束空间位置 \((s, l)\) 和时间 \(t\):"在 \(t_1\)\(t_2\) 这段时间,车必须待在这个空间立方体内"。动态障碍被表示为时空里的"禁入区",走廊自动绕开。路径和速度被走廊几何同时约束,不再分两步。

换来 / 付出: - 换来:对动态交互的自然处理。横穿车流、切入车辆这类需"时空配合"的场景,走廊直接表达"何时该在哪",比 EM 迭代更直接、不易震荡。 - 付出:走廊生成的复杂度。如何从 ST 图/语义生成一串"既安全又不过度保守"的凸走廊本身有难度——太窄过保守(错过可行解),太宽含不安全区。

对比性思维(流派二 vs 流派一):流派一是"先选一条路,再看这条路上时间怎么安排";流派二是"先圈出所有时空上安全的区域,再在里面找轨迹"。前者像"先订好路线再看红绿灯",后者像"先看清整个路口的时空通行规则,再规划怎么穿过"。后者天然适合动态交互,因为它从一开始就把时间当作约束的一部分,而非事后补上的第二步。 这也是为什么城市强交互场景(HKUST EPSILON 主打)偏爱走廊而非纯 EM 迭代。

§4.3 流派三:连续优化——完全联合

核心思想。时间直接作为优化变量,在完整状态空间 \((x, y, \theta, v, t)\) 里一次性求解整条时空轨迹,没有任何分解。代表方法谱系很广: - CILQR(约束迭代 LQR):把问题转成一串 LQR 子问题,自驾局部规划主流; - TEB(Timed-Elastic-Band):把轨迹建模成带时间戳的弹性带,用 g2o 稀疏图优化,ROS 导航生态标配; - OBCA(Optimization-Based Collision Avoidance):把碰撞约束对偶化为可微形式,专攻泊车等紧凑场景; - MINCO / GCOPTER:最小控制量参数化 + 时间分配闭式优化,无人机轨迹生成当代主力。

时空联合程度:完全联合。 空间、速度、时间在同一优化问题里同时决定。时间可固定(MPC 的固定 horizon)也可优化(MINCO 的时间分配、CPC 的时间最优)。这是"时空联合"最纯粹的形态。

换来 / 付出: - 换来:最优性 + 灵活性。一次性优化能找到全局协调的轨迹,约束(动力学、碰撞、舒适)可精确表达。竞速(CPC 时间最优)、泊车(OBCA 紧凑空间)这类对轨迹质量要求极高的场景,必须用连续优化。 - 付出:非凸性 vs 实时性的矛盾。完整时空轨迹优化通常非凸,求解慢、可能局部最优、对初值敏感。这正是流派一当年要用 PVD 妥协的根源——连续优化数学最干净,但计算最吃力。各方法(CILQR 二次近似、TEB 稀疏结构、MINCO 闭式梯度)本质都在"让这个非凸问题解快一点"。

本质洞察(流派三是流派一的"理想反面"):流派一(解耦)和流派三(连续优化)是同一个问题的两极——解耦为了实时性牺牲了联合性,连续优化为了联合性牺牲了实时性。 中间的流派二(走廊)是折中(搜索缩小范围 + QP 保证凸性)。理解这个"实时性 vs 联合性"的根本权衡,就理解了三大流派为什么这样分布——它们是同一条权衡曲线上的三个取点。而流派四(学习生成)的出现,正是因为有人想跳出这条曲线本身。

§4.4 流派四:端到端生成——天然联合

核心思想。 让神经网络从数据直接学"观测 → 时空轨迹"的映射,输出带时间戳的点序列 \((x_t, y_t)\),完全绕过显式的路径/速度/代价建模。代表是 UniAD(模块化端到端,query 贯通感知-预测-规划)和 Diffusion Planner(扩散式,把轨迹生成建模为去噪过程)。

时空联合程度:天然联合。 网络输出的就是带时间戳的轨迹点序列,路径和速度浑然一体、从未分开。这不是"联合求解",而是"联合根本不是一个需要单独处理的问题"。

换来 / 付出: - 换来:信息保真 + 目标一致 + 多模态。绕过人为接口(检测框、代价函数)避免信息损失;端到端优化最终目标(把车开好)而非中间指标;扩散等生成模型天然表达多模态(路口"抢行 vs 让行"两个都合理)。 - 付出:可解释性与可验证性。神经网络是黑盒,无法形式化证明"绝不撞"——这是它至今难大规模量产的核心障碍。工业界的务实答案是"生成-验证":网络生成候选 + 经典栈(流派一/二/三)做安全兜底。

对比性思维(流派四 vs 前三流派:性质差异而非程度差异):前三种流派都是"人告诉机器怎么算"(设计代价、约束、求解器),第四种是"机器从数据学怎么算"。这不是程度差异,是性质差异。 前三种的能力上限由工程师的设计水平决定,第四种由数据规模决定。长期看数据驱动可能跑赢人工设计——但前提是解决可验证性。所以流派四不是前三者的"替代者",而是"上游创意引擎 + 经典栈兜底"混合架构里的一半。

§4.5 四流派的统一视角:三个棱镜看同一组方法

把四大流派放在一起,沿 §2 轴1 看到的是"时空联合程度单调增强"。但同一组流派从不同棱镜看,会显出不同纹理——多棱镜交叉印证,才能真正看透它们的关系。

棱镜 四流派呈现的规律 这个棱镜解释了什么
计算棱镜(轴5) 计算负担从在线向离线转移 为什么流派四能"又快又联合"——它把难的部分挪到了离线
信息棱镜 信息损失逐步减少 为什么流派四在复杂场景潜力大——它丢的信息最少(连代价函数都不要了)
工程棱镜 可验证性逐步丧失 为什么工业界对流派四又爱又怕——它最强,但赌不起安全

多视角的价值(本质洞察):同一组流派,计算棱镜看到"算力转移"、信息棱镜看到"损失减少"、工程棱镜看到"可控性丧失"——三个棱镜指向同一个权衡的不同侧面:能力越强(信息损失越少),可控性越差(可验证性越低),代价是把计算押到了离线。 这不是三个独立现象,而是同一枚硬币的三面。看懂这一点,你对"为什么不能简单地说流派四比流派一好"就有了立体理解——它们在不同棱镜下各有胜负。这也是综述区别于教程的标志:教程教你每个流派怎么用,综述教你用多个棱镜同时审视它们的取舍。

§4.6 流派演进的内在逻辑:每一派都是在补前一派的"洞"

把四大流派按时空联合程度排成一条线后,会发现它们不是随机散布的,而是一条"补洞链"——每一派的诞生,都是为了补前一派留下的某个具体的洞。理解这条补洞逻辑,比单独记住四个流派的特性更深一层。

流派一 解耦迭代
   洞:强耦合场景失效(分步丢耦合信息)
   ↓ 补洞 →
流派二 走廊+QP
   补了什么:在联合空间圈安全区,强耦合下不再分步
   新洞:走廊生成保守、依赖障碍轨迹已知、时间仍受走廊形状约束
   ↓ 补洞 →
流派三 连续优化
   补了什么:时间成为完整决策变量,约束精确,最优性可证
   新洞:非凸→慢、挑初值、实时性差、仍需人工设计代价
   ↓ 补洞 →
流派四 端到端生成
   补了什么:离线训练绕开在线实时性,连代价函数都不用设计
   新洞:黑箱不可验证、分布外脆弱——这个洞至今没补上(§8.2)

这条补洞链揭示了三件事:

  1. 演进有方向性,不是随机试错。 每一派都精确瞄准前一派最痛的那个洞——流派二瞄准解耦的"强耦合失效",流派三瞄准走廊的"时间受限/保守",流派四瞄准连续优化的"在线慢"。方法演进是问题驱动的,不是技术炫技。
  2. 补洞总是引入新洞,没有终极方法。 流派四补上了"在线慢",却挖出了"黑箱不可验证"这个更难的洞——而且这个洞至今没人补上(这正是 §8.2 的开放问题)。这暗示:方法演进可能永远在补洞,而非走向某个完美终点。
  3. 新洞往往比旧洞更难。 旧洞(强耦合失效、非凸慢)是"工程难题",有渐进的解法;流派四的新洞(可验证性)是"原理难题",可能需要范式级突破才能补上。演进不是单调变好,而是把问题推向越来越根本的层次。

本质洞察(补洞链与"债务转移"是同一回事的两种说法):§3.2 说演进是"计算负担从在线向离线转移",这里说演进是"补洞链"——二者是同一过程的两个视角。 流派一欠下的"耦合债"(§3.1),流派二/三逐步偿还(补洞),但流派三偿还耦合债时又借了"实时性债"(非凸慢),流派四用"离线训练"还掉实时债、却借了"可验证性债"。债从来没有被消灭,只是从一种形式转成另一种形式、从一个地方挪到另一个地方。 这个"债务永不消失、只会转移"的规律,是理解本方向(乃至整个工程领域)演进的一把万能钥匙——它在 §8.1(实时vs联合的张力只能转移不能消灭)里会再次出现。真正的工程智慧,不是幻想还清所有债,而是判断'当前应用最能承受哪种债',然后把债转移到那里。

§4.7 同一场景,四流派各怎么做:一次正面对决

最能看清四流派差异的方式,是把它们放进同一个场景,看各自怎么处理。沿用 §3.1 的 cut-in 场景(右侧车切入你的前方),逐流派走查它们的应对,这是最直接的"对比综合"。

流派 怎么处理 cut-in 产出 这个产出暴露了什么
一 解耦迭代 第一轮定直行路径、排速度(被迫减速);EM 迭代后路径微调、速度再调,多轮逼近 减速为主 + 路径小幅修正 迭代能部分补偿,但起点是"先定死路径",修正有限
二 走廊+QP 把切入车建成 (s,l,t) 时空禁入区,构造绕开它的时空走廊,QP 在走廊内求解 左偏 + 维持速度(走廊自然引导) 时空走廊天然表达"何时该在哪",强耦合处理直接
三 连续优化 把路径、速度、时间放进一个 NLP,碰撞约束含切入车轨迹,一次联合求解 全局协调的最优轨迹(左偏 + 速度微调) 最优但需好初值;非凸求解慢
四 端到端 网络见过海量类似 cut-in 数据,直接吐出一条(或多条候选)应对轨迹 多模态候选(让行/超越/绕行各一条) 多模态天然,但为何这样吐说不清(黑箱)

把四个产出并排看,差异一目了然:

  • 流派一的解最保守(减速为主),因为它的起点是过早承诺路径;
  • 流派二/三的解质量更高(左偏 + 维持速度),因为它们正面联合处理时空;
  • 流派四的解最丰富(多模态候选),但最不可解释(说不清为什么)。

本质洞察(正面对决揭示的"能力-代价"对应):这次对决把抽象的流派差异钉死在一个具体产出上——你能清楚看到"更联合"换来了"更优的解"(流派一的减速 → 流派二/三的左偏维速),而"学习化"换来了"多模态"但丢了"可解释"(流派四的候选丰富但黑箱)。 这正是 §5.1 优劣矩阵每一行的微观来源——矩阵里"强耦合场景能力"流派一两星、流派二/三四星,对应的就是这里"减速 vs 左偏维速"的产出差;"多模态表达"流派四五星,对应的就是这里"多条候选"。当你能把一张优劣矩阵还原成一个具体场景里的不同产出,你就真正理解了这张矩阵——它不再是抽象评分,而是一组可预期的、看得见的行为差异。 这是综述对比综合的最高境界:让抽象的对比,落地成具体的、可验证的行为预期。


五、优劣矩阵与代表方法卡片

§4 定性地比了四大流派。这一节给出定量的优劣矩阵——把四大流派(及其代表方法)摆在一组评分维度上打分,再为最值得记住的几个方法做"标准化卡片"。这是综述里"对比综合"最浓缩的产物,也是 §6 选型决策的直接依据。

§5.1 四流派优劣矩阵

评分维度选 §2 五轴里对选型最关键的几条,外加工程现实最关心的"生态成熟度"和"实时性"。评分用相对刻度(⭐ 越多越强 / 越满足),不是绝对值——综述的对比矩阵,重在横向相对关系而非精确数字。

维度 流派 流派一 解耦迭代 流派二 走廊+QP 流派三 连续优化 流派四 端到端
时空联合程度 ⭐⭐(半联合) ⭐⭐⭐⭐(联合搜+优) ⭐⭐⭐⭐⭐(完全) ⭐⭐⭐⭐⭐(天然)
强耦合场景能力 ⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
实时性(在线) ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐(非凸慢) ⭐⭐⭐⭐⭐(前向快)
最优性保证 ⭐⭐(迭代次优) ⭐⭐⭐(走廊内最优) ⭐⭐⭐⭐(局部最优可证) ⭐(无保证)
可验证性 / 可解释 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐(黑箱)
多模态表达 ⭐⭐(需显式枚举) ⭐⭐⭐(同伦类枚举) ⭐⭐(单解为主) ⭐⭐⭐⭐⭐(天然)
C++ 生态成熟度 ⭐⭐⭐⭐⭐(Apollo) ⭐⭐⭐⭐(SSC/SIPP) ⭐⭐⭐⭐(GCOPTER/TEB/acados) ⭐(PyTorch 为主)
对初值敏感度(越少星越敏感) ⭐⭐⭐⭐(鲁棒) ⭐⭐⭐⭐ ⭐⭐(敏感,需 warm-start) ⭐⭐⭐(端到端无初值概念)
调试 / 落地友好度 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐(难调、难定位失败)

怎么读这张矩阵? 三个关键观察:

  1. 没有一行全是五星——没有"最好的流派",只有"最适合某场景的流派"。 流派四在联合程度、多模态、实时性上碾压,却在可验证性、生态成熟度上垫底;流派一反之。这正是 §4.5"同一枚硬币三面"的量化体现。
  2. "实时性"和"可验证性"两行,流派一和流派四同时高/低,对角呼应。 流派一靠"分步求解凸子问题"既快又可验证;流派四靠"离线训练 + 在线前向"快,但黑箱不可验证。它们的快是两种完全不同的快——一个是"问题简单所以快",一个是"算力前置所以快"。
  3. "C++ 生态成熟度"这一行与"时空联合程度"几乎反相关——再次印证 §1.3 的反直觉规律:越前沿越不成熟。

本质洞察(优劣矩阵的正确用法):初学者拿到这种矩阵,容易去数"谁的星星总数最多"——这是误用。 矩阵的价值不在"总分排名",而在让你看清每个流派的"强项-弱项配对":流派一是"可靠但不够联合",流派三是"最优但慢且挑初值",流派四是"最强但黑箱"。选型不是选总分最高的,而是选"强项命中你的硬需求、弱项落在你能容忍的地方"的那个。 比如车规量产的硬需求是可验证性——那一刻流派四的满天五星瞬间归零,因为它的弱项(黑箱)落在了你绝不能容忍的地方。这就是 §6 决策树的底层逻辑。

§5.2 代表方法卡片(标准化速查)

为本专题最值得记住的方法各做一张标准化卡片——这是综述的"长期参考资产",做选型或回忆时直接查。每张卡片统一字段:所属流派 / 求解范式(§2 轴2)/ 一句话核心 / 最适场景 / 最大软肋 / C++ 抓手

卡片 1 · Apollo EM Planner - 流派:一(解耦迭代)|范式:优化(DP + QP 迭代) - 核心:SL 图定路径、ST 图排速度,Path↔Speed EM 迭代补偿耦合 - 最适:高速结构化道路、需工业级可靠性与可调试性 - 软肋:城市强耦合场景次优/震荡 - C++:ApolloAuto/apollo modules/planning(Apache-2.0,~26k⭐)——全专题最值得精读的工业 C++

卡片 2 · SIPP(Safe Interval Path Planning) - 流派:二(时空搜索)|范式:搜索(A* 变体) - 核心:把每格时间轴压成"安全区间",状态 = (格子, 安全区间),避免逐时刻离散的节点爆炸 - 最适:动态障碍下的栅格/lattice 时空搜索、做前端初解、MAPF 低层 - 软肋:依赖障碍轨迹已知/可预测;连续动力学需额外处理 - C++:libMultiRobotPlanning(MIT,含 SIPP/CBS/ECBS);MoveIt 动态避障插件

卡片 3 · SSC / EPSILON - 流派:二(走廊+QP)|范式:搜索 + 优化 - 核心:在 (s,l,t) 构造语义时空走廊(凸 cube 序列),把非凸避障转成凸 QP;EPSILON 在其上加 EUDM 行为分支 - 最适:城市动态交互(cut-in、横穿、抢行让行) - 软肋:走廊生成的"保守 vs 激进"难平衡;分支数受算力限 - C++:HKUST-Aerial-Robotics/EPSILON(MIT,~677⭐,纯 C++/ROS)——城市交互的唯一生产级 C++ 抓手

卡片 4 · MINCO / GCOPTER - 流派:三(连续优化)|范式:优化(无约束梯度 + 时间变量) - 核心:航点 + 段时间稀疏参数化,空间与时间梯度闭式可微,时空一次联合优化 - 最适:无人机轨迹生成、对轨迹质量/平滑度要求高、需在线重规划 - 软肋:非凸需好初值(前端搜索 warm-start);约束以走廊形式引入 - C++:ZJU-FAST-Lab/GCOPTER(MIT,~1.2k⭐,header-only)——现代时空优化教科书代码

卡片 5 · TEB(Timed-Elastic-Band) - 流派:三(连续优化)|范式:优化(g2o 稀疏图) - 核心:轨迹 = 带时间戳的位姿序列(弹性带),时间间隔是优化变量,超图稀疏优化 - 最适:地面移动机器人局部规划、ROS Nav 生态、中低速动态避障 - 软肋:局部最优、多模态需并行多带;高速/高动态偏弱 - C++:teb_local_planner(BSD,ROS/ROS2 官方导航插件)

卡片 6 · OBCA(Optimization-Based Collision Avoidance) - 流派:三(连续优化)|范式:优化(对偶化碰撞约束 NLP) - 核心:把"凸物体不重叠"对偶化为光滑可微约束,配 Hybrid A* warm-start - 最适:泊车、开放空间、紧凑低速、需精确避障的场景 - 软肋:高维/高速实时性差;依赖 warm-start 质量 - C++:XiaojingGeorgeZhang/H-OBCA、Apollo open_space 模块

卡片 7 · MADER / EGO-Swarm - 流派:三(连续优化)+ 多机扩展|范式:优化(MADER: MIQP;EGO: 梯度) - 核心:单机时空轨迹优化 + 多机互斥约束 + 去中心化异步协商 - 最适:多无人机 + 动态障碍、去中心化集群 - 软肋:通信延迟/丢包鲁棒性(RMADER 部分解决);规模受限于协商开销 - C++:mit-acl/mader(~600⭐)、ZJU-FAST-Lab/ego-planner-swarm(GPLv3)

卡片 8 · ST-RRT* - 流派:二/三(采样式时空)|范式:采样(渐近最优 RRT) - 核心:在 space-time 上做时间最优采样规划,概率完备 + 渐近最优 - 最适:高维机械臂动态避障、无良好参考线的非结构化场景 - 软肋:收敛慢、解质量初期差;高维下采样效率低 - C++:ompl/ompl(BSD,原生支持 space-time)

卡片 9 · UniAD / Diffusion Planner - 流派:四(端到端生成)|范式:学习(IL + 模块化 / 扩散) - 核心:网络从感知直接输出时空轨迹;扩散天然多模态 - 最适:复杂城市场景、多模态决策、追求信息保真与目标一致(研究/预研) - 软肋:黑箱不可验证、分布外脆弱、C++ 部署鸿沟 - C++:无原生(PyTorch;部署需 ONNX/TensorRT 自研封装)

本质洞察(卡片库就是一张"方法地图"):把这 9 张卡片的"流派 + 范式 + 最适场景"抽出来排成一行,你会发现它们恰好覆盖了 §2 轴1(联合程度,从 Apollo 的半联合到 UniAD 的天然联合)和轴2(求解范式,搜索 SIPP / 优化 MINCO / 采样 ST-RRT* / 学习 UniAD)的完整谱系。这不是巧合——一个成熟领域的代表方法,必然在它的核心坐标轴上铺满。当你能把一个陌生新方法快速归到这 9 张卡片中最接近的一张旁边,你就真正掌握了这个领域的地图。 这正是综述训练的终极能力:不是记住所有方法,而是建立一个能容纳新方法的坐标系。

§5.3 设计空间全景:从"参数化"和"约束处理"两个正交维度切

§5.1 的优劣矩阵是"结果导向"的对比(最优性、实时性等)。但要真正理解四大流派为什么有这些得失,还需要切到"机制导向"的设计空间——看它们在两个最核心的设计选择上如何取舍。这两个维度是时空规划方法的"内部基因":① 轨迹怎么参数化?② 避障约束怎么处理(怎么把非凸的避障变得可解)?

维度一:轨迹参数化(决定解空间的形状与维度)。

参数化方式 代表方法 时间怎么处理 优劣
分段多项式(固定时间) Apollo piecewise-jerk、Frenet 多项式 时间是预设的固定网格 凸、快;但时间不可优化
B 样条 / Bézier(凸包性质) EGO-Planner、MADER 控制点 + 节点向量隐含时间 凸包性质让走廊约束变线性约束
MINCO(航点 + 段时间) GCOPTER 段时间 \(T_i\) 是显式决策变量 时空联合最干净,闭式梯度
带时间戳的位姿序列 TEB 时间间隔逐段优化 直观、稀疏图友好;维度高
状态-时间网格(离散) SIPP、ST-A* 时间是搜索维度(或安全区间) 完备/最优;但离散爆炸
隐式(网络输出) UniAD、Diffusion 时间戳由网络直接吐出 天然联合;不可解析约束

维度二:避障约束处理(决定问题凸不凸、能不能实时解)。

避障的本质是"轨迹不能进入障碍占据的区域"——这是一个非凸约束(障碍外部不是凸集)。整个时空规划的求解难度,很大程度上取决于"怎么把这个非凸约束变得可解"。四种主流手段:

约束处理手段 代表方法 把非凸变成什么 代价
凸走廊分解 SSC、SFC、IRIS 一串凸多面体(轨迹在走廊内 = 线性约束) 走廊生成的保守性
对偶化(OBCA) OBCA、H-OBCA 光滑可微的对偶约束(KKT) 引入对偶变量、规模增大
软约束惩罚 TEB、EGO-Planner 代价函数里的惩罚项(碰撞惩罚) 不保证硬安全、需调权重
离散枚举(搜索) SIPP、CBS 在离散图上直接避开占用节点 分辨率/状态爆炸
数据隐式学习 UniAD、Diffusion 网络从数据学"什么轨迹安全" 无硬保证、分布外脆弱

本质洞察(两个设计维度解释了所有得失):§5.1 优劣矩阵里的每一个评分,几乎都能从这两个设计维度推出来。为什么流派三(连续优化)最优但慢? 因为它用 MINCO/对偶化追求"时间可优化 + 约束精确"——这必然引入非凸,所以慢。为什么流派一(解耦)快但不够联合? 因为它用"固定时间网格 + 凸走廊/box 约束"把问题压成凸 QP——凸所以快,但固定时间就放弃了时空联合。为什么流派四(端到端)联合但黑箱? 因为它用"隐式参数化 + 数据隐式学约束"——绕过了所有显式建模,所以联合且快,但也因此无硬安全保证。看懂这两个维度,你就不再是'记住'四流派的优劣,而是能'推导'出它们——给定任意一种新的参数化 + 约束处理组合,你能预判它的得失。 这是从"知道结论"到"理解机制"的跨越,也是综述设计空间分析的终极目的。

§5.4 方法散点图:在"联合程度 × 可验证性"平面上看全谱系

把 §5.2 的代表方法投影到两条最关键的轴上——横轴时空联合程度(轴1)、纵轴可验证性——能一眼看清整个谱系的分布,以及那条贯穿全文的权衡曲线。

可验证性
   高 │ Apollo●        ●SSC/EPSILON                       
      │ (解耦,半联合)   ●SIPP    ●TEB                       
      │                          ●MINCO  ●OBCA              
      │                          ●MADER  ●ST-RRT*           
      │                                    (连续,完全联合)   
   低 │                                          ●UniAD     
      │                                          ●Diffusion 
      └──────────────────────────────────────────────────► 时空联合程度
        半联合      联合搜优      完全联合           天然联合

这张散点图揭示一条清晰的"反对角线"——方法大致沿"左上(可验证但不够联合)到右下(联合但不可验证)"分布,左上角无方法(没有"既不联合又不可验证"的方法,那毫无价值),右上角是空白——那里本该是"既完全联合又完全可验证"的理想方法,但它不存在(这正是 §8.2 的圣杯、§8.1 的根本张力)。

本质洞察(散点图的空白处就是研究前沿):读这种方法散点图,最有价值的不是有点的地方,而是没点的地方。 右上角的空白(联合 + 可验证)不是因为没人想做,而是因为这个组合在数学上极难——可验证性要求显式、可解析的结构,而最高联合程度(天然联合)目前只有黑箱网络能达到,二者天然矛盾。这个空白,就是整个领域最大的研究机会所在(§8.2 的"可验证学习式规划"正是冲它去的)。学会读散点图的空白,你就能在任何领域里用一张图定位出"值得攻的方向"——这是综述训练给你的、比记住任何具体方法都珍贵的能力。有点的地方是已知,空白的地方是未来。

§5.5 一个"误用优劣矩阵"的反例剖析

为了让你真正学会用矩阵,剖析一个典型的误用——这比正面教学更能防止犯错。

误用场景:某团队要给一个低速园区配送车选规划方案。他们打开 §5.1 优劣矩阵,数了数每列的星星总数,发现流派四(端到端)在"时空联合程度、强耦合能力、实时性、多模态"四行都是满星,总分最高,于是决定上端到端。

错在哪? 三层错误,逐层剖析:

  1. 数总分本身就错(§5.1 观察)。矩阵不是用来算总分的——流派四那些满星(联合、多模态)对"低速园区配送"这个场景根本不是硬需求。园区路况简单、速度低、交互弱,既不需要强耦合能力,也不需要多模态决策。给不需要的能力打满分,对选型毫无意义。
  2. 忽略了致命的弱项行。流派四在"可验证性"和"C++ 生态成熟度"两行垫底——而园区配送车是要实际部署、要安全的产品,这两行恰恰是它的硬需求。流派四的强项落在用不上的地方,弱项落在要命的地方——这是最差的匹配。
  3. 跳过了范式层判断(§6.4)。配送车虽不像 Robotaxi 那样高危,但仍是要落地的产品,范式层就该优先考虑可验证、生态成熟的方案。

正确的做法:这个场景路况简单、弱耦合、要落地——按 §6.1,Q1 判定弱耦合,直接流派一(解耦)甚至更简单的方案就够,重心放在工程可靠性而非算法先进性。用流派一的低成本,解决一个本就不需要流派四能力的问题。

本质洞察(误用矩阵的根:用"方法的强项"而非"场景的需求"驱动选型):这个反例的根本错误,是让"方法有什么强项"驱动选型,而非让"场景需要什么"驱动选型——看到流派四满星就想用它,而没先问"我的场景到底需要哪几行"。正确的选型流程是反过来的:先列出你的场景的硬需求(哪几行是必须满足的、哪几行无所谓),再去矩阵里找'硬需求行都达标、且代价可接受'的流派。 这是一个"需求驱动"而非"方法驱动"的过程。记住:矩阵的列(方法)是给定的,你要做的是用你的场景去筛选列,而不是被列的星星总数牵着走。 这个"需求驱动选型"的纪律,配合 §6.6 的反模式清单和 §6.7 的速查卡,构成了完整的选型免坑体系。


六、选型决策:给定场景,该用哪个流派

前面建立了脉络(§3)、流派(§4)、优劣矩阵(§5)。这一节把它们收束成可执行的决策——拿到一个真实场景,三十秒内定位到合适的流派与方法。这是整篇综述最有"回查价值"的一节。

§6.1 三个决策问题:用假设轴框定场景

选型不要一上来就问"用 MINCO 还是 EPSILON"——那是问错了层次。正确的顺序是先用 §2 的假设轴框定"我的场景有多不理想",再用手段轴挑招。三个问题按优先级排开:

Q1(轴1 联合程度):路径和速度强耦合吗?
   ├─ 否(高速结构化,路基本定死,主要决策速度)
   │     → 流派一 解耦迭代(Apollo EM)就够,别上重武器
   └─ 是(cut-in / 动态绕障 / 抢行 / 竞速 / 泊车)
         → 必须时空联合,继续问 Q2

Q2(场景规模与空间结构):单体还是多体?结构化还是开放空间?
   ├─ 单体 + 结构化道路 + 强交互
   │     → 流派二 走廊+QP(SSC/EPSILON)
   ├─ 单体 + 开放空间/紧凑(泊车)或竞速(极致质量)
   │     → 流派三 连续优化(OBCA 泊车 / MINCO 竞速 / TEB 地面导航)
   └─ 多体(集群/仓储)
         → 流派三多机扩展(MADER/EGO-Swarm)或多机专题 CBS/LaCAM

Q3(是否押注未来 / 接受黑箱):要可验证还是要能力上限?
   ├─ 要可验证(车规量产、安全攸关)
   │     → 锁定流派一/二/三,流派四只能做"生成候选 + 经典兜底"的上游
   └─ 押注未来 / 研究探索 / 复杂长尾
         → 流派四 端到端(UniAD/Diffusion),但接受工程不成熟

§6.2 场景 → 方法决策表

把常见场景直接映射到推荐方法,做成一张可直接查的表。每行给"为什么"和"代价"——选型不能只知道"用什么",必须知道"为什么用它、用它要付什么代价"。

场景 推荐流派/方法 为什么 代价 / 注意
高速公路巡航/跟车 流派一 Apollo EM 路径弱耦合,解耦够用且最可靠 上联合方法是杀鸡用牛刀
城市路口 cut-in/抢行 流派二 EPSILON 强交互需"何时该在哪",走廊天然表达 + 行为分支 走廊保守度需调;分支数受限
自动泊车/窄位 流派三 OBCA + Hybrid A* 低速紧凑、算力充裕,可负担非凸精确避障 实时性差,仅适合低速;依赖 warm-start
无人机竞速/极限轨迹 流派三 MINCO/CPC 对轨迹质量极致要求,时间最优必须完全联合 非凸、挑初值;需前端搜索 warm-start
地面机器人室内导航 流派三 TEB ROS 生态成熟、中低速动态避障够用 局部最优;高动态偏弱
多无人机集群穿障 流派三多机 MADER/EGO-Swarm 去中心化、动态障碍、可扩展 通信鲁棒性;规模受协商开销限
大规模仓储 AGV(百台+) 多机专题 LaCAM/PIBT(次优) 规模优先,主动放弃最优换实时(§2.3) 牺牲最优性;需中心调度
高维机械臂动态避障 流派二/三 ST-RRT*/SIPP-RRT 高维连续 + 动态障碍,采样类友好 收敛慢;解质量初期差
复杂城市长尾/多模态决策 流派四 UniAD/Diffusion(+经典兜底) 多模态、信息保真,人工设计难穷举 黑箱不可验证;必须经典栈兜底

遇到"跨多行的复合场景"怎么办? 真实项目常常不是单行——比如"城市自动驾驶"同时包含高速段(弱耦合)、路口(强交互)、泊车(紧凑空间)。此时不要试图用一个方法通吃所有段(这正是 §3.6 淘汰史里"追求万能求解器"的坑),而应按场景分段、各段用各段最优的方法,用一个场景管理器(FSM)在它们之间切换——这正是 Apollo scenario_manager 的设计:车道保持用解耦、泊车用 OBCA、路口用带交互的规划,FSM 根据当前场景调度对应的规划器。复合场景的选型答案,不是"选一个方法",而是"选一组方法 + 一个调度器"。 这个"分场景 + 调度"的思路,是工业规划栈应对场景多样性的标准答案。

§6.3 一个常被忽视的选型陷阱:过度联合

选型综述如果只讲"什么时候要更联合",会诱导一个危险的倾向——以为越联合越好,遇事就上连续优化甚至端到端。这是错的。

本质洞察(反向选型同样重要:不要过度联合):选型有两个方向,"该联合时别解耦"和"不该联合时别瞎联合"同等重要。高速公路上路径弱耦合,硬上完整时空连续优化,换来的是:求解慢了一个数量级、引入了非凸局部最优风险、调试难度暴增——而最优性几乎没提升(因为本来就弱耦合)。这是用流派三的成本买流派一的收益,纯亏。 §6.1 把 Q1(强耦合吗)放在第一位,正是为了先挡住这种"过度联合"的冲动。好的工程师不是会用最强的方法,而是会用最便宜的能解决问题的方法。 这条判断不止适用于时空规划——它是整个本方向选型的元原则。

§6.4 决策的元层次:选型本身也分三层

最后点出一个综述层面的洞察——上面讲的都是"算法选型",但真实项目的选型其实是三层嵌套的,算法只是最里层:

层次 选什么 关键问题 本文覆盖
范式层 解析方法 vs 学习方法 要可验证还是要能力上限? §4.4、§6.1 Q3
流派层 四大流派选哪个 时空耦合多强、规模多大? §6.1 Q1/Q2、§6.2
实现层 具体库/方法选哪个 生态成熟度、团队熟悉度、许可证? §5.2 卡片

对比性思维(三层选型的优先级):新手常常直接跳到实现层纠结"用 GCOPTER 还是 TEB",却没先在范式层和流派层想清楚。正确顺序是从外往里:先定范式(这个项目敢不敢用黑箱)→ 再定流派(时空要多联合)→ 最后定实现(哪个库最顺手)。 外层定错了,里层选得再精也是白费——比如一个安全攸关的量产项目,范式层就该排除端到端,这时在实现层比较各种扩散模型库毫无意义。综述给你的,正是这种"从外往里、逐层收敛"的选型纪律。

§6.5 完整选型走查:两个真实场景从零决策

光有决策树和表还不够,综述的选型部分最该给的是示范一次完整的决策过程——把 §6.1–§6.4 的所有工具串起来用一遍。下面走查两个对比鲜明的场景,让你看清"逐层收敛"在实践中长什么样。

场景 A:城市 Robotaxi 的路口左转(要穿过对向车流 + 行人)

【范式层】这是安全攸关的量产场景,出事要追责
  → 范式层立刻排除"纯端到端"(流派四不可单独上车,§8.3)
  → 锁定解析方法(流派一/二/三),流派四最多做上游候选生成
【流派层】Q1(强耦合吗?):左转穿对向车流 + 让行人——
  "走哪条线"和"何时通过"死死绑定 → 强耦合,排除流派一(解耦不够)
        Q2(结构化?单体?):结构化道路、单车 → 不是开放空间(排除 OBCA)
  → 锁定流派二(走廊+QP),城市强交互正是它的主场
【实现层】要处理"对向车让不让"的多种意图 →
  EPSILON(SSC 走廊 + EUDM 行为分支)命中——每个意图一条时空走廊
  C++ 生态:EPSILON 是城市交互唯一生产级 C++ 抓手(卡片3)
【兜底】流派四(如预测网络)可作上游给出他车意图分布,
        但最终轨迹由 EPSILON 的可验证 QP 产出 → 生成-验证混合
最终:EPSILON 为主 + 学习式预测为辅,可验证性保住

场景 B:无人机穿越未知森林的自主竞速

【范式层】研究/竞赛场景,无量产追责压力,追求极致性能
  → 范式层可以更激进,但竞速要极致轨迹质量 → 仍以解析优化为主
【流派层】Q1(强耦合吗?):竞速要时间最优,速度与路径极致耦合
  → 强耦合,必须完全联合 → 排除流派一/二(不够联合)
        Q2(结构化?单体?):非结构化(森林)、单机
  → 无参考线,Frenet 不适用;开放三维空间
  → 锁定流派三(连续优化),完全联合 + 时间最优
【实现层】无人机 + 需在线重规划 + 时间最优 →
  MINCO/GCOPTER 命中(闭式梯度、段时间可优化,卡片4)
  前端:kinodynamic A*/SIPP 出初值(warm-start,因为非凸挑初值)
  C++ 生态:GCOPTER(header-only,MIT)
【对比场景A】注意两场景都"强耦合",但落到不同流派——
  A 是结构化交互(走廊),B 是非结构化竞速(连续优化)
  → Q1 相同、Q2 分流,这正是决策树分层的意义
最终:GCOPTER 连续优化 + 前端搜索 warm-start,无需可验证性兜底(研究场景)

本质洞察(两场景对照揭示的决策本质):把场景 A 和 B 并排看,二者在 Q1(都强耦合)上一致,却在最终流派上分道扬镳——A 去了流派二、B 去了流派三。分流点在 Q2(结构化 vs 开放空间)和范式层(量产 vs 研究)。 这说明一个深刻的选型真相:没有"强耦合就用某个固定方法"的简单映射,决策是多个维度联合作用的结果。 同样"强耦合",结构化道路偏走廊(有参考线、要可验证)、开放竞速偏连续优化(无参考线、要极致)。这就是为什么 §6.1 的决策树是"多个问题串联"而非"一个问题定终身"——真实选型是在 §2 五轴构成的多维空间里找一个点,不是在一条线上选段。 能熟练走这种多维走查,就是综述训练出的核心判断力。

§6.6 选型反模式清单:六个最常踩的坑

选型综述不仅要教"怎么选对",更要标出"最常见的选错方式"——反模式(anti-pattern)比正面建议更能防止犯错。下表列出本方向选型最常踩的六个坑,每个给出"症状-根因-纠正"。

反模式 症状 根因 纠正
唯新论 凡事先想用最新最 fancy 的方法(端到端/扩散) 误把"前沿"当"适用"(误解2) 先过范式层 Q3——量产场景前沿方法直接出局(§6.1)
过度联合 弱耦合场景硬上完整时空连续优化 以为越联合越好(误解1) Q1 先判强弱耦合,弱耦合用解耦就够(§6.3)
跳层选型 直接纠结"GCOPTER 还是 TEB",没想范式/流派 不知道选型分三层(误解8) 从外往里:范式→流派→实现(§6.4)
唯最优论 大规模场景坚持要全局最优 不懂"强保证=高代价"(误解4) 大规模主动放弃最优换可扩展(§2.3)
忽视生态 选了理论最优但无 C++ 实现的方法,落地卡死 只看论文不看工程现实 把"C++ 生态成熟度"纳入实现层硬指标(§5.1)
范式洁癖 坚持"纯经典"或"纯学习",排斥混合 把流派当对立而非互补(误解2/3) 拥抱"生成-验证"等混合架构(§3.3、§8.3)

本质洞察(反模式的共同根:把"维度"当"优劣"):六个反模式里有五个(唯新论、过度联合、唯最优论、范式洁癖、部分跳层)共享同一个认知错误——把 §2 的某条坐标轴误读成"优劣轴",以为"越往某个方向越好"(越新越好、越联合越好、越最优越好、越纯越好)。但坐标轴是"维度"不是"优劣"——它描述的是方法落在哪个位置,不是哪个位置更高级。 治本的办法只有一个:牢牢记住 §4.5 的"同一枚硬币三面"——每个维度上往一端走,必然在另一个维度上付出代价,没有免费的"更好"。 把坐标轴当地图(定位用)而非阶梯(攀登用),就能一次性避开这五个反模式。这是 §6 全节的精神内核。

§6.7 一页纸选型速查卡

把 §6 的全部决策逻辑压缩成一张可直接查的速查卡——做实际选型时,先看这张卡,再回查对应小节展开。

┌─────────────────────────────────────────────────────────┐
│            时空规划选型速查卡(先从上往下走)                  │
├─────────────────────────────────────────────────────────┤
│ STEP 0 范式层:这个项目敢用黑箱吗?                            │
│   安全攸关/量产 → 排除纯端到端,经典为主(流派四仅做上游)       │
│   研究/预研     → 可激进,端到端可作主力                       │
├─────────────────────────────────────────────────────────┤
│ STEP 1 联合度:路径和速度强耦合吗?                            │
│   弱(高速巡航) → 流派一 Apollo EM【别过度联合】               │
│   强            → 继续 STEP 2                              │
├─────────────────────────────────────────────────────────┤
│ STEP 2 结构与规模:                                         │
│   结构化道路+强交互 → 流派二 EPSILON(走廊+行为分支)           │
│   开放空间/泊车     → 流派三 OBCA + Hybrid A*                │
│   竞速/极致质量     → 流派三 MINCO + 前端搜索warm-start       │
│   地面室内导航      → 流派三 TEB                             │
│   多机集群(<50)    → 流派三多机 MADER/EGO-Swarm             │
│   大规模(100+)     → 多机 LaCAM/PIBT【放弃最优换规模】        │
│   高维机械臂        → 采样 ST-RRT*/SIPP-RRT                 │
├─────────────────────────────────────────────────────────┤
│ STEP 3 兜底:选了学习方法?→ 必配经典栈做安全验证               │
├─────────────────────────────────────────────────────────┤
│ 元原则:选最便宜的能解决问题的,不选最强的(§6.3/§6.6)         │
│ 元纪律:范式→流派→实现,从外往里收敛(§6.4)                   │
└─────────────────────────────────────────────────────────┘

使用建议:这张速查卡是 §6 的"执行摘要"。真实选型时,按 STEP 0→3 顺序走一遍,每一步卡住就回查对应小节。 卡片刻意把"元原则"和"元纪律"放在最底——因为它们是凌驾于所有具体步骤之上的两条铁律:再精确的决策树,也敌不过"选最便宜的"和"从外往里"这两条心法。把这张卡截图存下来,比记住任何单个方法都实用。


七、跨专题横向联系:时空规划与其他六专题的接口

到这里,时空联合规划这座主干山脉已经梳理完(脉络 + 流派 + 矩阵 + 选型)。但方向级综述的独特职责,是还要画出这座山与其他山脉的山脊连线——时空规划的方法如何被其他六个专题复用、又如何消费它们的成果。这是 §1.1"七专题同源"的具体兑现,也是专题内综述做不到的事(它只看一座山)。

§7.1 时空规划 ↔ 多机器人协作(50):SIPP/走廊的跨专题复用

这是全方向最紧密的一对接口。多机协作专题的核心算法 CBS(Conflict-Based Search),其低层单体规划用的正是时空规划的 SIPP——CBS 在高层解决"哪两个智能体冲突",每次重规划单个智能体时,调 SIPP 在"已被其他智能体占用的时空"里找安全路径。

多机协作专题            时空规划专题
   CBS 高层  ──调用──►  SIPP 低层(卡片2)
 (解冲突树)            (单体时空搜索)
   MADER/EGO-Swarm ──── 单机 MINCO/走廊 + 多机互斥约束
 (多机时空协商)          (来自时空规划流派三,卡片4/7)

本质洞察("同一个东西在两个专题里"):SIPP 在时空规划专题里是"单体动态避障的搜索器",在多机专题里是"CBS 的低层引擎"——它是同一份代码、同一套数学,只是被嵌进了不同层级的框架。 这正是 §1.1"专题边界是松绑了哪个假设、而非用了哪套工具"的活例:多机专题松绑的是"单体"假设,但它解决"单体在动态时空里怎么走"这个子问题时,直接复用了时空专题的成果。如果不读方向级综述,你会在两个专题里各学一遍 SIPP,以为是两个东西——这就是 §0 说的"认知浪费"。

§7.2 时空规划 ↔ 不确定性规划(30):从确定时空到带不确定性的时空

时空规划默认障碍轨迹已知(SIPP 需要知道每格何时被占)。不确定性规划松绑这个假设——障碍未来轨迹是概率分布。两个专题的接口在此:

  • EPSILON(不确定性专题的分支场景核心)的时空走廊用的就是 SSC(时空专题卡片3)——它在 SSC 之上加了对他车多种意图的分支(EUDM),每个分支是一条时空走廊。
  • 机会约束规划(CC-MPC)把时空规划的硬约束"轨迹在走廊内"松弛为概率约束"以 95% 概率在走廊内"——几何骨架来自时空规划,概率外衣来自不确定性规划

§7.3 时空规划 ↔ 博弈规划(40):从"预测他人"到"他人会响应我"

时空规划处理动态障碍时,默认障碍轨迹不响应自车(要么已知、要么预测后当固定)。博弈规划松绑这个假设——他人会响应自车动作。接口在"交互的耦合程度"上递进:

对他人的假设 所属 时空轨迹怎么算
静态障碍 经典 避开固定区域
动态但不响应(已知/预测) 时空规划 避开时空禁入区(SIPP/走廊)
动态且响应自车 博弈规划 求 Nash/Stackelberg 均衡轨迹(iLQGames)

对比性思维(时空规划是博弈规划的"退化情形"):博弈规划里,如果假设"他人完全不响应我",Nash 均衡就退化成"我单方面对固定的他人轨迹做最优"——这恰好就是时空规划处理动态障碍的做法。 所以时空规划可以看成博弈规划在"无响应"假设下的特例。理解这个包含关系,你就明白为什么博弈规划比时空规划"难一档"——它多扛了"他人会反应"这个最难建模的耦合(§8.4 的鸡生蛋问题)。

§7.4 时空规划 ↔ 采样式 MPC(20):当时空代价不可微

时空规划的连续优化流派(流派三)要求代价可微、动力学有梯度。当这个条件不满足——代价含不可微项(如离散的"是否压线")、动力学是黑箱仿真器——就轮到采样式 MPC(MPPI)接管。两专题在"求解范式"轴2 上互补:

  • 时空规划占"优化"象限(可微、要平滑最优);
  • MPPI 占"采样"象限(不可微、黑箱、GPU 并行);
  • 现代趋势是二者融合——扩散启发的采样 MPC 把时空规划的轨迹先验(如走廊)作为扩散的引导,既保留采样的灵活又注入结构知识。

§7.5 时空规划 ↔ 任务运动规划(60):离散任务层之下的连续时空层

TAMP 处理"任务本身需要离散决策"(先抓 A 还是先抓 B)。它的下层——每个离散任务确定后"怎么动"——正是一个时空规划问题。接口是分层:TAMP 的几何层(geometric layer)调用时空规划生成满足时序约束的连续轨迹。LGP(逻辑几何规划)里的"几何"那一半,本质就是带时序约束的时空优化。

§7.6 一张跨专题接口全景图

把以上五对接口收进一张图,看清时空规划在方向中的"枢纽"地位:

                    任务运动规划(60)
                     离散任务层
                         │ 调用下层
   博弈规划(40) ◄──退化── 时空联合规划(10) ──复用──► 多机协作(50)
   他人会响应          【方向枢纽】           SIPP→CBS
                    确定动态时空              MINCO→MADER
        ▲                │  │                    
        │松绑"不响应"      │  │松绑"可微"            
   不确定性规划(30)        │  ▼                    
   障碍是概率分布     ◄────┘  采样式MPC(20)         
   走廊→机会约束             不可微/黑箱时接管        

本质洞察(时空规划为何是"方向枢纽"):这张图揭示了为什么本文选时空规划作为方向级综述的主干——它在七专题里处于枢纽位置,与其他每一个专题都有直接接口。 向上它是 TAMP 的几何执行层,向左它是博弈规划的退化特例、不确定性规划的几何骨架,向右它的成果被多机协作复用、它的优化在不可微时让位给采样 MPC。吃透时空规划,等于同时拿到了通往其他六个专题的六张门票。 这也是 §1.4"以一斑窥全豹"的最终兑现——主干选对了,整片林海的连线就都通了。

§7.7 全方向依赖图:谁复用谁、谁消费谁

§7.1–§7.6 是从时空规划出发看它与各专题的接口。但要真正理解整个方向的结构,需要把视角拉到所有七专题之上,画出完整的"复用-消费"依赖图——哪些专题提供基础能力(被复用),哪些专题消费这些能力做集成(复用别人)。这是方向级综述最高层的综合。

                  【被广泛复用的基础能力层】
   时空规划(10)          最优控制基础           博弈(40)
   SIPP/走廊/MINCO       MPC/iLQR/QP            Nash/均衡
        │                    │                    │
        │复用                │复用                 │复用
        ▼                    ▼                    ▼
   ┌─────────────────────────────────────────────────┐
   │            【消费基础能力的集成层】                  │
   │  多机协作(50):CBS用SIPP + 分布式MPC用单体MPC        │
   │                + MARL用博弈语言 + Nash用博弈        │
   │  TAMP(60):几何层用时空规划 + 任务层用离散搜索        │
   │  不确定性(30):走廊用SSC + 鲁棒用Tube MPC           │
   └─────────────────────────────────────────────────┘
        │全部落地到                                
   ┌─────────────────────────────────────────────────┐
   │              【完整应用实例层】                      │
   │  无人机(70):把上述所有方法跑通从仿真到实飞           │
   └─────────────────────────────────────────────────┘
        │横切贯穿(提供求解方法 + 学习视角)          
   采样式MPC(20) ──── 不可微时的通用求解器(贯穿所有层)   
   RL 贯穿 ────────── 学习视角(贯穿所有层,第五篇综述)   

这张依赖图揭示了三个层次:

  1. 基础能力层(时空规划、最优控制、博弈):提供"原子方法",被其他专题反复调用。时空规划的 SIPP/走廊/MINCO 是其中被复用最广的。
  2. 集成层(多机、TAMP、不确定性):很少发明全新的原子方法,主要是把基础能力层的方法按新的结构组装——多机把单体方法装进"协调框架",TAMP 把运动规划装进"任务框架",不确定性把确定性方法装进"概率框架"。
  3. 应用实例层(无人机):把上述全部落到一个具体形态,验证端到端可行性。
  4. 横切贯穿(采样式 MPC、RL):不属于任何单层,而是纵向贯穿所有层——采样式 MPC 在任何层遇到不可微/黑箱时接管,RL 给任何层提供"从数据学"的替代视角。

本质洞察("基础-集成-应用"三层结构是本方向的骨架):这个三层结构,是看懂整个移动规控方向的最高层框架。它解释了一个初学者的核心困惑——"为什么有些专题(多机、TAMP)感觉在'拼装'别人的方法,而有些专题(时空、博弈)在'发明'方法?" 因为它们处在不同层:基础能力层在发明原子方法,集成层在组装这些原子。这也给学习顺序定了纪律:先学基础能力层(尤其时空规划这个被复用最广的),再学集成层(这时你会发现集成层的方法你已认识一大半,因为它们的原子来自基础层),最后用应用实例层(无人机)串起来。 反过来——先学多机却没学时空规划——你会在 CBS 低层卡住,因为你不认识它调用的 SIPP。先基础、后集成、再应用、横切贯穿随用随补,这是本方向唯一正确的学习拓扑序。

§7.8 一个跨专题的认知陷阱:把"集成层创新"误当"基础层创新"

依赖图还能帮你避开一个读论文时的常见陷阱。

本质洞察(分清创新发生在哪一层):读一篇集成层的论文(如某个新 MAPF 方法、某个新 TAMP 框架)时,初学者容易把它的"组装方式创新"误读成"原子方法创新"。比如一篇多机论文提出了新的冲突解决策略——它的创新在"怎么组装单体规划器"(集成层),而非"单体规划器本身"(基础层,它直接复用了 SIPP/MINCO)。 分不清这一点,你会误以为这篇论文重新发明了底层规划,从而高估它、也学错重点。正确的读法是:先识别这篇工作处在依赖图的哪一层,再判断它的创新是"新原子"还是"新组装"。 基础层论文该精读其方法推导,集成层论文该精读其组装结构(而非底层原子,那些去基础层专题学)。这个"分层阅读"的纪律,能让你在读海量论文时始终抓住每篇的真正贡献点——又一个综述独有的元能力。

§7.9 时空规划在五大机器人方向的衔接点(速查)

最后给一张"衔接点速查表"——本方向(移动规控)不是孤岛,它与项目里其他四大方向(SLAM、运动控制、具身智能、数学基础)都有衔接。这张表帮你在更大的机器人知识图谱里定位时空规划,知道"往上游回溯找谁、往下游交付给谁"。

衔接方向 衔接点 时空规划在这里扮演什么 方向位置
SLAM / 感知(上游) 地图与障碍轨迹 消费 SLAM 的地图(ESDF/占据栅格)和感知的障碍预测,作为时空规划的输入 03_SLAM/
运动控制(下游) 轨迹跟踪 时空规划输出轨迹,交给底层控制器(MPC/几何控制)跟踪执行 05_运动控制/
具身智能 / VLA(平行前沿) 端到端规划 流派四(端到端/扩散)与 VLA 共享"从数据学规划"的范式 06_具身智能/
数学基础(底层工具) 优化与李群 时空规划的 QP/NLP/凸优化、SE(3) 轨迹都建立在数学基础上 01_数学/
本方向内(横向) 七专题接口 见 §7.1–§7.6,时空规划是方向枢纽 04_移动机器人规控/

本质洞察(时空规划的"上游-下游-平行"定位):把这张表读成一句话——时空规划向上游消费 SLAM/感知的地图与预测,向下游交付轨迹给运动控制执行,与具身智能在端到端范式上平行竞合,向下扎根于数学基础。 它在整个机器人栈里处于"感知之后、控制之前"的中枢位置——这正是为什么它既要懂上游(地图怎么来、预测多可信),又要懂下游(轨迹要满足控制器的可跟踪性)。理解这个上下游定位,你就不会把时空规划学成一个孤立的算法专题——它是连接"机器人看到什么"和"机器人怎么动"的桥。 学它时遇到"地图从哪来"的问题去 SLAM 找,遇到"轨迹怎么执行"的问题去运动控制找,遇到"凸优化怎么解"的问题去数学基础找——这张表就是你的跨方向索引。


八、开放问题与未来方向

一篇合格的综述,除了梳理"已知",更要诚实地标出"未知"——哪些问题至今没有好答案,它们卡在哪里,决定了这个方向未来五年往哪走。这一节列出本方向(以时空规划为核心、辐射全方向)真正悬而未决的开放问题。它们不是"还需更多实验"这种增量问题,而是范式级的硬骨头

§8.1 开放问题一:实时性 vs 联合性的根本张力,能否被彻底化解?

这是贯穿全文的那条暗线,也是最根本的开放问题。§3、§4 反复点出:联合程度越高,在线求解越贵;流派四(端到端)用"离线训练"暂时绕开了这个张力,但代价是黑箱不可验证。

卡在哪里? 真正想要的是"既完全联合、又实时、又可验证"——但目前没有任何方法三者兼得。流派一/二/三牺牲联合性或实时性换可验证,流派四牺牲可验证换前两者。

前沿尝试与悬念: - 可微优化层(differentiable optimization,如 acados + leap-c、可微 MPC):把优化器变成可微模块嵌进网络,试图"用学习加速优化、用优化保证可行"。但可微优化层的可验证性介于二者之间,尚未定论。 - 神经求解器(Neural A*、学习预测时间分配):用网络预测优化的初值/启发,加速在线求解。但加速的同时是否引入不可控失败,仍是开放的。

本质洞察:这个张力可能根本无法被彻底化解,只能被转移。从 PVD 到端到端,每一代都没有消灭这个张力,只是把它从"在线 vs 联合"转移到"训练成本 vs 在线性能"、再转移到"可验证性 vs 能力"。未来的突破,更可能是找到一个"对当前应用最划算的转移点",而非真正让三者兼得。 这也是为什么"混合架构"(生成 + 验证)而非"纯学习",是当前最现实的工程答案。

§8.2 开放问题二:学习式时空规划的可验证安全,怎么办?

流派四能力最强却最不敢上车,核心障碍是无法形式化证明"绝不撞"。神经网络对分布外输入(训练没见过的诡异场景)可能给出灾难性的轨迹,且无法预先知道何时会这样。

卡在哪里? 形式化验证(formal verification)一个百万参数的网络在所有可能输入下的安全性,目前计算上不可行;而长尾场景的穷举测试又永远不充分("开了一亿公里没撞"不等于"绝不撞")。

前沿方向(都还不成熟): - 安全滤波器(safety filter,如 CBF-QP 兜底):让学习策略出建议、用可证明安全的滤波器修正。问题是滤波器太保守会废掉学习的能力。 - 可达性分析(reachability,HJ)+ 学习:用可达集刻画"绝对安全集",约束学习策略。问题是高维可达性计算昂贵。 - 生成-验证架构:网络生成候选,经典栈(流派一/二/三)验证。这是当前工业最务实的答案,但本质是"用经典栈的能力上限封顶学习的能力上限"。

§8.3 开放问题三:模块化管线 vs 端到端,最终会怎样收敛?

自动驾驶规划近年最大的范式之争:模块化管线(感知→预测→规划→控制,各模块独立可验证)vs 端到端(一个网络从传感器到轨迹)。这不只是技术问题,是整个行业的路线之争。

两边的根本论点:

模块化管线 端到端
支持论点 可验证、可调试、可归因(出事知道哪个模块错) 信息无损、目标一致、长尾潜力大
软肋 模块间接口损失信息、误差累积、人工设计难穷举 黑箱、不可归因、分布外脆弱
代表 Apollo、Autoware(流派一/二/三) UniAD、特斯拉 FSD(流派四)

卡在哪里? 两条路线各有不可替代的优势,短期内谁也吃不掉谁。当前的现实收敛点是"模块化骨架 + 端到端组件"的混合——比如用端到端做预测、用经典栈做规划兜底;或 UniAD 式的"模块化端到端"(可微的模块化,既保留模块边界又端到端训练)。但混合的最优配比、哪些模块该学习化、远未定论。

对比性思维(这场争论的元层次):这场争论表面是"两种架构",深层是 §4.5 那枚硬币的行业级显现——能力(端到端) vs 可控(模块化)的权衡,在产业落地的尺度上重演。 它不会有"一方完胜"的结局,因为不同应用对"能力 vs 可控"的需求点不同:Robotaxi(安全攸关、责任明确)会更靠模块化,消费级辅助驾驶(成本敏感、可接受人类兜底)会更激进地拥抱端到端。收敛点不是一个,而是一条按应用风险偏好排开的谱系。

§8.4 开放问题四:交互的"鸡生蛋"循环,如何打破?

这是博弈规划(40)和预测-规划一体化的核心难题,也辐射时空规划的强交互场景。问题是:我的最优轨迹取决于他人会怎么动,但他人怎么动又取决于我会怎么动——预测和规划相互依赖,形成循环。

卡在哪里? 经典做法是"先预测他人(当他们不响应我)、再对预测做规划"——但这忽略了他人会响应我,在强交互(密集路口、博弈式加塞)下失真。真正的博弈求解(Nash/Stackelberg)计算昂贵、且依赖对他人目标函数的假设(他人真的在最优化我以为的那个目标吗?)。

前沿方向: - 预测-规划一体化(joint prediction-planning,如 GameFormer、UniAD 的 MotionFormer):让预测显式条件于自车的候选规划,在网络里隐式求解这个循环。 - 逆博弈(inverse game):从观测数据反推他人的目标函数,再做博弈规划。问题是逆问题病态、数据需求大。 - Level-k / 有限理性博弈:假设他人只做 k 层递归推理(而非无穷层 Nash),降低计算。问题是 k 取多少、不同人 k 不同。

§8.5 开放问题五:长尾与分布外——规划的"未知的未知"

无论解析还是学习方法,都面临长尾场景(罕见但致命,如逆行的救护车、掉落的货物)和分布外泛化(训练/设计时没考虑到的情况)。

卡在哪里? 解析方法的长尾困境是"人工设计的代价/约束无法穷举所有情况";学习方法的困境是"训练数据无法覆盖长尾"。两边都败在同一件事——世界的复杂度超过了任何有限设计或有限数据的覆盖能力。

这个问题为什么特别难? 因为它是"未知的未知"(unknown unknowns)——你甚至不知道自己漏了什么。可达性、形式化方法能处理"已知的未知"(已建模的不确定性),但对"完全没想到的场景"无能为力。当前没有令人满意的答案,只有缓解(持续运营数据回流、仿真长尾生成、异常检测兜底)。

§8.6 其他值得关注的方向(速览)

方向 一句话 所在前沿
大模型 + 规划 LLM/VLM 做高层语义决策 + 经典栈做底层执行(含 LLM+TAMP 复兴) TAMP(60)、VLA
世界模型 + 规划 学一个可想象未来的世界模型,在 latent 空间做时空搜索(TD-MPC2、Dreamer) 采样式 MPC(20)、RL 贯穿
可微全栈 感知-预测-规划-控制全可微,端到端梯度优化最终目标 端到端、可微优化
扩散加速 扩散式规划的采样步数从几十步压到几步,逼近实时 流派四工程化
去中心化大规模 千台级集群的去中心化实时时空协调 多机协作(50)

本质洞察(开放问题的共同根源):把这五大开放问题(+ 速览)放在一起看,它们其实共享两个根源:① 能力与可控的权衡(§8.1/§8.2/§8.3 都是它的变体)——这是 §4.5 那枚硬币的不同投影;② 有限设计/数据 vs 无限复杂世界(§8.4/§8.5)——交互的循环和长尾,本质都是"现实比我们能建模的更复杂"。这个方向未来五年的所有重要进展,几乎都会落在这两个根源的某个具体战场上。 看懂了这两个根源,你读任何一篇 2026 之后的新论文,都能立刻判断"它在攻哪个开放问题、用什么招、可能的软肋在哪"——这就是综述给你的、超越任何具体方法的元能力。

§8.6bis 近期 vs 远期:哪些会先落地,哪些还要等

综述对未来的判断,不能只列方向、不分时序。这一节把前沿方向按"距离落地的远近"分成三档——这对工程师的职业押注(学什么、投入多少)极有参考价值。判断的依据是"它卡在工程难题(近)还是原理难题(远)"。

时序 方向 为什么是这个时序 落地的关键瓶颈
近期(已在落地/1-2 年) 生成-验证混合架构 工程难题,工业已在做(特斯拉/Waymo) 验证层的覆盖率与效率
近期 扩散加速(采样步数压缩) 工程难题,纯算法优化 加速后的质量保持
近期 可微优化层(acados+leap-c) 工程难题,组件已成熟 可微优化的训练稳定性
中期(3-5 年) 预测-规划一体化 半原理半工程,鸡生蛋循环有进展但未根治 交互建模的泛化与实时性
中期 世界模型 + 规划 半原理,长时序漂移待解 learned model 的可靠 horizon
中期 LLM + TAMP 工程为主但 LLM 几何可行性是硬伤 LLM 输出的可执行性保证
远期(5+ 年/可能永远) 可验证的学习式规划 原理难题,形式化验证黑箱网络尚不可行 验证百万参数网络的计算可行性
远期 长尾/分布外的根本解 原理难题,"未知的未知"无通解 世界复杂度超过有限设计/数据

本质洞察(近期 vs 远期的判据:工程难题 vs 原理难题):这张表的分档不是拍脑袋,而是基于一个清晰判据——卡在工程难题的方向会先落地(因为工程难题有渐进解法、可被算力和工程投入推进),卡在原理难题的方向要等甚至可能永远等下去(因为它需要范式级突破)。 生成-验证、扩散加速卡的是工程(怎么更快、覆盖更全),所以近;可验证学习、长尾根本解卡的是原理(黑箱能否被验证、有限能否覆盖无限),所以远。给工程师的押注建议:近期方向值得现在就投入实操(它们正在变成生产力);远期方向值得理解和跟踪(它们是研究前沿),但别指望靠它们解决眼下的工程问题——眼下的安全攸关系统,仍要靠成熟的经典方法 + 务实的混合架构。 区分"工程难题"和"原理难题",是判断任何技术方向落地时序的通用方法。

§8.7 跨专题组合创新:把七座山的方法两两相乘

综述的一个独特产出,是指出跨专题组合的机会——当两个专题的方法被放在同一张地图上,它们的"相乘"往往是未被充分探索的研究空白。下表用结构化方式列出几个高价值的跨专题组合方向(沿用 §7 接口图的连线),每个给出"组合方案 / 预期效果 / 可行性 / 最大风险"。这不是要你立刻去做,而是示范"综述如何把对比综合升级为创新种子"。

组合方案 来自哪两座山 预期效果 可行性 最大风险
时空走廊 + 机会约束 时空(10) × 不确定性(30) 走廊边界随障碍预测不确定性自适应收缩,比硬走廊更不保守 高(EPSILON 已有雏形) 概率约束的实时求解开销
MINCO 连续优化 + 博弈均衡 时空(10) × 博弈(40) 把"他人会响应"写进 MINCO 的代价,生成博弈感知的时空轨迹 中(iLQGames 是参照) 博弈求解的非凸 + 实时性
CBS 高层 + MINCO 低层 多机(50) × 时空(10) 高层搜索选无冲突拓扑、低层连续优化磨平滑轨迹,兼顾完备与质量 高(已有混合工作) 低层优化失败时高层重搜的代价
扩散生成 + 经典验证 时空学习(10-T6) × 时空经典(10) 扩散出多模态候选、经典栈做可验证安全过滤——生成-验证架构 高(工业已在做) 验证层成为能力瓶颈
世界模型 + 时空搜索 采样MPC(20) × 时空(10) 在 learned latent 动力学上做 SIPP/ST-A* 搜索(MuZero 式) 中(学术原型阶段) 学习模型的长时序漂移
LLM 任务分解 + 时空运动层 TAMP(60) × 时空(10) LLM 出高层语义计划、时空规划出底层可行轨迹 中(LLM+TAMP 复兴) LLM 的几何不可行计划、幻觉
CVaR 风险 + 多机协调 不确定性(30) × 多机(50) 多机协调时优化最坏 k% 的碰撞风险而非平均,更安全 分布式 CVaR 估计的通信开销

本质洞察(组合创新的方法论):这张表揭示了综述孕育创新的一般套路——取两个专题各自成熟的"骨架"和"外衣",把一个的骨架套上另一个的外衣。 比如"时空走廊的几何骨架 + 不确定性的概率外衣 = 机会约束走廊","MINCO 的优化骨架 + 博弈的均衡外衣 = 博弈感知轨迹"。为什么这种组合常有戏?因为每个专题在自己的核心维度上已做到很深,但在别的维度上是"裸"的——时空规划几何强但不确定性裸,博弈交互强但实时性裸。 把两座山的强项缝起来、用一方补另一方的裸维,正是研究空白最密集的地方。这也是为什么方向级综述(能看到所有山)比专题内综述(只看一座山)更容易孕育创新——创新往往不在山顶,而在山脊连线上。

§8.8 范式总结:一句话收束整个方向

读完八节,把整个移动机器人规控方向收束成一句话:

这个方向的全部努力,是在"一个不完美、动态、有他人的世界"里,为机器人算出"安全、可行、优"的运动——而它的全部张力,来自三个永恒的权衡:联合性 vs 实时性(时空轴)、能力 vs 可控(学习轴)、保证 vs 规模(多体轴)。所有方法、所有专题、所有开放问题,都是在这三个权衡的某个取点上落子。

理解了这一句,你就理解了为什么本方向没有"最好的方法"、只有"最适合某个权衡取点的方法"——因为三个权衡都没有免费午餐。工程师的判断力,就体现在面对一个具体场景时,能准确判断"我的权衡取点在哪",然后选那个落子最划算的方法。这,就是这篇方向级综述想交到你手里的唯一一样东西。

§8.9 如何持续跟踪这个快速演进的方向

综述有时效性——本文锁定在 2026 年中的认知,而这个方向(尤其学习式规划)演进极快。最后给一份"持续跟踪"指南,让这篇综述的价值不随时间衰减。核心思路是:不追单篇论文,而是把新工作往本文建立的坐标系/脉络/开放问题上挂。

跟踪动作 怎么做 用本文的什么工具
给新方法定位 读到新方法,先标它的五轴坐标 §2.1 五轴、§2.5 定位示范
判断新方法的脉络角色 它是开山/加速器/工程化/桥接/SOTA? §3.4 论文脉络表的"角色"列
识别它攻哪个开放问题 它在攻 §8.1–§8.5 哪个?卡在工程还是原理难题? §8 开放问题、§8.6bis 近远期判据
判断它处在依赖图哪一层 基础层新原子 / 集成层新组装? §7.7 依赖图、§7.8 分层阅读
更新优劣矩阵 它在哪一行刷新了星级?是否填了散点图空白? §5.1 矩阵、§5.4 散点图空白

本质洞察(综述的"抗衰减"设计):一篇只罗列方法的综述,会随新方法涌现而迅速过时;但一篇建立了坐标系 + 脉络 + 开放问题地图的综述,能"消化"未来的新工作——因为新方法再多,也只是往这套坐标系里多添几个点、往脉络里多接一段、或往某个开放问题上落一子。 这就是本文为什么花大力气在 §2(坐标系)、§3(脉络)、§8(开放问题)上——它们是"框架",框架比"内容"抗衰减。给你的最终建议:别把这篇综述当"2026 年方法清单"来记(那会过时),把它当"一套终身可用的方法论"来用——每读一篇新论文,就用上表的五个动作把它挂进框架。这样,这篇综述会随你读的论文越来越多而越来越值钱,而非越来越旧。 这是综述区别于教程的终极价值:教程教完即止,综述越用越活。


本章常见误解汇总

综述类章节最容易滋生"似懂非懂"的误解——读者拿到一堆方法名和对比表,很容易形成一些听起来合理、实则错误的判断。下表汇总本方向初学者最常见的误解及其纠正,每条都在正文有对应展开。

# 常见误解 正确理解 正文
1 时空联合一定比解耦好,越联合越先进 强耦合场景才需要联合;弱耦合场景(高速公路)解耦更划算,过度联合是纯亏 §6.3
2 端到端(流派四)是终极方向,迟早取代经典方法 端到端最强但黑箱不可验证,当前现实是"端到端生成 + 经典栈兜底"的混合,且二者各占生态位长期共存 §3.3、§4.4、§8.3
3 求解范式越新越好(学习 > 采样 > 优化 > 搜索) 四范式各占问题象限、互补而非替代,现代系统几乎总是混合使用(前端搜索 + 后端优化 + 采样兜底 + 学习启发) §2.2
4 算法应该追求完备 + 最优,保证越强越好 强保证 = 高代价(规模爆炸);大规模实时任务必须主动放弃最优性甚至完备性换可扩展 §2.3
5 七个专题是七堆并列的零散知识 七专题同源——是同一根问题逐层松绑七个理想假设的裂变,共享同一套底层工具 §1.1
6 SIPP 在时空专题和多机专题里是两个不同的东西 是同一份代码、同一套数学,只是被嵌进不同层级的框架(多机 CBS 的低层就是 SIPP) §7.1
7 越前沿热门的方法,工程生态越成熟 恰恰反相关——前沿方法从论文到工业级 C++ 需数年沉淀,且黑箱方法不契合 C++ 的确定性要求 §1.3、§5.1
8 选型就是选一个最强的算法 选型是三层嵌套(范式层→流派层→实现层),从外往里逐层收敛;且要选"最便宜的能解决问题的"而非"最强的" §6.3、§6.4
9 实时性 vs 联合性的张力终将被技术彻底化解 这个张力可能无法消灭、只能转移;混合架构(找最划算的转移点)比"纯方法三者兼得"更现实 §8.1
10 预测和规划可以干净地分两步(先预测他人再规划) 强交互下二者相互依赖形成"鸡生蛋"循环,分两步会失真,需博弈/一体化求解 §8.4

本章小结

本章是移动机器人规控方向的最高层导航图,做了两件事:先给整片林海定位(§1–§2 全方向地图 + 统一坐标轴),再放大其中最大那座山(§3–§8 时空联合规划深度综述)。

核心收获速查

维度 一句话结论
全方向结构 七专题 = 同一根问题逐层松绑七个理想假设(时空可分/可微/精确/无他人/单体/任务已定)的裂变
统一坐标轴 五轴(联合程度/求解范式/不确定性/交互/计算负担)= 三条"假设轴" + 两条"手段轴"
求解范式 搜索/优化/采样/学习四象限,互补非替代,现代系统混合使用
时空规划脉络 四时代(解耦 1986 → 显式时空 2009 → 连续优化 2018 → 学习生成 2022),沿"联合程度↑ + 计算前置离线"对角演进
四大流派 解耦迭代(半联合)/ 走廊+QP(联合搜优)/ 连续优化(完全联合)/ 端到端(天然联合)
选型元原则 先用假设轴框定场景不理想程度,再用手段轴挑最便宜的招;不该联合时别瞎联合
方向枢纽 时空规划与其他六专题都有接口(退化于博弈、骨架供不确定性、成果供多机、不可微让位采样、执行层供 TAMP)
开放问题根源 两个根源:能力 vs 可控的权衡、有限设计/数据 vs 无限复杂世界

时空规划方法卡片总表

把 §5.2 的 9 张卡片浓缩成一张总表,便于回查。这是本章最高频的"回查资产"。

方法 流派 范式 最适场景 最大软肋 C++ 抓手
Apollo EM 一 解耦迭代 优化(DP+QP) 高速结构化 强耦合次优 apollo planning(Apache,26k⭐)
SIPP 二 时空搜索 搜索 动态障碍栅格/MAPF低层 需障碍轨迹已知 libMultiRobotPlanning(MIT)
SSC/EPSILON 二 走廊+QP 搜索+优化 城市强交互 走廊保守度难调 EPSILON(MIT,677⭐)
MINCO/GCOPTER 三 连续优化 优化(闭式梯度) 无人机轨迹/竞速 非凸挑初值 GCOPTER(MIT,1.2k⭐)
TEB 三 连续优化 优化(g2o) 地面机器人导航 局部最优 teb_local_planner(BSD)
OBCA 三 连续优化 优化(对偶NLP) 泊车/紧凑空间 高速实时差 H-OBCA / Apollo open_space
MADER/EGO-Swarm 三+多机 优化(MIQP/梯度) 多机集群 通信鲁棒性 mader(600⭐)/ego-swarm(GPL)
ST-RRT* 二/三 采样 采样(渐近最优) 高维机械臂动态避障 收敛慢 OMPL(BSD)
UniAD/Diffusion 四 端到端 学习(IL/扩散) 复杂长尾/多模态 黑箱不可验证 无原生(PyTorch)

核心术语表

本章引入/反复使用的核心术语及其含义,首次出现位置见对应节。

术语 英文 含义 首次出现
路径-速度解耦 Path-Velocity Decomposition (PVD) 先定几何路径再排速度剖面的分步规划范式,经典栈地基 §1
时空联合程度 spatio-temporal coupling degree 一个方法在多大程度上拒绝 PVD、把空间与时间一起解(本文主轴) §2.1
安全区间 Safe Interval 某格子时间轴上无障碍占用的连续时段,SIPP 用以压缩状态空间 §3.2
时空走廊 spatio-temporal corridor (SSC/SFC) 在 (s,l,t) 联合空间里表示安全区域的凸多面体序列 §4.2
同伦类 homotopy class 不碰障碍前提下能连续形变互达的轨迹等价类(如左绕/右绕) §2.2
完备性 completeness 有解必能找到、无解能报告的算法性质 §2.3
渐近最优 asymptotic optimality 采样数趋于无穷时解收敛到最优 §2.3
微分平坦 differential flatness 系统状态与控制可由若干平坦输出及其导数代数表达(四旋翼具备) §1.2
生成-验证架构 generate-and-verify 学习模型生成候选 + 经典栈做安全兜底的混合架构 §3.3、§8.2
安全滤波器 safety filter 用可证明安全的模块(如 CBF-QP)修正学习策略输出 §8.2

知识点总表

编号 知识点 核心要点 对应节 难度
K1 七专题同源视角 同一根问题逐层松绑理想假设的裂变 §1.1 ⭐⭐
K2 方法 vs 应用分工 横切专题是方法论,无人机是完整应用实例 §1.2 ⭐⭐
K3 五轴坐标系 三假设轴 + 两手段轴定位任意方法 §2.1 ⭐⭐⭐
K4 求解范式四象限 搜索/优化/采样/学习按"可微?离散?"分象限 §2.2 ⭐⭐⭐
K5 完备性与最优性 强保证=高代价,大规模主动放弃 §2.3 ⭐⭐⭐
K6 时空规划四时代脉络 解耦→显式→连续优化→学习生成 §3.2 ⭐⭐⭐
K7 计算负担转移暗线 演进本质是算力从在线向离线转移 §3.2、§8.1 ⭐⭐⭐⭐
K8 四大流派分化 半/联合搜优/完全/天然,沿主轴递进 §4 ⭐⭐⭐
K9 优劣矩阵读法 看强项-弱项配对,不看总分排名 §5.1 ⭐⭐⭐
K10 三层选型纪律 范式→流派→实现,从外往里收敛 §6.4 ⭐⭐⭐
K11 跨专题枢纽地位 时空规划与其他六专题都有接口 §7 ⭐⭐⭐⭐
K12 开放问题两根源 能力vs可控、有限设计vs无限世界 §8 ⭐⭐⭐⭐

2025–2026 前沿补遗:时空联合规划的最新趋势 ⭐⭐⭐⭐

本节定位:§3–§8 的脉络截至 2024 年末。本节补录 2025–2026 年的关键进展,把它们插入已建立的脉络与坐标系中——不只是"又出了什么新论文",而是"它们把脉络推到了哪里、改变了哪些选型判断"。

世界模型驱动的时空规划

2025 年最显著的趋势是世界模型(World Model)从"感知辅助"升级为"规划引擎"。早期世界模型(如 UniAD 的 BEV 预测)只负责"预测未来是什么样子",规划仍由独立模块完成。2025 年的新一代工作(GAIA-1 后继、OccWorld、GenAD 等)开始尝试在世界模型内部直接做规划——用学到的 latent 动力学做前瞻搜索(类似 MuZero 的 latent MCTS),或者用扩散模型在世界模型的 latent 空间里直接生成轨迹。

这个趋势在 §2 的五轴坐标系里怎么定位?它把轴2(求解范式)从"学习"推向"学习+搜索混合"——世界模型提供了一个"可以在上面做搜索/优化的learned environment",这使得 §2.4 的混合模式(学习→搜索/优化)获得了一个新形态:搜索的 terrain 本身就是学出来的

反事实推理:如果世界模型的预测精度在关键场景上达不到要求(比如罕见的cut-in + 行人横穿复合场景),那么在其上做的任何搜索/规划都是建立在沙上的城堡。这就是为什么"世界模型的分布外鲁棒性"在 2025–2026 成为与"可验证性"并列的核心开放问题——不解决它,世界模型驱动的规划就只能停在仿真里。

可微优化层的工业化

acados 的 solution-sensitivity 接口(在 MPC 求解结束后输出解对参数的雅可比)与 leap-c(把 acados 嵌进 PyTorch 的计算图)的组合,在 2024–2025 年从"学术演示"走向了"工程可用"。这意味着流派三(连续优化)的方法不再是黑盒——它们可以作为神经网络的一层被端到端训练,用 RL 梯度来调整代价权重、约束松紧、甚至时间分配策略。

在 §4 的四流派框架里,这相当于流派三(连续优化)和流派四(端到端学习)之间长出了一座桥:优化器不再是"手调参数后固定不变的模块",而是"一个可学习的、且保留硬约束能力的决策层"。这座桥的工程含义深远——它让"既要硬约束保证(流派三的强项)又要数据驱动的代价调整(流派四的强项)"成为可能,而非二选一。

本质洞察(可微优化层是混合范式的"缝合线"):回看 §4.5 的三个棱镜——计算棱镜看到"算力转移"、信息棱镜看到"损失减少"、工程棱镜看到"可控性丧失"——可微优化层的出现,第一次在工程棱镜上阻止了可控性的单调丧失:它把学习引入了优化,但保留了优化的约束满足能力。这是一个从"三个棱镜只能在不同方向上此消彼长"到"在某些维度上可以同时进步"的质变。如果这个趋势持续,§5.4 散点图右上角那个"实时 + 联合 + 可验证"的空白区域,可能会被可微优化层的方法第一批填入。

扩散模型在规划中的加速与约束化

扩散式规划器(Diffusion Planner, ICLR 2025 Oral)在 2025 年的两大进展是加速约束注入。加速方面,一致性蒸馏(consistency distillation)和流匹配(flow matching)把去噪步数从 100+ 压到 \(\le 8\) 步,逼近了实时部署的门槛(\(\sim\)50 ms/帧)。约束注入方面,出现了"条件去噪 + 投影到可行域"的混合:扩散模型先生成多模态候选,然后用一次轻量 QP/NLP 把每条候选投影到满足动力学和碰撞约束的可行域上——这正是 §2.4 混合模式表中的"学习→优化(神经先验 + 可行性投影)"的具体兑现

加速方法 去噪步数 推理时间 代价
标准 DDPM 100–1000 \(\sim\)1s 太慢
DDIM 20–50 \(\sim\)200ms 质量略降
一致性蒸馏 4–8 \(\sim\)50ms 需额外蒸馏训练
流匹配 1–4 \(\sim\)20ms 生成多样性↓

对比性思维(扩散加速 vs MPPI 的"采样数"权衡):扩散规划器面临的"去噪步数 vs 质量"权衡,和 MPPI 面临的"采样数 vs 精度"权衡在数学上高度同构(§2.2 已述二者共享指数加权的母结构)。但工程含义不同:MPPI 的采样可以完全并行(GPU 友好),而扩散的多步去噪是串行的(每步依赖上一步输出)。这就是为什么"减少去噪步数"在扩散侧比"减少采样数"在 MPPI 侧更迫切——不是因为数学不同,而是因为硬件并行性不同。看懂这一点,你就理解了为什么一致性蒸馏/流匹配在规划社区的热度远高于在图像生成社区——图像生成不那么在乎延迟,规划每多 10ms 都可能致命

IR-STP 与交互推理的时空规划融合

2024–2025 年出现了一类把交互推理(Interaction Reasoning)显式嵌入时空规划的方法(如 IR-STP, arXiv:2311.02850),其核心思想是在时空规划的代价函数或约束中显式引入"他车对 ego 动作的响应模型"——不是简单地把他车预测当静态约束,而是用一个轻量的响应模型(如线性化的 Stackelberg 响应)实时估计"如果 ego 这样开,他车会怎么反应"。

这类工作在 §2 的五轴坐标系里占据了一个此前空白的区域:轴1(联合程度)在"完全联合"附近,轴4(交互建模)从"预测后当障碍"推进到"轻量博弈",但仍保持轴2(求解范式)在"优化"象限——它用的是连续优化而非学习。换言之,这是流派三(连续优化)主动向博弈规划(§7.3 接口)延伸的产物——不是另起炉灶搞博弈,而是在已有的时空优化框架里"嵌入一层轻量交互"。

本质洞察("交互嵌入优化"是流派三的自然演进方向):如果你把流派三的演进画成一条线——从"纯运动学优化"(TEB)到"动力学优化"(MINCO)到"交互感知优化"(IR-STP)——每一步都是在优化问题的约束/代价中多考虑一层现实。TEB 考虑了运动学约束,MINCO 考虑了时间分配,IR-STP 考虑了他车响应。这条"优化器越来越懂世界"的演进线,和流派四"网络从数据学世界"的路线是平行的、互补的——前者把先验结构做进优化器(可控但受限于你能建模多少),后者从数据学先验(灵活但不可验证)。二者的交汇点,正是前面提到的"可微优化层"——让优化器的结构保留,但让数据帮它学到更好的代价/约束。

多模态规划的安全验证:形式化方法的回归

2025–2026 年一个值得关注的逆向趋势是形式化验证方法向学习式规划的渗透。此前,形式化验证(如可达性分析、CBF 认证)几乎只用于传统控制——因为它需要系统模型的解析形式。但近年出现了"对神经网络规划器做后验安全检查"的工作线:

  • 神经网络可达性分析:用区间传播(interval bound propagation)或 Lipschitz 估计来给神经网络规划器的输出画一个"可能到达的状态集"——如果这个集合不与障碍相交,就给出安全证书。
  • 运行时安全监控(Runtime Safety Monitor):不在训练时保证安全,而在每帧推理后做一次轻量检查——如果规划器输出的轨迹违反安全约束,立刻切换到一个预计算的安全后备策略。
  • 概率安全证书:放弃"100% 安全"(对黑箱不现实),转而给"\(1-\delta\) 概率安全"的统计保证——用 conformal prediction 等方法把神经网络的预测误差量化为概率界。

这些工作直接回应了 §8.2 的"可验证学习式规划"开放问题,但目前仍处于理论大于实践的阶段——计算开销、保守度、仅适用于低维系统等限制使其尚未进入量产。

前沿进展与既有坐标系的兼容性

把上述四个趋势放回 §2 的五轴坐标系,可以看出它们没有跳出坐标系,而是在填充此前的空白区域

趋势 轴1 联合 轴2 范式 轴5 计算 填充了什么空白
世界模型规划 天然联合 学习+搜索混合 大量离线 学习象限×搜索象限的交叉
可微优化层 完全联合 优化+学习混合 在线+少量离线 优化象限向右(可学习化)
扩散加速/约束 天然联合 学习+投影 偏离线 学习象限向上(可约束化)
交互嵌入优化 完全联合 优化 在线 优化象限向右(交互化)

本质洞察(前沿不是颠覆坐标系,而是填充坐标系的空白):这四个 2025–2026 的趋势验证了一个综述级的判断——一个方向的前沿,不是每年推翻旧坐标系、建新坐标系,而是在既有坐标系的空白处长出新方法。§2 建立的五轴坐标系在 2022 年就已稳定,三年后仍能精确容纳新进展——这说明坐标系选对了。对你而言,这意味着§2 的投入是一次性的、长期回报的:一旦内化了五轴 + 四象限,未来每年的新论文你都能用三句话定位、比较、判断其价值——这正是综述区别于教程的持久价值。

时空规划在自动驾驶 2025 年工业实践中的位置

2025 年的工业界自动驾驶规划呈现出一个清晰的分层混合架构(与 §8.3 的预测一致,此处用更新的数据验证):

┌─────────────────────────────────────────────────────┐
│ 高层:学习式决策(端到端 / VLA / 大模型推理)          │
│ 职责:语义理解、意图推断、多模态场景枚举               │
│ 特点:离线训练、在线推理快、不可验证                   │
├─────────────────────────────────────────────────────┤
│ 中层:经典规划(EM / 走廊+QP / 连续优化)              │
│ 职责:把高层决策转化为满足约束的光滑轨迹               │
│ 特点:在线优化、可调试、可约束                         │
├─────────────────────────────────────────────────────┤
│ 底层:安全滤波(CBF / 紧急制动 / 硬约束层)            │
│ 职责:无论上层输出什么,保证不违反物理安全底线          │
│ 特点:最简模型、最硬保证、最低延迟                     │
└─────────────────────────────────────────────────────┘

这个三层架构恰好映射到 §4 四流派的"分工"而非"替代":流派四(学习)在高层提供创意和泛化,流派一/二/三在中层提供约束和平滑,安全层在底层提供不依赖任何上层正确性的硬兜底。

对比性思维(三层架构 vs 纯端到端):纯端到端(如 Tesla FSD Beta 的某些版本尝试减少规则层)的理想是"一个网络从感知到控制全包"——但 2025 年的工业实践表明,即使最激进的端到端路线,底层仍保留了硬编码的安全规则(紧急制动、碰撞时间阈值)。这不是因为工程师保守,而是因为"可验证性"在量产安全认证中是不可让渡的要求——监管不接受"这个网络统计上很安全但我无法证明它在任何单一场景下不撞人"。这验证了 §8.1 的判断:实时性 vs 联合性 vs 可验证性的三角张力不会消失,只能通过分层来"各层承担不同的子张力"。

给未来五年的三个预判

基于 2025–2026 的趋势,对时空联合规划方向的近未来给出三个有依据的预判(附"如果错了会怎么表现"的可证伪标记,让读者五年后可以回来校验):

预判一:可微优化层将成为中层规划的默认形态(概率 70%)。 理由:acados + leap-c 的工程成熟度在快速上升,且它精确地解决了"要约束 + 要可学"的核心痛点。可证伪标记:如果 2028 年工业自驾栈的中层仍是纯手调参数的 QP/NLP 而非可微版本,则此预判错误。

预判二:扩散式规划器将进入量产栈的"高层候选生成"环节,但不会独挑大梁(概率 60%)。 理由:扩散的多模态表达天然适合"生成多条候选"(抢行/让行各一条),但约束满足和实时性仍需经典层接管。可证伪标记:如果 2028 年出现不需要经典兜底、独立通过安全认证的纯扩散规划器量产,则此预判保守了。

预判三:世界模型 + 规划的合流将是下一个"时代 V"的开端,但至少还需 3–5 年成熟(概率 50%)。 理由:世界模型提供了"在学到的物理上做搜索"的能力,但分布外鲁棒性这个核心问题目前没有可信的解。可证伪标记:如果 2027 年即有世界模型规划器通过 L4 安全认证,则此预判过于悲观。

本质洞察(预判的价值不在准确,而在"提供一个可校验的锚"):给出预判并附可证伪标记,是综述能做而教程不做的事。它的价值不在于"猜对"——技术预判的准确率本就不高。它的价值在于给你一个"三年后回来校验"的锚:如果预判对了,你对趋势的判断被验证,信心增强;如果错了,你能精确定位"哪个假设崩了"(是约束注入没进展?是工业界比想象中保守?),从而更新自己的认知模型。有锚的认知比没锚的认知进步更快——这是方向级综述的教学价值的又一层。


⚠️ 常见陷阱专栏

陷阱 1:把"联合程度高"等同于"方法更好"

💡 概念误区:认为流派四(端到端)全面优于流派一(解耦)
   新手想法:"联合程度越高越好,所以端到端取代一切"
   实际上:联合程度高=能处理更强的时空耦合,但代价是可验证性↓、工程复杂度↑
   根本原因:联合程度和可验证性之间存在系统性负相关(§2.6 轴间相关性),
            这不是工程限制而是信息论的必然——越黑箱越难证明
   正确做法:先判断场景的时空耦合强度(§6.1 Q1),再选"刚好够用"的联合程度
            弱耦合场景硬上端到端是杀鸡用牛刀(§6.3 过度联合陷阱)

陷阱 2:忽视"计算负担转移"的隐性代价

🧠 思维陷阱:以为"离线训练 + 在线推理"比"在线优化"更便宜
   新手想法:"端到端在线只要一次前向传播,比 MPC 每帧解 QP 快多了"
   实际上:离线训练的代价(数据收集、标注、仿真环境搭建、GPU 集群、
          超参调优、验证集维护、分布漂移时的重训练)远超在线优化的代价
   根本原因:§3.3 的脉络暗线——"计算从在线转移到离线"不是消灭了计算,
            而是把它挪到了一个看不见、难量化、持续产生成本的地方
   正确做法:选型时把"离线维护成本"和"在线计算成本"放在同一张表里比较
            很多中小团队的离线基础设施成本远超在线多跑几个 QP 的成本

陷阱 3:把 SIPP 当成"只适用于多机"的方法

💡 概念误区:认为 SIPP 是 MAPF 专用方法
   新手想法:"SIPP 是在 CBS(多机)里见到的,所以它是多机方法"
   实际上:SIPP 是一个通用的时空搜索加速器——它把时间维的状态空间用
          "安全区间"压缩,这个压缩对任何涉及动态障碍的单机/多机规划都有效
   根本原因:SIPP 的核心贡献是"压缩时间维"这个通用技术,CBS 只是它的
          一个消费者。就像 A* 不是"只适用于路径规划"一样
   正确做法:在§7的跨专题接口图中正确识别 SIPP 的"被复用"关系:
          它来自时空搜索(专题10),被多机(专题50)、动态避障等场景复用

陷阱 4:混淆"同伦类"与"轨迹质量"

🧠 思维陷阱:以为"选对了同伦类就完事了"
   新手想法:"搜索前端选了'左绕',后端优化就一定能给出好轨迹"
   实际上:同伦类只是定性地选了"走哪一大类路"(左绕vs右绕),
          同一个同伦类内的轨迹质量差异可以巨大(急弯vs缓弯、快vs慢)
   根本原因:同伦类是拓扑性质(连续形变等价),不涉及度量(最优性);
          在正确的同伦类内找最优解是后端优化的职责
   正确做法:用搜索选同伦类(定性),用优化在选定的同伦类内精修(定量)
          ——这正是"搜索→优化"混合模式(§2.4)存在的逻辑

练习

综述类练习不是"套公式",而是导航与判断训练——要求你把方法摆到坐标系里、做选型决策、批判性评估。建议在纸上画图、列表作答,再对照正文检验。

基础题(巩固地图)

练习 1(方法定位):用 §2 的五条坐标轴,分别给以下三个方法打坐标(每条轴给一个定性位置):① Apollo EM Planner;② MINCO/GCOPTER;③ UniAD。然后指出:这三者在哪条轴上差异最大?在哪条轴上反而接近?

提示:注意 Apollo 和 UniAD 在"实时性"轴上都偏快,但快的机理完全不同(§5.1 观察2)。

练习 2(脉络复述):不看正文,画出时空联合规划四个时代的演进图,每个时代写出:① 核心矛盾;② 一个代表方法;③ 它解决了上一代什么问题、又留下什么新坑。重点解释"为什么说学习生成时代(IV)是解耦时代(I)的'算力平反'"。

练习 3(范式归类):把下列方法归到 §2.2 求解范式四象限的正确象限,并说明判断依据(问"可微吗?离散吗?"):CBS、MPPI、CILQR、Neural A*、ST-RRT*、Diffusion Policy。其中哪些是"跨象限"的混合方法?

进阶题(选型与对比)

练习 4(选型决策):你的团队要做一个仓储多机器人调度系统,规模约 200 台 AGV,要求实时(每台决策 < 50ms)、不要求全局最优但要无碰撞。走一遍 §6.1 的三个决策问题,给出推荐方法族,并说清:为什么这里主动放弃最优性是对的?如果规模降到 5 台、且追求总路程最短,推荐会怎么变?

练习 5(反向选型/批判):某同学说"我们的高速公路 ACC 项目要用最先进的扩散式端到端规划,这样最准"。用 §6.3 和 §8.3 的论点反驳他——指出这是哪种典型错误(提示:过度联合 + 范式层选错),并给出更划算的方案及理由。

练习 6(优劣矩阵应用):§5.1 的优劣矩阵里,"可验证性"一行流派四只有一星。假设有一天出现了一种"可形式化验证的学习式规划器"(§8.2 的圣杯),这一星变成五星。重新审视整张矩阵:这个突破会让流派四在哪些场景立刻取代流派一/二/三?哪些场景仍不会?为什么?

跨专题综合题(每章至少一道)

练习 7(跨专题接口):§7.1 指出 CBS(多机专题)的低层用 SIPP(时空专题)。请进一步分析:① 如果把 CBS 低层的 SIPP 换成时空规划流派三的 MINCO(连续优化),会带来什么好处和什么新问题?② 这种"高层搜索 + 低层连续优化"的混合,对应 §2.2 四象限的哪两个象限的接力?③ 举一个本方向其他专题里"高层离散 + 低层连续"的类似分层例子(提示:看 TAMP §7.5)。

练习 8(开放问题落点):找一篇 2024 年之后的时空规划或自动驾驶规划论文(可用本章延伸阅读里的综述按图索骥),判断:它在攻 §8 的哪个开放问题?用了什么招(对应哪个流派/范式)?它的软肋可能落在 §8 总结的哪个"根源"上?

这道题训练的是综述给你的元能力——用开放问题地图快速定位任意新工作。


延伸阅读

综述章的延伸阅读分两类:方向级综述论文(帮你建立更宽的全局观)和本专题各章(帮你深入每座山)。按需选读,不必一次读完。

方向级综述论文(建立全局观)

文献 一句话 难度
Motion Planning for Autonomous Driving: The State of the Art and Future Perspectives(arXiv:2303.09824) 自动驾驶运动规划的权威综述,pipeline + 端到端双线梳理,本章 §3/§8 的重要参照 ⭐⭐⭐
A Survey of Autonomous Vehicle Behaviors: Trajectory Planning Algorithms(Sensors 2024, 24(15):4808) 局部轨迹规划算法分类 + 碰撞风险感知,偏工程视角 ⭐⭐
A Survey of Decision-Making and Planning Methods for Self-Driving Vehicles(Front. Neurorobot. 2025) 决策与规划方法的系统分类,行为决策 + 运动规划两阶段 ⭐⭐
A Survey of RL-Based Motion Planning for Autonomous Driving(arXiv:2503.23650, 2025) 从任务视角梳理 RL 规划,呼应本方向"RL 贯穿综述" ⭐⭐⭐
A Survey of World Models for Autonomous Driving(arXiv:2501.11260, 2025) 世界模型 + 规划,§8.6"世界模型方向"的入口 ⭐⭐⭐⭐

本专题各章(深入每座山)

  • 时空规划专题(10):T0 总论 → T1 Frenet/ST → T2 走廊与搜索 → T3 轨迹优化 → T4 Apollo/Autoware → T5 多智能体 → T6 端到端扩散 → 专题内综述。本章是它们的"林海图",那 8 章是"每棵树"。
  • 专题内综述04/10_时空规划/80_综合对比与附录.md——比本章更细地打通 T1–T6 六章(含 27 篇论文分级清单、23 个开源项目分优先级、四条学习路线)。本章给方向级地图,它给专题级清单,二者互补。
  • 其他六专题总论:各专题的 10_*总论.md(采样式MPC/不确定性/博弈/多机/TAMP)——读完本章 §1/§7 后,按兴趣挑专题深入。

关键开源代码(动手验证)

仓库 对应流派 用途
ApolloAuto/apollo modules/planning 工业级解耦规划,最值得精读
ZJU-FAST-Lab/GCOPTER MINCO 官方实现,header-only
HKUST-Aerial-Robotics/EPSILON 城市交互走廊 + 行为分支
ompl/ompl 二/三采样 通用采样库,原生 space-time
mit-acl/mader 三多机 多无人机动态避障

本章与后续章节的关系

本章是方向级综述的第一篇,也是整个移动规控方向的入口地图。它与后续内容的关系如下:

后续内容 与本章的关系 本章哪节为其铺垫
时空规划专题 T1–T6 + 专题内综述 本章 §3–§7 是它们的方向级总览;深入前先读本章建坐标系 §3 脉络、§4 流派、§5 矩阵
方向综述(二)不确定性规划 本章 §7.2 给了时空↔不确定性的接口;那篇深挖五条子路线 §1.1、§7.2
方向综述(三)博弈规划 本章 §7.3 指出时空规划是博弈的"退化特例";那篇深挖博弈四章 §7.3、§8.4
方向综述(四)交互意图预测 本章 §8.4 的"鸡生蛋"循环是它的核心;那篇深挖预测-规划一体化 §8.4
方向综述(五)RL 与经典规控贯穿 本章 §2.2 范式四象限的"学习"象限、§8.6 是它的入口 §2.2、§3.2 时代IV、§8.6
采样式 MPC / 多机 / TAMP 各专题 本章 §7.4/§7.1/§7.5 给了它们与时空规划的接口 §7

使用建议:把本章当作反复回看的地图,而非读一遍就过。每学完一个专题,回到 §6 选型表和 §7 接口图,把新学的方法标到坐标系里——这样积累下来,你脑中的"方法地图"会越来越密、越来越能用来做决策。这正是 §0 说的综述独有价值:专题章给深度,本章给导航。


🔧 故障排查手册

综述类章节的"故障"不是代码报错,而是学习与认知层面的卡点——读综述时容易陷入的几种思维误区,以及如何排查、纠正。

# 症状 可能原因 排查步骤 相关节
1 读完仍不会选型——面对真实场景依然卡壳"该用哪个" 只记住了方法名和优缺点,没把方法压到统一坐标轴上对比过 ① 重做练习1(给方法打坐标);② 走一遍 §6.1 三个决策问题;③ 用 §6.2 决策表对照你的场景 §2.1、§6
2 混淆"先进"与"适用"——总想用最新最强的方法 误以为联合程度/范式有"进化优劣"(误解1/2/3) ① 重读 §4.5"同一枚硬币三面";② 重读 §6.3 过度联合陷阱;③ 自问"我的场景的硬需求落在矩阵哪一行" §4.5、§5.1、§6.3
3 同一方法在不同专题里学两遍——觉得 SIPP/走廊"怎么到处都是" 没建立"七专题同源、工具跨专题复用"的全局观 ① 重读 §1.1 七专题同源;② 看 §7 跨专题接口图,确认哪些是"同一份代码嵌入不同框架" §1.1、§7
3.5 以为综述能替代专题章——读完综述就以为掌握了方法 误把"导航地图"当成"实地勘探"——综述不推导、不贴代码 ① 明确综述只给"林海图",深度在专题章;② 按 §6.2 选定一个方法后,去对应专题章精读其推导与代码 §0、本章定位
4 被开放问题劝退——觉得"既然都没解决,学了也白学" 误解开放问题的意义——它们标的是研究前沿,不是否定已有方法的工程价值 ① 重读 §8.3:现实是混合架构,经典方法仍是量产主力;② 区分"研究开放"与"工程可用"——前沿未定不妨碍成熟方法落地 §1.3、§8
5 记不住方法谱系——9 张卡片/四时代/四流派混作一团 试图死记硬背,而非挂到坐标轴上 ① 只记两条主轴(联合程度 §2.1、范式四象限 §2.2);② 把每个方法挂到这两轴的某个位置,谱系自然浮现(§5.2 末洞察) §2.1、§2.2、§5.2

排查的元原则:综述类内容的认知卡点,几乎都源于"没有把方法摆到统一坐标系里"。无论遇到上面哪种症状,回到 §2 的五条轴 + 四象限重新定位,是最通用的解法。综述不是让你记住更多方法,而是让你有一个能容纳和比较所有方法的坐标系——卡住时,先问自己"我把这些方法摆到坐标系里了吗"。


研究实践建议

给初入本方向的读者:不要试图线性读完所有专题再开始动手。正确路径是——读完本章建立全局地图后,按 §1.4 的理由先深入时空联合规划专题(它是枢纽、生态最成熟、最能以一斑窥全豹),动手跑通 GCOPTER 或 Apollo planning 的一个 demo,建立"方法-代码"的实感。然后回到本章 §6/§7,按你的目标方向(自驾/无人机/多机)挑下一个专题。地图先行,但不要停在地图上——每张地图都要落到一次动手验证。

给有经验的读者:本章最大的价值不在 §3–§5 的脉络与对比(这些你可能已熟),而在 §2 的统一坐标轴§7 的跨专题接口图——它们提供的是"把你已有的零散经验重新组织成可决策框架"的脚手架。建议做一次练习:把你做过的所有规划项目,逐一标到 §2 五轴坐标系里,看它们聚在哪个区域、留白在哪个区域——留白处往往就是你的能力边界和下一步该补的方向。对资深工程师,综述的价值是"重新组织已知"而非"获取未知"。


累积项目衔接

本章是方向级综述,不含可运行代码。但它为后续各专题的累积项目奠定了"选型与导航"的认知地基。

综述章与累积项目的分工

本方向的累积项目分布在各专题正文里(时空规划 T1–T6、采样 MPC、不确定性 U0–U5 等),本综述章不直接产出代码模块,但它提供了三种"判断力"来指导你在累积项目中做决策:

  1. 选型判断:当累积项目要求"选一个合适的规划方法"时,回到 §6 的选型决策树和 §2 的五轴坐标系,用三个决策问题收敛到合适的流派。
  2. 接口判断:当累积项目的多个模块需要对接(如搜索前端出初值给优化后端)时,回到 §2.4 的混合模式表,确认你的模块分工是否属于已验证的混合模式。
  3. 范式判断:当你在累积项目中犹豫"该从零实现还是调用开源库"时,回到 §5.2 的方法卡片总表查 C++ 抓手列——有成熟开源的就站在巨人肩上,空白的就认真评估自己实现的成本。

衔接路径

后续累积项目 本章为其提供的"判断力" 回查节
时空规划 T1–T6:从 Frenet ST 到 MINCO "四流派分化"告诉你每个 T 章在讲哪个流派、它们是什么关系 §4
采样式 MPC / MPPI:MPPI 教学实现 "求解范式四象限"定位 MPPI 在右上象限(连续不可微) §2.2
不确定性 U0–U5:Tube MPC / DESPOT 教学 "五安全谱"提供选型框架(先分桶再选谱) 综述(二)
博弈 G0–G4:iLQGames 教学实现 "换内核"元模式告诉你 iLQGames 骨架来自 iLQR 综述(三)
无人机应用 D:GCOPTER 实飞 "形态迁移表"定位无人机的时空规划为何最干净 §3.5

本质洞察(综述不产出代码,但产出"元代码"——指导你怎么组织代码的判断力):一个累积项目的成功,30% 在于"代码写对了",70% 在于"选对了该写什么代码"。综述就是给那 70% 的——它回答"该实现哪个方法、该复用哪个库、模块怎么对接、接口怎么画"这些在写第一行代码之前就该定下的问题。带着综述的判断力进专题章,你写出的累积项目会比"直接扎进专题盲写"的质量高出一个层次——因为你不会犯"在简单场景硬上端到端"或"把 SIPP 和 CBS 当两套方法各实现一遍"这类方向性错误。


附录:方法定位速查工作表

本附录提供一张空白的"方法定位工作表"——当你遇到任何新方法(论文、开源库、工程同事提到的名字),用这张表的五行填空就能快速定位它在本章坐标系里的位置,从而立刻判断它的长处、短板、以及和你已知方法的关系。

使用方法

拿到一个新方法后,逐行填写:

方法名:_____________

1. 轴1 时空联合程度:解耦 / 半联合 / 联合搜优 / 完全联合 / 天然联合
   判断依据:路径和速度/时间是分步决定还是同时决定的?
   → 我的填写:_______________

2. 轴2 求解范式:搜索 / 优化 / 采样 / 学习 / 混合(写清哪两种怎么混)
   判断依据:代价可微吗?解空间离散还是连续?
   → 我的填写:_______________

3. 轴3 不确定性处理:确定性 / 鲁棒 / 概率 / 风险敏感 / 隐式(从数据学)
   判断依据:它显式建模不确定性了吗?用什么数学对象?
   → 我的填写:_______________

4. 轴4 交互建模:无视 / 障碍 / 预测后当约束 / 轻量博弈 / 完全博弈
   判断依据:它怎么对待环境里的其他决策者?
   → 我的填写:_______________

5. 轴5 计算负担:全在线 / 部分离线 / 几乎全离线
   判断依据:它在哪里花最多计算时间——每帧的在线求解,还是部署前的离线训练?
   → 我的填写:_______________

定位结论:它最接近 §5.2 的哪张方法卡片?_______________
它的最大优势在哪条轴上?_______________
它的最大短板在哪条轴上?_______________

填写示范:定位一个你可能在 2025 年新论文里遇到的方法

方法名:Diffusion-Planner(Zheng et al., ICLR 2025 Oral)

1. 轴1:天然联合(网络直接吐 ego + 他车联合轨迹序列,路径速度浑然一体)
2. 轴2:学习(扩散/去噪生成)+ 可选的后处理优化投影 → 混合(学习→优化)
3. 轴3:隐式(多模态从数据学,通过多次采样表达不确定性,但无显式概率保证)
4. 轴4:隐式博弈(联合去噪 ego + 他车轨迹,隐式建模交互,但无显式均衡概念)
5. 轴5:几乎全离线(海量离线训练 + 在线去噪推理 8-50 步)

定位结论:最接近 UniAD 卡片(流派四),但在生成脉上是扩散而非自回归
最大优势:多模态联合生成(轴1+轴4 都在最右端)
最大短板:可验证性极弱(黑箱),实时性受去噪步数限制(轴5 偏离线)

本质洞察(这张工作表是综述训练的"最终产品"):如果你能对任意新方法流畅地填完这五行——不用查论文细节,只凭方法的一句话描述和你对坐标轴的理解——那你就真正内化了本章的核心能力。综述不要你记住 9 张卡片的细节,它要你拥有一个能快速生成第 10、第 11、第 N 张卡片的工具——这张工作表就是那个工具。练到脱口而出五轴坐标,你就从"综述的读者"毕业为"综述的使用者"。


附录 B:时空规划方法的数学形式化比较

本附录用统一的数学语言刻画四大流派的优化问题形式,帮助读者在"直觉理解"之外获得"形式化理解"——特别是理解"它们到底在解什么不同的数学问题"。

统一符号

  • \(\boldsymbol{\xi}(t) = (x(t), y(t), \theta(t), v(t), \ldots)\):时空轨迹
  • \(\sigma(s) = (x(s), y(s))\):几何路径(参数化为弧长 \(s\)
  • \(s(t)\):速度剖面(弧长关于时间的函数)
  • \(\mathcal{O}(t)\):时刻 \(t\) 的障碍占据区域
  • \(T_i\):第 \(i\) 段的时间分配
  • \(\mathbf{c}\):轨迹的控制点/航点参数

流派一的数学形式

流派一(解耦迭代)把一个联合问题拆成两个子问题交替求解

\[ \text{Path 子问题:}\quad \min_{\sigma} J_{\text{path}}(\sigma) \quad \text{s.t.} \quad \sigma \in \mathcal{F}_{\text{path}}(s^{(k-1)}) \]
\[ \text{Speed 子问题:}\quad \min_{s(\cdot)} J_{\text{speed}}(s) \quad \text{s.t.} \quad s \in \mathcal{F}_{\text{speed}}(\sigma^{(k)}) \]

其中 \(\mathcal{F}_{\text{path}}\)\(\mathcal{F}_{\text{speed}}\) 分别是路径和速度的可行域,它们互相依赖——路径可行域取决于上一轮的速度决策(哪些空间在对应时刻是安全的),速度可行域取决于当前轮的路径(沿哪条路走决定了可用的速度范围)。上标 \((k)\) 表示第 \(k\) 轮迭代。

关键数学性质:每个子问题通常是凸的(SL 图里的路径 QP、ST 图里的速度 QP),但交替的整体不保证收敛到联合最优——因为两个子问题的可行域互相耦合,EM 迭代可能振荡。Apollo 在工程上用"限制迭代次数 + 启发式阻尼"来规避振荡。

流派三的数学形式

流派三(连续优化)把所有变量放进一个优化问题:

\[ \min_{\mathbf{c}, \{T_i\}} \; J(\mathbf{c}, \{T_i\}) \quad \text{s.t.} \quad \boldsymbol{\xi}(\mathbf{c}, \{T_i\}, t) \notin \mathcal{O}(t),\; \forall t \in [0, T_{\text{total}}] \]

其中 \(\mathbf{c}\) 是空间控制点(航点),\(\{T_i\}\) 是段时间分配——二者同时作为决策变量。MINCO 的关键贡献是证明了 \(\partial J / \partial T_i\)\(\partial J / \partial \mathbf{c}_j\) 都有闭式表达(利用最小控制量参数化的结构),从而让这个联合非凸问题可以用高效的梯度下降求解。

关键数学性质:问题非凸(碰撞约束 + 时间分配),局部最优依赖初值。但闭式梯度让每次迭代极快(\(O(N)\)\(N\) 为段数),在好初值下收敛很快。

流派一 vs 流派三的数学对比

维度 流派一(解耦迭代) 流派三(连续优化)
决策变量 \(\sigma\)\(s(\cdot)\) 分离 \((\mathbf{c}, \{T_i\})\) 联合
子问题凸性 每个子问题凸(QP) 联合问题非凸
最优性保证 对交替整体无保证 局部最优(梯度下降)
对初值的敏感性 弱(凸子问题不敏感) 强(非凸依赖初值)
计算负担 每轮低(凸 QP),但可能需多轮 每次迭代低(闭式梯度),但总迭代数取决于初值质量

本质洞察(形式化揭示了"凸性 vs 联合性"的不可兼得):流派一通过拆分获得了每个子问题的凸性,代价是丢失了联合最优性;流派三通过合并获得了联合最优性(至少局部),代价是问题变非凸。"凸且联合"在有碰撞约束的时空规划中几乎不可能——因为"不碰障碍"这个约束的可行域本身是非凸的(障碍在空间中挖了个洞)。流派二(走廊+QP)是唯一尝试两全的——它用走廊把非凸可行域近似为凸多面体序列,然后在每个凸子域内做凸优化——代价是走廊的保守性(走廊可能比真实可行域窄)。


版本信息

  • 文档类型:方向级综述(综述/对比类,参照论文解读与理论教学规范——重在脉络梳理与对比综合,几乎无代码)。
  • 覆盖范围:移动机器人规控全景(七专题 + 无人机应用)+ 时空联合规划深度综述(脉络/流派/矩阵/选型/接口/开放问题)+ 2025–2026 前沿补遗(世界模型/可微优化/扩散加速/交互嵌入/安全验证)+ 工程生态总评 + 方法定位速查工作表。
  • 与专题内综述的关系:本章是"林海图"(方向级),04/10_时空规划/80_综合对比与附录.md 是"专题级清单",二者互补非重叠。本章给全方向地图+时空深度综述,那篇给专题内 27 篇论文分级清单 + 23 个开源项目 + 四条学习路线。
  • 与其他四篇综述的关系:本章(S1)讲全景+时空,S2 深挖不确定性五谱,S3 深挖博弈四时代八流派,S4 深挖交互预测六时代四脉,S5 缝合 RL 贯穿收口。五篇构成方向级综述的完整系列。

符号约定

本章作为综述不引入新的数学推导,但在引用各专题的公式时沿用以下统一符号:

符号 含义 使用处
\(\boldsymbol{\xi}(t)\) 完整时空轨迹 §3、§4、附录 B
\(\sigma(s)\) 几何路径(弧长参数化) §3.1、§4.1
\(s(t)\) 速度剖面 §3.1、§4.1
\(T_i\) \(i\) 段的时间分配 §4.3、附录 B
\(\mathcal{O}(t)\) 时刻 \(t\) 的障碍占据 §3.1、§4.2
\(V^*\) 最优值函数(Bellman 方程的不动点) §2.6、综述(五)
\(h(s)\) 搜索启发式(逼近 \(V^*\) §2.2、§2.4

缩写表

本章涉及的缩写及其全称:

缩写 全称 首次出现
PVD Path-Velocity Decomposition §1.1
SIPP Safe Interval Path Planning §3.2
SSC Spatio-temporal Semantic Corridor §4.2
SFC Safe Flight Corridor §4.3
MINCO Minimum Control §3.2
EM Expectation-Maximization (此处指 Apollo 的路径-速度交替优化) §3.2
QP Quadratic Programming §2.2
NLP Nonlinear Programming §2.2
MIQP Mixed-Integer Quadratic Programming §3.2
MPPI Model Predictive Path Integral §1.5
CBS Conflict-Based Search §7.1
MAPF Multi-Agent Path Finding §7.1
TAMP Task and Motion Planning §1.5
CBF Control Barrier Function §8.2
RRT Rapidly-exploring Random Tree §2.2
OMPL Open Motion Planning Library §3.2
TEB Timed-Elastic-Band §4.3
OBCA Optimization-Based Collision Avoidance §4.3
IL Imitation Learning §3.2
RL Reinforcement Learning §2.2
POMDP Partially Observable Markov Decision Process §1.5
CEM Cross-Entropy Method §1.5
FSM Finite State Machine §3.6
ESDF Euclidean Signed Distance Field §3.2
HJB Hamilton-Jacobi-Bellman §2.6
HJI Hamilton-Jacobi-Isaacs §2.6
VLA Vision-Language-Action 前沿补遗
DRO Distributionally Robust Optimization 前沿补遗
DDPM Denoising Diffusion Probabilistic Model 前沿补遗
IR-STP Interaction Reasoning in Spatio-Temporal Planning 前沿补遗
GP Gaussian Process 前沿补遗
RPI Robust Positively Invariant (set) §8.2
CILQR Constrained Iterative Linear Quadratic Regulator §4.3
DDP Differential Dynamic Programming §2.2
CVaR Conditional Value at Risk §1.1
MCTS Monte Carlo Tree Search §2.4
RSSM Recurrent State-Space Model 前沿补遗
STC Spatio-Temporal Corridor §4.2
- 前沿截止:纳入 2024–2026 关键进展(世界模型规划、可微优化层 acados+leap-c、扩散加速/约束化、IR-STP 交互推理、形式化验证向学习渗透)。
- 与专题内综述的关系:本章是"林海图"(方向级),04/10_时空规划/80_综合对比与附录.md 是"专题级清单",二者互补非重叠。
- 活文档:后续教学讨论中产生的新选型案例、新开放问题、新方法卡片应回写本篇(R12 讨论回写原则)。

附录 C:五条坐标轴的详细判断标准 ⭐⭐

本附录为 §2.1 的五条坐标轴提供更详细的判断标准——当你拿到一个方法、需要在某条轴上精确定位时,用这些标准表格。

轴1 时空联合程度的五档判断标准

档位 判断标准 典型表征
完全解耦 路径决策完全不考虑速度/时间信息,速度决策在固定路径上进行 两个独立的优化器串行调用,无迭代
半联合 路径和速度分步决定,但通过迭代/信息传递部分耦合 EM 迭代、多轮交替优化
联合搜索 在时空联合空间中搜索/构造安全区域,但优化仍在安全区域内分步 时空走廊/SSC、SIPP
完全联合 时间是显式的优化变量,和空间参数在同一个优化问题中联合求解 MINCO 的 \(\{T_i\}\) 作为变量、CILQR
天然联合 网络直接输出带时间戳的轨迹点,不存在"先路径后速度"的概念 端到端、扩散模型

判断口诀:问"时间信息在这个方法里长什么样"——如果时间是"速度剖面的隐变量"→解耦;如果时间是"搜索状态的一维"→联合搜索;如果时间是"优化的决策变量"→完全联合;如果时间"根本没被显式表示,只是输出序列的索引"→天然联合。

轴2 求解范式的判断流程

问题1:方法的核心操作是"在图上展开节点"吗?
  YES → 搜索
  NO → 问题2

问题2:方法的核心操作是"对可微目标做梯度/牛顿迭代"吗?
  YES → 优化
  NO → 问题3

问题3:方法的核心操作是"生成大量随机 rollout 再加权/筛选"吗?
  YES → 采样
  NO → 问题4

问题4:方法的核心操作是"从数据拟合一个映射(策略/生成器)"吗?
  YES → 学习
  NO → 可能是混合(检查方法是否串联了上述多个操作)

轴3 不确定性处理的判断流程

问题1:方法是否显式建模了不确定性?
  NO → 确定性(最简单,大部分经典方法)
  YES → 问题2

问题2:不确定性被建模为"有界集"还是"概率分布"?
  有界集 → 鲁棒
  概率分布 → 问题3

问题3:方法关注的是"违反概率"还是"违反后果深度"?
  违反概率 → 机会约束
  违反后果深度 → 风险敏感(CVaR)

另一条支线:
  状态不可直接观测 → POMDP(正交于上面的分类)

轴4 交互建模的五档判断标准

档位 他人在方法里扮演什么角色 判断标准
无视 他人不出现在问题形式化中 纯静态环境规划
静态障碍 他人按当前位置当作固定障碍 避障但不考虑他人运动
预测后当约束 先预测他人未来轨迹,再当动态障碍约束 两段式管线,信息单向
轻量博弈 他人的响应模型被嵌入规划的代价/约束中 如 Stackelberg 的单层响应、IR-STP
完全博弈 他人被建模为独立的优化者,求联合均衡 iLQGames、ALGAMES、GameFormer

轴5 计算负担位置的三档判断标准

档位 判断标准 主要计算发生在何时
全在线 没有训练/预计算阶段,每帧从零开始求解 部署时的每个控制周期
部分离线 有预计算(如查找表、warm-start 模板、地图),在线做轻量精修 离线预计算 + 在线精修
几乎全离线 核心计算(训练神经网络)在离线完成,在线只做轻量推理 训练阶段(可能数天/数周)

本质洞察(五条轴的判断流程,是把"方法定位"从直觉变成程序的工具):初学者定位方法靠"感觉像搜索/像优化/像学习",容易犯错。用上面的判断流程,变成机械的"问—答—定位":每条轴问 2–3 个是/否问题,五条轴 10–15 个问题走完,方法的五轴坐标就精确确定了。这套流程是 §2 五轴坐标系的"操作手册"——坐标系是地图,操作手册是罗盘。


附录 D:时空规划方向的工程生态总评 ⭐⭐

本附录汇总时空联合规划方向所有工程可用的 C++ 开源项目,给出"可用度"和"教学价值"的双维度评估。

C++ 开源项目总评表

项目 Stars(约) License 主要流派 可用度 教学价值 一句话评价
apollo/modules/planning 26k+ Apache-2.0 一(EM) ★★★★ ★★★★★ 唯一量产级 C++ 规划栈,最值得精读的工业代码
GCOPTER ~1.2k MIT 三(MINCO) ★★★★ ★★★★★ Header-only 优雅实现,闭式梯度学术标杆
EPSILON ~677 MIT 二(SSC+行为) ★★★ ★★★★ 城市交互规划唯一完整 C++ 栈
mader ~600 MIT 三+多机 ★★★ ★★★★ 多机动态避障的完整实现
ego-planner-swarm ~500+ GPL 三+多机 ★★★ ★★★ 去中心化集群,但 GPL 限制商用
OMPL ~1k+ BSD 二/三采样 ★★★★ ★★★ 通用采样库,原生 space-time
teb_local_planner ~500+ BSD 三(TEB) ★★★★★ ★★★ ROS 导航生态标配,工程最稳定
libMultiRobotPlanning ~300+ MIT 二(SIPP/CBS) ★★★ ★★★★ MAPF 低层 SIPP 的清晰实现

工程生态的三个启示

启示一:流派一(解耦)和流派三(连续优化)的 C++ 生态最成熟。 Apollo EM 和 GCOPTER/TEB 分别覆盖了工业和学术的两端,任何时空规划项目都能在这两个里找到成熟起点。

启示二:流派四(端到端学习)在 C++ 侧几乎空白。 UniAD/Diffusion Planner 全是 PyTorch 实现,C++ 部署需要 TensorRT/ONNX 导出——这个"Python→C++ 鸿沟"在时空规划方向和交互预测方向一样显著。

启示三:教学价值和 Stars 数不完全相关。 EPSILON(677⭐)的教学价值极高(它是理解"行为决策+运动规划分层"的活教材),但 Stars 远低于 Apollo——因为 Apollo 吸引的是产业关注,EPSILON 吸引的是学术圈。选代码读的时候,按"教学价值"列选,不按 Stars 选

多视角理解(时空规划的 C++ 生态 vs 博弈规划的 C++ 生态):把本表和 30_博弈规划.md §3.4.5 的博弈求解器生态表对照——时空规划有 8 个以上成熟 C++ 项目(从工业级到学术级全覆盖),博弈规划只有 1 个主力 C++(iLQGames,且已停更)。这个巨大反差的根源是 §1.3 的"前沿性 vs 生态成熟度反相关"——时空规划是工程化时间最长(1986 年至今 40 年)、场景最成熟的专题,自然沉淀了最厚的 C++ 生态。像/不像:两个方向像在于学术前沿都偏 Python/Julia;不像在于时空规划的经典方法(PVD/EM/MINCO/TEB)已有大量 C++ 沉淀,而博弈规划的经典方法(iLQGames 之前的 HJI)根本不适合大规模工程化(维度诅咒),所以 C++ 代码是从 iLQGames(2019)才开始的——只有 5 年沉淀,当然薄。


本文档属于 Robotics Tutorial 项目。采用 CC BY 4.0 协议,转载请注明出处。