跳转至

20_序章下篇_前沿与学习路径

本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。

序章导论(下):自驾特殊地位 + 横向方法论前沿 + 学习路径建议

文件类型:辅助导读文件(不适用教学章节完整规范,无需前置自测/陷阱专栏/练习题等教学模块)

本文件定位:序章的下半部分 承接:上篇讲了"规控的本体四分法"和"基础设施共享" 本篇:讨论自驾为什么独立、横向方法论前沿、具体学习路径建议 预期阅读时间:90-120 分钟


0.10 为什么自驾不在四分法内 ⭐

问题:自驾车明明也是"机器人规控",为什么不把它列入四分法?

0.10.1 四分法的分类标准 ⭐

回顾 0.3:四分法按"规控的数学结构和代码栈主要形态"分类。

自驾在这个标准下: - 本体:四轮汽车 —— 动力学是简化的自行车模型或单轮模型 - 数学:几乎没有 SE(3) 流形复杂性、没有接触切换、欠驱动程度远低于腿足(轮子可控,甚至过驱动,但仍存在非完整约束) - 代码栈:和四类都不重合(Apollo、Autoware 是自成体系的巨兽)

所以自驾看起来应该是"第五类"——但它和前四类有一个质的差异:

0.10.2 自驾是"感知-决策主导"的,不是"规控主导"的 ⭐

腿足 / 机械臂 / 无人机 / 复合机器人的工程重心: - 感知:20-30% - 控制 / 规控算法:50-60% - 硬件 / 实时:10-20% - 学习:10-20%(近年上升)

自驾的工程重心完全不同: - 感知 + 预测:50-60%(最大头) - 决策 + 行为规划:20-30%(博弈论、游戏树等) - 规控(局部轨迹 / 跟踪):10-15% - 硬件 / 实时:5-10%

自驾的控制器其实很简单——纯跟踪 MPC + 横向 LQR,比腿足 WBC 简单十倍以上。复杂性全在感知和决策。这就像下棋:自驾的难点在于"看清棋局"(感知预测)和"决定走哪步"(行为规划),而不在"把棋子放到格子上"(控制执行)。腿足恰恰相反——"放棋子"这个动作本身就是极难的动力学问题。

0.10.3 自驾的独特数学结构 ⭐⭐

自驾控制用的模型:

自行车模型(Bicycle Model):

\[\dot{x} = v \cos(\theta + \beta), \quad \dot{y} = v \sin(\theta + \beta), \quad \dot{\theta} = \frac{v \cos\beta}{L} \tan(\delta)\]

其中 \(\delta\) 是前轮转向角,\(L\) 是轴距,\(\beta = \arctan(l_r \tan\delta / L)\) 是后轴侧偏角(\(l_r\) 为后轴到重心距离)。这就是全部——3 维状态 \((x, y, \theta)\),非线性但简单。

控制算法: - 横向控制:LQR 或 MPC 跟车道中线 - 纵向控制:PID 跟车速 - 规划:A* / Hybrid A* / 时空搜索(时间作为一维)

和腿足的对比: - 腿足 MPC 决策变量 500-2000 维 - 自驾 MPC 决策变量 30-100 维(简单很多)

0.10.4 自驾的真正难点在神经网络主导的感知 ⭐

自驾感知栈(现代架构):

多模态输入:相机(6-12 个) + LiDAR + 毫米波 + GPS + IMU
特征提取(CNN + Transformer)
多任务输出:3D 检测 + 跟踪 + 语义分割 + 车道 + 占用栅格
预测其他 agent 的未来轨迹
决策(博弈、安全包络)
轨迹规划(平滑轨迹 + 避碰)
控制器(简单 LQR / MPC)

大部分复杂性在上半部分,控制器只是收尾。

且 2020 年后,越来越多自驾走端到端路线(Tesla、Wayve 等)——输入像素,输出方向盘和油门,中间的"规划"隐式学到。这进一步弱化了传统控制部分

0.10.5 自驾与机器人社区的分野 ⭐

机器人社区(ICRA、IROS、RSS、T-RO)和自驾社区(CVPR、ICCV、IV、T-IV)相对独立: - 两边论文几乎不互相引用 - 用不同的工具链(ROS2 vs Apollo / Autoware) - 不同的工业界生态

例外:某些方向会交叉—— - SLAM:两边都用,但自驾更强调长距离地图、HD Map - 运动预测:腿足刚开始学自驾多年前就做的行人预测

0.10.6 对你的启示 ⭐

如果你打算本大纲后扩展自驾规控: - 你的 SLAM 背景 + 腿足基础设施(李群、KF、因子图)都能迁移 - 新学的:Apollo / Autoware 代码结构、HD Map、车道模型、Hybrid A、行为预测(不只是规控算法) - *时间:6-12 个月**(但规控部分相对快)

但 2025 年后的自驾趋势:传统规控部分正被端到端侵蚀。纯"规控"作为博士方向,自驾不如腿足有前景

综合推荐: - 想做科研(博士论文)→ 腿足规控是更有深度的选择(本大纲) - 想做工业应用 + 高薪自驾感知是更大的市场 - 想做感知 + 规控横跨→ 腿足 + 自驾感知栈作为背景组合

本质洞察:自驾不在四分法内,不是因为它"不重要",而是因为它的复杂性维度完全不同——四分法衡量的是"控制的数学难度",而自驾的难度集中在"感知的不确定性"。一个系统的工程难度取决于"最难的那个子问题",自驾的瓶颈在于理解场景中其他智能体的意图,腿足的瓶颈在于驾驭自身的物理动力学。两者的研究方法论、数学工具、代码栈都因此走向了不同的演化路径。


上一节厘清了自驾与四分法之间的关系——自驾的复杂性集中在感知和决策,而非规控。回到规控领域本身,近年来涌现了三种横跨所有本体类型的新范式,它们正在重塑整个领域的研究格局。

0.11 横向方法论前沿 —— 跨本体的新范式 ⭐⭐⭐

除了按本体分类,还有横向的方法论前沿——它们跨越所有本体类型,代表机器人学的未来走向。

本节讲三个最重要的横向前沿,每个都是博士论文级别的研究方向。

0.11.1 Foundation Models for Robotics(VLA) ⭐⭐⭐

什么是 VLA(Vision-Language-Action):

一类大模型,输入是视觉 + 语言(任务指令),输出是机器人动作。端到端,不分层。

代表工作: - RT-1 / RT-2(Google DeepMind,2022-2023) - OpenVLA(Stanford,2024)——开源,7B 参数 - π0(Physical Intelligence,2024)——专门做灵巧操作 - Octo(Stanford + Berkeley) - GR-2(ByteDance)

对腿足的影响: - 目前 VLA 主要用于操作(机械臂 / 复合机器人),腿足占比小 - 原因:操作任务天然有语言标签("把红杯子递给我"),腿足"trot forward"这种指令简单,不太需要 VLA 的复杂性 - 但 2025 年:Unitree G1 + VLA 的结合开始出现,人形 + VLA 可能是未来

2024-2026 年 VLA 新进展:

VLA 的核心思想是将大规模视觉-语言预训练模型(如 PaLM-E、RT-2 所采用的 Vision Transformer + LLM 架构)迁移到机器人动作空间:模型的输入是摄像头图像和自然语言指令,输出不再是文本 token,而是机器人的连续动作序列。这种范式利用了视觉-语言预训练积累的丰富世界知识(物体识别、空间关系、任务语义),将其"接地"(grounding)到物理世界的运动控制中。

  • OpenVLA 后续工作 / Octo 2.0(2025):参数效率大幅提升,7B 参数模型在部分操作任务上逼近专用策略性能。关键进展包括更高效的动作 tokenization 方案和跨机器人数据集的联合训练
  • 人形 + VLA 融合加速:Unitree G1/H1 + VLA 的实验开始出现,语言指令驱动的全身运动控制成为新热点。挑战在于腿足运动的高频闭环控制(1 kHz)与 VLA 推理延迟(~100 ms)之间的频率鸿沟,通常需要 VLA 输出高层子目标、底层 MPC/WBC 负责执行
  • VLA + 安全约束:纯端到端 VLA 缺乏安全保证的问题催生了"VLA 决策 + MPC/CBF 安全层"的混合架构。这一方向试图兼得 VLA 的泛化能力和传统控制的安全保证

对你博士研究的意义: - VLA 和传统规控是两种范式,不是"一个替代另一个" - 传统规控是底层执行器,VLA 是高层决策——两者互补 - 博士研究可以在 VLA + MPC 的接口上做

0.11.2 Differentiable Simulation ⭐⭐⭐

传统仿真(MuJoCo、Gazebo):输入 \((q, u)\),输出 \(q_{t+1}\) —— 不可微(接触是硬离散事件)。

Differentiable Simulation:让仿真器可微——可以反向传播 \(\partial q_{t+1} / \partial u\)。这相当于给物理仿真器装上了"倒车档"——传统仿真只能向前推演(给输入算输出),可微仿真可以"逆向追溯"(知道想要的输出,反推应该怎样调整输入)。如果不用可微仿真,优化控制策略就只能靠无梯度方法(如 CMA-ES)或有限差分——在高维动作空间中,这些方法的样本效率比梯度优化低若干个数量级。

代表工作: - Brax(Google,JAX 生态)——JAX 生态中最有影响力的可微仿真器 - MJX(MuJoCo XLA)——MuJoCo 的 JAX 版本,支持可微 - Genesis(CMU / Tsinghua,2024)——最新,超高性能

可微仿真的应用: 1. 用梯度优化 RL:SGD 代替 PPO 的 actor-critic 2. 用梯度求轨迹优化:Differentiable MPC 3. sim-to-real fine-tuning:用真机数据反向传播到仿真参数

对腿足的意义: - 传统 RL 训练 72 小时 → 可微仿真可能缩短到几小时 - 更少样本、更精确的收敛

挑战: - 接触的梯度是病态的(接触切换时导数爆炸) - 需要平滑化接触模型(Pang 2023 的 Quasi-Dynamic Smoothing 就是这方向)

博士研究方向:可微仿真 + 腿足 = 2024-2025 最热的交叉之一。

0.11.3 World Models ⭐⭐⭐

什么是 World Model:一个神经网络仿真器——从数据学习"给定当前状态和动作,下一状态是什么"。

代表工作: - Dreamer / DreamerV3(DeepMind,2023) - TD-MPC / TD-MPC2(UCSD,2023-2024) - GAIA-1(Wayve,2023)—— 自驾的 world model - VJEPA(Meta,2024)—— Yann LeCun 的非生成式 world model

核心思想: - 不依赖人写的物理方程(可能不准) - 从真实数据学环境的"压缩表示" - 在 world model 里做想象规划(Dreaming Reinforcement Learning)

对腿足的意义: - 腿足的真实动力学不完全遵循 Pinocchio 的刚体方程(柔性、齿轮背隙等) - World Model 可以学出"真实偏差",补 Pinocchio 的不足 - 和可微仿真是对偶关系——可微仿真是"精确但不真实",world model 是"真实但近似"

本质洞察:可微仿真与 World Model 的关系,类似于物理建模与数据驱动的经典张力——前者从第一性原理出发追求精确但永远无法完美还原现实,后者从真实数据出发追求逼真但缺乏可解释性。未来的趋势很可能是两者融合:用物理模型提供结构先验,用数据模型补偿残差。

当前状态:腿足 world models 还在早期——博士论文的蓝海。假如没有 World Model 来补偿 Pinocchio 刚体假设与真实硬件之间的模型失配(柔性关节、齿轮背隙、地面弹性),sim-to-real 的 gap 就只能靠大规模域随机化来硬扛——这在样本效率和调参成本上都极不经济。

0.11.4 三种前沿的对比 ⭐⭐

维度 VLA Differentiable Simulation World Models
起源 LLM 迁移 可微编程(JAX) 神经网络仿真
工具 PyTorch + Transformer JAX + XLA + MuJoCo Dreamer 家族
成熟度 操作已产品化、腿足早期 研究前沿 研究前沿
主导社区 Stanford、Google、OpenAI UCSD、CMU DeepMind、Meta
与腿足的距离 远(操作远大于 locomotion) 近(Brax / MJX 腿足已可用) 中(研究活跃)

对你的启示:作为 RL + SLAM + 腿足三重背景,你能看到这三种前沿之间的连接。博士方向可以在交叉点上——例如: - "SLAM 提供的真实数据 + Differentiable Sim 反向学习 → 腿足控制器" - "VLA 作为任务层 + 腿足 MPC 作为执行层 → loco-manipulation"


三种横向前沿各有侧重,但它们的共同指向是:未来的机器人工程师需要同时掌握传统优化和数据驱动两种范式。有了这张全景图,接下来的问题是:具体怎么学?按什么顺序?

0.12 学习路径建议 —— 主修一类 + 辅修其他 ⭐

0.12.1 本腿足大纲的定位 ⭐

本大纲(基础主线 01_数学+02_C++基础与进阶+03_SLAM + 腿足 足式/30_Pinocchio深度精读-70)的完整学习路径:

起点:SLAM 算法工程师(你现在的状态,或 C++ 新手)
02_C++基础与进阶/10~20:现代 C++ + 并发(L0-A1 层)
01_数学 + 02_C++基础与进阶/40~50:SLAM 数学库 + 中间件(A1-A2 层)
03_SLAM:SLAM 完整栈(A2-B1 层 for SLAM)
  ↓ ← 【分叉点】
  ├─ 继续 SLAM 方向:FAST-LIO2 深度定制、LIO-SAM 研究
  ├─ 转腿足方向:本大纲 足式/30_Pinocchio深度精读-70(新主线)
  ├─ 转无人机方向:补 PX4 + 几何控制
  └─ 转机械臂方向:补 MoveIt! + 阻抗控制
腿足 足式/30_Pinocchio深度精读-60:腿足工程师 A2-B1(规控 + 状态估计)
腿足 足式/170_实时CPP工程-66:腿足工程师 B2(实时 + 硬件 + RL 基础)
腿足 足式/230_Perceptive_MPC-70:博士预备 B3(Perceptive MPC + 研究方向)

总时长: - v8 主线:18-24 月(如果当前还在 C++ 入门) - v8 + 腿足:27-36 月 - 腿足单独(已有 C++/SLAM 背景):约 18 月

0.12.2 你的个人路径建议(基于用户背景) ⭐

你的背景:RL + 机器人控制 + 具身智能 + SLAM。

推荐路径:

阶段 1(已完成大部分):基础设施扎实 - 02_C++基础与进阶/10~20 的 C++ 现代特性应已熟练 - 01_数学/20_微分几何与李群 + 01_数学/60_概率与估计 中的因子图(SLAM 中已熟)

阶段 2(接下来):腿足扩展 - 本大纲 足式/30_Pinocchio深度精读-58(共 12 章,约 2.5 月) - 重点看 Pinocchio 基础(足式/30_Pinocchio深度精读-48)、WBC(足式/90_WBC分层优化与TSID)、OCS2(足式/110_OCS2完整栈与双线程MPC)、状态估计(足式/130_腿足状态估计) - 足式/130_腿足状态估计 的 InEKF + SLAM 融合是你的独特优势

阶段 3:前沿深入 - 本大纲 足式/150_优化驱动落脚与接触规划-66(共 8 章,约 2 月) - 重点看落脚点优化(足式/150_优化驱动落脚与接触规划)、感知驱动(足式/160_感知驱动落脚规划 + 足式/220_腿足感知数据结构)、RL 训练 / 部署(足式/190_腿足RL训练栈-64) - 你的 RL 背景让 足式/190_腿足RL训练栈-65 轻松,重点在工程化

阶段 4:博士预备 - 本大纲 足式/230_Perceptive_MPC-70(共 4 章,约 2 月 + 实战 4 月) - 足式/230_Perceptive_MPC Perceptive MPC 是数学和论文层面最重的 - 足式/250_Mini-Legged综合实战 Mini-Legged 是工程实战最重的 - 足式/260_研究方向与博士导引 研究方向选定你的博士题目

总时长估算(对你这样的背景):12-15 月完整学完腿足部分。

0.12.3 四大方向的横向发展策略 ⭐

假设你主修腿足([C]),如何辅修其他三类?

辅修 [A] 无人机(1-2 月): - 直接读 PX4 源码的姿态控制器部分(约 5000 行 C++) - 读 Fast-Planner 的路径搜索 - 不需要重学基础——Eigen / ROS / 实时 Linux 全通用

辅修 [B] 机械臂(1-2 月): - 你已经会 Pinocchio(固定基座是浮动基座的简化) - 补 MoveIt! 的 OMPL 接口(规划) - 补 阻抗控制(Franka Panda 等协作机器人)

辅修 [D] 复合机器人(3-4 月): - 先补 [B] 机械臂基础 - 然后看 Mobile ALOHA / HumanPlus 的开源代码 - 关注 OCS2 mobile_manipulatorVLA 前沿

最终能力:主修腿足 + 精通 SLAM + 通读其他三类 = 具有博士竞争力的机器人算法工程师

0.12.4 跳过哪些内容 ⭐

本大纲不是每一节都必须读。根据你的目标:

如果你的目标是工业工程师(不读博): - 必读:足式/30_Pinocchio深度精读-58 + 足式/170_实时CPP工程-64 + 足式/240_legged_control精读(legged_control 精读) - 可跳过:足式/160_感知驱动落脚规划 感知驱动(除非做感知 + 腿足)、足式/230_Perceptive_MPC Perceptive MPC 深入理论 - 可选:足式/150_优化驱动落脚与接触规划 优化落脚点、足式/220_腿足感知数据结构 感知数据结构(工业会用但不必手写)

如果你的目标是博士预备(你选的): - 必读全部 - 特别重视 足式/210_RL与MPC混合范式 RL+MPC 混合、足式/230_Perceptive_MPC Perceptive MPC、足式/260_研究方向与博士导引 研究方向导引 - 把每章的"研究前沿与论文阅读"部分全部读完

如果你的目标是转行到工业(腿足公司): - 优先:足式/240_legged_control精读 legged_control(直接能用)+ 足式/170_实时CPP工程-62 实时 / 硬件(面试考点)+ 足式/190_腿足RL训练栈-64 RL(简历亮点) - 次要:足式/110_OCS2完整栈与双线程MPC OCS2 理论、足式/230_Perceptive_MPC Perceptive MPC(除非公司主打感知)

0.12.5 学习的"T 型"vs "π 型" ⭐

T 型:一个方向极深 + 其他方向广度认识 - 你目前的 SLAM 背景 + 扩展腿足 = T 型初步

π 型:两个方向都深 + 其他方向广度认识 - SLAM + 腿足双深 = π 型 → 博士研究独特 - 你的 RL 背景让这个更有深度:SLAM + 腿足 + RL = 三腿鼎立

博士申请时,π 型比 T 型有显著优势——交叉方向的导师更感兴趣。如果不走交叉路线会怎样?纯 SLAM 方向的博士竞争者众多,纯 RL 方向同样拥挤,但同时精通"状态估计 + 运动控制 + 学习"的候选人在全球范围内都很稀缺——稀缺性本身就是竞争力。


0.13 与 SLAM 主线的精确对接点 ⭐

本节是给v8 SLAM 主线学完转腿足的学习者看的。

0.13.1 哪些基础模块直接复用到腿足 ⭐

绝大部分可以复用: - 02_C++基础与进阶/10_C++语言核心、02_C++基础与进阶/20_并发与系统编程(C++ 现代特性、并发) - 01_数学/20_微分几何与李群(Sophus / manif) - 02_C++基础与进阶/40_通用库剖析 中的 Eigen 深度章节 - 02_C++基础与进阶/50_ROS2工程化(ROS 2 + DDS) - 02_C++基础与进阶/30_软件工程 中的日志(spdlog)与内存管理(pmr)

85-95% 复用,有少量腿足特化: - 01_数学/30_优化理论 中的 Ceres(腿足 足式/130_腿足状态估计 状态估计因子图) - 01_数学/60_概率与估计 中的 GTSAM 因子图(同上) - 02_C++基础与进阶/60_规控公共工程基础 中的缓存与性能分析(腿足 足式/170_实时CPP工程 实时) - 02_C++基础与进阶/40_通用库剖析 中的 CUDA / LibTorch(腿足 足式/200_RL的CPP部署 RL 部署) - 02_C++基础与进阶/20_并发与系统编程(腿足 足式/170_实时CPP工程 双线程 MPC)

部分复用,需要扩展: - 01_数学/60_概率与估计 中的 ESKF(扩展到 足式/130_腿足状态估计 InEKF) - 03_SLAM 中的 Factor Graph 章节(扩展到腿足因子图) - 02_C++基础与进阶/40_通用库剖析 中的 PCL / OpenCV(扩展到 足式/220_腿足感知数据结构 Elevation Map)

几乎独立于 v8(腿足完全新内容): - 足式/30_Pinocchio深度精读-50 Pinocchio / CppAD / 空间向量代数 / QP - 足式/70_腿足简化模型理论-52 腿足数学(LIPM、DCM、接触力学) - 足式/90_WBC分层优化与TSID-58 WBC / DDP / OCS2 / 步态 / 状态估计 / 落脚点 - 足式/150_优化驱动落脚与接触规划-67 研究前沿 - 足式/240_legged_control精读-70 实战 + 研究方向

0.13.2 基础模块的"共同课程"不重学 ⭐

对于已经学完 v8 主线的你,足式/30_Pinocchio深度精读-70 的25% 的时间可以节省——因为基础设施已经扎实。

0.13.3 反过来:腿足背景对 SLAM 的回馈 ⭐

学完腿足回头做 SLAM,你会发现: - 腿足的 InEKFSLAM ESKF 的精进版——回去改进你的 SLAM 状态估计 - 腿足的 MPC 思维 帮你理解 SLAM 后端的滑窗优化(都是带时间结构的优化) - 腿足的实时工程 让你对 SLAM 的实时性要求不再畏惧

这种双向的提升是选腿足而不是其他方向的独特收益。


0.14 整个知识体系的最终图 ⭐

这张图是本大纲最重要的图 —— 保存、打印、挂在工位上。

┌─────────────────────────────────────────────────────────────────┐
│              机器人算法工程师完整能力体系                           │
└─────────────────────────────────────────────────────────────────┘

    ┌────────────────────────────────────────────────────────┐
    │  博士预备层(B3):足式/260_研究方向与博士导引 研究方向导引                     │
    │  - Perception-Control Joint Optimization              │
    │  - Perceptive RL+MPC Hybrid                           │
    │  - SLAM + Legged 紧耦合(你的独特赛道)                │
    │  - VLA + 腿足(前沿延伸)                              │
    │  - Differentiable Simulation + 腿足                   │
    └──────────────────┬─────────────────────────────────────┘
    ┌──────────────────▼─────────────────────────────────────┐
    │  专家层(B2):足式/150_优化驱动落脚与接触规划-68                                  │
    │  ┌─────────────┬────────────────┬──────────────────┐ │
    │  │ 落脚优化    │ RL 训练 + 部署 │ Perceptive MPC  │ │
    │  │(CITO/GCS) │(Isaac/LibTorch)│ (Grandia 2022)  │ │
    │  └─────────────┴────────────────┴──────────────────┘ │
    │  ┌──────────────────────────────────────────────┐    │
    │  │ 实时 C++ + 腿足硬件栈(足式/170_实时CPP工程-62)             │    │
    │  │ legged_control 完整精读(足式/240_legged_control精读)              │    │
    │  └──────────────────────────────────────────────┘    │
    └──────────────────┬─────────────────────────────────────┘
    ┌──────────────────▼─────────────────────────────────────┐
    │  规控算法层(A2→B1):足式/90_WBC分层优化与TSID-58                           │
    │  ┌─────────────┬─────────────┬─────────────┐         │
    │  │ WBC + DDP   │ OCS2 + 步态 │ 状态估计    │         │
    │  │(足式/90_WBC分层优化与TSID-54)  │(足式/110_OCS2完整栈与双线程MPC-56)  │(足式/130_腿足状态估计-58)  │         │
    │  └─────────────┴─────────────┴─────────────┘         │
    └──────────────────┬─────────────────────────────────────┘
    ┌──────────────────▼─────────────────────────────────────┐
    │  腿足数学与基础设施(A1→A2):足式/30_Pinocchio深度精读-52                   │
    │  ┌──────────────┬──────────────┬──────────────┐      │
    │  │ Pinocchio +  │ LIPM / DCM + │ QP / NLP +   │      │
    │  │ CppAD        │ 接触力学     │ Ifopt        │      │
    │  │(足式/30_Pinocchio深度精读-49)   │(足式/70_腿足简化模型理论-52)   │(足式/60_QP_NLP建模)      │      │
    │  └──────────────┴──────────────┴──────────────┘      │
    └──────────────────┬─────────────────────────────────────┘
    ═══════════════════▼═════════════════════════════════════
    【分叉点:从 SLAM 到腿足 / 其他规控方向的过渡】
    ═══════════════════┬═════════════════════════════════════
    ┌──────────────────▼─────────────────────────────────────┐
    │  SLAM 主线层(03_SLAM):A2→B1 for SLAM                  │
    │  - FAST-LIO2 / LIO-SAM 等 LIO 深度定制                │
    │  - MSCKF / VIO / VINS 系列                           │
    │  - LoopClosure / 全局地图 / Factor Graph             │
    └──────────────────┬─────────────────────────────────────┘
    ┌──────────────────▼─────────────────────────────────────┐
    │  SLAM + 机器人共享数学(01_数学 + 02_C++基础与进阶/40~50):A1→A2 │
    │  - Eigen / 李群 / Sophus / manif(本体无关)            │
    │  - Ceres / GTSAM 因子图(本体无关)                    │
    │  - PCL / OpenCV / LibTorch(本体无关)                 │
    └──────────────────┬─────────────────────────────────────┘
    ┌──────────────────▼─────────────────────────────────────┐
    │  C++ 与并发基础(02_C++基础与进阶/10~20):L0→A1                  │
    │  - Modern C++ / STL / 模板 / Concepts                │
    │  - 并发 / 内存模型 / 无锁数据结构                      │
    │  - 实时系统基础                                       │
    └──────────────────┬─────────────────────────────────────┘
    ┌──────────────────▼─────────────────────────────────────┐
    │  操作系统 + 硬件(基础设施共用)                         │
    │  - Linux + PREEMPT_RT + CAN / EtherCAT / DDS         │
    │  - x86 / ARM / 电机驱动器                            │
    └────────────────────────────────────────────────────────┘

0.14.1 读这张图的方法 ⭐

从下到上看:你的能力如何一层一层累积起来。底层(OS + C++)稳,上层才能做得好。

从上到下看:任何上层任务(如"博士研究")最终都要分解到下层的具体技术。

横向看:SLAM 和腿足在"规控算法层"以下高度共享,以上是分叉。


0.15 关于大模型时代的规控工程师 ⭐⭐

0.15.1 焦虑与机会 ⭐⭐

2023-2025 年的大模型浪潮让很多程序员焦虑:"规控工程师会不会被 VLA 取代?"

我的观察:

短期(1-3 年):不会 - VLA 目前只在操作任务成熟(机械臂),腿足 / 无人机 / 自驾的 VLA 还在早期 - 传统规控有严格的物理保证,VLA 没有——工业部署必须可验证 - 大部分公司的生产系统仍是传统规控为主

中期(3-7 年):部分替代 + 分层协作 - 任务层 / 决策层会更多被大模型替代 - 底层规控作为"执行器"依然需要 - 规控工程师的角色变化:从"写 MPC"到"设计 VLA + MPC 的接口"

长期(7+ 年):不确定 - 端到端 VLA 是否能完全替代还是开放问题 - 物理正确性和样本效率仍是挑战

0.15.2 规控工程师的长期价值 ⭐⭐

不会消失的核心能力: 1. 物理直觉:理解机器人为什么这样动——VLA 学不会"为什么" 2. 数学建模:把现实抽象成数学问题——LLM 目前还做不好 3. 系统工程:把感知、决策、控制、硬件串起来——需要跨领域理解 4. 调试与改进:真机出问题的排查能力——经验驱动,不能替代

会被 AI 辅助的部分: 1. 写标准代码(Copilot / Claude Code 已经帮很多) 2. 调整参数(通过 RL 自动调) 3. 写简单的测试和文档

0.15.3 博士的独特价值 ⭐⭐

大模型时代的博士价值: - 不只是熟练使用工具——而是创造新工具 / 发现新原理 - 学术社区的人脉——博士期间的合作者可能是未来的同事和客户 - 系统思维——3-5 年深耕一个方向带来的"第一性原理"视角

如果你最终读博选择腿足方向,不是因为腿足"火",而是因为腿足是机器人学里综合最全面的领域——做好腿足要懂 C++、并发、实时、优化、流形、概率、ML、硬件,几乎所有机器人子领域的基础都要有。这种综合性训练对未来任何方向的研究都有帮助。


0.15.4 新工具与新框架的学习路径更新(2025-2026)

2025-2026 年间,腿足 RL 训练的工具链发生了显著变化。如果你现在开始学习,以下更新值得纳入你的学习路线。

MuJoCo Playground(2025,Google DeepMind)。这是基于 MJX(MuJoCo 的 JAX 后端)构建的开箱即用 RL 训练框架。它的核心价值在于降低入门门槛——内置了腿足行走、人形平衡等标准化基准任务,不需要从零配置仿真环境和奖励函数。对于初学者,建议从 Playground 的 locomotion 示例开始,理解"观测-动作-奖励"的完整闭环,再逐步深入到自定义环境。Playground 的 JAX 原生特性也意味着你可以直接利用 jax.grad 做可微仿真实验,这在 Isaac Lab 中需要额外的适配工作。

Genesis(2024,CMU/清华)。这是一个以超高性能 GPU 物理仿真为核心的引擎,支持可微接触,在大规模并行 RL 训练速度上超越了 Isaac Lab。Genesis 的独特优势在于其可微接触模型——传统仿真器(包括 MuJoCo 的经典后端)在接触点处梯度不连续,Genesis 通过 smoothed contact 技术提供近似梯度,使得基于梯度的轨迹优化可以穿越接触事件。对于研究方向偏向可微优化或 differentiable simulation 的学习者,Genesis 值得优先关注。

推荐的更新学习路线

阶段 工具 目标
入门 MuJoCo Playground 跑通标准腿足 RL 任务,理解训练闭环
基础 Isaac Lab 2.x 学习工业级大规模并行训练流程
进阶 Genesis / MJX 探索可微仿真、基于梯度的轨迹优化
研究 按课题选择 可微 MPC 用 Genesis,大规模 RL 用 Isaac Lab,快速原型用 Playground

关于 Brax 的定位变化。Brax 在 2022-2023 年是 JAX 生态中腿足 RL 的首选框架,但随着 MJX 的成熟(直接调用 MuJoCo 的接触求解器,精度更高),Brax 逐渐退居为教学和快速原型工具。如果你之前的学习路线中包含 Brax,建议将其替换为 MJX/Playground 作为 JAX 生态的入口。

实用建议:不要试图同时学习所有框架。选择一个与你的硬件条件(是否有 NVIDIA GPU、显存大小)和研究方向最匹配的框架深入,其余保持"知道它能做什么"的了解程度即可。框架会迭代,但底层的 RL 算法(PPO、SAC)、仿真概念(域随机化、课程学习)和控制理论(MPC、WBC)是不变的。


0.16 最后的话

你已经完成了一次系统性的学习之旅——从 02_C++基础与进阶/10_C++语言核心 的"Hello World"到腿足 足式/260_研究方向与博士导引 的"研究方向选择"。

这不只是 24 章的学习,而是你对机器人学这个领域形成系统认知的过程

最关键的几个收获(我希望你能记住):

  1. 底层扎实 + 上层灵活:C++ + 并发 + 数学是永远不变的底层。本体特定的算法会变(MPC 可能被 VLA 部分替代,WBC 可能有新范式),但好的底层能力让你轻松适应变化

  2. 选一个主方向深挖 + 其他方向常扫:T 型或 π 型人才比专才长寿。你选了腿足,别完全关上无人机 / 机械臂 / 自驾的门。

  3. 读代码和读论文并重:论文告诉你思路,代码告诉你细节。只读一边不够——你在 足式/230_Perceptive_MPC 的 Grandia 论文 + OCS2 Perceptive 源码对照练习就是这个思路的体现。

  4. 动手比读书重要:本大纲的每个实战练习不要跳过。真机调不好的时候,比读 10 篇论文学到得多。

  5. 建立自己的直觉:别人的文献综述是别人的视角。你要有自己对"这个问题为什么重要 / 这个方法为什么好"的直觉。


技术的路没有尽头,但每一段都值得走得漂亮

祝你博士申请顺利,祝你的腿足研究之路精彩。

—— 本序章终


附录:全大纲交付物清单

基础主线(由 01_数学、02_C++基础与进阶、03_SLAM 各目录承载)

腿足增量大纲(本项目交付):

文件 章节 周次 主题
序章上篇 0.1-0.9 - 全景架构 + 四分法 + 基础设施
序章下篇 0.10-0.16 - 自驾 + 前沿 + 学习路径(本文件)
第 1 批 足式/30_Pinocchio深度精读-50 47-52 Pinocchio + CppAD + 空间向量 + QP
第 2A 批 足式/70_腿足简化模型理论-52 53-54 腿足简化模型 + 接触力学
第 2B 批 足式/90_WBC分层优化与TSID-54 55-56 WBC + DDP 家族
第 3A 批 足式/110_OCS2完整栈与双线程MPC-56 57-59 OCS2 完整栈 + 步态管理
第 3B 批 足式/130_腿足状态估计-58 60-61 状态估计 + 落脚点经典
第 4A 批 足式/150_优化驱动落脚与接触规划-60 62-63 落脚点优化 + 感知驱动
第 4B 批 足式/170_实时CPP工程-62 64-65 实时 C++ + 腿足硬件栈
第 5A 批 足式/190_腿足RL训练栈-64 66-67 腿足 RL 训练 + 部署
第 5B 批 足式/210_RL与MPC混合范式-66 68-69 RL+MPC 混合 + 感知数据结构
第 6A 批 足式/230_Perceptive_MPC-68 70-72 Perceptive MPC + legged_control 精读
第 6B 批 足式/250_Mini-Legged综合实战-70 73-75 Mini-Legged 实战 + 研究方向导引

总计:27 个 md 文件(序章 2 + 正文 24 + 大纲 1),正文覆盖 足式/30_Pinocchio深度精读-足式/260_研究方向与博士导引 共 24 章,总计约 42,000 行。

配合使用: - 学习者:按顺序读,每章配合主项目知识库里的论文和源码 - 复习者:随机访问,每章独立完整 - 教师:可按章拆解为课程大纲


—— 序章导论终 ——