跳转至

本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。

第 70 章 研究方向与博士导引

定位:腿足方向 C++ 进阶教学大纲的**终章**——从工程师到研究者的过渡
前置章节:Ch67(Perceptive MPC)、Ch68(legged_control 精读)、Ch69(Mini-Legged 实战)
后续方向:博士研究生涯
text:code 比例:9:1(研究导向章节,极少代码)
预计学习时间:1.5 周(30-40 小时,含论文阅读)


前置自测

📋 答不出 >= 2 题 → 先回 Ch65-Ch69 复习

  1. MPC 和 WBC 在腿足控制栈中分别运行在什么频率?各自优化什么目标?
  2. Sim-to-real 的核心挑战是什么?Domain randomization 和 system identification 分别解决什么问题?
  3. 端到端 RL 策略与分层 MPC+WBC 架构各有什么优劣?能否举出代表性论文?
  4. Perceptive locomotion 中,高程图(elevation map)如何融入 MPC 的代价函数?
  5. 什么是 VLA(Vision-Language-Action)模型?它与传统控制栈的关系是什么?

本章目标

学完本章,你应能:

  1. 建立完整的足式机器人研究版图认知——知道六大前沿方向各自的 state-of-the-art、开放问题和代表性论文
  2. 从工程思维切换到研究思维——理解"好的研究问题"与"好的工程问题"的本质区别
  3. 制定你的博士研究定位——在版图中找到你的 niche,建立可行的研究路线图
  4. 掌握论文阅读与学术写作方法论——高效读文献、识别研究 gap、规划发表策略
  5. 熟悉学术社区的运行规则——顶会顶刊导航、审稿流程、研究工具链

70.1 从工程到研究的心态转变 ⭐

动机

你花了 23 章(Ch47-69)从 Pinocchio 基础设施一路走到 Mini-Legged 实战——此刻你已经是一名合格的**腿足规控工程师**。但工程师和研究者之间存在一道微妙而深刻的鸿沟。

这道鸿沟不在于"会不会更多的技术",而在于**思考问题的方式完全不同**。

工程师思维 vs 研究者思维

维度 工程师思维 研究者思维
核心问题 "如何让系统工作得更好?" "为什么这个问题难?什么是根本性的障碍?"
评价标准 系统是否稳定运行、性能指标达标 是否回答了一个之前没人回答过的问题
处理未知 搜索已有方案 → 选最合适的 → 实现 识别未知 → 提出假设 → 设计实验验证
失败的含义 系统 crash = 坏事 假设被否定 = 有价值的信息
时间尺度 天到周(一个 feature 的开发周期) 月到年(一个研究问题的探索周期)
成功的定义 产品上线、客户满意 论文被接收、方法被社区采纳
对"已有方案"的态度 越成熟越好(降低风险) 越成熟越没意义(没有创新空间)

一个具体的例子

假设你发现 ANYmal 在湿滑地面上经常滑倒。

  • 工程师的反应:调高摩擦锥约束的保守系数 → 降低步幅 → 增加 WBC 的阻尼 → 问题缓解 → 交付
  • 研究者的反应:为什么现有的接触模型无法预测滑动? → 库仑摩擦模型的局限在哪里? → 能否建立一个数据驱动的摩擦模型来捕捉地面材质变化? → 这个模型能否在线学习? → 形成一个研究问题

工程师在意**结果**——"滑不滑";研究者在意**理解**——"为什么滑,以及这个理解能否推广到其他问题"。

如果不转变会怎样

很多有工程背景的博士生在前两年遇到的困境:

  1. 把博士当成"更大的项目"——没有明确的研究问题,只是不断地"做系统"。导师问"你的贡献是什么"时答不上来
  2. 抗拒负面结果——实验结果不如预期就放弃方向,而不是分析"为什么不如预期"(这往往才是最有价值的发现)
  3. 只读代码不读论文——看开源项目的 README 比读原始论文舒服,但这导致你不知道方法的动机和局限,也无法判断改进方向
  4. 追热点而非追问题——看到 VLA 火了就去做 VLA,看到 diffusion 火了就去做 diffusion,最终没有自己的 research identity

什么是"好的研究问题"

一个好的研究问题必须同时满足三个条件

条件 含义 反面教材
重要性(Importance) 解决这个问题对社区有价值 "用 RL 训练一个新的 trot 步态"——已经有很多人做过
可行性(Feasibility) 在博士 4-5 年内可以做出有意义的进展 "构建通用人形机器人"——太大、不可控
新颖性(Novelty) 之前没人用这种方式解决过 "在新机器人上重复 legged_gym 的训练"——无创新

好问题的"味道"

  • "现有方法 X 在场景 Y 中失败了,根本原因是假设 Z 不成立。如果我们放松假设 Z,能否得到更通用的方法?"
  • "领域 A 的技术 M 从来没有被应用到领域 B。它们在数学结构上有天然的对应关系,迁移后能否解决 B 的开放问题?"
  • "方法 P 和方法 Q 各有优劣,社区一直把它们当成二选一。能否找到一个统一框架同时获得 P 和 Q 的优点?"

研究问题的来源

来源 操作方式 产出可能性
论文的 Limitation 段落 精读顶会论文的 Discussion/Limitation 部分 最可靠——作者已经替你找到了 gap
真机实验的失败 分析失败原因,追溯到方法层面的缺陷 高——有真机数据支撑的问题最有说服力
跨领域迁移 把 A 领域的方法拿到 B 领域试 中——需要深入理解两个领域
两篇论文的矛盾 论文 X 说 A 好,论文 Y 说 B 好——为什么? 高——统一解释矛盾是高质量研究
导师的建议 和导师讨论他的研究视野 取决于导师——但方向一般不会太偏

⚠️ 常见陷阱

💡 概念误区:认为"做了一个更复杂的系统"就等于"做了研究"

新手想法:"我把 MPC + WBC + RL + 感知 + VLA 全部集成到一个系统里了,这不就是创新吗?"

实际上:系统集成是工程,不是研究。研究的贡献必须是**可抽象、可复现、可推广**的。审稿人会问:"去掉你的系统,你的**方法层面**的贡献是什么?"如果答案是"把别人的模块拼在一起",那就不是研究贡献。

正确做法:系统可以作为研究的载体,但贡献必须是系统中的某个**具体创新**——新算法、新模型、新理论、新发现。

🧠 思维陷阱:把博士论文当成"五篇论文的订书机"

新手想法:"发五篇论文,装订在一起,就是博士论文了。"

实际上:优秀的博士论文有一条**贯穿全文的主线**——每篇论文都是从不同角度回答同一个核心问题。五篇互不相关的论文可能满足毕业要求,但不会建立你的**研究身份(Research Identity)**。

正确做法:在博士第一年就确定一个核心问题(thesis statement),后续所有论文围绕这个核心展开。即使方法不同、平台不同,核心问题不变。

练习

  1. 阅读 ANYmal Parkour(Hoeller et al., 2024, Science Robotics)的 Discussion 部分,列出 3 个作者提到的局限性,并为每个局限性提出一个可能的研究问题。
  2. 回顾你在 Ch69 Mini-Legged 实战中遇到的最大技术困难,分析它属于"工程问题"还是"研究问题"。如果是工程问题,能否将其提升为研究问题?

70.2 足式控制研究全景 ⭐⭐

动机

在选择具体研究方向之前,你需要一张**完整的版图**——知道这个领域有哪些主要方向,每个方向的成熟度如何,哪些方向竞争激烈,哪些方向仍是蓝海。

这张版图不只是"列论文"。它需要告诉你每个方向的**数学结构、核心挑战、和其他方向的交叉关系**。

六大研究方向总览

从序章(C00-C01)建立的四分法和前沿概览出发,我们将足式控制的研究前沿归纳为六大方向。它们并非互斥——很多前沿工作同时跨越两个甚至三个方向。

                    足式控制研究版图
    ┌────────┬───────────┼───────────┬────────┬────────┐
    ▼        ▼           ▼           ▼        ▼        ▼
  方向一    方向二      方向三      方向四   方向五   方向六
  学习型    全身MPC     感知-规划   Loco-    多机     基础模型
  运动控制  与优化      -控制闭环   Manip.   协作     与具身智能
  (Ch65)   (Ch54-55)  (Ch67)     (新)     (新)     (新)
    │        │           │           │        │        │
  成熟度    成熟度      成熟度      成熟度   成熟度   成熟度
  ★★★★    ★★★★       ★★★☆       ★★☆☆    ★☆☆☆    ★☆☆☆
方向 核心问题 成熟度 竞争烈度 发表难度 入门门槛
学习型运动控制 如何用 RL/IL 学出鲁棒策略 极高 需要硬件结果 中(需 GPU 集群)
全身 MPC 与优化 如何实时求解全身动力学 需要理论+硬件 高(数学)
感知-规划-控制闭环 如何将视觉融入控制 中高 需要完整系统 高(多模态)
Loco-Manipulation 如何边走边操作 场景新颖即可 高(需要平台)
多机协作 多腿足如何协调 相对容易发表 中(需多台机器人)
基础模型与具身智能 通用机器人策略 高(关注度高) 需大规模计算 极高(数据+算力)

2025-2026 年各方向的活跃度与趋势

方向 arXiv 月均投稿量趋势 2025-2026 标志性工作 热度变化
学习型运动控制 稳定(~30/月) ANYmal Parkour, Walk These Ways 2.0 稳定
全身 MPC 增长(~15→25/月) ProxDDP, Contact-Implicit MPC GPU 上升
感知-规划-控制 稳定(~20/月) DTC, NaVILA 稳定
Loco-Manipulation 快速增长(~10→25/月) WholeBodyVLA, RAMBO 强烈上升
多机协作 低(~5/月) 多四足协同搬运 低但稳定
基础模型 爆发(~5→40/月) pi0, Humanoid-VLA 最高热度

数据说明:上表中的 arXiv 月均投稿量为基于关键词检索的**粗略估计**,非精确统计,仅反映相对趋势。具体数字可能因检索方式、关键词选择和时间窗口而异。

方向选择的实用建议:基础模型方向热度最高但竞争最激烈(Google/Meta/NVIDIA 等大公司投入巨大)。对于资源有限的博士生,方向二(全身 MPC)和方向四(Loco-Manipulation)是性价比最高的选择——竞争相对温和,且需要深厚的控制理论背景,大公司的纯 ML 团队不容易进入。

方向之间的关系

这六个方向不是孤立的。它们之间存在密切的依赖和交叉关系:

基础模型(方向六)
    │ 提供高层语义理解
感知-规划-控制(方向三)─────► Loco-Manipulation(方向四)
    │ 提供环境理解              │ 需要感知+操作
    ▼                          ▼
学习型控制(方向一)◄──────► 全身MPC(方向二)
    │ RL策略 vs 优化控制        │ 实时约束满足
    │ 混合架构(Ch65 DTC等)    │
    ▼                          ▼
多机协作(方向五)◄──── 单体控制的多体扩展

选方向的策略

  • 追求安全:选方向一或方向二,成熟社区、明确 baseline,容易出第一篇 paper
  • 追求独特:选方向四或方向五,竞争少、问题新、但需要更多工程投入
  • 追求影响力:选方向六,关注度高、但风险也高、需要大量计算资源

本质洞察:六大方向之间的关系**不是**平行的"六条赛道",**而是**一棵树的不同分支——它们共享相同的"根"(浮动基座动力学 + 接触力学 + 最优控制),在不同层级上分叉。方向一和方向二在"单体运动控制"层分叉(数据驱动 vs 模型驱动);方向三在"感知"层生长;方向四在"操作"层扩展;方向五在"多体"层扩展;方向六则试图用一个统一的大模型覆盖整棵树。理解这棵树的结构,有助于你判断不同方向之间的知识迁移成本——沿树枝移动(如从方向一到方向二)比跨树枝跳跃(如从方向一到方向五)容易得多。

⚠️ 常见陷阱

🧠 思维陷阱:认为"竞争少的方向一定更容易发论文"

新手想法:"多机协作竞争少,所以我更容易中论文。"

实际上:竞争少可能意味着社区对这个问题不够关注——审稿人的态度可能是"这个问题重要吗?"你需要在论文中花大量篇幅论证**问题的重要性**,这比在竞争激烈领域多写一个 baseline 对比更难。

正确做法:选一个**你能讲出为什么重要的方向**,而不是简单地选"竞争少"的。

💡 概念误区:认为"数学越多的方向越高级"

新手想法:"全身 MPC 方向要用很多优化理论,所以比 RL 方向更'高级'。"

实际上:研究质量与数学复杂度无关。一篇用简洁 RL 方法解决重要问题的论文,远优于一篇堆砌数学但没有清晰贡献的论文。审稿人看的是**是否解决了问题**,而不是**用了多复杂的工具**。

练习

  1. 为上述六大方向各找一篇 2024-2025 年的代表性论文,用一句话总结其核心贡献。
  2. 基于你的背景(RL + SLAM + 腿足),画一张表格分析你在每个方向的**优势**和**需要补的短板**。

70.3 方向一:学习型运动控制 ⭐⭐

动机

学习型运动控制(Learned Locomotion)是过去五年腿足领域**最活跃的方向**——没有之一。从 2019 年 ETH RSL 的首个 sim-to-real 四足 RL 控制器,到 2024 年 ANYmal Parkour 登上 Science Robotics,这个方向已经从"学术好奇"进化为"工业可部署"。

核心问题:能否用数据驱动的方法(RL/IL)学到一个控制策略,替代或增强手工设计的 MPC+WBC 控制栈?

当前技术格局

端到端 RL 策略

核心思想:直接从传感器读数(本体感受 + 可选视觉)映射到关节扭矩或位置指令,中间没有任何手工设计的模块。

代表性工作的演进脉络

年份 工作 平台 关键创新 发表
2019 Learning Agile Locomotion(Hwangbo et al.) ANYmal 首个 sim-to-real 四足 RL,actuator net Science Robotics
2021 RMA(Kumar et al.) A1 快速运动适应(Rapid Motor Adaptation) RSS
2022 Walk These Ways(Margolis et al.) A1/Go1 多技能单策略,gait-conditioned CoRL
2024 Extreme Parkour(Cheng et al.) Go1 端到端视觉 parkour ICRA
2024 ANYmal Parkour(Hoeller et al.) ANYmal D 工业级部署,Science Robotics Science Robotics
2024 DTC(Jenelten et al.) ANYmal RL 生成参考 + MPC 跟踪 Science Robotics

这条线的核心成功因素

  1. 大规模并行仿真:IsaacGym/IsaacLab 在 GPU 上同时仿真数千个机器人,数据收集效率比 CPU 仿真快 100-1000 倍
  2. 课程式训练(Curriculum Learning):从简单地形逐步增加难度,避免策略在困难任务上直接失败
  3. Domain Randomization:随机化摩擦系数、质量、延迟等仿真参数,让策略对不确定性鲁棒
  4. Teacher-Student 蒸馏:teacher 可以访问特权信息(真实地形、真实摩擦),student 只用可观测信息(关节编码器、IMU),蒸馏后 student 在真机上部署

Reward Engineering

端到端 RL 的核心瓶颈之一是**奖励函数设计**。一个典型的足式 RL 奖励函数包含 10-20 个子项:

子项类别 典型子项 作用
任务奖励 跟踪速度命令、朝向命令 定义"做什么"
风格奖励 关节加速度惩罚、扭矩平滑 定义"怎么做得好看"
安全奖励 基座翻滚惩罚、关节限位惩罚 定义"不能做什么"
接触奖励 足端滑动惩罚、空中时间奖励 定义"步态质量"

开放问题:reward engineering 目前是"黑魔法"——每个研究组都有自己的秘方,没有统一理论。改变一个系数可能让策略从 trot 变成 bound,甚至直接不收敛。

前沿探索

  • 自动奖励搜索:用进化算法或 LLM 自动搜索奖励函数组合(Eureka,Ma et al., 2023)
  • 从人类偏好学习奖励:RLHF 在 locomotion 中的应用——让人类标注"哪个步态看起来更自然"
  • 逆强化学习:从动物运动视频中学习隐式奖励

Sim-to-Real 的当前状态与剩余挑战

如果不做 sim-to-real 而是直接在真机上训练 RL 会怎样?以 PPO 的数据效率为例:训练一个基本 trot 策略需要约 \(10^8\) 步交互。真机以 50 Hz 运行(考虑到安全监控和重置时间),\(10^8\) 步需要 \(10^8 / 50 / 3600 \approx 556\) 小时——连续运行 23 天不停,期间机器人会因为策略探索摔倒数千次,电机和关节可能因此损坏。IsaacLab 用 4096 个并行环境以 50000 Hz 等效速率采样,同样的数据量只需 30 分钟。真机训练在数据效率和硬件安全两个维度上都不可行,这就是为什么 sim-to-real 不是"可选的优化",而是"RL 部署的必要条件"。

Sim-to-real 是学习型控制从仿真走向真机的关键瓶颈。经过五年的快速发展,这个领域已经取得了显著进展,但仍有根本性的挑战未解决。

当前状态(2025-2026):

维度 已解决 仍困难
刚体动力学 MuJoCo/IsaacSim 的刚体仿真高度精确 柔性、变形体仍难建模
关节驱动器 Actuator net 可以学习电机特性 齿轮背隙、摩擦的温度依赖性
地面接触 平地/简单地形已可靠 可变形地面(沙地、泥地)、表面含水
传感器噪声 IMU 和编码器的噪声建模成熟 深度相机的遮挡和失效模式
延迟 固定延迟可随机化 变化延迟(通信抖动)更难处理

剩余核心挑战

  1. 接触模型不准确:仿真中的刚性接触与真实世界的粘弹性接触差异巨大。Domain randomization 可以缓解但无法根治——因为它本质上是"承认不知道,靠运气覆盖"
  2. 执行器建模的精度瓶颈:电机的效率曲线、齿轮的间隙和摩擦、关节的柔性——这些参数随温度、磨损变化,简单的参数随机化不够
  3. 长尾场景:策略在"典型"场景中表现很好,但在极端场景(极端坡度、突然外力)中失败。如何系统性地发现和覆盖长尾场景是开放问题
  4. 能量效率:仿真中不考虑能量消耗,导致策略在真机上"暴力求解"——扭矩大、发热快、续航短。这是 sim-to-real gap 中**最被忽视**的维度

前沿方法

  • 残差学习(Residual RL):在已有 MPC 控制器上叠加一个 RL 残差项,减少需要学习的东西
  • 采样式系统辨识(Sampling-Based SysID):主动探索真机参数空间,比 domain randomization 更精确
  • 真机在线学习(Learn-in-Real):直接在真机上做增量学习,跳过 sim-to-real 的困难(但有安全风险)

开放问题

  1. 奖励函数的自动化设计:能否有一个系统化的方法来设计和验证奖励函数?Eureka(Ma et al., 2023)用 LLM 生成候选 reward 函数并自动评估,是这个方向的早期探索
  2. Sim-to-real 的理论保证:能否给出"仿真策略在真机上性能下降不超过 X%"的理论界?目前只有经验性方法(DR + 真机微调),缺乏理论框架
  3. 样本效率:当前方法需要数十亿步仿真交互——能否用 10-100 倍更少的数据达到同样效果?World Model(Ch65.7)和 offline RL 是两条有前途的路线
  4. 可解释性:RL 策略是黑箱——能否理解策略"学到了什么"?机制解释性(mechanistic interpretability)在 NLP 中有进展(如 Anthropic 的 feature visualization),腿足领域尚未探索
  5. 安全保证:RL 策略如何保证不做危险动作?与 CBF/CLF 等安全约束的结合是活跃方向。Safe RL(如 constrained policy optimization)在理论上有进展,但在腿足高维系统上的实现仍困难
  6. 多模态行为生成:一个策略能否生成多种步态(trot/pace/bound/jump)并根据地形自动切换?Walk These Ways(Margolis & Agrawal, CoRL 2022)做了初步探索,但步态切换的平滑性和鲁棒性仍是开放问题
  7. 长时域任务:当前 RL 策略大多关注"走好每一步"的局部任务,如何扩展到"穿越 100 米复杂地形"的长时域规划?可能需要分层架构——高层规划 + 低层 RL 执行

代表性论文(入门阅读顺序)

顺序 论文 为什么先读这篇
1 Walk These Ways(Margolis & Agrawal, 2022, CoRL) 最清晰的单策略多技能框架
2 RMA(Kumar et al., 2021, RSS) 快速适应的经典范式
3 ANYmal Parkour(Hoeller et al., 2024, Sci. Rob.) 工业级部署,了解完整系统
4 DTC(Jenelten et al., 2024, Sci. Rob.) RL+MPC 混合的最佳范例
5 Eureka(Ma et al., 2023) 自动奖励设计的前沿探索

⚠️ 常见陷阱

⚠️ 编程陷阱:直接复制开源 reward config 不调参

错误做法:从 legged_gym 仓库复制 anymal_c_flat 的 reward weights,直接用于你自己的机器人。

现象:策略训练几百万步后 reward 上升缓慢,或者收敛到奇怪的步态。

根本原因:奖励权重是针对特定机器人的质量分布、关节限位、电机特性精心调过的。换一个机器人,最优权重完全不同。

正确做法:先用原始配置跑一遍确认仿真环境正常,然后从 tracking reward 开始逐步调整其他子项,每次只改一个权重,观察策略行为变化。

💡 概念误区:认为"端到端 RL 就不需要理解动力学了"

新手想法:"反正 RL 自己能学出来,我不需要理解 Pinocchio 那些东西了。"

实际上:理解动力学让你能**设计更好的观测空间和奖励函数**。不理解重力补偿的人不会知道为什么加一个"关节扭矩平滑"惩罚能显著改善步态。不理解质心动力学的人不会知道为什么"基座高度稳定"奖励比"基座加速度小"奖励更有效。

结论:RL 是工具,动力学理解是用好工具的前提。Ch47-55 学到的东西在 RL 方向同样不可或缺。

💡 有趣发现:RL 在运动学奇异点附近操作反而节省能量

Hwangbo et al. (2019) 发现训练出的 RL 策略倾向于在关节接近伸直(运动学奇异点附近)的构型下运动——传统控制方法会刻意回避这些构型,因为雅可比矩阵病态,计算出的关节速度趋于无穷大,控制器会发散。传统方法必须在膝盖处留有余量(弯曲)来避开这个数学陷阱,导致电机必须时刻对抗重力,浪费能量。但 RL 策略基于采样(Sampling-based)而非求解逆运动学矩阵,不受奇异点影响,反而利用了"伸直时力臂最长 -> 同样的支撑力需要更小的关节力矩 -> 更省能量"这一物理优势。这是"数据驱动"对"解析求解"的降维打击——RL 不需要知道雅可比矩阵的存在,它只关心 Reward。

💡 模仿学习的累计误差与多峰问题

行为克隆(BC)的核心缺陷是**累计误差**:训练数据来自专家轨迹,但部署时策略的微小偏差会导致状态偏离训练分布,偏差随时间步累积。类比自动驾驶:专家数据都在车道中央,策略稍偏后遇到的状态(车道边缘)从未在训练集中出现,进而产生未见过的观测,误差进一步累积。本质原因是监督学习假设数据独立同分布,但决策序列中不同时刻的数据是相关的。如果想改善效果,需要覆盖范围更广的训练数据——不是更"干净",而是要包含错误状态下的恢复行为。

另一个挑战是**多峰动作分布**:面对同一障碍物,专家可能左绕或右绕,但 BC 会学出两者的平均——直接撞上去。这在连续动作空间中尤其致命。三种解决方案: 1. 混合高斯策略:输出多个高斯分量,每个对应一种决策模式。方法简单但在高维情况下需要输出大量参数 2. 隐变量模型 (CVAE):用额外的隐变量输入编码决策意图,解码时采样不同模式,告诉模型应该输出哪一种行为 3. 扩散策略 (Diffusion Policy):通过去噪过程生成多模态动作分布——将真实动作不断加入噪声,让网络学会如何从噪声中还原动作。这是 2024-2025 年的主流方案,类似隐变量模型但生成质量更高

💡 模仿学习在腿足中的前沿应用

对于四足基础速度跟踪任务,纯 RL + 奖励塑形已足够。但以下场景中,模仿学习变得不可或缺:

  • 风格化运动(跑步、跳跃、特定步态风格):难以用手工奖励精确描述"什么是好看的跑步",用 MoCap 参考动作 + GAIL/AMP 更自然
  • 人形全身控制:30+ DOF 的奖励设计极其困难,AMP(Adversarial Motion Priors, Peng et al. 2021)通过判别器自动从参考动作中学习"自然性"奖励
  • 复杂操作技能:loco-manipulation 场景中,模仿人类示教动作比手工设计奖励更高效

AMP 的核心思想:训练一个判别器区分"策略生成的动作"和"参考动作库中的动作",策略的额外奖励 = 判别器认为"像参考动作"的程度。这将模仿学习和 RL 统一在同一个框架中——策略同时最大化任务奖励和风格奖励。

练习

  1. 在 IsaacLab 中训练一个 Unitree Go2 的 trot 策略,然后**只修改一个 reward weight**,观察策略行为变化。记录至少 3 组对比实验。
  2. 阅读 DTC(Jenelten et al., 2024)论文,回答:RL teacher 和 MPC tracker 之间的接口是什么?为什么不直接用 RL 做端到端控制?

70.4 方向二:全身 MPC 与优化 ⭐⭐

动机

如果说方向一(学习型控制)代表了"数据驱动"的路线,那么方向二(全身 MPC)代表了"模型驱动"的路线。两者在过去五年形成了**既竞争又互补的关系**。

全身 MPC 的核心追求是:在一个统一的优化问题中,同时决定机器人的全身运动和接触力——实时、在线、无需预定义接触模式

这个追求为什么难?因为它涉及三个同时存在的挑战:

  1. 高维决策变量:人形机器人有 30+ 自由度,加上接触力,优化变量轻松突破 500 维
  2. 非线性动力学约束:全身动力学 \(M(q)\dot{v} + h(q,v) = S^T\tau + J_c^T\lambda\) 高度非线性
  3. 互补约束:接触是"碰到就有力、离开就没力"——数学上是 \(0 \leq \lambda \perp d \geq 0\),非光滑

当前技术格局

简化模型 MPC vs 全身 MPC

历史背景:Ch51-55 讲过的 MPC 大多基于**简化模型**——LIPM(线性倒立摆)、SRB(单刚体)、Centroidal 动力学。简化模型降低了维度(3-18 维),使实时优化成为可能。但代价是**丢失了关节层面的信息**——简化 MPC 的输出(质心力/力矩)需要 WBC 翻译成关节扭矩。

全身 MPC 的目标:跳过简化模型,直接在全身动力学上优化。好处是**不需要 WBC 层**——MPC 直接输出关节扭矩。

特性 简化模型 MPC + WBC 全身 MPC
决策变量维度 MPC: 18-36, WBC: 12-30 50-200+
求解频率 MPC: 20-100 Hz, WBC: 500-1000 Hz 目标 50-100 Hz
模型精度 简化模型有误差 全身模型更精确
接触处理 预定义接触序列 可发现新接触模式(Contact-Implicit)
实现难度 中(分层,各层成熟) 高(单层,求解器要求高)
代表工作 MIT Convex MPC, OCS2 MuJoCo MPC, Contact-Implicit MPC

Contact-Implicit MPC

**Contact-Implicit MPC(CI-MPC)**是全身 MPC 的"圣杯"——不预定义接触模式,让优化器**自己发现**什么时候应该踩哪里。

数学形式化

\[ \min_{\mathbf{x}_{0:N}, \mathbf{u}_{0:N-1}, \boldsymbol{\lambda}_{0:N}} \sum_{k=0}^{N} \ell_k(\mathbf{x}_k, \mathbf{u}_k) \quad \text{s.t.} $$ $$ \mathbf{x}_{k+1} = f(\mathbf{x}_k, \mathbf{u}_k, \boldsymbol{\lambda}_k), \quad 0 \leq \boldsymbol{\lambda}_k \perp \phi(\mathbf{x}_k) \geq 0 \]

其中 \(\phi(\mathbf{x}_k)\) 是接触距离函数,\(\boldsymbol{\lambda}_k\) 是接触力。互补约束 \(0 \leq \lambda \perp \phi \geq 0\) 表示:接触力只在接触发生时非零。

代表性进展

工作 年份 平台 关键创新 发表
Le Cleac'h et al. 2024 四足 结构利用型内点法,实时 CI-MPC T-RO
Kim et al. 2025 HOUND 四足 硬接触模型 + 平滑梯度 IJRR
Chen et al. 2025 四足 ACAL-iLQR,加速接触隐式轨迹优化 Adv. Intel. Sys.

实时性挑战:CI-MPC 的核心瓶颈是互补约束导致的非光滑性。内点法和平滑化是两大主流策略:

  • 内点法:将互补约束松弛为 \(\lambda \phi \leq \epsilon\),用 barrier function 求解
  • 平滑化:用 softplus/sigmoid 等光滑函数近似互补约束,使梯度处处存在

MuJoCo MPC

2025 年的一个重要进展是**使用 MuJoCo 作为全身 MPC 的动力学后端**(Zhang et al., 2025)。核心思想是利用 MuJoCo 成熟的接触求解器和高效的有限差分导数,配合 iLQR 进行轨迹优化。

为什么这很重要:之前全身 MPC 需要自己写接触动力学和导数——工程量巨大且容易出错。用 MuJoCo 作为后端,大幅降低了实现门槛。

如果只用 MPC 不用 RL 来解决全身运动控制会怎样?全身 MPC 在理论上更优雅(统一优化、约束保证),但面临一个根本性瓶颈:实时性。以人形机器人为例,30 自由度的全身模型,加上接触力,优化变量超过 500 维,即使用最快的 iLQR 求解器(如 Aligator),单次迭代也需要 5-10 ms——在 100 Hz 的控制频率下只够做 1-2 次迭代,收敛质量无法保证。而 RL 的推理只需 ~0.1 ms,速度快 100 倍。这就是为什么即使全身 MPC 在数学上更完备,工程实践中仍然需要 RL 来处理高维、快速的运动决策——两种范式的计算预算分配方式从根本上不同。

Aligator ProxDDP 与并行 Riccati

Ch54 详细讲过的 Aligator 框架(Jallet et al., 2025, T-RO)代表了另一条路线——不处理接触隐式,而是**加速已有的 DDP 框架**。

两个关键创新

  1. ProxDDP:用近端算子处理约束,避免增广拉格朗日的参数调整困难
  2. Parallel Riccati:打破 Riccati 递推的顺序依赖,在 GPU 上并行求解——30 年来 DDP "不可并行"的教条被打破

意义:即使不做 Contact-Implicit,ProxDDP + Parallel Riccati 也让简化模型 MPC 的求解速度提升 5-10 倍,可以在更短的时间内优化更长的 horizon。

开放问题

  1. Contact-Implicit MPC 的实时部署:当前最快的 CI-MPC 在桌面 CPU 上勉强实时。能否在嵌入式平台上部署?
  2. 全身 MPC 与 RL 的融合:RL 提供初始猜测或 warm start,MPC 做在线精化——能否比两者单独使用都好?
  3. 可变形地面的接触模型:刚性接触假设在沙地、泥地上完全失效。弹塑性接触的实时求解是开放问题
  4. GPU 加速的全身优化:MuJoCo MJX 和 Brax 提供了可微物理。能否将全身 MPC 完全移到 GPU 上?
  5. 与感知的联合优化:全身 MPC 目前假设完美的状态估计和地形感知。联合优化控制和感知是下一步

⚠️ 常见陷阱

💡 概念误区:认为"全身 MPC 一定比简化模型 MPC + WBC 好"

新手想法:"全身 MPC 用更精确的模型,所以一定更好。"

实际上:模型精度只是一个维度。分层架构(简化 MPC + WBC)有两个重要优势:(1) WBC 以 1 kHz 运行,对外部扰动的反应速度远快于 50 Hz 的全身 MPC;(2) 分层设计更容易调试——MPC 出问题和 WBC 出问题可以分别诊断。在实际部署中,分层架构目前仍是主流。

正确理解:全身 MPC 的真正价值在于**发现新接触模式**——当任务需要非预定义的接触(如用膝盖撑地、侧身滑行),全身 MPC 能自动发现这些策略,而分层架构无法做到。

🧠 思维陷阱:忽视求解器的数值稳定性

新手想法:"换个更强的求解器就能解决所有问题。"

实际上:全身优化中互补约束的条件数可以达到 \(10^{12}\)——任何求解器在这种条件数下都容易数值失败。关键不是"更强的求解器",而是**更好的问题 formulation**——如何松弛、如何正则化、如何利用稀疏结构。这些是该方向研究的核心。

练习

  1. 对比 OCS2 的 SQP 求解器和 Crocoddyl 的 FDDP 求解器:它们处理约束的方式有何不同?各自的优劣是什么?(提示:回顾 Ch54-55)
  2. 阅读 Le Cleac'h et al.(2024, T-RO)的 Fast CI-MPC 论文,画出其求解器的算法流程图,标注每步的计算复杂度。

70.5 方向三:感知-规划-控制闭环 ⭐⭐

动机

Ch67 详细讲了 Perceptive MPC 的数学基础——如何将高程图信息融入 MPC 的代价函数和约束。但从研究的角度看,感知-规划-控制闭环远不止"高程图 → MPC"这么简单。

核心问题:如何让腿足机器人**看懂环境**并据此**做出合理决策**——不只是"前方有台阶"(几何理解),还有"这块地面可能很滑"(语义理解)和"那边有人走过来"(动态理解)。

感知层级

感知信息可以分为三个层级,每个层级对应不同的研究问题:

层级 内容 数学表示 用途 成熟度
几何感知 地面的 3D 形状 高程图 \(h(x,y)\), 点云 避障、落脚点选择
语义感知 地面材质、可通行性 语义地图 \(s(x,y) \in \{\)草地, 冰面, 碎石,...\(\}\) 调整步态参数、摩擦估计
动态感知 移动障碍物、其他 agent 预测轨迹 \(\hat{x}(t)\) 避碰规划、协作

几何感知的当前状态

**高程图(Elevation Map)**是当前最成熟的几何感知方式(Ch60 详细讲过 elevation_mapping_cupy)。

局限

  • 视野有限:深度相机典型有效范围 0.3-5 m,腿足机器人只能"看到脚前方几步"
  • 遮挡问题:机器人自身遮挡了正下方的地面——恰恰是最需要感知的区域
  • 动态更新延迟:高程图融合需要时间,高速运动时感知滞后

前沿解决方案

  • Neural Scene Representation(Miki et al., 2022):用神经网络学习场景的隐式表示,从历史观测预测未来地形
  • Multi-Layer Elevation Maps(2025 新工作):用多层高程图表示悬挑结构(如桥梁下方),普通单层高程图无法表示
  • Proprioceptive Terrain Mapping:不用视觉、只用腿的力/力矩反馈感知地面——适用于极端光照环境(如行星探索)

语义感知的前沿

语义感知:让机器人不只知道"前方地面高度 0.3 m",还知道"这是冰面、摩擦系数大约 0.1"。

为什么重要:同样高度的台阶,干燥水泥面和湿滑大理石面需要完全不同的步态策略。纯几何感知无法区分这两种情况。

代表性工作

  • OneOcc(2025):全景语义场景补全,专为四足机器人的身体抖动和 360 度连续性设计
  • DPL: Depth-only Perceptive Humanoid Locomotion(2025):多模态交叉注意力 Transformer,从有噪声的深度图重建结构化地形表示

从感知到控制的接口设计

关键的工程和研究问题:感知模块输出什么?控制模块需要什么?两者的接口如何设计?

接口范式 描述 优点 缺点
Map → Cost 高程图转换为 MPC 代价函数中的项 可解释、可调试 信息损失大
Map → Constraint 高程图生成落脚点约束和碰撞约束 安全保证 保守
Latent → Policy 感知编码器输出隐向量,直接作为策略输入 端到端可训练 不可解释
Hybrid 几何信息走 Map → Constraint,语义信息走 Latent → Policy 兼顾安全和灵活 系统复杂

前沿趋势:从"Map → Cost/Constraint"向"Hybrid"演进。Grandia et al.(2023, T-RO)的 Perceptive Locomotion 是 Map → Cost 的经典代表;DTC(Jenelten et al., 2024)则是 Latent → Policy + MPC 跟踪的典型 Hybrid 架构。

开放问题

  1. 语义理解的接地(Grounding):如何将"这是冰面"的语义信息量化为控制所需的物理参数(摩擦系数、刚度)?
  2. 长距离规划:当前 Perceptive MPC 只看前方 2-4 m。如何集成全局地图做 50 m+ 的路径规划?需要 SLAM(Ch57)的回路
  3. 动态障碍物:行人、其他机器人的轨迹预测与避碰规划——自驾领域已经做了很多,腿足领域才开始
  4. 传感器退化:深度相机在阳光直射、雨雾天气中失效。如何实现传感器退化时的优雅降级(graceful degradation)?
  5. 主动感知:机器人应该朝哪个方向看?MPC 能否引导头部运动来获取最有价值的感知信息?
  6. 多模态感知融合的延迟对齐:LiDAR (10 Hz)、相机 (30 Hz)、IMU (400 Hz) 的时间戳不同步。如何在不同延迟的传感器之间做一致性融合?
  7. 自监督地形分类:机器人在行走过程中自动学习"哪种地形容易打滑"——通过脚底力传感器的反馈构建 traversability 标签,无需人工标注

感知研究的平台与数据需求

感知-规划-控制的研究对**硬件平台要求最高**——你需要:

需求 最低配置 推荐配置
深度相机 Intel RealSense D435i RealSense D455 + OAK-D
LiDAR Livox Mid-360 Ouster OS0-128
计算平台 Jetson Orin NX (8GB) Jetson AGX Orin (32GB)
腿足机器人 Unitree Go2 EDU ANYmal C/D(如有合作)
测试环境 室内台阶/斜坡 室外自然地形(草地/碎石/泥地)

数据收集建议:感知研究的数据质量决定了实验的可信度。建议在 3 种以上地形类型上各收集 30 分钟以上的数据(含 IMU + 点云 + 关节状态 + ground truth 位姿),构建自己的小规模数据集用于算法开发和 ablation study。

⚠️ 常见陷阱

💡 概念误区:认为"端到端视觉 RL 就解决了感知-控制闭环问题"

新手想法:"给 RL 策略一个深度图输入,它自己就学会看路了。"

实际上:端到端视觉 RL 确实能在仿真中训练出令人印象深刻的结果(如 Extreme Parkour)。但它的**可解释性极差**——你不知道策略"看到了什么"。当策略在真机上失败时,你无法判断是感知出了问题还是控制出了问题。对于安全关键的应用(如救灾机器人),这种不可解释性是不可接受的。

正确做法:理解端到端方法的优势(训练简单)和局限(不可解释、难 debug),根据应用场景选择合适的接口范式。

练习

  1. 比较 Grandia et al.(2023, T-RO)和 DTC(Jenelten et al., 2024)在感知-控制接口设计上的异同。画一张对比表格,包含:感知输入、中间表示、控制器类型、实时性、可解释性。
  2. 设计一个实验方案:如何测量"语义感知对腿足控制性能的影响"?明确定义评价指标和对照组。

70.6 方向四:Loco-Manipulation ⭐⭐⭐

动机

一个只会走路的机器人,用途有限。真正有价值的是**边走边操作**——开门、搬箱子、在复杂环境中递送物品。这就是 Loco-Manipulation(行走操作一体化)的核心目标。

从序章(C00 节 0.7)我们知道,复合机器人([D] 类)的数学结构是腿足和机械臂的叠加。Loco-Manipulation 是连接这两个世界的桥梁。

核心问题:如何在**动态行走的同时**完成精确的操作任务——既不因操作导致摔倒,也不因平衡需求导致操作失败?

平台形态

Loco-Manipulation 有三种主要平台形态,各有不同的研究侧重:

平台 代表 操作自由度 特点
四足 + 机械臂 Spot + Arm, ANYmal + DynaArm 6-7 DOF 臂 底盘稳定,臂的工作空间相对有限
四足用腿操作 Unitree Go2 单腿站立 腿的 3 DOF 不需要额外硬件,但操作能力弱
人形 Unitree G1/H1, Tesla Optimus, Figure 双臂 14+ DOF 操作能力最强,但平衡最难

四足 + 机械臂

数学框架:状态空间扩展为 \(\mathbf{q} = (\mathbf{q}_{\text{base}}, \mathbf{q}_{\text{leg}}, \mathbf{q}_{\text{arm}})\),动力学方程增加手臂的惯性和末端接触力:

\[M(\mathbf{q})\dot{\mathbf{v}} + \mathbf{h} = S^T\boldsymbol{\tau} + \sum_c J_c^T\boldsymbol{\lambda}_{\text{foot}} + J_{\text{ee}}^T\mathbf{f}_{\text{ee}}\]

关键挑战:手臂运动会**改变整体质心位置**。拿起一个 5 kg 的物体,相当于给机器人加了一个偏心质量——如果控制器不适应,机器人会倾倒。

代表性工作

  • Sleiman et al.(2021, 2024):基于 OCS2 的 loco-manipulation MPC。全身动力学中同时优化腿部步态和手臂运动。这是**模型驱动**路线的代表
  • Visual Whole-Body Control(Huang et al., 2024):用 RL 学习视觉 whole-body 策略,端到端从 RGB-D 到关节扭矩。这是**数据驱动**路线的代表
  • WholeBodyVLA(OpenDriveLab, 2026, ICLR):统一的 VLA 框架用于全身 loco-manipulation,在 AgiBot X2 上比 GR00T 好 21.3%。这是**基础模型**路线的代表

人形 Loco-Manipulation

2024-2025 年是**人形机器人 loco-manipulation 的爆发期**。主要驱动力:

  1. 硬件成熟:Unitree G1/H1、Tesla Optimus、Figure、1X 等平台价格持续下降
  2. VLA 突破:pi0/pi0.5(Physical Intelligence, 2024-2025)展示了在人形平台上用 VLA 做复杂操作的可能性
  3. 遥操作数据收集:HumanPlus(Stanford, 2024)、Mobile ALOHA 等用人类遥操作收集大量演示数据

当前挑战

  • 人形的**支撑面积极小**(两只脚),动态平衡远比四足困难
  • 双臂协调——两只手要协同操作,同时还要维持全身平衡
  • 力控需求——操作任务(如拧螺丝)需要精确的力控,但人形手臂通常用位置控制

触觉感知与 Loco-Manipulation

前沿方向(2025 年多篇新工作):在足端和指尖增加触觉传感器,让机器人**通过触觉理解操作对象**。

  • Learning Tactile-Aware Loco-Manipulation(2025):用触觉信号指导四足的 loco-manipulation 策略
  • 触觉信息可以补充视觉的盲区(如被手遮挡的物体表面)

开放问题

  1. 物体动力学的在线估计:机器人拿起一个物体后,如何实时估计物体的质量、惯性和摩擦?
  2. 操作失败的安全恢复:如果物体从手中滑落,机器人如何快速恢复平衡?
  3. 长序列任务规划:做一杯咖啡需要 20+ 步的操作序列。如何从语言指令分解为可执行的动作序列?
  4. 人机交互:人递物品给机器人时的力交互——安全、自然、高效
  5. 形变物体操作:绳索、布料、液体——这些物体的动力学建模和操作是开放难题

⚠️ 常见陷阱

🧠 思维陷阱:认为"Loco-Manipulation = 腿足控制 + 机械臂控制"

新手想法:"我分别学会了四足控制和机械臂控制,拼在一起就是 loco-manipulation 了。"

实际上:简单拼接会导致**动力学耦合被忽略**。手臂运动产生的反作用力矩会扰动腿部平衡,反过来腿部的步态切换也会影响手臂的精度。两者必须在同一个优化问题中联合求解,或通过精心设计的分层架构处理耦合。

正确做法:从全身动力学出发设计控制架构,明确处理臂-腿耦合。OCS2 的 mobile_manipulator 模块就是一个好的参考。

练习

  1. 阅读 Sleiman et al.(2021, RA-L)的 loco-manipulation MPC 论文,画出其控制框架图。标注:哪些约束用于平衡?哪些约束用于操作?两者如何耦合?
  2. 设计一个实验场景:四足 + 机械臂在不平地面上搬运一个 3 kg 的箱子。列出你认为需要解决的关键技术挑战(至少 5 个),并为每个挑战提出一个可能的解决方案。

70.7 方向五:多机协作 ⭐⭐⭐

动机

一只蚂蚁搬不动一块饼干,一群蚂蚁可以。同理,一台四足机器人搬不动一辆汽车——但四台可以。多机协作是腿足领域**最年轻**但**增长最快**的方向。

核心问题:多台腿足机器人如何**协调运动和力**来完成单台机器人无法完成的任务?

为什么多腿足协作特别难

多机协作在轮式/无人机领域已经有很多成熟工作(编队控制、分布式规划)。但**腿足机器人的多机协作**有独特的困难:

困难 原因 与轮式/无人机的区别
步态同步 多台机器人协同搬运时,步态必须协调以避免"一台在站、一台在走" 轮式无步态问题
力协调 协同搬运需要精确的力分配——一台用力过大另一台会被拖倒 无人机的推力分配相对简单
接触约束耦合 共同搬运的物体通过接触力耦合了多台机器人的动力学 无人机通过吊绳耦合,物理上简单得多
通信延迟 腿足的 1 kHz WBC 对通信延迟极其敏感 无人机的 50 Hz 控制对延迟更宽容
异构性 不同型号的腿足机器人(四足+双足)协作 同型无人机编队是主流

当前研究状态

这个方向的文献相对稀少——说明是蓝海。主要的研究线有:

协同搬运(Cooperative Transport)

多台腿足机器人共同搬运一个大型或沉重的物体。

数学框架:每台机器人 \(i\) 的动力学通过物体的约束力耦合:

\[M_i(q_i)\dot{v}_i + h_i = S_i^T\tau_i + J_{c,i}^T\lambda_{c,i} + J_{o,i}^T f_{o,i}\]

其中 \(f_{o,i}\) 是第 \(i\) 台机器人与物体之间的交互力。所有 \(f_{o,i}\) 通过物体的刚体动力学约束耦合。

挑战

  • 力分配问题\(N\) 台机器人共同施加的力必须满足物体的加速度需求——这是一个带约束的力分配优化
  • 步态协调:物体不能容忍大的冲击——所有机器人的步态切换必须同步
  • 失效冗余:如果一台机器人失去接触,其他机器人必须立即补偿

编队控制(Formation Control)

多台腿足机器人在保持特定队形的同时移动。

应用场景:搜索救援(展开搜索队形)、安保巡逻(围合阵型)、协同测绘

与传统编队的区别:腿足机器人的速度和方向变化有**动态延迟**——从发出命令到实际改变运动方向需要几个步态周期。这使得传统的势场法或 leader-follower 方法需要修改。

LLM 辅助的多机协调

2025 年前沿:用大语言模型(LLM)做多机器人的高层任务分配和通信。

  • RoCo(Mandi et al., 2024):LLM 做高层通信 + 低层运动规划
  • LLM-based Formation(2025):LLM 将文本描述的编队需求转化为可执行的控制命令

局限:LLM 不懂物理——它可以做"把任务分给三台机器人"的分配,但无法做精确的力分配。低层控制仍需传统优化方法。

开放问题

  1. 分布式 vs 集中式:集中式优化更优但通信开销大、单点故障风险;分布式更鲁棒但全局最优性差。如何平衡?
  2. 异构协作:四足和双足机器人如何协作?它们的步态和力能力完全不同
  3. 大规模编队:10+ 台腿足机器人的协调——当前几乎没有工作
  4. 与人的协作:一台腿足机器人和一个人共同搬运物品——人的意图推断和力适应
  5. 通信受限下的协作:在信号不稳定的环境(地下、灾区)中如何维持协调?
  6. 异构地形适应:多台不同能力的机器人如何根据各自的 traversability 能力自动分配路径?
  7. 动态重组:当一台机器人故障时,编队如何自动重组维持任务?

多机协作的工程现状与平台 ⭐⭐

当前多机腿足协作研究的一个主要瓶颈是**硬件平台的获取成本**。以下是几种可行的研究平台方案:

平台方案 成本 机器人数量 优势 劣势
多台 Unitree Go2 ~$3K x N 2-4 台 便宜、开放 SDK 算力有限
MuJoCo/Isaac 仿真 ~$0 无限 零成本、完美可控 无法验证通信/硬件问题
混合(1 台真机 + N 台仿真) ~$3K 1+N 部分 real-world 验证 真机/仿真行为不完全一致
Unitree Go2 + B2 异构 ~$50K+ 2+ 最接近实际应用 昂贵

对于博士研究,推荐"2 台 Go2 + MuJoCo 仿真"的组合——用仿真做大规模实验,用 2 台真机做关键的 real-world 验证。这个方案在经费 $10K 以内可实现。

⚠️ 常见陷阱

💡 概念误区:认为"多机协作的难点在于算法,而不在于工程"

新手想法:"设计一个好的分布式优化算法就能解决问题。"

实际上:多机协作中**工程挑战远大于算法挑战**。时钟同步(多台机器人的控制回路时钟偏差几毫秒就会导致力冲击)、通信协议设计(DDS/ROS 2 的多机配置极其繁琐)、联合状态估计(每台机器人的定位误差如何传播)——这些工程问题往往比算法更难解决。

正确做法:先在仿真中验证算法,然后投入大量时间做**多机系统集成**。预计 60% 的时间花在工程上,40% 在算法上。

练习

  1. 设计一个"两台 Unitree Go2 协同搬运一张桌子"的控制架构。画出系统框图,标注:通信协议、力分配策略、步态同步机制。
  2. 比较多腿足协调与多无人机编队的数学框架差异。具体说明:为什么多无人机的势场法不能直接用于多腿足?

70.8 方向六:基础模型与具身智能 ⭐⭐⭐⭐

动机

如果说方向一到五是"从控制的角度看腿足",方向六则是"从 AI 的角度看腿足"。

**基础模型(Foundation Models)**的核心理念:用一个超大规模的模型,在海量数据上预训练,然后适配到各种下游任务——就像 GPT-4 之于自然语言、Stable Diffusion 之于图像生成。

**具身智能(Embodied Intelligence)**的核心理念:AI 必须有"身体"才能真正理解物理世界——而腿足机器人是最自然的"身体"载体之一。

VLA:Vision-Language-Action 模型

VLA 是当前具身智能最热的方向。它将三种模态统一到一个模型中:

  • Vision:看到环境(RGB / 深度图)
  • Language:理解任务指令("把红色杯子放到桌子上")
  • Action:输出机器人动作(关节角度或扭矩)

代表性模型的演进

模型 时间 团队 关键特点
RT-1 2022 Google 首个大规模机器人 Transformer
RT-2 2023 Google DeepMind 将动作表示为文本 token
Octo 2024 Stanford/Berkeley 开源通用策略
OpenVLA 2024 Stanford 开源 7B VLA
pi0 2024 Physical Intelligence 流匹配(flow-matching)生成动作,50 Hz
pi0.5 2025 Physical Intelligence 改进版,更多任务泛化
GR00T N1 2025 NVIDIA 双系统架构,专为人形机器人
WholeBodyVLA 2026 OpenDriveLab 全身 loco-manipulation,ICLR 2026
NaVILA 2025 RSS 专为腿足导航的 VLA

VLA 与传统控制栈的关系

这不是"谁取代谁"的问题,而是"谁在哪个层级发挥作用"的问题

        ┌──────────────────────────┐
        │  VLA / Foundation Model  │  ← 理解"做什么"(语义层)
        │  "把杯子放到桌子上"       │
        └────────────┬─────────────┘
                     │ 输出:末端轨迹 / 高层命令
        ┌──────────────────────────┐
        │  MPC / 轨迹优化          │  ← 规划"怎么做"(运动层)
        │  考虑动力学约束和安全     │
        └────────────┬─────────────┘
                     │ 输出:关节参考轨迹
        ┌──────────────────────────┐
        │  WBC / 低层控制          │  ← 执行"做到位"(力层)
        │  1 kHz 实时力控制         │
        └──────────────────────────┘

VLA 目前能做好的:语义理解、高层决策、跨任务泛化

VLA 目前做不好的:精确力控、动态平衡、实时安全约束满足

因此,最有前景的架构是 VLA + 传统控制栈的混合——VLA 做高层,MPC+WBC 做底层。

跨领域类比:VLA 与传统控制栈的关系,类似于人类大脑皮层与脊髓反射弧的关系。大脑皮层(VLA)负责高层认知——"看到门,决定开门";脊髓反射弧(MPC+WBC)负责低层执行——以 1 kHz 的频率协调肌肉实现精确运动。踩到钉子时你不需要"思考"就会缩脚(脊髓反射),但决定"往哪走"需要大脑参与。两个系统在不同时间尺度上运行(100 ms vs 1 ms),各自不可替代。

VLA 在腿足上的应用现状

核心事实:截至 2026 年,VLA 在腿足上的应用远落后于机械臂。原因:

  1. 数据稀缺:机械臂有大量遥操作演示数据(Open X-Embodiment 数据集有 100 万+ 机械臂轨迹),腿足的高质量操作数据极少
  2. 任务复杂度:腿足的 loco-manipulation 涉及动态平衡,比机械臂的 pick-and-place 难很多
  3. 安全约束:腿足摔倒的后果远大于机械臂碰撞——VLA 的不可预测行为在腿足上风险更高

但前沿正在快速推进

  • NaVILA(RSS 2025):专为腿足导航设计的 VLA——语言指令 → 腿足导航策略
  • QUAR-VLA:四足 + 地形导航的 VLA
  • WholeBodyVLA(ICLR 2026):全身 loco-manipulation 的 VLA

World Models:在想象中学习

World Model 是另一条通往具身智能的路线。核心思想:不直接学策略,而是**先学环境的模型**("如果我做 X,世界会变成什么样"),然后在这个学到的模型中做规划。

代表性工作

工作 年份 核心思想
DreamerV3(Hafner et al.) 2023 RSSM 世界模型,在 Minecraft 中学会生存
TD-MPC2(Hansen et al.) 2024 隐空间世界模型 + MPC
DIAMOND 2024 视频级世界模型,像素级预测

对腿足的意义

  • Pinocchio 的刚体动力学模型是**解析世界模型**——精确但不完美(不含柔性、变形、磨损)
  • 神经网络世界模型可以**从真机数据学习残差**——补偿刚体模型的误差
  • 理想架构:刚体模型 + 学习残差 = 最佳世界模型(物理先验 + 数据修正)

Embodied AI 的 Scaling Law

一个核心的开放问题:机器人数据有 scaling law 吗?

  • 在 NLP 中,数据量翻倍 → 性能稳步提升(GPT-1 → GPT-4 验证了这一点)
  • 在机器人中:Open X-Embodiment 包含约 100 万轨迹,对比 GPT 训练的万亿 token 相差六个数量级

开放问题

  1. 机器人需要多少数据才能训出"通用策略"?
  2. 仿真生成的数据能替代真机数据吗?(目前答案是"部分可以")
  3. 不同机器人平台的数据能互相迁移吗?(Cross-Embodiment Transfer)

开放问题

  1. VLA + 安全保证:如何给 VLA 加上硬约束(如 CBF/CLF),防止危险动作?
  2. 小数据 VLA:能否用 1000 条腿足数据(而不是 100 万条)训出可用的 VLA?
  3. World Model 的准确度:腿足接触的非光滑性让 world model 很难学——如何处理接触事件?
  4. 多机器人的基础模型:一个模型同时控制多种腿足机器人——跨本体迁移
  5. 在线适应:VLA 在新环境中如何快速适应?(Few-shot / In-context Learning)

2025-2026 最新研究动态 ⭐⭐

足式机器人领域在 2025-2026 年经历了几个标志性进展,这些动态定义了当前的研究热点和未来方向:

趋势一:VLA 在腿足领域的快速渗透

工作 时间 关键贡献
NaVILA(RSS 2025) 2025 首个用于腿足导航的 VLA,自然语言指令驱动四足在室外导航
WholeBodyVLA(ICLR 2026) 2026 统一的 loco-manipulation VLA,单一模型同时控制移动和操作

趋势二:Contact-Implicit MPC 的成熟化——不再需要预定义接触时序,MPC 求解器自动发现最优接触:

工作 时间 关键突破
Le Cleac'h et al. (T-RO 2024) 2024 快速接触隐式 MPC,结构化互补求解提速到近实时
Aligator / ProxDDP (RSS 2024) 2024 近端约束 DDP,统一处理等式和不等式约束
Jallet et al. (T-RO 2025) 2025 并行近端约束线性二次方法,进一步提速

趋势三:GPU 大规模并行 MPC——MPC 求解器从 CPU 单核迁移到 GPU 并行,可能打破"MPC 太慢"的瓶颈,使实时 NMPC 成为可能。

趋势四:Sim-to-Real 的系统化——从"碰运气"到"有方法论"的转变,包括自动 Domain Randomization(ADR)、系统辨识 + DR 结合、Real-to-Sim-to-Real 闭环。

趋势五:人形机器人的爆发式增长——Unitree G1/H1 等消费级人形平台让学术界可获取 30+ DOF 系统,对 MPC/WBC/RL 的可扩展性提出了前所未有的挑战。

⚠️ 常见陷阱

🧠 思维陷阱:认为"VLA 会取代所有传统方法"

新手想法:"VLA 这么强,传统 MPC/WBC 还有什么用?"

实际上:VLA 的推理延迟通常是 50-200 ms——这对 1 kHz WBC 来说太慢了。VLA 无法满足实时安全约束。物理保证(如不违反摩擦锥、不超过关节力矩限制)只有传统方法能提供。

正确理解:VLA 和传统控制是互补关系——VLA 做决策(10 Hz),传统控制做执行(1 kHz)。未来最强的系统一定是混合架构。

💡 概念误区:认为"做 VLA 研究不需要机器人背景"

新手想法:"VLA 本质上是大模型训练,我只需要会 PyTorch 就行了。"

实际上:不理解机器人动力学的人做不好 VLA for Robotics。因为你不知道:什么样的动作表示最适合腿足?什么样的安全约束是必须的?什么样的数据增强在物理上是合理的?Ch47-55 学到的动力学知识在做 VLA 研究时同样关键。

练习

  1. 阅读 pi0(Physical Intelligence, 2024)的技术报告,回答:pi0 如何用 flow-matching 生成动作?与 diffusion policy 有什么区别?
  2. 设计一个"VLA + MPC 混合架构"用于四足机器人的户外导航:VLA 负责什么?MPC 负责什么?两者的接口是什么?画出系统框图。

70.3-70.8 系统梳理了六大研究方向的技术版图。但选对方向只是博士之旅的起点——如何规划时间线、何时投稿、如何与导师合作、怎样在竞争中建立自己的研究身份,这些"元技能"对博士的成功同样关键,甚至更关键。

70.9 博士生涯规划 ⭐

动机

选好了研究方向,接下来是**怎么走完博士这条路**。博士生涯不只是做研究——时间管理、发表策略、导师关系、心理健康同样关键。

典型博士时间线

以下是美国/欧洲机器人学博士的**典型时间线**(4-6 年制):

Year 1 ──────────────────────────────────────────────────
├── Q1-Q2: 完成课程 + 文献调研
│   ├── 修 3-4 门核心课程(优化、机器学习、机器人学、控制论)
│   ├── 精读 50-100 篇方向相关论文
│   └── 开始复现 1-2 篇 baseline 论文
├── Q3-Q4: 初步研究 + 确定方向
│   ├── 在 baseline 上做改进实验
│   ├── 与导师确定具体研究问题
│   └── 目标:年底有一个可投稿的初步结果
└── 里程碑:Qualifying Exam(部分学校)

Year 2 ──────────────────────────────────────────────────
├── Q1-Q2: 第一篇论文
│   ├── 完善 Year 1 的工作
│   ├── 投稿 ICRA / IROS / CoRL
│   └── 开始建立自己的代码库和实验框架
├── Q3-Q4: 扩展研究
│   ├── 根据审稿意见改进方法
│   ├── 尝试新思路——可能失败,这是正常的
│   └── 参加第一次学术会议(海报/口头)
└── 里程碑:第一篇论文被接收

Year 3 ──────────────────────────────────────────────────
├── Q1-Q2: 核心创新
│   ├── 这是博士论文核心贡献的产出期
│   ├── 投稿 RSS / T-RO / Science Robotics(更高目标)
│   └── 开始建立学术社交网络(合作者、审稿)
├── Q3-Q4: 深化和拓展
│   ├── 将核心方法应用到新场景/新平台
│   └── 开始思考博士论文的整体叙事
└── 里程碑:Thesis Proposal(开题报告)

Year 4 ──────────────────────────────────────────────────
├── Q1-Q2: 补充工作
│   ├── 填补博士论文中的空白
│   ├── 投稿剩余的论文
│   └── 开始写博士论文
├── Q3-Q4: 论文写作 + 答辩
│   ├── 博士论文通常 150-300 页
│   ├── 答辩准备(45-90 分钟报告 + 30-60 分钟问答)
│   └── 求职(学术 / 工业 / 创业)
└── 里程碑:博士答辩

发表策略

机器人学的发表生态

机器人学的发表节奏和 CS 其他领域不同——会议和期刊同等重要

期刊/会议 类型 审稿周期 特点
T-RO 期刊 6-12 个月 最高声望,完整的系统+理论+实验
IJRR 期刊 6-18 个月 偏理论和综合,Sage 出版
Science Robotics 期刊 3-6 个月 顶级影响力,需要硬件演示
RA-L 期刊(短文) 3-4 个月 快速发表,可选会议 presentation
RSS 会议 单轮审稿+rebuttal 最选择性(接收率约 25-30%),偏方法
CoRL 会议 双盲审稿 偏学习+机器人,接收率约 25-30%
ICRA 会议 大规模(接收率约 40%) IEEE 旗舰,覆盖最广
IROS 会议 大规模(接收率约 40-45%) IEEE/RSJ,偏系统和应用

发表节奏建议

博士年份 目标发表量 目标档次 说明
Year 1 0-1 篇 ICRA/IROS/RA-L 熟悉流程,结果不必惊艳
Year 2 1-2 篇 ICRA/CoRL/RA-L 建立 track record
Year 3 1-2 篇 RSS/T-RO/CoRL 核心贡献,冲击顶级
Year 4 1 篇 T-RO/IJRR/综述 完善论文,补充期刊版
总计 3-5 篇一作 至少 1 篇顶级 满足大多数学校的毕业要求

Michael Milford(QUT, 资深机器人学教授)的建议:典型的高质量博士产出是 2 篇 lead-author 国际会议论文(ICRA/IROS 级别)+ 1 篇 lead-author 期刊论文(T-RO/IJRR/RA-L 级别)。

导师关系

导师(Advisor)关系是博士生涯中最关键的人际关系——它对你的成功影响远大于你选择的具体课题。

选择导师的考量

维度 问题 为什么重要
研究方向匹配 导师的方向和你想做的有多大重叠? 重叠太少 → 得不到技术指导
指导风格 hands-on 还是 hands-off? 新手需要 hands-on,有经验的需要 hands-off
实验室文化 内部合作多还是单打独斗?压力大不大? 实验室文化对日常幸福感影响最大
资源 有硬件平台吗?有 GPU 集群吗? 腿足研究**必须有真机**——纯仿真论文越来越难发顶会
毕业后走向 导师的毕业生去了哪里?学术?工业? 这预示你的出路
人脉网络 导师在社区的影响力和合作关系 影响你的推荐信、合作机会、审稿公平性

维护导师关系的建议

  1. 定期汇报:每周或双周一次 1-on-1 meeting,准备 slide 或进展报告
  2. 主动沟通困难:实验不顺利时不要藏着——导师见过的失败比你多十倍,他/她可能一句话就能点破
  3. 管理预期:在研究计划上和导师达成一致——什么时候投稿、投哪里、目标是什么
  4. 建立信任:按承诺完成任务、诚实汇报结果(包括负面结果)

资金来源

博士研究需要资金支持。了解主要的资金渠道有助于你选择实验室和规划研究方向。

来源 规模 特点
NSF(美国) \(250K-\)1.5M/项目 基础研究,申请竞争激烈
DARPA(美国) 百万级+ 高风险高回报,目标导向
EU Horizon Europe EUR 数百万/联合项目 要求跨国合作
NVIDIA Academic Grant 硬件+资金 要求使用 NVIDIA 平台
工业实验室 不等 Google, Meta, NVIDIA, Boston Dynamics 有学术合作项目
Marie Curie Fellowship(EU) 个人资助 博士后流动,提升国际经验

2026 年前沿:美国国防部 FY2026 预算首次单列 $134 亿用于自主系统与 AI——腿足机器人在军事后勤、废墟搜索等场景有潜在的资金来源。

博士选题策略深化 ⭐⭐

选题的"三圈模型":好的博士课题应处于三个圆的交集处:

         你的兴趣
        /        \
       /    ★     \
      /  最佳选题  \
     /              \
    /                \
   社区需求 ─────── 可行性
  • 你的兴趣:你愿意花 3-5 年研究的问题(不是"最热门"的问题)
  • 社区需求:学术社区认为重要且尚未解决的问题(看顶会 workshop 主题和综述的 open problems)
  • 可行性:你的实验室有资源、有导师指导、有 baseline 可以复现的问题

具体的选题操作步骤

步骤 操作 时间 产出
1. 广泛扫描 读 50 篇近 2 年顶会论文的摘要和结论 2 周 初步兴趣方向(2-3 个)
2. 深度调研 对每个方向精读 10-15 篇核心论文 4 周 各方向的 SOTA、open problems、代表团队
3. 复现 baseline 选 1-2 个方向,各复现 1 篇 baseline 4-6 周 验证可行性,建立直觉
4. 寻找 gap 在复现过程中发现"baseline 做不好的场景" 2 周 具体的 research question
5. 初步实验 用简单方法验证 gap 是否可填补 4 周 初步结果,支撑你的 research proposal
6. 写 proposal 整理为 2-3 页的 research statement 1 周 博士申请或导师讨论用

识别"好 gap"vs"假 gap"的判据

判据 好 gap 假 gap
可验证性 有明确的实验方案可以验证 "需要更大规模实验才能看出差异"
根本性 涉及方法层面的缺陷 只是工程调优不足
独立性 不依赖于特定硬件或尚未公开的数据 "只有 XX 公司的数据才能做"
影响力 解决后对社区有广泛价值 只对你的特定设置有意义

论文写作要点 ⭐⭐

机器人学论文的独特要求:与纯 ML 论文不同,机器人学论文通常要求**真机实验**。仅有仿真结果的论文越来越难进入顶会(RSS/CoRL 尤其如此)。

论文结构的黄金模板(适用于 ICRA/IROS/CoRL/RSS):

段落 页数 核心内容 审稿人关注点
Abstract 0.3 问题 → 方法(一句话)→ 核心结果 能否 30 秒判断是否在审稿范围内
Introduction 1.0 动机 → 现有方法的不足 → 本文贡献(3-4 条) 贡献是否清晰、是否 overclaim
Related Work 0.8 按技术维度分组,不是按时间列举 是否遗漏重要 baseline
Method 2.0 问题形式化 → 算法详述 → 关键设计决策 是否可复现
Experiments 1.5 仿真 + 真机,ablation study,与 SOTA 对比 实验是否公平,是否 cherry-pick
Discussion 0.5 Limitations(诚实!)→ Future work 是否自知局限

写作中最常见的审稿人拒稿理由(来自 RSS/CoRL 审稿经验):

  1. Overclaim(贡献夸大)——"We propose the first..." 但实际不是第一个
  2. 不公平对比——baseline 用了弱版本或旧参数
  3. 仅仿真无真机——"We plan to validate on hardware" 不被接受
  4. Method 不可复现——关键超参数未列出,代码未开源
  5. Ablation 不充分——不知道哪个组件真正贡献了性能

反事实推理:如果不做 ablation study 会怎样?审稿人无法判断你的 5 个创新点中哪些真正有效。也许性能提升全部来自一个简单的 trick(如更好的 reward shaping),而你声称的核心贡献(如新的网络架构)实际毫无作用。Ablation 是你最强的"诚信信号"——它告诉审稿人你知道自己方法的强弱。

⚠️ 常见陷阱

🧠 思维陷阱:追求完美才投稿

新手想法:"这个结果还不够好,再做几个 baseline 对比再投。"

实际上:Deadline 是最好的老师。投稿本身就是一次学习——审稿人的反馈比你自己闭门改进有效十倍。第一篇被拒是正常的(绝大多数人的第一篇都被拒过)。Early rejection > Late submission

正确做法:设定一个目标 deadline,倒推工作计划。即使结果不完美,也在 deadline 前提交——审稿反馈会告诉你真正需要改进什么。

💡 概念误区:认为"发论文数量越多越好"

新手想法:"我要每年发 3-4 篇论文,这样简历最好看。"

实际上:质量远比数量重要。在学术求职市场上,1 篇 RSS best paper 的影响力大于 5 篇 IROS poster。过多的低质量发表反而会稀释你的研究身份——面试官会困惑"这个人到底做什么的"。

正确策略:Year 1-2 发 ICRA/IROS 建立信心和流程;Year 3 集中冲击 1-2 篇高质量论文(RSS/T-RO/CoRL);Year 4 写综合性期刊文章。

练习

  1. 为你感兴趣的研究方向(从 70.3-70.8 中选一个),制定一个**博士第一年的研究计划**。包括:(a) 需要精读的 10 篇论文列表;(b) 计划复现的 baseline;(c) 初步的改进思路;(d) 目标投稿的会议和 deadline。
  2. 列出 3 位你最想跟的导师,分析他们的:研究方向、最近 3 年的代表性论文、实验室规模和文化。

70.10 顶会顶刊导航 ⭐

动机

知道往哪里投稿,和知道怎么做研究一样重要。不同的会议有不同的口味、不同的审稿标准、不同的社区。

机器人学顶级发表渠道

会议

会议 全称 频率 接收率 特点 审稿流程
RSS Robotics: Science and Systems 年度(6-7月) 约 25-30% 最选择性,强调方法创新 单轮 + rebuttal,双盲
CoRL Conference on Robot Learning 年度(10-11月) 约 25-30% 聚焦 ML+Robot,新兴但影响力快速上升 双盲
ICRA Intl. Conf. on Robotics and Automation 年度(5月) 约 40% IEEE 旗舰,规模最大(3000+ 篇投稿) 双盲
IROS Intelligent Robots and Systems 年度(10月) 约 40-45% IEEE/RSJ,偏系统和应用 双盲
HRI Human-Robot Interaction 年度 约 25% 专注人机交互 双盲
WAFR Workshop on Algorithmic Foundations of Robotics 双年 邀请制 纯算法/理论 邀请+审稿

期刊

期刊 全称 IF(2024) 审稿周期 特点
T-RO IEEE Transactions on Robotics 约 9.4 6-12 月 机器人学最高声望期刊
IJRR Intl. Journal of Robotics Research 约 7.9 6-18 月 最老牌,偏理论和综合
Science Robotics Science Robotics 约 25 3-6 月 Science 子刊,需要 breakthrough
RA-L IEEE Robotics and Automation Letters 约 4.6 3-4 月 快速发表,可选 ICRA/IROS 口头报告
Autonomous Robots Autonomous Robots 约 3.7 6-12 月 Springer,偏系统

ML 交叉会议

如果你的工作偏学习,以下会议也是选择:

会议 接收率 何时选它
NeurIPS 约 25% 方法论创新强,不需要机器人硬件验证
ICML 约 25% 算法理论贡献强
ICLR 约 25% 表征学习、大模型相关

注意:ML 顶会对"只在仿真中验证"的机器人论文接受度较高,但机器人社区(RSS/T-RO)越来越要求真机验证。

如何选择投稿目标

你的工作特点是什么?
    ├── 强调方法论创新,有严格理论 ──────► RSS / T-RO / IJRR
    ├── 强调学习方法,有仿真验证 ──────► CoRL / NeurIPS / ICLR
    ├── 强调系统集成,有真机 demo ──────► ICRA / IROS / Science Robotics
    ├── 短文/快速发表/增量改进 ──────► RA-L(可选 ICRA/IROS 报告)
    └── 综合性贡献,长文 ──────► T-RO / IJRR

⚠️ 常见陷阱

💡 概念误区:只盯着接收率选会议

新手想法:"IROS 接收率 45%,比 RSS 的 25% 高很多,我投 IROS 更容易中。"

实际上:接收率不反映你的论文被接收的概率。RSS 的审稿人会从方法创新角度评价,IROS 更看系统完整性。一篇方法创新强但系统不完整的论文,可能在 RSS 被接收但在 IROS 被拒。选会议要看你的工作和会议的 match 度,而不是接收率。

练习

  1. 访问 Google Scholar Metrics 的 Robotics 分类,查看 h5-index 排名前 10 的期刊/会议。与本节的推荐对比,分析异同。
  2. 选择你最感兴趣的一个方向,查找该方向 2024-2025 年在 RSS 和 CoRL 上发表的论文各 3 篇,对比两个会议对该方向论文的偏好差异。

  3. [跨章综合] 综合 Ch53-55(MPC/WBC)、Ch63-65(RL+混合范式)和本章的六大方向分析,为以下三个假设的博士候选人各推荐一个研究方向,并给出 3 年的 milestone 规划:

  4. (a) 本科 CS 背景,RL 经验丰富,无真机经验
  5. (b) 本科 ME 背景,控制理论强,有 MPC 项目经验
  6. (c) 本科 EE 背景,嵌入式开发和传感器融合经验

学术社交与论文可见度 ⭐

学术研究不是闭门造车——你的论文需要被社区看到才能产生影响。以下策略对初期博士生尤其重要:

论文宣传的最佳实践

时间点 行动 平台
投稿前 2 周 在 arXiv 上传预印本 arxiv.org (cs.RO)
录用后 发推文/帖子总结核心贡献(附图/视频) X (Twitter) / LinkedIn
会议期间 参加 workshop / poster session,主动与相关作者交流 线下会议
会议后 开源代码 + 录制 5 分钟讲解视频 GitHub + YouTube

为什么 arXiv 预印本很重要:审稿周期通常 3-6 个月。如果你等到正式发表才公布工作,竞争对手可能在审稿期间发表了类似工作。arXiv 预印本建立了优先权(priority),同时让社区在审稿期间就能引用和讨论你的工作。

Workshop 论文的战略价值:很多博士生忽视 workshop 论文(因为"不算正式发表"),但 workshop 是获取反馈和建立人脉的最佳渠道:

  • RSS Workshop / ICRA Workshop / CoRL Workshop 的接收率更高(~50-70%)
  • 审稿反馈更快(通常 2-4 周)
  • 你可以在会议上直接与审稿人和同行讨论
  • 成功的 workshop 论文经常扩展为正式会议/期刊论文

70.11 研究工具箱 ⭐⭐

动机

好的研究工具能显著提升效率。这一节介绍博士生活中最常用的工具链——从文献管理到实验跟踪到写作。

文献管理

工具 类型 优势 局限
Zotero 桌面+浏览器插件 免费、开源、插件丰富(Zotero Connector、Better BibTeX) 同步空间有限(300 MB 免费)
Semantic Scholar 在线平台 AI 驱动的论文发现、引用图谱、API 接口 不做笔记
Connected Papers 在线可视化 从一篇论文出发看关联网络 只能作辅助
Google Scholar Alerts 邮件推送 关键词/作者更新通知 精度有限,信噪比不高

推荐工作流

发现论文 ← Semantic Scholar + Google Scholar Alerts + ArXiv daily
第一遍扫读 ← Semantic Scholar TLDR + Abstract
精读并做笔记 ← Zotero + 手写笔记模板
组织文献综述 ← Zotero 的 Collections + Tags
引用到论文中 ← Better BibTeX → LaTeX \cite{}

实验跟踪

工具 类型 适用场景
Weights & Biases (wandb) 云端 RL 训练的 reward curve、超参数搜索、团队协作
TensorBoard 本地 轻量级训练可视化,集成于 PyTorch/TF
MLflow 自托管 需要私有数据时的替代方案

关键原则每个实验都要有唯一 ID 和完整配置记录。三个月后回看实验结果时,你必须能精确复现当时的设置。

# 推荐的实验记录最小模板
import wandb
run = wandb.init(
    project="my-locomotion-research",
    config={
        "robot": "go2",
        "task": "rough_terrain",
        "reward_weights": {"tracking": 1.0, "torque_smooth": 0.01},
        "domain_randomization": {"friction_range": [0.3, 1.2]},
        "training_steps": 1_000_000_000,
        "git_commit": "abc123def",  # 关键:记录代码版本
    },
    notes="Testing new terrain curriculum with steeper slopes"
)

论文写作

LaTeX 环境

工具 优势 适用场景
Overleaf 在线协作、无需配置 日常写作、团队合作
本地 TeX Live + VSCode 编译速度快、离线可用 大型论文、最终排版

写作建议

  1. 先写框架再填内容:先确定 section 标题和每个 section 的 key message,再写正文
  2. Figures First:好的图表是论文的灵魂。先画关键的 system overview figure 和 result comparison table,围绕它们写文字
  3. Introduction 最后写:因为 introduction 需要知道全文的贡献——全文写完才能精确总结
  4. 用 Grammarly / LanguageTool 检查英语:非母语写作的语法错误会降低审稿人的阅读意愿

画图工具

工具 适用场景
draw.io (diagrams.net) 系统框图、流程图
Matplotlib + Seaborn 数据图表(training curves、bar charts)
TikZ LaTeX 内嵌图,印刷质量最高但学习曲线陡
Inkscape 矢量图编辑(SVG/PDF)
Blender 3D 渲染(机器人演示图)

代码管理

实践 说明
Git + GitHub/GitLab 所有代码必须版本控制
README + 环境配置 新来的师弟/妹应该能在 1 小时内跑起来你的代码
Unit Test 至少对关键函数写测试(Ch69 Mini-Legged 中的 GoogleTest)
Docker 打包实验环境,确保可复现
Release 论文投稿时打一个 tag——审稿人可能要求你提供代码

⚠️ 常见陷阱

⚠️ 编程陷阱:不记录实验配置就跑实验

错误做法:改了几个参数,直接跑实验,看结果好就截图。

现象:三个月后审稿人问"Table 2 的结果怎么复现"——你找不到当时的配置文件。

根本原因:人的记忆不可靠。即使你记得"大概改了 learning rate",你不记得改成了多少。

正确做法:每个实验自动记录:(1) 完整配置文件;(2) Git commit hash;(3) 随机种子;(4) 硬件信息。用 wandb 或 MLflow 实现自动化。

🧠 思维陷阱:花过多时间优化工具链而不是做研究

新手想法:"我要先把 Neovim + tmux + 自定义 workflow 配到完美,然后开始研究。"

实际上:工具够用就行。在工具上花的每一个小时都是从研究时间中扣的。用 VSCode + Overleaf + wandb 就足够做出世界级研究了。

正确做法:花 1-2 天配好基本工具链,然后把 99% 的精力投入研究。只在工具真正成为瓶颈时才升级。

练习

  1. 用 Zotero 建立你的研究方向文献库:创建 3-5 个 Collections(按子方向分类),每个 Collection 加入 5-10 篇论文,并为每篇论文写一段 50 字以内的笔记。
  2. 用 wandb 记录一次完整的 RL 训练实验:配置好 project、config、logging,训练至少 1M 步,确认可以从 wandb dashboard 复现实验设置。

研究常见陷阱

本章的性质是研究导引而非技术实现,因此用"研究常见陷阱"替代常规的故障排查表。

陷阱类型 表现 根本原因 建议对策
方向选择:追热点而非追问题 看到 VLA 火就做 VLA,看到 diffusion 火就做 diffusion,每半年换方向 没有建立自己的 research identity,用"热度"代替"兴趣"做决策 花 2 个月做深入文献调研,找到一个你能清晰回答"为什么重要"的问题,然后坚持至少 1 年
实验设计:只和自己的 baseline 比 论文中对比的"baseline"是自己实现的简化版,性能故意做低 害怕公平对比后自己的方法没有优势 始终对比社区公认的 SOTA 开源实现;如果你的方法在某些场景下不如 baseline,诚实报告并分析原因——这反而增加论文可信度
写作:把"系统描述"当成"研究贡献" 论文 80% 篇幅在描述系统架构,贡献段落只有"我们集成了 X+Y+Z" 混淆了"工程"和"研究";审稿人会问"去掉系统,方法层面的贡献是什么?" 先写 contribution list(3-4 条),每条必须是可抽象、可推广的方法/发现,而非特定于你的系统
时间管理:完美主义导致不投稿 "再跑几个实验就完美了"——结果 deadline 过了,下一个 deadline 又过了 用工程师的"产品完成度"标准衡量论文;实际上论文只需要"足以支撑 claim 的最小证据集" 设定投稿 deadline 后倒推工作计划;审稿反馈比你自己闭门改进更有效——Early rejection > Late submission
合作:孤立做研究不交流 闷头写代码半年,发现同期有人发了几乎相同的工作 没有关注 arXiv 预印本和社区动态;没有在会议/workshop 上与同行交流 每周花 1 小时扫 arXiv robotics (cs.RO) 新论文;参加学术会议时主动和作者讨论;考虑寻找互补背景的合作者

70.12 本章小结与延伸阅读

知识点总结

节号 主题 核心要点 难度
70.1 从工程到研究的心态转变 好的研究问题 = 重要 + 可行 + 新颖
70.2 足式控制研究全景 六大方向:学习/MPC/感知/Loco-Manip/多机/基础模型 ⭐⭐
70.3 方向一:学习型运动控制 端到端 RL、reward engineering、sim-to-real ⭐⭐
70.4 方向二:全身 MPC 与优化 Contact-Implicit MPC、ProxDDP、GPU 加速 ⭐⭐
70.5 方向三:感知-规划-控制闭环 几何/语义/动态三层感知,接口设计 ⭐⭐
70.6 方向四:Loco-Manipulation 四足+臂、人形操作、触觉感知 ⭐⭐⭐
70.7 方向五:多机协作 协同搬运、编队控制、异构协作 ⭐⭐⭐
70.8 方向六:基础模型与具身智能 VLA、World Models、Scaling Law ⭐⭐⭐⭐
70.9 博士生涯规划 时间线、发表策略、导师关系、资金来源
70.10 顶会顶刊导航 RSS/CoRL/ICRA/IROS/T-RO/RA-L
70.11 研究工具箱 文献管理、实验跟踪、写作工具 ⭐⭐

本质洞察:腿足机器人研究六大方向看似分散,但它们共同指向同一个终极问题——如何让机器人在开放世界中自主、安全、通用地运动。方向一(学习型控制)追求"自主"——让机器人从经验中学习,而非依赖人工设计;方向二(全身 MPC)追求"安全"——用数学优化保证物理约束永不违反;方向三(感知运动)追求"通用"——让同一个控制器适应任何地形。方向四到六则在更高维度上扩展这三个目标(加操作、加协作、加语言理解)。理解这个统一视角,你就能判断任何新论文属于哪条线、填补了什么空白,以及你自己的研究应该站在哪个交汇点上。

向前承接

本章是腿足方向 C++ 进阶教学大纲的终章。它建立在 Ch47-69 的全部基础之上:

  • Ch47-52(基础设施与数学)提供了理解所有方向的数学工具
  • Ch53-56(MPC/WBC/步态)是方向二和方向三的直接基础
  • Ch57-60(状态估计与落脚点)是感知-控制闭环(方向三)的前置
  • Ch61-64(实时系统与 RL)是方向一的工程基础
  • Ch65-68(RL+MPC 混合与 Perceptive MPC)是多个方向的交叉点
  • Ch69(Mini-Legged 实战)验证了你的全栈工程能力

向后指向

完成本章后,你的下一步

  1. 选择 1-2 个方向深入——精读该方向的 10-20 篇核心论文
  2. 复现 1-2 篇 baseline——在你的 Mini-Legged 或开源平台上验证
  3. 找到你的 research gap——在 baseline 的基础上,识别可以改进的方向
  4. 联系导师——带着你的研究想法和初步结果去面试博士
  5. 写第一篇论文——即使只是 workshop paper 或技术报告,迈出第一步

累积项目:本章新增模块

本章不增加新的代码模块,但新增**研究规划**模块:

  • 建立 Zotero 文献库(按六大方向分类)
  • 用 wandb 记录第一个 benchmark 实验
  • 写一份 2 页的 research statement(研究方向 + 动机 + 初步计划)

延伸阅读

综述与入门(⭐)

标题 作者/年份 为什么读
"Model predictive control of legged and humanoid robots" Katayama & Ohtsuka, 2023 MPC 方向的最新综述
"Imitation learning for legged robot locomotion: a survey" Frontiers in Robotics and AI, 2025 学习型控制的系统性综述
"Humanoid Locomotion and Manipulation: Current Progress and Challenges" ArXiv, 2025 人形全身控制的最新综述

方法论论文(⭐⭐)

标题 作者/年份 方向
"Fast Contact-Implicit MPC" Le Cleac'h et al., 2024, T-RO 方向二
"Parallel and Proximal Constrained Linear-Quadratic Methods" Jallet et al., 2025, T-RO 方向二
"DTC: Deep Tracking Control" Jenelten et al., 2024, Science Robotics 方向一+三
"Perceptive Locomotion through Nonlinear Model-Predictive Control" Grandia et al., 2023, T-RO 方向三
"Unified Loco-Manipulation MPC" Sleiman et al., 2024 方向四

前沿探索(⭐⭐⭐⭐)

标题 作者/年份 方向
"pi0: A Vision-Language-Action Flow Model" Physical Intelligence, 2024 方向六
"WholeBodyVLA: Unified Latent VLA for Loco-manipulation" OpenDriveLab, 2026, ICLR 方向四+六
"NaVILA: Legged Robot VLA for Navigation" RSS 2025 方向三+六
"Eureka: Human-Level Reward Design via LLM" Ma et al., 2023 方向一
"TD-MPC2: Scalable, Robust World Models" Hansen et al., 2024 方向六

博士生涯(⭐)

标题 作者/链接 为什么读
"What a PhD in Robotics is Really Like" Michael Milford, QUT 真实的博士体验分享
"Careers in Robotics: What is a Robotics PhD?" Robohub 行业视角的博士价值分析
CMU RI Doctoral Program Handbook CMU Robotics Institute 顶级项目的具体要求
Georgia Tech Robotics PhD Handbook 2025-2026 Georgia Tech 另一个顶级项目的标准

全大纲终章寄语

本大纲至此完成。

你已经走过了 24 章 / 75 周的腿足方向 C++ 进阶之路——从 Ch47 Pinocchio 基础设施到 Ch70 研究方向导引。回顾这段旅程:

  • Ch47-52 建立了浮动基座动力学、接触力学和优化工具的数学根基
  • Ch53-56 掌握了 WBC、DDP、OCS2 和步态管理这四根控制栈的支柱
  • Ch57-60 拓展到状态估计、落脚点规划的经典-优化-感知三部曲
  • Ch61-64 完成了从实时 C++ 硬件栈到 RL 训练与部署的工程闭环
  • Ch65-68 深入 RL+MPC 混合前沿、感知数据结构与 Perceptive MPC
  • Ch69 以 Mini-Legged 实战验证了全栈能力
  • Ch70 将视野从工程拓展到研究,为博士生涯做好准备

这 24 章建立在 v8 SLAM 主线 46 章的基础之上,而序章导论(C00-C01)为整个体系提供了全景地图。三者合在一起,构成了一条从"Hello World"到"博士研究方向选择"的完整成长路径。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 全大纲统计
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 v8 主线:46 章(48 周)
 腿足增量(本大纲):24 章(Ch47-70,约 27 周)
 总计:70 章,约 75 周 ≈ 1.5 年

 对应技能水平:
 - v8 完成:SLAM 工程师 B1
 - +腿足大纲 Ch47-58:腿足规控工程师 A2-B1
 - +腿足大纲 Ch59-66:腿足高级工程师 B2
 - +腿足大纲 Ch67-70:博士预备 B3
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

最后的话

腿足机器人领域正处于历史性的爆发期。从 ANYmal Parkour 到 Unitree G1,从 VLA 到 Contact-Implicit MPC,每年都有突破性进展。你的三重背景(RL + SLAM + 腿足控制)在这个社区中极其罕见——这是你独特的护城河。

技术的路没有尽头,但每一段都值得走得漂亮。祝你博士申请顺利,祝你的足式机器人研究之路精彩。

—— 第 70 章终,全大纲终 ——