本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。
第 70 章 研究方向与博士导引¶
定位:腿足方向 C++ 进阶教学大纲的**终章**——从工程师到研究者的过渡
前置章节:Ch67(Perceptive MPC)、Ch68(legged_control 精读)、Ch69(Mini-Legged 实战)
后续方向:博士研究生涯
text:code 比例:9:1(研究导向章节,极少代码)
预计学习时间:1.5 周(30-40 小时,含论文阅读)
前置自测¶
📋 答不出 >= 2 题 → 先回 Ch65-Ch69 复习
- MPC 和 WBC 在腿足控制栈中分别运行在什么频率?各自优化什么目标?
- Sim-to-real 的核心挑战是什么?Domain randomization 和 system identification 分别解决什么问题?
- 端到端 RL 策略与分层 MPC+WBC 架构各有什么优劣?能否举出代表性论文?
- Perceptive locomotion 中,高程图(elevation map)如何融入 MPC 的代价函数?
- 什么是 VLA(Vision-Language-Action)模型?它与传统控制栈的关系是什么?
本章目标¶
学完本章,你应能:
- 建立完整的足式机器人研究版图认知——知道六大前沿方向各自的 state-of-the-art、开放问题和代表性论文
- 从工程思维切换到研究思维——理解"好的研究问题"与"好的工程问题"的本质区别
- 制定你的博士研究定位——在版图中找到你的 niche,建立可行的研究路线图
- 掌握论文阅读与学术写作方法论——高效读文献、识别研究 gap、规划发表策略
- 熟悉学术社区的运行规则——顶会顶刊导航、审稿流程、研究工具链
70.1 从工程到研究的心态转变 ⭐¶
动机¶
你花了 23 章(Ch47-69)从 Pinocchio 基础设施一路走到 Mini-Legged 实战——此刻你已经是一名合格的**腿足规控工程师**。但工程师和研究者之间存在一道微妙而深刻的鸿沟。
这道鸿沟不在于"会不会更多的技术",而在于**思考问题的方式完全不同**。
工程师思维 vs 研究者思维¶
| 维度 | 工程师思维 | 研究者思维 |
|---|---|---|
| 核心问题 | "如何让系统工作得更好?" | "为什么这个问题难?什么是根本性的障碍?" |
| 评价标准 | 系统是否稳定运行、性能指标达标 | 是否回答了一个之前没人回答过的问题 |
| 处理未知 | 搜索已有方案 → 选最合适的 → 实现 | 识别未知 → 提出假设 → 设计实验验证 |
| 失败的含义 | 系统 crash = 坏事 | 假设被否定 = 有价值的信息 |
| 时间尺度 | 天到周(一个 feature 的开发周期) | 月到年(一个研究问题的探索周期) |
| 成功的定义 | 产品上线、客户满意 | 论文被接收、方法被社区采纳 |
| 对"已有方案"的态度 | 越成熟越好(降低风险) | 越成熟越没意义(没有创新空间) |
一个具体的例子:
假设你发现 ANYmal 在湿滑地面上经常滑倒。
- 工程师的反应:调高摩擦锥约束的保守系数 → 降低步幅 → 增加 WBC 的阻尼 → 问题缓解 → 交付
- 研究者的反应:为什么现有的接触模型无法预测滑动? → 库仑摩擦模型的局限在哪里? → 能否建立一个数据驱动的摩擦模型来捕捉地面材质变化? → 这个模型能否在线学习? → 形成一个研究问题
工程师在意**结果**——"滑不滑";研究者在意**理解**——"为什么滑,以及这个理解能否推广到其他问题"。
如果不转变会怎样¶
很多有工程背景的博士生在前两年遇到的困境:
- 把博士当成"更大的项目"——没有明确的研究问题,只是不断地"做系统"。导师问"你的贡献是什么"时答不上来
- 抗拒负面结果——实验结果不如预期就放弃方向,而不是分析"为什么不如预期"(这往往才是最有价值的发现)
- 只读代码不读论文——看开源项目的 README 比读原始论文舒服,但这导致你不知道方法的动机和局限,也无法判断改进方向
- 追热点而非追问题——看到 VLA 火了就去做 VLA,看到 diffusion 火了就去做 diffusion,最终没有自己的 research identity
什么是"好的研究问题"¶
一个好的研究问题必须同时满足三个条件:
| 条件 | 含义 | 反面教材 |
|---|---|---|
| 重要性(Importance) | 解决这个问题对社区有价值 | "用 RL 训练一个新的 trot 步态"——已经有很多人做过 |
| 可行性(Feasibility) | 在博士 4-5 年内可以做出有意义的进展 | "构建通用人形机器人"——太大、不可控 |
| 新颖性(Novelty) | 之前没人用这种方式解决过 | "在新机器人上重复 legged_gym 的训练"——无创新 |
好问题的"味道":
- "现有方法 X 在场景 Y 中失败了,根本原因是假设 Z 不成立。如果我们放松假设 Z,能否得到更通用的方法?"
- "领域 A 的技术 M 从来没有被应用到领域 B。它们在数学结构上有天然的对应关系,迁移后能否解决 B 的开放问题?"
- "方法 P 和方法 Q 各有优劣,社区一直把它们当成二选一。能否找到一个统一框架同时获得 P 和 Q 的优点?"
研究问题的来源¶
| 来源 | 操作方式 | 产出可能性 |
|---|---|---|
| 论文的 Limitation 段落 | 精读顶会论文的 Discussion/Limitation 部分 | 最可靠——作者已经替你找到了 gap |
| 真机实验的失败 | 分析失败原因,追溯到方法层面的缺陷 | 高——有真机数据支撑的问题最有说服力 |
| 跨领域迁移 | 把 A 领域的方法拿到 B 领域试 | 中——需要深入理解两个领域 |
| 两篇论文的矛盾 | 论文 X 说 A 好,论文 Y 说 B 好——为什么? | 高——统一解释矛盾是高质量研究 |
| 导师的建议 | 和导师讨论他的研究视野 | 取决于导师——但方向一般不会太偏 |
⚠️ 常见陷阱¶
💡 概念误区:认为"做了一个更复杂的系统"就等于"做了研究"
新手想法:"我把 MPC + WBC + RL + 感知 + VLA 全部集成到一个系统里了,这不就是创新吗?"
实际上:系统集成是工程,不是研究。研究的贡献必须是**可抽象、可复现、可推广**的。审稿人会问:"去掉你的系统,你的**方法层面**的贡献是什么?"如果答案是"把别人的模块拼在一起",那就不是研究贡献。
正确做法:系统可以作为研究的载体,但贡献必须是系统中的某个**具体创新**——新算法、新模型、新理论、新发现。
🧠 思维陷阱:把博士论文当成"五篇论文的订书机"
新手想法:"发五篇论文,装订在一起,就是博士论文了。"
实际上:优秀的博士论文有一条**贯穿全文的主线**——每篇论文都是从不同角度回答同一个核心问题。五篇互不相关的论文可能满足毕业要求,但不会建立你的**研究身份(Research Identity)**。
正确做法:在博士第一年就确定一个核心问题(thesis statement),后续所有论文围绕这个核心展开。即使方法不同、平台不同,核心问题不变。
练习¶
- 阅读 ANYmal Parkour(Hoeller et al., 2024, Science Robotics)的 Discussion 部分,列出 3 个作者提到的局限性,并为每个局限性提出一个可能的研究问题。
- 回顾你在 Ch69 Mini-Legged 实战中遇到的最大技术困难,分析它属于"工程问题"还是"研究问题"。如果是工程问题,能否将其提升为研究问题?
70.2 足式控制研究全景 ⭐⭐¶
动机¶
在选择具体研究方向之前,你需要一张**完整的版图**——知道这个领域有哪些主要方向,每个方向的成熟度如何,哪些方向竞争激烈,哪些方向仍是蓝海。
这张版图不只是"列论文"。它需要告诉你每个方向的**数学结构、核心挑战、和其他方向的交叉关系**。
六大研究方向总览¶
从序章(C00-C01)建立的四分法和前沿概览出发,我们将足式控制的研究前沿归纳为六大方向。它们并非互斥——很多前沿工作同时跨越两个甚至三个方向。
足式控制研究版图
│
┌────────┬───────────┼───────────┬────────┬────────┐
▼ ▼ ▼ ▼ ▼ ▼
方向一 方向二 方向三 方向四 方向五 方向六
学习型 全身MPC 感知-规划 Loco- 多机 基础模型
运动控制 与优化 -控制闭环 Manip. 协作 与具身智能
(Ch65) (Ch54-55) (Ch67) (新) (新) (新)
│ │ │ │ │ │
成熟度 成熟度 成熟度 成熟度 成熟度 成熟度
★★★★ ★★★★ ★★★☆ ★★☆☆ ★☆☆☆ ★☆☆☆
| 方向 | 核心问题 | 成熟度 | 竞争烈度 | 发表难度 | 入门门槛 |
|---|---|---|---|---|---|
| 学习型运动控制 | 如何用 RL/IL 学出鲁棒策略 | 高 | 极高 | 需要硬件结果 | 中(需 GPU 集群) |
| 全身 MPC 与优化 | 如何实时求解全身动力学 | 高 | 高 | 需要理论+硬件 | 高(数学) |
| 感知-规划-控制闭环 | 如何将视觉融入控制 | 中高 | 高 | 需要完整系统 | 高(多模态) |
| Loco-Manipulation | 如何边走边操作 | 中 | 中 | 场景新颖即可 | 高(需要平台) |
| 多机协作 | 多腿足如何协调 | 低 | 低 | 相对容易发表 | 中(需多台机器人) |
| 基础模型与具身智能 | 通用机器人策略 | 低 | 高(关注度高) | 需大规模计算 | 极高(数据+算力) |
2025-2026 年各方向的活跃度与趋势:
| 方向 | arXiv 月均投稿量趋势 | 2025-2026 标志性工作 | 热度变化 |
|---|---|---|---|
| 学习型运动控制 | 稳定(~30/月) | ANYmal Parkour, Walk These Ways 2.0 | 稳定 |
| 全身 MPC | 增长(~15→25/月) | ProxDDP, Contact-Implicit MPC GPU | 上升 |
| 感知-规划-控制 | 稳定(~20/月) | DTC, NaVILA | 稳定 |
| Loco-Manipulation | 快速增长(~10→25/月) | WholeBodyVLA, RAMBO | 强烈上升 |
| 多机协作 | 低(~5/月) | 多四足协同搬运 | 低但稳定 |
| 基础模型 | 爆发(~5→40/月) | pi0, Humanoid-VLA | 最高热度 |
数据说明:上表中的 arXiv 月均投稿量为基于关键词检索的**粗略估计**,非精确统计,仅反映相对趋势。具体数字可能因检索方式、关键词选择和时间窗口而异。
方向选择的实用建议:基础模型方向热度最高但竞争最激烈(Google/Meta/NVIDIA 等大公司投入巨大)。对于资源有限的博士生,方向二(全身 MPC)和方向四(Loco-Manipulation)是性价比最高的选择——竞争相对温和,且需要深厚的控制理论背景,大公司的纯 ML 团队不容易进入。
方向之间的关系¶
这六个方向不是孤立的。它们之间存在密切的依赖和交叉关系:
基础模型(方向六)
│ 提供高层语义理解
▼
感知-规划-控制(方向三)─────► Loco-Manipulation(方向四)
│ 提供环境理解 │ 需要感知+操作
▼ ▼
学习型控制(方向一)◄──────► 全身MPC(方向二)
│ RL策略 vs 优化控制 │ 实时约束满足
│ 混合架构(Ch65 DTC等) │
▼ ▼
多机协作(方向五)◄──── 单体控制的多体扩展
选方向的策略:
- 追求安全:选方向一或方向二,成熟社区、明确 baseline,容易出第一篇 paper
- 追求独特:选方向四或方向五,竞争少、问题新、但需要更多工程投入
- 追求影响力:选方向六,关注度高、但风险也高、需要大量计算资源
本质洞察:六大方向之间的关系**不是**平行的"六条赛道",**而是**一棵树的不同分支——它们共享相同的"根"(浮动基座动力学 + 接触力学 + 最优控制),在不同层级上分叉。方向一和方向二在"单体运动控制"层分叉(数据驱动 vs 模型驱动);方向三在"感知"层生长;方向四在"操作"层扩展;方向五在"多体"层扩展;方向六则试图用一个统一的大模型覆盖整棵树。理解这棵树的结构,有助于你判断不同方向之间的知识迁移成本——沿树枝移动(如从方向一到方向二)比跨树枝跳跃(如从方向一到方向五)容易得多。
⚠️ 常见陷阱¶
🧠 思维陷阱:认为"竞争少的方向一定更容易发论文"
新手想法:"多机协作竞争少,所以我更容易中论文。"
实际上:竞争少可能意味着社区对这个问题不够关注——审稿人的态度可能是"这个问题重要吗?"你需要在论文中花大量篇幅论证**问题的重要性**,这比在竞争激烈领域多写一个 baseline 对比更难。
正确做法:选一个**你能讲出为什么重要的方向**,而不是简单地选"竞争少"的。
💡 概念误区:认为"数学越多的方向越高级"
新手想法:"全身 MPC 方向要用很多优化理论,所以比 RL 方向更'高级'。"
实际上:研究质量与数学复杂度无关。一篇用简洁 RL 方法解决重要问题的论文,远优于一篇堆砌数学但没有清晰贡献的论文。审稿人看的是**是否解决了问题**,而不是**用了多复杂的工具**。
练习¶
- 为上述六大方向各找一篇 2024-2025 年的代表性论文,用一句话总结其核心贡献。
- 基于你的背景(RL + SLAM + 腿足),画一张表格分析你在每个方向的**优势**和**需要补的短板**。
70.3 方向一:学习型运动控制 ⭐⭐¶
动机¶
学习型运动控制(Learned Locomotion)是过去五年腿足领域**最活跃的方向**——没有之一。从 2019 年 ETH RSL 的首个 sim-to-real 四足 RL 控制器,到 2024 年 ANYmal Parkour 登上 Science Robotics,这个方向已经从"学术好奇"进化为"工业可部署"。
核心问题:能否用数据驱动的方法(RL/IL)学到一个控制策略,替代或增强手工设计的 MPC+WBC 控制栈?
当前技术格局¶
端到端 RL 策略¶
核心思想:直接从传感器读数(本体感受 + 可选视觉)映射到关节扭矩或位置指令,中间没有任何手工设计的模块。
代表性工作的演进脉络:
| 年份 | 工作 | 平台 | 关键创新 | 发表 |
|---|---|---|---|---|
| 2019 | Learning Agile Locomotion(Hwangbo et al.) | ANYmal | 首个 sim-to-real 四足 RL,actuator net | Science Robotics |
| 2021 | RMA(Kumar et al.) | A1 | 快速运动适应(Rapid Motor Adaptation) | RSS |
| 2022 | Walk These Ways(Margolis et al.) | A1/Go1 | 多技能单策略,gait-conditioned | CoRL |
| 2024 | Extreme Parkour(Cheng et al.) | Go1 | 端到端视觉 parkour | ICRA |
| 2024 | ANYmal Parkour(Hoeller et al.) | ANYmal D | 工业级部署,Science Robotics | Science Robotics |
| 2024 | DTC(Jenelten et al.) | ANYmal | RL 生成参考 + MPC 跟踪 | Science Robotics |
这条线的核心成功因素:
- 大规模并行仿真:IsaacGym/IsaacLab 在 GPU 上同时仿真数千个机器人,数据收集效率比 CPU 仿真快 100-1000 倍
- 课程式训练(Curriculum Learning):从简单地形逐步增加难度,避免策略在困难任务上直接失败
- Domain Randomization:随机化摩擦系数、质量、延迟等仿真参数,让策略对不确定性鲁棒
- Teacher-Student 蒸馏:teacher 可以访问特权信息(真实地形、真实摩擦),student 只用可观测信息(关节编码器、IMU),蒸馏后 student 在真机上部署
Reward Engineering¶
端到端 RL 的核心瓶颈之一是**奖励函数设计**。一个典型的足式 RL 奖励函数包含 10-20 个子项:
| 子项类别 | 典型子项 | 作用 |
|---|---|---|
| 任务奖励 | 跟踪速度命令、朝向命令 | 定义"做什么" |
| 风格奖励 | 关节加速度惩罚、扭矩平滑 | 定义"怎么做得好看" |
| 安全奖励 | 基座翻滚惩罚、关节限位惩罚 | 定义"不能做什么" |
| 接触奖励 | 足端滑动惩罚、空中时间奖励 | 定义"步态质量" |
开放问题:reward engineering 目前是"黑魔法"——每个研究组都有自己的秘方,没有统一理论。改变一个系数可能让策略从 trot 变成 bound,甚至直接不收敛。
前沿探索:
- 自动奖励搜索:用进化算法或 LLM 自动搜索奖励函数组合(Eureka,Ma et al., 2023)
- 从人类偏好学习奖励:RLHF 在 locomotion 中的应用——让人类标注"哪个步态看起来更自然"
- 逆强化学习:从动物运动视频中学习隐式奖励
Sim-to-Real 的当前状态与剩余挑战¶
如果不做 sim-to-real 而是直接在真机上训练 RL 会怎样?以 PPO 的数据效率为例:训练一个基本 trot 策略需要约 \(10^8\) 步交互。真机以 50 Hz 运行(考虑到安全监控和重置时间),\(10^8\) 步需要 \(10^8 / 50 / 3600 \approx 556\) 小时——连续运行 23 天不停,期间机器人会因为策略探索摔倒数千次,电机和关节可能因此损坏。IsaacLab 用 4096 个并行环境以 50000 Hz 等效速率采样,同样的数据量只需 30 分钟。真机训练在数据效率和硬件安全两个维度上都不可行,这就是为什么 sim-to-real 不是"可选的优化",而是"RL 部署的必要条件"。
Sim-to-real 是学习型控制从仿真走向真机的关键瓶颈。经过五年的快速发展,这个领域已经取得了显著进展,但仍有根本性的挑战未解决。
当前状态(2025-2026):
| 维度 | 已解决 | 仍困难 |
|---|---|---|
| 刚体动力学 | MuJoCo/IsaacSim 的刚体仿真高度精确 | 柔性、变形体仍难建模 |
| 关节驱动器 | Actuator net 可以学习电机特性 | 齿轮背隙、摩擦的温度依赖性 |
| 地面接触 | 平地/简单地形已可靠 | 可变形地面(沙地、泥地)、表面含水 |
| 传感器噪声 | IMU 和编码器的噪声建模成熟 | 深度相机的遮挡和失效模式 |
| 延迟 | 固定延迟可随机化 | 变化延迟(通信抖动)更难处理 |
剩余核心挑战:
- 接触模型不准确:仿真中的刚性接触与真实世界的粘弹性接触差异巨大。Domain randomization 可以缓解但无法根治——因为它本质上是"承认不知道,靠运气覆盖"
- 执行器建模的精度瓶颈:电机的效率曲线、齿轮的间隙和摩擦、关节的柔性——这些参数随温度、磨损变化,简单的参数随机化不够
- 长尾场景:策略在"典型"场景中表现很好,但在极端场景(极端坡度、突然外力)中失败。如何系统性地发现和覆盖长尾场景是开放问题
- 能量效率:仿真中不考虑能量消耗,导致策略在真机上"暴力求解"——扭矩大、发热快、续航短。这是 sim-to-real gap 中**最被忽视**的维度
前沿方法:
- 残差学习(Residual RL):在已有 MPC 控制器上叠加一个 RL 残差项,减少需要学习的东西
- 采样式系统辨识(Sampling-Based SysID):主动探索真机参数空间,比 domain randomization 更精确
- 真机在线学习(Learn-in-Real):直接在真机上做增量学习,跳过 sim-to-real 的困难(但有安全风险)
开放问题¶
- 奖励函数的自动化设计:能否有一个系统化的方法来设计和验证奖励函数?Eureka(Ma et al., 2023)用 LLM 生成候选 reward 函数并自动评估,是这个方向的早期探索
- Sim-to-real 的理论保证:能否给出"仿真策略在真机上性能下降不超过 X%"的理论界?目前只有经验性方法(DR + 真机微调),缺乏理论框架
- 样本效率:当前方法需要数十亿步仿真交互——能否用 10-100 倍更少的数据达到同样效果?World Model(Ch65.7)和 offline RL 是两条有前途的路线
- 可解释性:RL 策略是黑箱——能否理解策略"学到了什么"?机制解释性(mechanistic interpretability)在 NLP 中有进展(如 Anthropic 的 feature visualization),腿足领域尚未探索
- 安全保证:RL 策略如何保证不做危险动作?与 CBF/CLF 等安全约束的结合是活跃方向。Safe RL(如 constrained policy optimization)在理论上有进展,但在腿足高维系统上的实现仍困难
- 多模态行为生成:一个策略能否生成多种步态(trot/pace/bound/jump)并根据地形自动切换?Walk These Ways(Margolis & Agrawal, CoRL 2022)做了初步探索,但步态切换的平滑性和鲁棒性仍是开放问题
- 长时域任务:当前 RL 策略大多关注"走好每一步"的局部任务,如何扩展到"穿越 100 米复杂地形"的长时域规划?可能需要分层架构——高层规划 + 低层 RL 执行
代表性论文(入门阅读顺序)¶
| 顺序 | 论文 | 为什么先读这篇 |
|---|---|---|
| 1 | Walk These Ways(Margolis & Agrawal, 2022, CoRL) | 最清晰的单策略多技能框架 |
| 2 | RMA(Kumar et al., 2021, RSS) | 快速适应的经典范式 |
| 3 | ANYmal Parkour(Hoeller et al., 2024, Sci. Rob.) | 工业级部署,了解完整系统 |
| 4 | DTC(Jenelten et al., 2024, Sci. Rob.) | RL+MPC 混合的最佳范例 |
| 5 | Eureka(Ma et al., 2023) | 自动奖励设计的前沿探索 |
⚠️ 常见陷阱¶
⚠️ 编程陷阱:直接复制开源 reward config 不调参
错误做法:从 legged_gym 仓库复制
anymal_c_flat的 reward weights,直接用于你自己的机器人。现象:策略训练几百万步后 reward 上升缓慢,或者收敛到奇怪的步态。
根本原因:奖励权重是针对特定机器人的质量分布、关节限位、电机特性精心调过的。换一个机器人,最优权重完全不同。
正确做法:先用原始配置跑一遍确认仿真环境正常,然后从 tracking reward 开始逐步调整其他子项,每次只改一个权重,观察策略行为变化。
💡 概念误区:认为"端到端 RL 就不需要理解动力学了"
新手想法:"反正 RL 自己能学出来,我不需要理解 Pinocchio 那些东西了。"
实际上:理解动力学让你能**设计更好的观测空间和奖励函数**。不理解重力补偿的人不会知道为什么加一个"关节扭矩平滑"惩罚能显著改善步态。不理解质心动力学的人不会知道为什么"基座高度稳定"奖励比"基座加速度小"奖励更有效。
结论:RL 是工具,动力学理解是用好工具的前提。Ch47-55 学到的东西在 RL 方向同样不可或缺。
💡 有趣发现:RL 在运动学奇异点附近操作反而节省能量
Hwangbo et al. (2019) 发现训练出的 RL 策略倾向于在关节接近伸直(运动学奇异点附近)的构型下运动——传统控制方法会刻意回避这些构型,因为雅可比矩阵病态,计算出的关节速度趋于无穷大,控制器会发散。传统方法必须在膝盖处留有余量(弯曲)来避开这个数学陷阱,导致电机必须时刻对抗重力,浪费能量。但 RL 策略基于采样(Sampling-based)而非求解逆运动学矩阵,不受奇异点影响,反而利用了"伸直时力臂最长 -> 同样的支撑力需要更小的关节力矩 -> 更省能量"这一物理优势。这是"数据驱动"对"解析求解"的降维打击——RL 不需要知道雅可比矩阵的存在,它只关心 Reward。
💡 模仿学习的累计误差与多峰问题
行为克隆(BC)的核心缺陷是**累计误差**:训练数据来自专家轨迹,但部署时策略的微小偏差会导致状态偏离训练分布,偏差随时间步累积。类比自动驾驶:专家数据都在车道中央,策略稍偏后遇到的状态(车道边缘)从未在训练集中出现,进而产生未见过的观测,误差进一步累积。本质原因是监督学习假设数据独立同分布,但决策序列中不同时刻的数据是相关的。如果想改善效果,需要覆盖范围更广的训练数据——不是更"干净",而是要包含错误状态下的恢复行为。
另一个挑战是**多峰动作分布**:面对同一障碍物,专家可能左绕或右绕,但 BC 会学出两者的平均——直接撞上去。这在连续动作空间中尤其致命。三种解决方案: 1. 混合高斯策略:输出多个高斯分量,每个对应一种决策模式。方法简单但在高维情况下需要输出大量参数 2. 隐变量模型 (CVAE):用额外的隐变量输入编码决策意图,解码时采样不同模式,告诉模型应该输出哪一种行为 3. 扩散策略 (Diffusion Policy):通过去噪过程生成多模态动作分布——将真实动作不断加入噪声,让网络学会如何从噪声中还原动作。这是 2024-2025 年的主流方案,类似隐变量模型但生成质量更高
💡 模仿学习在腿足中的前沿应用
对于四足基础速度跟踪任务,纯 RL + 奖励塑形已足够。但以下场景中,模仿学习变得不可或缺:
- 风格化运动(跑步、跳跃、特定步态风格):难以用手工奖励精确描述"什么是好看的跑步",用 MoCap 参考动作 + GAIL/AMP 更自然
- 人形全身控制:30+ DOF 的奖励设计极其困难,AMP(Adversarial Motion Priors, Peng et al. 2021)通过判别器自动从参考动作中学习"自然性"奖励
- 复杂操作技能:loco-manipulation 场景中,模仿人类示教动作比手工设计奖励更高效
AMP 的核心思想:训练一个判别器区分"策略生成的动作"和"参考动作库中的动作",策略的额外奖励 = 判别器认为"像参考动作"的程度。这将模仿学习和 RL 统一在同一个框架中——策略同时最大化任务奖励和风格奖励。
练习¶
- 在 IsaacLab 中训练一个 Unitree Go2 的 trot 策略,然后**只修改一个 reward weight**,观察策略行为变化。记录至少 3 组对比实验。
- 阅读 DTC(Jenelten et al., 2024)论文,回答:RL teacher 和 MPC tracker 之间的接口是什么?为什么不直接用 RL 做端到端控制?
70.4 方向二:全身 MPC 与优化 ⭐⭐¶
动机¶
如果说方向一(学习型控制)代表了"数据驱动"的路线,那么方向二(全身 MPC)代表了"模型驱动"的路线。两者在过去五年形成了**既竞争又互补的关系**。
全身 MPC 的核心追求是:在一个统一的优化问题中,同时决定机器人的全身运动和接触力——实时、在线、无需预定义接触模式。
这个追求为什么难?因为它涉及三个同时存在的挑战:
- 高维决策变量:人形机器人有 30+ 自由度,加上接触力,优化变量轻松突破 500 维
- 非线性动力学约束:全身动力学 \(M(q)\dot{v} + h(q,v) = S^T\tau + J_c^T\lambda\) 高度非线性
- 互补约束:接触是"碰到就有力、离开就没力"——数学上是 \(0 \leq \lambda \perp d \geq 0\),非光滑
当前技术格局¶
简化模型 MPC vs 全身 MPC¶
历史背景:Ch51-55 讲过的 MPC 大多基于**简化模型**——LIPM(线性倒立摆)、SRB(单刚体)、Centroidal 动力学。简化模型降低了维度(3-18 维),使实时优化成为可能。但代价是**丢失了关节层面的信息**——简化 MPC 的输出(质心力/力矩)需要 WBC 翻译成关节扭矩。
全身 MPC 的目标:跳过简化模型,直接在全身动力学上优化。好处是**不需要 WBC 层**——MPC 直接输出关节扭矩。
| 特性 | 简化模型 MPC + WBC | 全身 MPC |
|---|---|---|
| 决策变量维度 | MPC: 18-36, WBC: 12-30 | 50-200+ |
| 求解频率 | MPC: 20-100 Hz, WBC: 500-1000 Hz | 目标 50-100 Hz |
| 模型精度 | 简化模型有误差 | 全身模型更精确 |
| 接触处理 | 预定义接触序列 | 可发现新接触模式(Contact-Implicit) |
| 实现难度 | 中(分层,各层成熟) | 高(单层,求解器要求高) |
| 代表工作 | MIT Convex MPC, OCS2 | MuJoCo MPC, Contact-Implicit MPC |
Contact-Implicit MPC¶
**Contact-Implicit MPC(CI-MPC)**是全身 MPC 的"圣杯"——不预定义接触模式,让优化器**自己发现**什么时候应该踩哪里。
数学形式化:
其中 \(\phi(\mathbf{x}_k)\) 是接触距离函数,\(\boldsymbol{\lambda}_k\) 是接触力。互补约束 \(0 \leq \lambda \perp \phi \geq 0\) 表示:接触力只在接触发生时非零。
代表性进展:
| 工作 | 年份 | 平台 | 关键创新 | 发表 |
|---|---|---|---|---|
| Le Cleac'h et al. | 2024 | 四足 | 结构利用型内点法,实时 CI-MPC | T-RO |
| Kim et al. | 2025 | HOUND 四足 | 硬接触模型 + 平滑梯度 | IJRR |
| Chen et al. | 2025 | 四足 | ACAL-iLQR,加速接触隐式轨迹优化 | Adv. Intel. Sys. |
实时性挑战:CI-MPC 的核心瓶颈是互补约束导致的非光滑性。内点法和平滑化是两大主流策略:
- 内点法:将互补约束松弛为 \(\lambda \phi \leq \epsilon\),用 barrier function 求解
- 平滑化:用 softplus/sigmoid 等光滑函数近似互补约束,使梯度处处存在
MuJoCo MPC¶
2025 年的一个重要进展是**使用 MuJoCo 作为全身 MPC 的动力学后端**(Zhang et al., 2025)。核心思想是利用 MuJoCo 成熟的接触求解器和高效的有限差分导数,配合 iLQR 进行轨迹优化。
为什么这很重要:之前全身 MPC 需要自己写接触动力学和导数——工程量巨大且容易出错。用 MuJoCo 作为后端,大幅降低了实现门槛。
如果只用 MPC 不用 RL 来解决全身运动控制会怎样?全身 MPC 在理论上更优雅(统一优化、约束保证),但面临一个根本性瓶颈:实时性。以人形机器人为例,30 自由度的全身模型,加上接触力,优化变量超过 500 维,即使用最快的 iLQR 求解器(如 Aligator),单次迭代也需要 5-10 ms——在 100 Hz 的控制频率下只够做 1-2 次迭代,收敛质量无法保证。而 RL 的推理只需 ~0.1 ms,速度快 100 倍。这就是为什么即使全身 MPC 在数学上更完备,工程实践中仍然需要 RL 来处理高维、快速的运动决策——两种范式的计算预算分配方式从根本上不同。
Aligator ProxDDP 与并行 Riccati¶
Ch54 详细讲过的 Aligator 框架(Jallet et al., 2025, T-RO)代表了另一条路线——不处理接触隐式,而是**加速已有的 DDP 框架**。
两个关键创新:
- ProxDDP:用近端算子处理约束,避免增广拉格朗日的参数调整困难
- Parallel Riccati:打破 Riccati 递推的顺序依赖,在 GPU 上并行求解——30 年来 DDP "不可并行"的教条被打破
意义:即使不做 Contact-Implicit,ProxDDP + Parallel Riccati 也让简化模型 MPC 的求解速度提升 5-10 倍,可以在更短的时间内优化更长的 horizon。
开放问题¶
- Contact-Implicit MPC 的实时部署:当前最快的 CI-MPC 在桌面 CPU 上勉强实时。能否在嵌入式平台上部署?
- 全身 MPC 与 RL 的融合:RL 提供初始猜测或 warm start,MPC 做在线精化——能否比两者单独使用都好?
- 可变形地面的接触模型:刚性接触假设在沙地、泥地上完全失效。弹塑性接触的实时求解是开放问题
- GPU 加速的全身优化:MuJoCo MJX 和 Brax 提供了可微物理。能否将全身 MPC 完全移到 GPU 上?
- 与感知的联合优化:全身 MPC 目前假设完美的状态估计和地形感知。联合优化控制和感知是下一步
⚠️ 常见陷阱¶
💡 概念误区:认为"全身 MPC 一定比简化模型 MPC + WBC 好"
新手想法:"全身 MPC 用更精确的模型,所以一定更好。"
实际上:模型精度只是一个维度。分层架构(简化 MPC + WBC)有两个重要优势:(1) WBC 以 1 kHz 运行,对外部扰动的反应速度远快于 50 Hz 的全身 MPC;(2) 分层设计更容易调试——MPC 出问题和 WBC 出问题可以分别诊断。在实际部署中,分层架构目前仍是主流。
正确理解:全身 MPC 的真正价值在于**发现新接触模式**——当任务需要非预定义的接触(如用膝盖撑地、侧身滑行),全身 MPC 能自动发现这些策略,而分层架构无法做到。
🧠 思维陷阱:忽视求解器的数值稳定性
新手想法:"换个更强的求解器就能解决所有问题。"
实际上:全身优化中互补约束的条件数可以达到 \(10^{12}\)——任何求解器在这种条件数下都容易数值失败。关键不是"更强的求解器",而是**更好的问题 formulation**——如何松弛、如何正则化、如何利用稀疏结构。这些是该方向研究的核心。
练习¶
- 对比 OCS2 的 SQP 求解器和 Crocoddyl 的 FDDP 求解器:它们处理约束的方式有何不同?各自的优劣是什么?(提示:回顾 Ch54-55)
- 阅读 Le Cleac'h et al.(2024, T-RO)的 Fast CI-MPC 论文,画出其求解器的算法流程图,标注每步的计算复杂度。
70.5 方向三:感知-规划-控制闭环 ⭐⭐¶
动机¶
Ch67 详细讲了 Perceptive MPC 的数学基础——如何将高程图信息融入 MPC 的代价函数和约束。但从研究的角度看,感知-规划-控制闭环远不止"高程图 → MPC"这么简单。
核心问题:如何让腿足机器人**看懂环境**并据此**做出合理决策**——不只是"前方有台阶"(几何理解),还有"这块地面可能很滑"(语义理解)和"那边有人走过来"(动态理解)。
感知层级¶
感知信息可以分为三个层级,每个层级对应不同的研究问题:
| 层级 | 内容 | 数学表示 | 用途 | 成熟度 |
|---|---|---|---|---|
| 几何感知 | 地面的 3D 形状 | 高程图 \(h(x,y)\), 点云 | 避障、落脚点选择 | 高 |
| 语义感知 | 地面材质、可通行性 | 语义地图 \(s(x,y) \in \{\)草地, 冰面, 碎石,...\(\}\) | 调整步态参数、摩擦估计 | 中 |
| 动态感知 | 移动障碍物、其他 agent | 预测轨迹 \(\hat{x}(t)\) | 避碰规划、协作 | 低 |
几何感知的当前状态¶
**高程图(Elevation Map)**是当前最成熟的几何感知方式(Ch60 详细讲过 elevation_mapping_cupy)。
局限:
- 视野有限:深度相机典型有效范围 0.3-5 m,腿足机器人只能"看到脚前方几步"
- 遮挡问题:机器人自身遮挡了正下方的地面——恰恰是最需要感知的区域
- 动态更新延迟:高程图融合需要时间,高速运动时感知滞后
前沿解决方案:
- Neural Scene Representation(Miki et al., 2022):用神经网络学习场景的隐式表示,从历史观测预测未来地形
- Multi-Layer Elevation Maps(2025 新工作):用多层高程图表示悬挑结构(如桥梁下方),普通单层高程图无法表示
- Proprioceptive Terrain Mapping:不用视觉、只用腿的力/力矩反馈感知地面——适用于极端光照环境(如行星探索)
语义感知的前沿¶
语义感知:让机器人不只知道"前方地面高度 0.3 m",还知道"这是冰面、摩擦系数大约 0.1"。
为什么重要:同样高度的台阶,干燥水泥面和湿滑大理石面需要完全不同的步态策略。纯几何感知无法区分这两种情况。
代表性工作:
- OneOcc(2025):全景语义场景补全,专为四足机器人的身体抖动和 360 度连续性设计
- DPL: Depth-only Perceptive Humanoid Locomotion(2025):多模态交叉注意力 Transformer,从有噪声的深度图重建结构化地形表示
从感知到控制的接口设计¶
关键的工程和研究问题:感知模块输出什么?控制模块需要什么?两者的接口如何设计?
| 接口范式 | 描述 | 优点 | 缺点 |
|---|---|---|---|
| Map → Cost | 高程图转换为 MPC 代价函数中的项 | 可解释、可调试 | 信息损失大 |
| Map → Constraint | 高程图生成落脚点约束和碰撞约束 | 安全保证 | 保守 |
| Latent → Policy | 感知编码器输出隐向量,直接作为策略输入 | 端到端可训练 | 不可解释 |
| Hybrid | 几何信息走 Map → Constraint,语义信息走 Latent → Policy | 兼顾安全和灵活 | 系统复杂 |
前沿趋势:从"Map → Cost/Constraint"向"Hybrid"演进。Grandia et al.(2023, T-RO)的 Perceptive Locomotion 是 Map → Cost 的经典代表;DTC(Jenelten et al., 2024)则是 Latent → Policy + MPC 跟踪的典型 Hybrid 架构。
开放问题¶
- 语义理解的接地(Grounding):如何将"这是冰面"的语义信息量化为控制所需的物理参数(摩擦系数、刚度)?
- 长距离规划:当前 Perceptive MPC 只看前方 2-4 m。如何集成全局地图做 50 m+ 的路径规划?需要 SLAM(Ch57)的回路
- 动态障碍物:行人、其他机器人的轨迹预测与避碰规划——自驾领域已经做了很多,腿足领域才开始
- 传感器退化:深度相机在阳光直射、雨雾天气中失效。如何实现传感器退化时的优雅降级(graceful degradation)?
- 主动感知:机器人应该朝哪个方向看?MPC 能否引导头部运动来获取最有价值的感知信息?
- 多模态感知融合的延迟对齐:LiDAR (10 Hz)、相机 (30 Hz)、IMU (400 Hz) 的时间戳不同步。如何在不同延迟的传感器之间做一致性融合?
- 自监督地形分类:机器人在行走过程中自动学习"哪种地形容易打滑"——通过脚底力传感器的反馈构建 traversability 标签,无需人工标注
感知研究的平台与数据需求¶
感知-规划-控制的研究对**硬件平台要求最高**——你需要:
| 需求 | 最低配置 | 推荐配置 |
|---|---|---|
| 深度相机 | Intel RealSense D435i | RealSense D455 + OAK-D |
| LiDAR | Livox Mid-360 | Ouster OS0-128 |
| 计算平台 | Jetson Orin NX (8GB) | Jetson AGX Orin (32GB) |
| 腿足机器人 | Unitree Go2 EDU | ANYmal C/D(如有合作) |
| 测试环境 | 室内台阶/斜坡 | 室外自然地形(草地/碎石/泥地) |
数据收集建议:感知研究的数据质量决定了实验的可信度。建议在 3 种以上地形类型上各收集 30 分钟以上的数据(含 IMU + 点云 + 关节状态 + ground truth 位姿),构建自己的小规模数据集用于算法开发和 ablation study。
⚠️ 常见陷阱¶
💡 概念误区:认为"端到端视觉 RL 就解决了感知-控制闭环问题"
新手想法:"给 RL 策略一个深度图输入,它自己就学会看路了。"
实际上:端到端视觉 RL 确实能在仿真中训练出令人印象深刻的结果(如 Extreme Parkour)。但它的**可解释性极差**——你不知道策略"看到了什么"。当策略在真机上失败时,你无法判断是感知出了问题还是控制出了问题。对于安全关键的应用(如救灾机器人),这种不可解释性是不可接受的。
正确做法:理解端到端方法的优势(训练简单)和局限(不可解释、难 debug),根据应用场景选择合适的接口范式。
练习¶
- 比较 Grandia et al.(2023, T-RO)和 DTC(Jenelten et al., 2024)在感知-控制接口设计上的异同。画一张对比表格,包含:感知输入、中间表示、控制器类型、实时性、可解释性。
- 设计一个实验方案:如何测量"语义感知对腿足控制性能的影响"?明确定义评价指标和对照组。
70.6 方向四:Loco-Manipulation ⭐⭐⭐¶
动机¶
一个只会走路的机器人,用途有限。真正有价值的是**边走边操作**——开门、搬箱子、在复杂环境中递送物品。这就是 Loco-Manipulation(行走操作一体化)的核心目标。
从序章(C00 节 0.7)我们知道,复合机器人([D] 类)的数学结构是腿足和机械臂的叠加。Loco-Manipulation 是连接这两个世界的桥梁。
核心问题:如何在**动态行走的同时**完成精确的操作任务——既不因操作导致摔倒,也不因平衡需求导致操作失败?
平台形态¶
Loco-Manipulation 有三种主要平台形态,各有不同的研究侧重:
| 平台 | 代表 | 操作自由度 | 特点 |
|---|---|---|---|
| 四足 + 机械臂 | Spot + Arm, ANYmal + DynaArm | 6-7 DOF 臂 | 底盘稳定,臂的工作空间相对有限 |
| 四足用腿操作 | Unitree Go2 单腿站立 | 腿的 3 DOF | 不需要额外硬件,但操作能力弱 |
| 人形 | Unitree G1/H1, Tesla Optimus, Figure | 双臂 14+ DOF | 操作能力最强,但平衡最难 |
四足 + 机械臂¶
数学框架:状态空间扩展为 \(\mathbf{q} = (\mathbf{q}_{\text{base}}, \mathbf{q}_{\text{leg}}, \mathbf{q}_{\text{arm}})\),动力学方程增加手臂的惯性和末端接触力:
关键挑战:手臂运动会**改变整体质心位置**。拿起一个 5 kg 的物体,相当于给机器人加了一个偏心质量——如果控制器不适应,机器人会倾倒。
代表性工作:
- Sleiman et al.(2021, 2024):基于 OCS2 的 loco-manipulation MPC。全身动力学中同时优化腿部步态和手臂运动。这是**模型驱动**路线的代表
- Visual Whole-Body Control(Huang et al., 2024):用 RL 学习视觉 whole-body 策略,端到端从 RGB-D 到关节扭矩。这是**数据驱动**路线的代表
- WholeBodyVLA(OpenDriveLab, 2026, ICLR):统一的 VLA 框架用于全身 loco-manipulation,在 AgiBot X2 上比 GR00T 好 21.3%。这是**基础模型**路线的代表
人形 Loco-Manipulation¶
2024-2025 年是**人形机器人 loco-manipulation 的爆发期**。主要驱动力:
- 硬件成熟:Unitree G1/H1、Tesla Optimus、Figure、1X 等平台价格持续下降
- VLA 突破:pi0/pi0.5(Physical Intelligence, 2024-2025)展示了在人形平台上用 VLA 做复杂操作的可能性
- 遥操作数据收集:HumanPlus(Stanford, 2024)、Mobile ALOHA 等用人类遥操作收集大量演示数据
当前挑战:
- 人形的**支撑面积极小**(两只脚),动态平衡远比四足困难
- 双臂协调——两只手要协同操作,同时还要维持全身平衡
- 力控需求——操作任务(如拧螺丝)需要精确的力控,但人形手臂通常用位置控制
触觉感知与 Loco-Manipulation¶
前沿方向(2025 年多篇新工作):在足端和指尖增加触觉传感器,让机器人**通过触觉理解操作对象**。
- Learning Tactile-Aware Loco-Manipulation(2025):用触觉信号指导四足的 loco-manipulation 策略
- 触觉信息可以补充视觉的盲区(如被手遮挡的物体表面)
开放问题¶
- 物体动力学的在线估计:机器人拿起一个物体后,如何实时估计物体的质量、惯性和摩擦?
- 操作失败的安全恢复:如果物体从手中滑落,机器人如何快速恢复平衡?
- 长序列任务规划:做一杯咖啡需要 20+ 步的操作序列。如何从语言指令分解为可执行的动作序列?
- 人机交互:人递物品给机器人时的力交互——安全、自然、高效
- 形变物体操作:绳索、布料、液体——这些物体的动力学建模和操作是开放难题
⚠️ 常见陷阱¶
🧠 思维陷阱:认为"Loco-Manipulation = 腿足控制 + 机械臂控制"
新手想法:"我分别学会了四足控制和机械臂控制,拼在一起就是 loco-manipulation 了。"
实际上:简单拼接会导致**动力学耦合被忽略**。手臂运动产生的反作用力矩会扰动腿部平衡,反过来腿部的步态切换也会影响手臂的精度。两者必须在同一个优化问题中联合求解,或通过精心设计的分层架构处理耦合。
正确做法:从全身动力学出发设计控制架构,明确处理臂-腿耦合。OCS2 的 mobile_manipulator 模块就是一个好的参考。
练习¶
- 阅读 Sleiman et al.(2021, RA-L)的 loco-manipulation MPC 论文,画出其控制框架图。标注:哪些约束用于平衡?哪些约束用于操作?两者如何耦合?
- 设计一个实验场景:四足 + 机械臂在不平地面上搬运一个 3 kg 的箱子。列出你认为需要解决的关键技术挑战(至少 5 个),并为每个挑战提出一个可能的解决方案。
70.7 方向五:多机协作 ⭐⭐⭐¶
动机¶
一只蚂蚁搬不动一块饼干,一群蚂蚁可以。同理,一台四足机器人搬不动一辆汽车——但四台可以。多机协作是腿足领域**最年轻**但**增长最快**的方向。
核心问题:多台腿足机器人如何**协调运动和力**来完成单台机器人无法完成的任务?
为什么多腿足协作特别难¶
多机协作在轮式/无人机领域已经有很多成熟工作(编队控制、分布式规划)。但**腿足机器人的多机协作**有独特的困难:
| 困难 | 原因 | 与轮式/无人机的区别 |
|---|---|---|
| 步态同步 | 多台机器人协同搬运时,步态必须协调以避免"一台在站、一台在走" | 轮式无步态问题 |
| 力协调 | 协同搬运需要精确的力分配——一台用力过大另一台会被拖倒 | 无人机的推力分配相对简单 |
| 接触约束耦合 | 共同搬运的物体通过接触力耦合了多台机器人的动力学 | 无人机通过吊绳耦合,物理上简单得多 |
| 通信延迟 | 腿足的 1 kHz WBC 对通信延迟极其敏感 | 无人机的 50 Hz 控制对延迟更宽容 |
| 异构性 | 不同型号的腿足机器人(四足+双足)协作 | 同型无人机编队是主流 |
当前研究状态¶
这个方向的文献相对稀少——说明是蓝海。主要的研究线有:
协同搬运(Cooperative Transport)¶
多台腿足机器人共同搬运一个大型或沉重的物体。
数学框架:每台机器人 \(i\) 的动力学通过物体的约束力耦合:
其中 \(f_{o,i}\) 是第 \(i\) 台机器人与物体之间的交互力。所有 \(f_{o,i}\) 通过物体的刚体动力学约束耦合。
挑战:
- 力分配问题:\(N\) 台机器人共同施加的力必须满足物体的加速度需求——这是一个带约束的力分配优化
- 步态协调:物体不能容忍大的冲击——所有机器人的步态切换必须同步
- 失效冗余:如果一台机器人失去接触,其他机器人必须立即补偿
编队控制(Formation Control)¶
多台腿足机器人在保持特定队形的同时移动。
应用场景:搜索救援(展开搜索队形)、安保巡逻(围合阵型)、协同测绘
与传统编队的区别:腿足机器人的速度和方向变化有**动态延迟**——从发出命令到实际改变运动方向需要几个步态周期。这使得传统的势场法或 leader-follower 方法需要修改。
LLM 辅助的多机协调¶
2025 年前沿:用大语言模型(LLM)做多机器人的高层任务分配和通信。
- RoCo(Mandi et al., 2024):LLM 做高层通信 + 低层运动规划
- LLM-based Formation(2025):LLM 将文本描述的编队需求转化为可执行的控制命令
局限:LLM 不懂物理——它可以做"把任务分给三台机器人"的分配,但无法做精确的力分配。低层控制仍需传统优化方法。
开放问题¶
- 分布式 vs 集中式:集中式优化更优但通信开销大、单点故障风险;分布式更鲁棒但全局最优性差。如何平衡?
- 异构协作:四足和双足机器人如何协作?它们的步态和力能力完全不同
- 大规模编队:10+ 台腿足机器人的协调——当前几乎没有工作
- 与人的协作:一台腿足机器人和一个人共同搬运物品——人的意图推断和力适应
- 通信受限下的协作:在信号不稳定的环境(地下、灾区)中如何维持协调?
- 异构地形适应:多台不同能力的机器人如何根据各自的 traversability 能力自动分配路径?
- 动态重组:当一台机器人故障时,编队如何自动重组维持任务?
多机协作的工程现状与平台 ⭐⭐¶
当前多机腿足协作研究的一个主要瓶颈是**硬件平台的获取成本**。以下是几种可行的研究平台方案:
| 平台方案 | 成本 | 机器人数量 | 优势 | 劣势 |
|---|---|---|---|---|
| 多台 Unitree Go2 | ~$3K x N | 2-4 台 | 便宜、开放 SDK | 算力有限 |
| MuJoCo/Isaac 仿真 | ~$0 | 无限 | 零成本、完美可控 | 无法验证通信/硬件问题 |
| 混合(1 台真机 + N 台仿真) | ~$3K | 1+N | 部分 real-world 验证 | 真机/仿真行为不完全一致 |
| Unitree Go2 + B2 异构 | ~$50K+ | 2+ | 最接近实际应用 | 昂贵 |
对于博士研究,推荐"2 台 Go2 + MuJoCo 仿真"的组合——用仿真做大规模实验,用 2 台真机做关键的 real-world 验证。这个方案在经费 $10K 以内可实现。
⚠️ 常见陷阱¶
💡 概念误区:认为"多机协作的难点在于算法,而不在于工程"
新手想法:"设计一个好的分布式优化算法就能解决问题。"
实际上:多机协作中**工程挑战远大于算法挑战**。时钟同步(多台机器人的控制回路时钟偏差几毫秒就会导致力冲击)、通信协议设计(DDS/ROS 2 的多机配置极其繁琐)、联合状态估计(每台机器人的定位误差如何传播)——这些工程问题往往比算法更难解决。
正确做法:先在仿真中验证算法,然后投入大量时间做**多机系统集成**。预计 60% 的时间花在工程上,40% 在算法上。
练习¶
- 设计一个"两台 Unitree Go2 协同搬运一张桌子"的控制架构。画出系统框图,标注:通信协议、力分配策略、步态同步机制。
- 比较多腿足协调与多无人机编队的数学框架差异。具体说明:为什么多无人机的势场法不能直接用于多腿足?
70.8 方向六:基础模型与具身智能 ⭐⭐⭐⭐¶
动机¶
如果说方向一到五是"从控制的角度看腿足",方向六则是"从 AI 的角度看腿足"。
**基础模型(Foundation Models)**的核心理念:用一个超大规模的模型,在海量数据上预训练,然后适配到各种下游任务——就像 GPT-4 之于自然语言、Stable Diffusion 之于图像生成。
**具身智能(Embodied Intelligence)**的核心理念:AI 必须有"身体"才能真正理解物理世界——而腿足机器人是最自然的"身体"载体之一。
VLA:Vision-Language-Action 模型¶
VLA 是当前具身智能最热的方向。它将三种模态统一到一个模型中:
- Vision:看到环境(RGB / 深度图)
- Language:理解任务指令("把红色杯子放到桌子上")
- Action:输出机器人动作(关节角度或扭矩)
代表性模型的演进:
| 模型 | 时间 | 团队 | 关键特点 |
|---|---|---|---|
| RT-1 | 2022 | 首个大规模机器人 Transformer | |
| RT-2 | 2023 | Google DeepMind | 将动作表示为文本 token |
| Octo | 2024 | Stanford/Berkeley | 开源通用策略 |
| OpenVLA | 2024 | Stanford | 开源 7B VLA |
| pi0 | 2024 | Physical Intelligence | 流匹配(flow-matching)生成动作,50 Hz |
| pi0.5 | 2025 | Physical Intelligence | 改进版,更多任务泛化 |
| GR00T N1 | 2025 | NVIDIA | 双系统架构,专为人形机器人 |
| WholeBodyVLA | 2026 | OpenDriveLab | 全身 loco-manipulation,ICLR 2026 |
| NaVILA | 2025 | RSS | 专为腿足导航的 VLA |
VLA 与传统控制栈的关系¶
这不是"谁取代谁"的问题,而是"谁在哪个层级发挥作用"的问题。
┌──────────────────────────┐
│ VLA / Foundation Model │ ← 理解"做什么"(语义层)
│ "把杯子放到桌子上" │
└────────────┬─────────────┘
│ 输出:末端轨迹 / 高层命令
▼
┌──────────────────────────┐
│ MPC / 轨迹优化 │ ← 规划"怎么做"(运动层)
│ 考虑动力学约束和安全 │
└────────────┬─────────────┘
│ 输出:关节参考轨迹
▼
┌──────────────────────────┐
│ WBC / 低层控制 │ ← 执行"做到位"(力层)
│ 1 kHz 实时力控制 │
└──────────────────────────┘
VLA 目前能做好的:语义理解、高层决策、跨任务泛化
VLA 目前做不好的:精确力控、动态平衡、实时安全约束满足
因此,最有前景的架构是 VLA + 传统控制栈的混合——VLA 做高层,MPC+WBC 做底层。
跨领域类比:VLA 与传统控制栈的关系,类似于人类大脑皮层与脊髓反射弧的关系。大脑皮层(VLA)负责高层认知——"看到门,决定开门";脊髓反射弧(MPC+WBC)负责低层执行——以 1 kHz 的频率协调肌肉实现精确运动。踩到钉子时你不需要"思考"就会缩脚(脊髓反射),但决定"往哪走"需要大脑参与。两个系统在不同时间尺度上运行(100 ms vs 1 ms),各自不可替代。
VLA 在腿足上的应用现状¶
核心事实:截至 2026 年,VLA 在腿足上的应用远落后于机械臂。原因:
- 数据稀缺:机械臂有大量遥操作演示数据(Open X-Embodiment 数据集有 100 万+ 机械臂轨迹),腿足的高质量操作数据极少
- 任务复杂度:腿足的 loco-manipulation 涉及动态平衡,比机械臂的 pick-and-place 难很多
- 安全约束:腿足摔倒的后果远大于机械臂碰撞——VLA 的不可预测行为在腿足上风险更高
但前沿正在快速推进:
- NaVILA(RSS 2025):专为腿足导航设计的 VLA——语言指令 → 腿足导航策略
- QUAR-VLA:四足 + 地形导航的 VLA
- WholeBodyVLA(ICLR 2026):全身 loco-manipulation 的 VLA
World Models:在想象中学习¶
World Model 是另一条通往具身智能的路线。核心思想:不直接学策略,而是**先学环境的模型**("如果我做 X,世界会变成什么样"),然后在这个学到的模型中做规划。
代表性工作:
| 工作 | 年份 | 核心思想 |
|---|---|---|
| DreamerV3(Hafner et al.) | 2023 | RSSM 世界模型,在 Minecraft 中学会生存 |
| TD-MPC2(Hansen et al.) | 2024 | 隐空间世界模型 + MPC |
| DIAMOND | 2024 | 视频级世界模型,像素级预测 |
对腿足的意义:
- Pinocchio 的刚体动力学模型是**解析世界模型**——精确但不完美(不含柔性、变形、磨损)
- 神经网络世界模型可以**从真机数据学习残差**——补偿刚体模型的误差
- 理想架构:刚体模型 + 学习残差 = 最佳世界模型(物理先验 + 数据修正)
Embodied AI 的 Scaling Law¶
一个核心的开放问题:机器人数据有 scaling law 吗?
- 在 NLP 中,数据量翻倍 → 性能稳步提升(GPT-1 → GPT-4 验证了这一点)
- 在机器人中:Open X-Embodiment 包含约 100 万轨迹,对比 GPT 训练的万亿 token 相差六个数量级
开放问题:
- 机器人需要多少数据才能训出"通用策略"?
- 仿真生成的数据能替代真机数据吗?(目前答案是"部分可以")
- 不同机器人平台的数据能互相迁移吗?(Cross-Embodiment Transfer)
开放问题¶
- VLA + 安全保证:如何给 VLA 加上硬约束(如 CBF/CLF),防止危险动作?
- 小数据 VLA:能否用 1000 条腿足数据(而不是 100 万条)训出可用的 VLA?
- World Model 的准确度:腿足接触的非光滑性让 world model 很难学——如何处理接触事件?
- 多机器人的基础模型:一个模型同时控制多种腿足机器人——跨本体迁移
- 在线适应:VLA 在新环境中如何快速适应?(Few-shot / In-context Learning)
2025-2026 最新研究动态 ⭐⭐¶
足式机器人领域在 2025-2026 年经历了几个标志性进展,这些动态定义了当前的研究热点和未来方向:
趋势一:VLA 在腿足领域的快速渗透
| 工作 | 时间 | 关键贡献 |
|---|---|---|
| NaVILA(RSS 2025) | 2025 | 首个用于腿足导航的 VLA,自然语言指令驱动四足在室外导航 |
| WholeBodyVLA(ICLR 2026) | 2026 | 统一的 loco-manipulation VLA,单一模型同时控制移动和操作 |
趋势二:Contact-Implicit MPC 的成熟化——不再需要预定义接触时序,MPC 求解器自动发现最优接触:
| 工作 | 时间 | 关键突破 |
|---|---|---|
| Le Cleac'h et al. (T-RO 2024) | 2024 | 快速接触隐式 MPC,结构化互补求解提速到近实时 |
| Aligator / ProxDDP (RSS 2024) | 2024 | 近端约束 DDP,统一处理等式和不等式约束 |
| Jallet et al. (T-RO 2025) | 2025 | 并行近端约束线性二次方法,进一步提速 |
趋势三:GPU 大规模并行 MPC——MPC 求解器从 CPU 单核迁移到 GPU 并行,可能打破"MPC 太慢"的瓶颈,使实时 NMPC 成为可能。
趋势四:Sim-to-Real 的系统化——从"碰运气"到"有方法论"的转变,包括自动 Domain Randomization(ADR)、系统辨识 + DR 结合、Real-to-Sim-to-Real 闭环。
趋势五:人形机器人的爆发式增长——Unitree G1/H1 等消费级人形平台让学术界可获取 30+ DOF 系统,对 MPC/WBC/RL 的可扩展性提出了前所未有的挑战。
⚠️ 常见陷阱¶
🧠 思维陷阱:认为"VLA 会取代所有传统方法"
新手想法:"VLA 这么强,传统 MPC/WBC 还有什么用?"
实际上:VLA 的推理延迟通常是 50-200 ms——这对 1 kHz WBC 来说太慢了。VLA 无法满足实时安全约束。物理保证(如不违反摩擦锥、不超过关节力矩限制)只有传统方法能提供。
正确理解:VLA 和传统控制是互补关系——VLA 做决策(10 Hz),传统控制做执行(1 kHz)。未来最强的系统一定是混合架构。
💡 概念误区:认为"做 VLA 研究不需要机器人背景"
新手想法:"VLA 本质上是大模型训练,我只需要会 PyTorch 就行了。"
实际上:不理解机器人动力学的人做不好 VLA for Robotics。因为你不知道:什么样的动作表示最适合腿足?什么样的安全约束是必须的?什么样的数据增强在物理上是合理的?Ch47-55 学到的动力学知识在做 VLA 研究时同样关键。
练习¶
- 阅读 pi0(Physical Intelligence, 2024)的技术报告,回答:pi0 如何用 flow-matching 生成动作?与 diffusion policy 有什么区别?
- 设计一个"VLA + MPC 混合架构"用于四足机器人的户外导航:VLA 负责什么?MPC 负责什么?两者的接口是什么?画出系统框图。
70.3-70.8 系统梳理了六大研究方向的技术版图。但选对方向只是博士之旅的起点——如何规划时间线、何时投稿、如何与导师合作、怎样在竞争中建立自己的研究身份,这些"元技能"对博士的成功同样关键,甚至更关键。
70.9 博士生涯规划 ⭐¶
动机¶
选好了研究方向,接下来是**怎么走完博士这条路**。博士生涯不只是做研究——时间管理、发表策略、导师关系、心理健康同样关键。
典型博士时间线¶
以下是美国/欧洲机器人学博士的**典型时间线**(4-6 年制):
Year 1 ──────────────────────────────────────────────────
├── Q1-Q2: 完成课程 + 文献调研
│ ├── 修 3-4 门核心课程(优化、机器学习、机器人学、控制论)
│ ├── 精读 50-100 篇方向相关论文
│ └── 开始复现 1-2 篇 baseline 论文
├── Q3-Q4: 初步研究 + 确定方向
│ ├── 在 baseline 上做改进实验
│ ├── 与导师确定具体研究问题
│ └── 目标:年底有一个可投稿的初步结果
└── 里程碑:Qualifying Exam(部分学校)
Year 2 ──────────────────────────────────────────────────
├── Q1-Q2: 第一篇论文
│ ├── 完善 Year 1 的工作
│ ├── 投稿 ICRA / IROS / CoRL
│ └── 开始建立自己的代码库和实验框架
├── Q3-Q4: 扩展研究
│ ├── 根据审稿意见改进方法
│ ├── 尝试新思路——可能失败,这是正常的
│ └── 参加第一次学术会议(海报/口头)
└── 里程碑:第一篇论文被接收
Year 3 ──────────────────────────────────────────────────
├── Q1-Q2: 核心创新
│ ├── 这是博士论文核心贡献的产出期
│ ├── 投稿 RSS / T-RO / Science Robotics(更高目标)
│ └── 开始建立学术社交网络(合作者、审稿)
├── Q3-Q4: 深化和拓展
│ ├── 将核心方法应用到新场景/新平台
│ └── 开始思考博士论文的整体叙事
└── 里程碑:Thesis Proposal(开题报告)
Year 4 ──────────────────────────────────────────────────
├── Q1-Q2: 补充工作
│ ├── 填补博士论文中的空白
│ ├── 投稿剩余的论文
│ └── 开始写博士论文
├── Q3-Q4: 论文写作 + 答辩
│ ├── 博士论文通常 150-300 页
│ ├── 答辩准备(45-90 分钟报告 + 30-60 分钟问答)
│ └── 求职(学术 / 工业 / 创业)
└── 里程碑:博士答辩
发表策略¶
机器人学的发表生态¶
机器人学的发表节奏和 CS 其他领域不同——会议和期刊同等重要。
| 期刊/会议 | 类型 | 审稿周期 | 特点 |
|---|---|---|---|
| T-RO | 期刊 | 6-12 个月 | 最高声望,完整的系统+理论+实验 |
| IJRR | 期刊 | 6-18 个月 | 偏理论和综合,Sage 出版 |
| Science Robotics | 期刊 | 3-6 个月 | 顶级影响力,需要硬件演示 |
| RA-L | 期刊(短文) | 3-4 个月 | 快速发表,可选会议 presentation |
| RSS | 会议 | 单轮审稿+rebuttal | 最选择性(接收率约 25-30%),偏方法 |
| CoRL | 会议 | 双盲审稿 | 偏学习+机器人,接收率约 25-30% |
| ICRA | 会议 | 大规模(接收率约 40%) | IEEE 旗舰,覆盖最广 |
| IROS | 会议 | 大规模(接收率约 40-45%) | IEEE/RSJ,偏系统和应用 |
发表节奏建议¶
| 博士年份 | 目标发表量 | 目标档次 | 说明 |
|---|---|---|---|
| Year 1 | 0-1 篇 | ICRA/IROS/RA-L | 熟悉流程,结果不必惊艳 |
| Year 2 | 1-2 篇 | ICRA/CoRL/RA-L | 建立 track record |
| Year 3 | 1-2 篇 | RSS/T-RO/CoRL | 核心贡献,冲击顶级 |
| Year 4 | 1 篇 | T-RO/IJRR/综述 | 完善论文,补充期刊版 |
| 总计 | 3-5 篇一作 | 至少 1 篇顶级 | 满足大多数学校的毕业要求 |
Michael Milford(QUT, 资深机器人学教授)的建议:典型的高质量博士产出是 2 篇 lead-author 国际会议论文(ICRA/IROS 级别)+ 1 篇 lead-author 期刊论文(T-RO/IJRR/RA-L 级别)。
导师关系¶
导师(Advisor)关系是博士生涯中最关键的人际关系——它对你的成功影响远大于你选择的具体课题。
选择导师的考量¶
| 维度 | 问题 | 为什么重要 |
|---|---|---|
| 研究方向匹配 | 导师的方向和你想做的有多大重叠? | 重叠太少 → 得不到技术指导 |
| 指导风格 | hands-on 还是 hands-off? | 新手需要 hands-on,有经验的需要 hands-off |
| 实验室文化 | 内部合作多还是单打独斗?压力大不大? | 实验室文化对日常幸福感影响最大 |
| 资源 | 有硬件平台吗?有 GPU 集群吗? | 腿足研究**必须有真机**——纯仿真论文越来越难发顶会 |
| 毕业后走向 | 导师的毕业生去了哪里?学术?工业? | 这预示你的出路 |
| 人脉网络 | 导师在社区的影响力和合作关系 | 影响你的推荐信、合作机会、审稿公平性 |
维护导师关系的建议¶
- 定期汇报:每周或双周一次 1-on-1 meeting,准备 slide 或进展报告
- 主动沟通困难:实验不顺利时不要藏着——导师见过的失败比你多十倍,他/她可能一句话就能点破
- 管理预期:在研究计划上和导师达成一致——什么时候投稿、投哪里、目标是什么
- 建立信任:按承诺完成任务、诚实汇报结果(包括负面结果)
资金来源¶
博士研究需要资金支持。了解主要的资金渠道有助于你选择实验室和规划研究方向。
| 来源 | 规模 | 特点 |
|---|---|---|
| NSF(美国) | \(250K-\)1.5M/项目 | 基础研究,申请竞争激烈 |
| DARPA(美国) | 百万级+ | 高风险高回报,目标导向 |
| EU Horizon Europe | EUR 数百万/联合项目 | 要求跨国合作 |
| NVIDIA Academic Grant | 硬件+资金 | 要求使用 NVIDIA 平台 |
| 工业实验室 | 不等 | Google, Meta, NVIDIA, Boston Dynamics 有学术合作项目 |
| Marie Curie Fellowship(EU) | 个人资助 | 博士后流动,提升国际经验 |
2026 年前沿:美国国防部 FY2026 预算首次单列 $134 亿用于自主系统与 AI——腿足机器人在军事后勤、废墟搜索等场景有潜在的资金来源。
博士选题策略深化 ⭐⭐¶
选题的"三圈模型":好的博士课题应处于三个圆的交集处:
- 你的兴趣:你愿意花 3-5 年研究的问题(不是"最热门"的问题)
- 社区需求:学术社区认为重要且尚未解决的问题(看顶会 workshop 主题和综述的 open problems)
- 可行性:你的实验室有资源、有导师指导、有 baseline 可以复现的问题
具体的选题操作步骤:
| 步骤 | 操作 | 时间 | 产出 |
|---|---|---|---|
| 1. 广泛扫描 | 读 50 篇近 2 年顶会论文的摘要和结论 | 2 周 | 初步兴趣方向(2-3 个) |
| 2. 深度调研 | 对每个方向精读 10-15 篇核心论文 | 4 周 | 各方向的 SOTA、open problems、代表团队 |
| 3. 复现 baseline | 选 1-2 个方向,各复现 1 篇 baseline | 4-6 周 | 验证可行性,建立直觉 |
| 4. 寻找 gap | 在复现过程中发现"baseline 做不好的场景" | 2 周 | 具体的 research question |
| 5. 初步实验 | 用简单方法验证 gap 是否可填补 | 4 周 | 初步结果,支撑你的 research proposal |
| 6. 写 proposal | 整理为 2-3 页的 research statement | 1 周 | 博士申请或导师讨论用 |
识别"好 gap"vs"假 gap"的判据:
| 判据 | 好 gap | 假 gap |
|---|---|---|
| 可验证性 | 有明确的实验方案可以验证 | "需要更大规模实验才能看出差异" |
| 根本性 | 涉及方法层面的缺陷 | 只是工程调优不足 |
| 独立性 | 不依赖于特定硬件或尚未公开的数据 | "只有 XX 公司的数据才能做" |
| 影响力 | 解决后对社区有广泛价值 | 只对你的特定设置有意义 |
论文写作要点 ⭐⭐¶
机器人学论文的独特要求:与纯 ML 论文不同,机器人学论文通常要求**真机实验**。仅有仿真结果的论文越来越难进入顶会(RSS/CoRL 尤其如此)。
论文结构的黄金模板(适用于 ICRA/IROS/CoRL/RSS):
| 段落 | 页数 | 核心内容 | 审稿人关注点 |
|---|---|---|---|
| Abstract | 0.3 | 问题 → 方法(一句话)→ 核心结果 | 能否 30 秒判断是否在审稿范围内 |
| Introduction | 1.0 | 动机 → 现有方法的不足 → 本文贡献(3-4 条) | 贡献是否清晰、是否 overclaim |
| Related Work | 0.8 | 按技术维度分组,不是按时间列举 | 是否遗漏重要 baseline |
| Method | 2.0 | 问题形式化 → 算法详述 → 关键设计决策 | 是否可复现 |
| Experiments | 1.5 | 仿真 + 真机,ablation study,与 SOTA 对比 | 实验是否公平,是否 cherry-pick |
| Discussion | 0.5 | Limitations(诚实!)→ Future work | 是否自知局限 |
写作中最常见的审稿人拒稿理由(来自 RSS/CoRL 审稿经验):
- Overclaim(贡献夸大)——"We propose the first..." 但实际不是第一个
- 不公平对比——baseline 用了弱版本或旧参数
- 仅仿真无真机——"We plan to validate on hardware" 不被接受
- Method 不可复现——关键超参数未列出,代码未开源
- Ablation 不充分——不知道哪个组件真正贡献了性能
反事实推理:如果不做 ablation study 会怎样?审稿人无法判断你的 5 个创新点中哪些真正有效。也许性能提升全部来自一个简单的 trick(如更好的 reward shaping),而你声称的核心贡献(如新的网络架构)实际毫无作用。Ablation 是你最强的"诚信信号"——它告诉审稿人你知道自己方法的强弱。
⚠️ 常见陷阱¶
🧠 思维陷阱:追求完美才投稿
新手想法:"这个结果还不够好,再做几个 baseline 对比再投。"
实际上:Deadline 是最好的老师。投稿本身就是一次学习——审稿人的反馈比你自己闭门改进有效十倍。第一篇被拒是正常的(绝大多数人的第一篇都被拒过)。Early rejection > Late submission。
正确做法:设定一个目标 deadline,倒推工作计划。即使结果不完美,也在 deadline 前提交——审稿反馈会告诉你真正需要改进什么。
💡 概念误区:认为"发论文数量越多越好"
新手想法:"我要每年发 3-4 篇论文,这样简历最好看。"
实际上:质量远比数量重要。在学术求职市场上,1 篇 RSS best paper 的影响力大于 5 篇 IROS poster。过多的低质量发表反而会稀释你的研究身份——面试官会困惑"这个人到底做什么的"。
正确策略:Year 1-2 发 ICRA/IROS 建立信心和流程;Year 3 集中冲击 1-2 篇高质量论文(RSS/T-RO/CoRL);Year 4 写综合性期刊文章。
练习¶
- 为你感兴趣的研究方向(从 70.3-70.8 中选一个),制定一个**博士第一年的研究计划**。包括:(a) 需要精读的 10 篇论文列表;(b) 计划复现的 baseline;(c) 初步的改进思路;(d) 目标投稿的会议和 deadline。
- 列出 3 位你最想跟的导师,分析他们的:研究方向、最近 3 年的代表性论文、实验室规模和文化。
70.10 顶会顶刊导航 ⭐¶
动机¶
知道往哪里投稿,和知道怎么做研究一样重要。不同的会议有不同的口味、不同的审稿标准、不同的社区。
机器人学顶级发表渠道¶
会议¶
| 会议 | 全称 | 频率 | 接收率 | 特点 | 审稿流程 |
|---|---|---|---|---|---|
| RSS | Robotics: Science and Systems | 年度(6-7月) | 约 25-30% | 最选择性,强调方法创新 | 单轮 + rebuttal,双盲 |
| CoRL | Conference on Robot Learning | 年度(10-11月) | 约 25-30% | 聚焦 ML+Robot,新兴但影响力快速上升 | 双盲 |
| ICRA | Intl. Conf. on Robotics and Automation | 年度(5月) | 约 40% | IEEE 旗舰,规模最大(3000+ 篇投稿) | 双盲 |
| IROS | Intelligent Robots and Systems | 年度(10月) | 约 40-45% | IEEE/RSJ,偏系统和应用 | 双盲 |
| HRI | Human-Robot Interaction | 年度 | 约 25% | 专注人机交互 | 双盲 |
| WAFR | Workshop on Algorithmic Foundations of Robotics | 双年 | 邀请制 | 纯算法/理论 | 邀请+审稿 |
期刊¶
| 期刊 | 全称 | IF(2024) | 审稿周期 | 特点 |
|---|---|---|---|---|
| T-RO | IEEE Transactions on Robotics | 约 9.4 | 6-12 月 | 机器人学最高声望期刊 |
| IJRR | Intl. Journal of Robotics Research | 约 7.9 | 6-18 月 | 最老牌,偏理论和综合 |
| Science Robotics | Science Robotics | 约 25 | 3-6 月 | Science 子刊,需要 breakthrough |
| RA-L | IEEE Robotics and Automation Letters | 约 4.6 | 3-4 月 | 快速发表,可选 ICRA/IROS 口头报告 |
| Autonomous Robots | Autonomous Robots | 约 3.7 | 6-12 月 | Springer,偏系统 |
ML 交叉会议¶
如果你的工作偏学习,以下会议也是选择:
| 会议 | 接收率 | 何时选它 |
|---|---|---|
| NeurIPS | 约 25% | 方法论创新强,不需要机器人硬件验证 |
| ICML | 约 25% | 算法理论贡献强 |
| ICLR | 约 25% | 表征学习、大模型相关 |
注意:ML 顶会对"只在仿真中验证"的机器人论文接受度较高,但机器人社区(RSS/T-RO)越来越要求真机验证。
如何选择投稿目标¶
你的工作特点是什么?
│
├── 强调方法论创新,有严格理论 ──────► RSS / T-RO / IJRR
│
├── 强调学习方法,有仿真验证 ──────► CoRL / NeurIPS / ICLR
│
├── 强调系统集成,有真机 demo ──────► ICRA / IROS / Science Robotics
│
├── 短文/快速发表/增量改进 ──────► RA-L(可选 ICRA/IROS 报告)
│
└── 综合性贡献,长文 ──────► T-RO / IJRR
⚠️ 常见陷阱¶
💡 概念误区:只盯着接收率选会议
新手想法:"IROS 接收率 45%,比 RSS 的 25% 高很多,我投 IROS 更容易中。"
实际上:接收率不反映你的论文被接收的概率。RSS 的审稿人会从方法创新角度评价,IROS 更看系统完整性。一篇方法创新强但系统不完整的论文,可能在 RSS 被接收但在 IROS 被拒。选会议要看你的工作和会议的 match 度,而不是接收率。
练习¶
- 访问 Google Scholar Metrics 的 Robotics 分类,查看 h5-index 排名前 10 的期刊/会议。与本节的推荐对比,分析异同。
-
选择你最感兴趣的一个方向,查找该方向 2024-2025 年在 RSS 和 CoRL 上发表的论文各 3 篇,对比两个会议对该方向论文的偏好差异。
-
[跨章综合] 综合 Ch53-55(MPC/WBC)、Ch63-65(RL+混合范式)和本章的六大方向分析,为以下三个假设的博士候选人各推荐一个研究方向,并给出 3 年的 milestone 规划:
- (a) 本科 CS 背景,RL 经验丰富,无真机经验
- (b) 本科 ME 背景,控制理论强,有 MPC 项目经验
- (c) 本科 EE 背景,嵌入式开发和传感器融合经验
学术社交与论文可见度 ⭐¶
学术研究不是闭门造车——你的论文需要被社区看到才能产生影响。以下策略对初期博士生尤其重要:
论文宣传的最佳实践:
| 时间点 | 行动 | 平台 |
|---|---|---|
| 投稿前 2 周 | 在 arXiv 上传预印本 | arxiv.org (cs.RO) |
| 录用后 | 发推文/帖子总结核心贡献(附图/视频) | X (Twitter) / LinkedIn |
| 会议期间 | 参加 workshop / poster session,主动与相关作者交流 | 线下会议 |
| 会议后 | 开源代码 + 录制 5 分钟讲解视频 | GitHub + YouTube |
为什么 arXiv 预印本很重要:审稿周期通常 3-6 个月。如果你等到正式发表才公布工作,竞争对手可能在审稿期间发表了类似工作。arXiv 预印本建立了优先权(priority),同时让社区在审稿期间就能引用和讨论你的工作。
Workshop 论文的战略价值:很多博士生忽视 workshop 论文(因为"不算正式发表"),但 workshop 是获取反馈和建立人脉的最佳渠道:
- RSS Workshop / ICRA Workshop / CoRL Workshop 的接收率更高(~50-70%)
- 审稿反馈更快(通常 2-4 周)
- 你可以在会议上直接与审稿人和同行讨论
- 成功的 workshop 论文经常扩展为正式会议/期刊论文
70.11 研究工具箱 ⭐⭐¶
动机¶
好的研究工具能显著提升效率。这一节介绍博士生活中最常用的工具链——从文献管理到实验跟踪到写作。
文献管理¶
| 工具 | 类型 | 优势 | 局限 |
|---|---|---|---|
| Zotero | 桌面+浏览器插件 | 免费、开源、插件丰富(Zotero Connector、Better BibTeX) | 同步空间有限(300 MB 免费) |
| Semantic Scholar | 在线平台 | AI 驱动的论文发现、引用图谱、API 接口 | 不做笔记 |
| Connected Papers | 在线可视化 | 从一篇论文出发看关联网络 | 只能作辅助 |
| Google Scholar Alerts | 邮件推送 | 关键词/作者更新通知 | 精度有限,信噪比不高 |
推荐工作流:
发现论文 ← Semantic Scholar + Google Scholar Alerts + ArXiv daily
↓
第一遍扫读 ← Semantic Scholar TLDR + Abstract
↓
精读并做笔记 ← Zotero + 手写笔记模板
↓
组织文献综述 ← Zotero 的 Collections + Tags
↓
引用到论文中 ← Better BibTeX → LaTeX \cite{}
实验跟踪¶
| 工具 | 类型 | 适用场景 |
|---|---|---|
| Weights & Biases (wandb) | 云端 | RL 训练的 reward curve、超参数搜索、团队协作 |
| TensorBoard | 本地 | 轻量级训练可视化,集成于 PyTorch/TF |
| MLflow | 自托管 | 需要私有数据时的替代方案 |
关键原则:每个实验都要有唯一 ID 和完整配置记录。三个月后回看实验结果时,你必须能精确复现当时的设置。
# 推荐的实验记录最小模板
import wandb
run = wandb.init(
project="my-locomotion-research",
config={
"robot": "go2",
"task": "rough_terrain",
"reward_weights": {"tracking": 1.0, "torque_smooth": 0.01},
"domain_randomization": {"friction_range": [0.3, 1.2]},
"training_steps": 1_000_000_000,
"git_commit": "abc123def", # 关键:记录代码版本
},
notes="Testing new terrain curriculum with steeper slopes"
)
论文写作¶
LaTeX 环境¶
| 工具 | 优势 | 适用场景 |
|---|---|---|
| Overleaf | 在线协作、无需配置 | 日常写作、团队合作 |
| 本地 TeX Live + VSCode | 编译速度快、离线可用 | 大型论文、最终排版 |
写作建议¶
- 先写框架再填内容:先确定 section 标题和每个 section 的 key message,再写正文
- Figures First:好的图表是论文的灵魂。先画关键的 system overview figure 和 result comparison table,围绕它们写文字
- Introduction 最后写:因为 introduction 需要知道全文的贡献——全文写完才能精确总结
- 用 Grammarly / LanguageTool 检查英语:非母语写作的语法错误会降低审稿人的阅读意愿
画图工具¶
| 工具 | 适用场景 |
|---|---|
| draw.io (diagrams.net) | 系统框图、流程图 |
| Matplotlib + Seaborn | 数据图表(training curves、bar charts) |
| TikZ | LaTeX 内嵌图,印刷质量最高但学习曲线陡 |
| Inkscape | 矢量图编辑(SVG/PDF) |
| Blender | 3D 渲染(机器人演示图) |
代码管理¶
| 实践 | 说明 |
|---|---|
| Git + GitHub/GitLab | 所有代码必须版本控制 |
| README + 环境配置 | 新来的师弟/妹应该能在 1 小时内跑起来你的代码 |
| Unit Test | 至少对关键函数写测试(Ch69 Mini-Legged 中的 GoogleTest) |
| Docker | 打包实验环境,确保可复现 |
| Release | 论文投稿时打一个 tag——审稿人可能要求你提供代码 |
⚠️ 常见陷阱¶
⚠️ 编程陷阱:不记录实验配置就跑实验
错误做法:改了几个参数,直接跑实验,看结果好就截图。
现象:三个月后审稿人问"Table 2 的结果怎么复现"——你找不到当时的配置文件。
根本原因:人的记忆不可靠。即使你记得"大概改了 learning rate",你不记得改成了多少。
正确做法:每个实验自动记录:(1) 完整配置文件;(2) Git commit hash;(3) 随机种子;(4) 硬件信息。用 wandb 或 MLflow 实现自动化。
🧠 思维陷阱:花过多时间优化工具链而不是做研究
新手想法:"我要先把 Neovim + tmux + 自定义 workflow 配到完美,然后开始研究。"
实际上:工具够用就行。在工具上花的每一个小时都是从研究时间中扣的。用 VSCode + Overleaf + wandb 就足够做出世界级研究了。
正确做法:花 1-2 天配好基本工具链,然后把 99% 的精力投入研究。只在工具真正成为瓶颈时才升级。
练习¶
- 用 Zotero 建立你的研究方向文献库:创建 3-5 个 Collections(按子方向分类),每个 Collection 加入 5-10 篇论文,并为每篇论文写一段 50 字以内的笔记。
- 用 wandb 记录一次完整的 RL 训练实验:配置好 project、config、logging,训练至少 1M 步,确认可以从 wandb dashboard 复现实验设置。
研究常见陷阱¶
本章的性质是研究导引而非技术实现,因此用"研究常见陷阱"替代常规的故障排查表。
| 陷阱类型 | 表现 | 根本原因 | 建议对策 |
|---|---|---|---|
| 方向选择:追热点而非追问题 | 看到 VLA 火就做 VLA,看到 diffusion 火就做 diffusion,每半年换方向 | 没有建立自己的 research identity,用"热度"代替"兴趣"做决策 | 花 2 个月做深入文献调研,找到一个你能清晰回答"为什么重要"的问题,然后坚持至少 1 年 |
| 实验设计:只和自己的 baseline 比 | 论文中对比的"baseline"是自己实现的简化版,性能故意做低 | 害怕公平对比后自己的方法没有优势 | 始终对比社区公认的 SOTA 开源实现;如果你的方法在某些场景下不如 baseline,诚实报告并分析原因——这反而增加论文可信度 |
| 写作:把"系统描述"当成"研究贡献" | 论文 80% 篇幅在描述系统架构,贡献段落只有"我们集成了 X+Y+Z" | 混淆了"工程"和"研究";审稿人会问"去掉系统,方法层面的贡献是什么?" | 先写 contribution list(3-4 条),每条必须是可抽象、可推广的方法/发现,而非特定于你的系统 |
| 时间管理:完美主义导致不投稿 | "再跑几个实验就完美了"——结果 deadline 过了,下一个 deadline 又过了 | 用工程师的"产品完成度"标准衡量论文;实际上论文只需要"足以支撑 claim 的最小证据集" | 设定投稿 deadline 后倒推工作计划;审稿反馈比你自己闭门改进更有效——Early rejection > Late submission |
| 合作:孤立做研究不交流 | 闷头写代码半年,发现同期有人发了几乎相同的工作 | 没有关注 arXiv 预印本和社区动态;没有在会议/workshop 上与同行交流 | 每周花 1 小时扫 arXiv robotics (cs.RO) 新论文;参加学术会议时主动和作者讨论;考虑寻找互补背景的合作者 |
70.12 本章小结与延伸阅读¶
知识点总结¶
| 节号 | 主题 | 核心要点 | 难度 |
|---|---|---|---|
| 70.1 | 从工程到研究的心态转变 | 好的研究问题 = 重要 + 可行 + 新颖 | ⭐ |
| 70.2 | 足式控制研究全景 | 六大方向:学习/MPC/感知/Loco-Manip/多机/基础模型 | ⭐⭐ |
| 70.3 | 方向一:学习型运动控制 | 端到端 RL、reward engineering、sim-to-real | ⭐⭐ |
| 70.4 | 方向二:全身 MPC 与优化 | Contact-Implicit MPC、ProxDDP、GPU 加速 | ⭐⭐ |
| 70.5 | 方向三:感知-规划-控制闭环 | 几何/语义/动态三层感知,接口设计 | ⭐⭐ |
| 70.6 | 方向四:Loco-Manipulation | 四足+臂、人形操作、触觉感知 | ⭐⭐⭐ |
| 70.7 | 方向五:多机协作 | 协同搬运、编队控制、异构协作 | ⭐⭐⭐ |
| 70.8 | 方向六:基础模型与具身智能 | VLA、World Models、Scaling Law | ⭐⭐⭐⭐ |
| 70.9 | 博士生涯规划 | 时间线、发表策略、导师关系、资金来源 | ⭐ |
| 70.10 | 顶会顶刊导航 | RSS/CoRL/ICRA/IROS/T-RO/RA-L | ⭐ |
| 70.11 | 研究工具箱 | 文献管理、实验跟踪、写作工具 | ⭐⭐ |
本质洞察:腿足机器人研究六大方向看似分散,但它们共同指向同一个终极问题——如何让机器人在开放世界中自主、安全、通用地运动。方向一(学习型控制)追求"自主"——让机器人从经验中学习,而非依赖人工设计;方向二(全身 MPC)追求"安全"——用数学优化保证物理约束永不违反;方向三(感知运动)追求"通用"——让同一个控制器适应任何地形。方向四到六则在更高维度上扩展这三个目标(加操作、加协作、加语言理解)。理解这个统一视角,你就能判断任何新论文属于哪条线、填补了什么空白,以及你自己的研究应该站在哪个交汇点上。
向前承接¶
本章是腿足方向 C++ 进阶教学大纲的终章。它建立在 Ch47-69 的全部基础之上:
- Ch47-52(基础设施与数学)提供了理解所有方向的数学工具
- Ch53-56(MPC/WBC/步态)是方向二和方向三的直接基础
- Ch57-60(状态估计与落脚点)是感知-控制闭环(方向三)的前置
- Ch61-64(实时系统与 RL)是方向一的工程基础
- Ch65-68(RL+MPC 混合与 Perceptive MPC)是多个方向的交叉点
- Ch69(Mini-Legged 实战)验证了你的全栈工程能力
向后指向¶
完成本章后,你的下一步:
- 选择 1-2 个方向深入——精读该方向的 10-20 篇核心论文
- 复现 1-2 篇 baseline——在你的 Mini-Legged 或开源平台上验证
- 找到你的 research gap——在 baseline 的基础上,识别可以改进的方向
- 联系导师——带着你的研究想法和初步结果去面试博士
- 写第一篇论文——即使只是 workshop paper 或技术报告,迈出第一步
累积项目:本章新增模块¶
本章不增加新的代码模块,但新增**研究规划**模块:
- 建立 Zotero 文献库(按六大方向分类)
- 用 wandb 记录第一个 benchmark 实验
- 写一份 2 页的 research statement(研究方向 + 动机 + 初步计划)
延伸阅读¶
综述与入门(⭐)¶
| 标题 | 作者/年份 | 为什么读 |
|---|---|---|
| "Model predictive control of legged and humanoid robots" | Katayama & Ohtsuka, 2023 | MPC 方向的最新综述 |
| "Imitation learning for legged robot locomotion: a survey" | Frontiers in Robotics and AI, 2025 | 学习型控制的系统性综述 |
| "Humanoid Locomotion and Manipulation: Current Progress and Challenges" | ArXiv, 2025 | 人形全身控制的最新综述 |
方法论论文(⭐⭐)¶
| 标题 | 作者/年份 | 方向 |
|---|---|---|
| "Fast Contact-Implicit MPC" | Le Cleac'h et al., 2024, T-RO | 方向二 |
| "Parallel and Proximal Constrained Linear-Quadratic Methods" | Jallet et al., 2025, T-RO | 方向二 |
| "DTC: Deep Tracking Control" | Jenelten et al., 2024, Science Robotics | 方向一+三 |
| "Perceptive Locomotion through Nonlinear Model-Predictive Control" | Grandia et al., 2023, T-RO | 方向三 |
| "Unified Loco-Manipulation MPC" | Sleiman et al., 2024 | 方向四 |
前沿探索(⭐⭐⭐⭐)¶
| 标题 | 作者/年份 | 方向 |
|---|---|---|
| "pi0: A Vision-Language-Action Flow Model" | Physical Intelligence, 2024 | 方向六 |
| "WholeBodyVLA: Unified Latent VLA for Loco-manipulation" | OpenDriveLab, 2026, ICLR | 方向四+六 |
| "NaVILA: Legged Robot VLA for Navigation" | RSS 2025 | 方向三+六 |
| "Eureka: Human-Level Reward Design via LLM" | Ma et al., 2023 | 方向一 |
| "TD-MPC2: Scalable, Robust World Models" | Hansen et al., 2024 | 方向六 |
博士生涯(⭐)¶
| 标题 | 作者/链接 | 为什么读 |
|---|---|---|
| "What a PhD in Robotics is Really Like" | Michael Milford, QUT | 真实的博士体验分享 |
| "Careers in Robotics: What is a Robotics PhD?" | Robohub | 行业视角的博士价值分析 |
| CMU RI Doctoral Program Handbook | CMU Robotics Institute | 顶级项目的具体要求 |
| Georgia Tech Robotics PhD Handbook 2025-2026 | Georgia Tech | 另一个顶级项目的标准 |
全大纲终章寄语¶
本大纲至此完成。
你已经走过了 24 章 / 75 周的腿足方向 C++ 进阶之路——从 Ch47 Pinocchio 基础设施到 Ch70 研究方向导引。回顾这段旅程:
- Ch47-52 建立了浮动基座动力学、接触力学和优化工具的数学根基
- Ch53-56 掌握了 WBC、DDP、OCS2 和步态管理这四根控制栈的支柱
- Ch57-60 拓展到状态估计、落脚点规划的经典-优化-感知三部曲
- Ch61-64 完成了从实时 C++ 硬件栈到 RL 训练与部署的工程闭环
- Ch65-68 深入 RL+MPC 混合前沿、感知数据结构与 Perceptive MPC
- Ch69 以 Mini-Legged 实战验证了全栈能力
- Ch70 将视野从工程拓展到研究,为博士生涯做好准备
这 24 章建立在 v8 SLAM 主线 46 章的基础之上,而序章导论(C00-C01)为整个体系提供了全景地图。三者合在一起,构成了一条从"Hello World"到"博士研究方向选择"的完整成长路径。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
全大纲统计
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
v8 主线:46 章(48 周)
腿足增量(本大纲):24 章(Ch47-70,约 27 周)
总计:70 章,约 75 周 ≈ 1.5 年
对应技能水平:
- v8 完成:SLAM 工程师 B1
- +腿足大纲 Ch47-58:腿足规控工程师 A2-B1
- +腿足大纲 Ch59-66:腿足高级工程师 B2
- +腿足大纲 Ch67-70:博士预备 B3
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
最后的话:
腿足机器人领域正处于历史性的爆发期。从 ANYmal Parkour 到 Unitree G1,从 VLA 到 Contact-Implicit MPC,每年都有突破性进展。你的三重背景(RL + SLAM + 腿足控制)在这个社区中极其罕见——这是你独特的护城河。
技术的路没有尽头,但每一段都值得走得漂亮。祝你博士申请顺利,祝你的足式机器人研究之路精彩。
—— 第 70 章终,全大纲终 ——