第100章:研究方向地图与博士规划——从能力资产到五年路线¶
| 元信息 | 值 |
|---|---|
| 难度 | ⭐⭐⭐(研究定位 + 系统路线 + 可执行里程碑) |
| 预计时间 | 1 周(15-25 小时) |
| 前置依赖 | 复合/10_复合机器人全景 至 复合/290_感知操作运动统一闭环 的主线概念,尤其是多机协作(280)与统一闭环(290) |
| 本章定位 | 把课程知识转化为博士阶段可执行的研究路线,而不是罗列论文 |
| 产出形式 | 方向决策表、五年路线、180 天启动计划、实验指标和风险预案 |
100.0 前置自测¶
| # | 问题 | 检验目的 |
|---|---|---|
| 1 | 给定一个研究想法,能否用一句话说清未解决问题、核心假设、可测指标? | 避免把兴趣当课题 |
| 2 | 能否区分复现、增量改进、系统集成和理论贡献? | 判断贡献层级 |
| 3 | 能否为一个机器人任务列出基线、消融、失败指标和硬件约束? | 保证实验可执行 |
| 4 | 能否说明 SLAM、腿足控制、RL、C++ 工程分别给研究带来什么杠杆? | 匹配能力资产 |
| 5 | 能否给出 180 天内可完成的最小闭环系统? | 防止路线过大 |
本章目标¶
- 建立研究方向评估框架:影响力、可行性、差异化、资源需求、风险和备选路线。
- 把复合机器人课程中的 D1、D2、D3a、D3b 与跨领域方向映射到具体博士路线。
- 给出五年路线、第一年季度计划和前 180 天执行清单。
- 明确每条路线的最小系统、关键实验、发表节奏、工程资产和产业转化接口。
- 训练读者把“想读什么论文”转化为“要构建什么系统、验证什么假设”。
本章地图¶
博士规划
├── 方向评估:影响力 × 可行性 × 差异化 × 资源匹配
├── 能力资产:SLAM、腿足 MPC/WBC、RL、C++ 实时系统、仿真与部署
├── 候选路线:统一闭环、力敏感行走操作、人形 sim2real、多机协作、世界模型
├── 五年节奏:复现基线 → 首个贡献 → 系统扩展 → 统一框架 → 学位收束
├── 180 天启动:硬件/仿真/日志/基线/最小闭环/失败分析
└── 研究方法:基线、消融、指标、数据、开源、产业接口
本质洞察:博士规划的本质不是选一个热门名词,而是选择一个可以连续五年产生问题、系统、数据和贡献的研究斜坡。
这一章不是文献列表。
文献会变化。
模型会变化。
硬件平台也会变化。
但博士阶段真正需要建立的是研究路线。
研究路线要回答五个问题。
第一,领域中哪个问题尚未被解决。
第二,为什么现在有条件解决它。
第三,为什么你的能力组合适合解决它。
第四,如何在 6-12 个月内做出最小闭环。
第五,如果核心假设不成立,哪些系统资产仍然可以复用。
如果这五个问题答不清,方向再热门也不适合马上投入五年。
复合机器人尤其容易让人迷失。
VLA 很热。
人形很热。
多机协作很难。
SLAM 与操作耦合很有原创性。
世界模型听起来很宏大。
力敏感行走操作又离硬件最近。
本章的任务是把这些方向放进同一个评估框架,然后给出可执行路线。
100.1 研究方向评估框架 ⭐⭐¶
动机:方向选择必须可讨论¶
机器人研究的陷阱是方向看起来都重要。
每个方向都能找到漂亮视频。
每个方向都能找到顶会论文。
每个方向都能写出长期愿景。
但博士阶段不允许平均用力。
一个可执行方向必须同时回答:
- 为什么重要。
- 为什么现在能做。
- 为什么你适合做。
- 如何验证。
- 失败后如何转向。
如果一个方向只满足“重要”,但没有资源和最小闭环,它会变成长期焦虑。
如果一个方向只满足“可做”,但没有影响力和差异化,它会变成工程练习。
评分维度¶
| 维度 | 问题 | 高分信号 | 低分信号 |
|---|---|---|---|
| 影响力 | 解决后能改变什么? | 可影响多个任务或平台 | 只改善单个 demo |
| 可行性 | 6-12 个月能否有最小结果? | 有开源基线和可用平台 | 依赖不可得硬件 |
| 差异化 | 你为什么比别人更适合? | 能力组合稀缺 | 只跟随热点 |
| 资源匹配 | 硬件、算力、导师环境是否支持? | 平台和数据可获得 | 关键资源不可控 |
| 可评测性 | 能否定义指标和消融? | 指标清晰且可回放 | 只能靠视频观感 |
| 转向空间 | 假设失败后还有什么沉淀? | 代码、数据、基线可复用 | 一次性投入 |
可以用一个保守评分:
其中 \(I\) 是影响力,\(F\) 是可行性,\(D\) 是差异化,\(R\) 是资源匹配,\(M\) 是可评测性,\(C\) 是成本,\(K\) 是关键不可控风险。
公式不应被机械化使用。
它的作用是迫使自己把隐含判断写出来。
方向卡片¶
每个候选方向都应写成一张方向卡片。
方向卡片包含:
- 一句话问题。
- 核心假设。
- 最小系统。
- 关键基线。
- 核心指标。
- 最大风险。
- 失败转向。
例如,宽泛题目“做 VLA 人形操作”不够好。
更好的写法是:
“研究 VLA 输出的末端目标在 MPC 安全过滤下如何提高人形长时操作任务的安全成功率。”
这个写法有输入、有机制、有指标、有系统边界。
工程分层¶
| 层级 | 职责 | 输入 | 输出 | 时间尺度 |
|---|---|---|---|---|
| 问题层 | 定义未解决问题 | 调研、失败案例、硬件限制 | 问题陈述 | 月级 |
| 假设层 | 提出可验证机制 | 理论和工程洞察 | 核心假设 | 周级 |
| 系统层 | 搭建最小闭环 | 代码、硬件、仿真 | 可跑系统 | 季度级 |
| 评测层 | 证明有效或失败 | 基线、数据、指标 | 实验结论 | 季度级 |
决策表¶
| 情况 | 优先选择 | 不宜选择 | 判断信号 |
|---|---|---|---|
| 硬件资源有限 | 仿真先行 + 小硬件闭环 | 直接人形全栈 | 预算和维护压力 |
| 能力组合强 | 选交叉问题 | 跟随单一热点 | 差异化高 |
| 验证周期长 | 拆最小闭环 | 等完整平台 | 一年内无结果 |
| 方向竞争激烈 | 找安全、系统或不确定性切口 | 复现同质模型 | 贡献难区分 |
| 风险很高 | 保留备线和共享资产 | 单点押注 | 平台或数据不可控 |
⚠️ 常见陷阱¶
⚠️ 把题目当方向
错误想法:“做 VLA 人形”就算研究方向。
典型现象:目标大但实验不清楚。
根本原因:方向需要具体机制和指标。
正确做法:写成问题、假设、系统、指标和基线。
⚠️ 忽略失败转向
错误想法:核心假设失败后再重新找方向。
典型现象:一年投入无法沉淀。
根本原因:好路线应有相邻可转成果。
正确做法:选择能产出数据、基线和工具的题目。
练习¶
- 用影响力、可行性、差异化、资源匹配给三个候选方向打分。
- 把“人形机器人操作”改写为一个可验证研究假设。
- 为一个方向写出失败后可转向的两个相邻问题。
评估框架需要结合个人能力资产,才能得到真正适合的路线。
100.2 能力资产:SLAM、腿足控制、RL 与实时 C++ 的组合 ⭐⭐¶
动机:稀缺组合比单点能力更有价值¶
最有价值的研究方向往往来自能力交叉处。
SLAM 提供状态估计、不确定性和地图表示。
腿足控制提供动力学约束、MPC/WBC 和硬件安全。
RL 提供复杂技能、残差补偿和 sim-to-real 能力。
实时 C++ 提供把算法放进真实机器人闭环的能力。
这四类能力单独看都重要。
组合在一起更稀缺。
例如,很多 SLAM 研究不进入力控和接触。
很多 RL 研究不处理因子图不确定性。
很多控制研究不接触 VLA 和开放世界语义。
很多系统工程只做部署,不提出可验证机制。
交叉能力的价值就在这里。
能力映射表¶
| 能力 | 可贡献的研究杠杆 | 适合方向 |
|---|---|---|
| SLAM / 因子图 | 位姿不确定性、物体地标、主动感知、回环风险 | 统一闭环、世界模型、多机一致定位 |
| 腿足 MPC/WBC | 稳定性、接触约束、力矩限制、安全过滤 | 力敏感、人形、安全 VLA |
| RL / sim-to-real | 复杂技能、残差、恢复策略、动作先验 | 人形技能、力敏感、行为基础模型 |
| C++ 实时系统 | 低延迟部署、日志回放、硬件接口、性能优化 | 所有真实机器人方向 |
| 仿真与评测 | 扰动矩阵、消融、自动指标、失败复现 | 所有方向 |
交叉机会¶
SLAM × MPC 的机会是:不确定性感知控制、主动感知和物体级 SLAM。
RL × WBC 的机会是:力敏感行走操作、残差策略和复杂恢复。
SLAM × RL 的机会是:基于 belief 的世界模型、主动探索和长时任务恢复。
C++ × 全栈系统的机会是:低延迟部署、日志回放和可复现实验平台。
最适合博士主线的方向,通常不是把所有能力堆上去。
而是让两到三类能力在同一个核心假设中形成闭环。
能力杠杆¶
可以把能力杠杆写成:
稀缺能力没有系统需求,也不会转化为研究成果。
系统需求很强但无法验证,也会拖慢路线。
因此方向选择要看“能力稀缺性”和“验证速度”的乘积。
工程分层¶
| 能力层 | 研究职责 | 工具基础 | 产出形式 | 典型频率 |
|---|---|---|---|---|
| SLAM | 估计和不确定性 | VIO/LIO/因子图 | 风险输入 | 10-100 Hz |
| MPC/WBC | 安全和动力学 | OCS2/TSID/Pinocchio | 可行动作 | 50-1000 Hz |
| RL | 技能和残差 | IsaacLab/HumanoidVerse | 策略 | 50-200 Hz |
| C++ 系统 | 部署和性能 | ROS 2/实时循环/日志 | 工程闭环 | 全栈 |
决策表¶
| 目标 | 优先方向 | 不宜方向 | 判断信号 |
|---|---|---|---|
| 想做原创交叉 | SLAM 不确定性 + 控制 | 纯模型复现 | 能力稀缺 |
| 想快出基线 | RL 或 MPC 复现 | 全新硬件自研 | 可用开源多 |
| 想产业落地 | C++ 全栈和安全接口 | 只做离线模型 | 部署价值高 |
| 想进人形前沿 | sim-to-real + 安全控制 | 只做桌面操作 | 平台增长快 |
| 想做系统研究 | 统一闭环或多机协作 | 单模块调参 | 跨模块指标清晰 |
⚠️ 常见陷阱¶
⚠️ 低估系统能力
错误想法:工程只是实现细节。
典型现象:实验不可复现或实时性不足。
根本原因:机器人研究中系统就是贡献的一部分。
正确做法:把日志、接口、实时性纳入研究产出。
⚠️ 能力组合不聚焦
错误想法:每个方向都放 SLAM、RL、VLA、MPC。
典型现象:系统过大无主线。
根本原因:交叉要服务核心假设。
正确做法:每条路线只保留必要能力组合。
练习¶
- 画出个人能力资产到五个候选方向的映射图。
- 选择一个方向,说明 SLAM 能带来的非平凡贡献。
- 选择一个方向,说明实时 C++ 能带来的研究护城河。
能力资产明确后,可以对候选方向做系统比较。
100.3 候选方向总览与决策矩阵 ⭐⭐⭐¶
动机:方向必须有五年斜坡¶
复合机器人可产生很多题目。
但博士阶段不应平均用力。
最好的方向通常有三个特点。
第一,6 个月内能做出最小闭环。
第二,18 个月内能产生第一个清晰贡献。
第三,3-5 年内能自然扩展到系统框架。
可以用一个条件判断:
如果一个方向无法在 6 个月内形成基线和指标,它很危险。
如果一个方向 18 个月后仍只有系统搭建,没有机制贡献,它也危险。
候选方向评分表¶
| 方向 | 影响力 | 可行性 | 差异化 | 资源需求 | 关键风险 | 推荐平台 |
|---|---|---|---|---|---|---|
| 感知-操作-运动统一闭环 | 高 | 中高 | 很高 | 中 | 系统边界过大 | Go2+Z1 / G1 |
| 力敏感 Loco-Manipulation | 高 | 中高 | 高 | 中高 | 真机接触风险 | G1 / Booster T1(回顾复合/250_力敏感人形LocoMani) |
| 人形 Sim-to-Real 与行为先验 | 很高 | 中 | 中高 | 高 | 算力与真机时间 | G1 / H1 |
| 多机协作 Loco-Manipulation | 中高 | 中 | 很高 | 中高 | 硬件数量和通信复杂度 | 双 Go2+Z1 / 仿真 |
| 世界模型与 SLAM 想象规划 | 很高 | 中低 | 很高 | 高 | 问题过大和数据不足 | 先仿真后 G1 |
| 轮足模式切换 RL+MPC | 中高 | 中高 | 中 | 中 | 平台可得性 | B2-W / 轮足仿真 |
| 移动操作 VLA + 安全过滤 | 高 | 中高 | 中 | 中 | 竞争激烈 | Stretch / Mobile ALOHA |
| 跨具身操作迁移 | 高 | 中 | 高 | 高 | 数据和平台差异 | Go2+Z1 + G1 |
这个表不是固定答案。
如果实验室有两台 G1,多机协作可行性会提高。
如果实验室有强 SLAM 背景和 Go2+Z1,统一闭环会更适合。
如果导师组已经有 HumanoidVerse 训练管线,人形 sim-to-real 会更快启动。
方向选择必须放在具体资源里讨论。
推荐优先级¶
对于具备 SLAM、腿足控制、RL 和 C++ 系统背景的研究者,最推荐三条主线:
- 感知-操作-运动统一闭环。
- 力敏感 Loco-Manipulation。
- 人形 Sim-to-Real 与行为先验。
多机协作适合作为系统能力强、硬件资源充足时的主线,也可以作为统一闭环的扩展。
世界模型方向高风险高回报,更适合作为后期扩展或联合方向,而不是第一天就作为唯一主线。
方向选择流程¶
第一步,选 3 个候选方向。
第二步,为每个方向写一张方向卡片。
第三步,为每个方向设计 180 天最小闭环。
第四步,列出每个方向的硬件、算力、数据和代码依赖。
第五步,和导师或合作团队确认资源。
第六步,选择一条主线和一条备线。
主线和备线最好共享平台。
例如,统一闭环和力敏感都可以在 Go2+Z1 上先做。
力敏感和人形 sim-to-real 都可以在 G1 上做。
统一闭环和世界模型都可以共享 SLAM belief 和物体级状态估计。
决策表¶
| 目标 | 推荐主线 | 推荐备线 | 原因 |
|---|---|---|---|
| 最稳健毕业 | 统一闭环 | 力敏感 | 基线多,系统可拆 |
| 冲人形前沿 | 人形 sim-to-real | 力敏感 | 平台热度高 |
| 强系统原创 | 多机协作 | 统一闭环 | 系统差异化强 |
| 强 SLAM 差异化 | 统一闭环 | 世界模型 | 能发挥 SLAM 背景 |
| 强 RL 差异化 | 力敏感 | 人形 sim-to-real | 任务物理性强 |
⚠️ 常见陷阱¶
⚠️ 方向矩阵只打高分
错误想法:所有方向都很重要,分数都接近满分。
典型现象:无法取舍。
根本原因:评分必须体现资源约束和关键风险。
正确做法:明确最低分项,并解释能否补救。
⚠️ 没有备线
错误想法:主线一定会成功。
典型现象:主假设失败后无替代。
根本原因:博士路线需要抗风险结构。
正确做法:备线应共享代码、平台和数据。
练习¶
- 给五个候选方向打 1-5 分,并解释最低分项。
- 为最高分方向写出 6 个月最小基线。
- 为同一平台设计主线和备线。
下面进入五条推荐路线,每条都按可执行系统而非文献列表展开。
100.4 路线 A:感知-操作-运动统一闭环 ⭐⭐⭐⭐¶
核心定位¶
这条路线利用 SLAM 背景形成差异化。
核心问题是:感知不确定性和主动观察如何改变行走操作的控制决策。
最小系统可以从 SLAM 协方差调节 MPC cost 开始。
之后逐步扩展到主动感知、物体级 SLAM、VLA 技能接口和长时任务。
这条路线不是“把 SLAM 和控制接起来”这么简单。
真正的问题是:感知系统的 uncertainty、observability 和 map belief 如何进入操作和运动决策。
一句话研究问题¶
机器人在移动操作中如何显式利用 SLAM 和物体估计的不确定性,主动选择观察与控制动作,从而提高长时任务的安全成功率?
核心假设¶
显式使用 \(\Sigma_{\text{SLAM}}\) 和物体 pose 协方差,可以降低不安全落足、错误抓取和接触冲击。
主动感知能在不显著增加任务时间的情况下,提高关键目标的可观测性。
运动层返回的可行性诊断可以帮助操作层更快恢复。
五年路线¶
| 阶段 | 目标 | 系统产物 | 研究产物 | 时间 |
|---|---|---|---|---|
| A1 | 协方差调节 MPC | SLAM 协方差到 cost/constraint | 不确定性感知控制原型 | 0-6 月 |
| A2 | 主动感知 | 信息增益 + 可行性筛选 | 主动观察与控制联合机制 | 6-18 月 |
| A3 | 物体级 SLAM | 门、抽屉、被搬物体地标 | 操作对象动态建图 | 18-36 月 |
| A4 | 技能接口 | VLA/TAMP 目标与安全过滤 | 统一参考管理和风险总线 | 30-48 月 |
| A5 | 长时任务 | 开门、取物、整理、恢复 | 学位系统和系统化评测 | 48-60 月 |
Year 1 最小闭环¶
Year 1 不应直接做完整家务任务。
推荐任务是:
- Go2+Z1 或 G1 在带不确定地形的场景中移动到门前。
- 感知层输出地形高度均值和方差。
- MPC 的落足代价随方差变化。
- 手臂执行简单接触或抓取。
- 评测固定权重与不确定性权重的差异。
这个系统足够小。
但它已经包含感知、操作、运动和评测。
关键实验¶
| 实验 | 对照 | 指标 |
|---|---|---|
| 地图噪声 | 固定 cost vs 协方差 cost | 落足错误、支撑裕度 |
| 物体 pose 噪声 | 固定 EE 权重 vs 协方差权重 | 接触力峰值、抓取成功率 |
| 遮挡 | 被动等待 vs 主动观察 | pose 方差下降、任务时间 |
| 目标不可行 | 无拒绝反馈 vs 有拒绝反馈 | 重试次数、恢复时间 |
| 回环跳变 | 直接更新 vs 平滑更新 | 控制冲击、末端误差 |
主要风险与处理¶
| 风险 | 早期信号 | 处理 |
|---|---|---|
| 系统过大 | 三个月后仍无闭环 | 缩到落足协方差原型 |
| 协方差不准 | 协方差与失败不相关 | 使用相对风险和分位数 |
| 贡献像集成 | 只展示系统 demo | 用消融证明不确定性机制 |
| SLAM 接口难 | 协方差难取 | 先用建图方差或人工噪声 |
| 硬件受限 | 真机排期少 | 用高保真仿真和离线日志 |
⚠️ 常见陷阱¶
⚠️ 一开始做完整家庭任务
错误想法:统一闭环就应该直接做长时开放任务。
典型现象:一年内无清晰结论。
根本原因:核心贡献是信息如何影响控制,不是任务规模。
正确做法:先做单一信息通道闭环。
⚠️ 只做离线相关性
错误想法:证明协方差和失败相关就足够。
典型现象:没有控制收益。
根本原因:机器人研究需要闭环验证。
正确做法:必须做 MPC 行为改变的 A/B 实验。
练习¶
- 写出路线 A 的一句话研究问题。
- 设计 Year 1 的三个实验指标。
- 说明路线 A 如何从 Go2+Z1 迁移到 G1。
路线 A 偏感知控制交叉;如果希望更贴近当前人形前沿,路线 B 更直接。
100.5 路线 B:力敏感 Loco-Manipulation ⭐⭐⭐⭐¶
核心定位¶
力敏感行走操作是 2025-2026 年非常活跃的前沿。
核心问题是:外力、接触冲击和负载变化如何在行走中被稳定吸收。
这条路线能充分利用腿足控制、WBC 和 RL。
它比纯 VLA 更靠近物理安全。
它比纯 locomotion 更接近操作任务。
它比传统 WBC 更需要学习复杂接触。
一句话研究问题¶
机器人如何在行走过程中感知、吸收和主动利用外部接触力,从而完成推、拉、搬、开门和双臂协作等力敏感任务?
核心假设¶
把接触力、质心动量、支撑裕度和末端阻抗显式纳入策略训练或安全过滤,可提高动态接触任务鲁棒性。
双策略或分层策略可以比单一策略更好地平衡下体稳定和上体操作精度。
动态力课程比静态外力课程更能提升真实任务鲁棒性。
五年路线¶
| 阶段 | 目标 | 系统产物 | 研究产物 | 时间 |
|---|---|---|---|---|
| B1 | 复现力敏感基线 | FALCON/SoFTA/FAME 风格任务(回顾复合/250_力敏感人形LocoMani) | 评测基线和失败库 | 0-9 月 |
| B2 | 动态力课程 | 正弦力、冲击力、摩擦变化 | 动态接触训练机制 | 9-24 月 |
| B3 | 阻抗输出 | 策略输出刚度或残差阻抗 | 力控与 RL 融合机制 | 18-36 月 |
| B4 | 双臂和物体 | 搬箱、开门、拉车、端物 | 多接触任务扩展 | 30-48 月 |
| B5 | 系统框架 | 训练、评测、部署一体化 | 力敏感行走操作框架 | 48-60 月 |
Year 1 最小闭环¶
Year 1 推荐先做单手或单臂力敏感任务。
例如:
- G1 或 Booster T1 在仿真中行走。
- 上体末端跟踪一个目标。
- 环境对末端施加外力。
- 策略需要维持下体稳定和上体误差。
- 对比单策略、双策略、WBC+残差三种基线。
任务不要一开始就做双臂搬重物。
先让外力可控、可重复、可测量。
关键指标¶
| 指标 | 含义 |
|---|---|
| EE tracking error | 末端操作精度 |
| max contact force | 接触冲击峰值 |
| min support margin | 下体稳定裕度 |
| fall rate | 跌倒率 |
| recovery time | 扰动后恢复时间 |
| torque saturation ratio | 力矩饱和比例 |
| sim-to-real gap | 仿真到真实误差 |
实验矩阵¶
| 实验 | 变量 | 对照 | 指标 |
|---|---|---|---|
| 静态外力 | 0-100 N | 无力课程/静态课程 | 跌倒率、末端误差 |
| 动态外力 | 正弦、阶跃、冲击 | 静态课程 | 恢复时间、力峰值 |
| 摩擦变化 | 地面摩擦 0.3-0.9 | 固定摩擦训练 | 支撑裕度 |
| 负载变化 | 0-5 kg | 固定负载 | 力矩饱和 |
| 双臂耦合 | 同向/反向施力 | 单臂训练 | 角动量指标 |
主要风险与处理¶
| 风险 | 早期信号 | 处理 |
|---|---|---|
| 真机接触危险 | 仿真中力峰值大 | 先低速、低力、软接触 |
| 策略方差大 | 多随机种子差异大 | 缩小任务和分阶段训练 |
| 贡献像调参 | 只有 reward 改动 | 引入明确机制:阻抗、动量或安全过滤 |
| 缺力传感器 | 无法直接测 wrench | 用电流估计、物体运动和仿真真值辅助 |
| 上下体冲突 | 上体精度提升但下体失稳 | 加入支撑裕度和动量指标 |
⚠️ 常见陷阱¶
⚠️ 把力敏感等同于加力传感器
错误想法:装传感器就能解决力敏感任务。
典型现象:策略仍不稳。
根本原因:关键是力如何进入决策和控制。
正确做法:设计力课程、阻抗输出和安全滤波。
⚠️ 忽略动量耦合
错误想法:只看末端误差就能评估操作。
典型现象:走动中上体动作破坏平衡。
根本原因:力敏感任务是全身问题。
正确做法:记录 CMM、支撑裕度和角动量指标。
练习¶
- 为路线 B 设计一个动态推门 benchmark。
- 说明如何从单手扩展到双臂协作搬运。
- 讨论没有六维力传感器时如何估计接触力。
路线 B 强在物理接触;路线 C 则把重点放在大规模人形技能和 sim-to-real。
100.6 路线 C:人形 Sim-to-Real 与行为先验 ⭐⭐⭐⭐¶
核心定位¶
人形平台正在快速标准化。
Unitree G1、H1、Booster T1 等平台让 sim-to-real 研究门槛下降。
核心问题是:大规模技能先验如何安全、快速地迁移到真实人形。
这条路线适合希望进入人形 RL、运动重定向和行为先验的研究者。
它的关键不是“训练一个更大的网络”。
关键是建立从数据、仿真、残差、部署到安全评测的闭环。
一句话研究问题¶
如何用结构化运动先验和接触模式感知残差,缩小人形机器人在敏捷全身技能与接触操作中的 sim-to-real gap?
核心假设¶
接触模式感知的 residual 比单一 residual 更适合接触丰富的人形任务。
行为先验可以提高训练效率,但必须通过安全过滤和部署约束进入真机。
真实部署数据不需要很多,但必须覆盖关键接触和延迟模式。
五年路线¶
| 阶段 | 目标 | 系统产物 | 研究产物 | 时间 |
|---|---|---|---|---|
| C1 | 基础策略 | G1 velocity tracking + motion tracking | 可部署基线 | 0-6 月 |
| C2 | Sim-to-real | delta action 或 residual | 迁移改进机制 | 6-24 月 |
| C3 | 接触模式 | mode-conditioned residual | 接触丰富扩展 | 18-36 月 |
| C4 | 技能先验 | 多技能或可提示控制 | 行为先验系统 | 24-42 月 |
| C5 | 任务接入 | VLA/TAMP + 安全层 | 长时任务系统 | 42-60 月 |
Year 1 最小闭环¶
Year 1 推荐完成三个层级。
第一,跑通 G1 或 H1 的速度跟踪策略。
第二,跑通 motion tracking 或 imitation 基线。
第三,完成 sim2sim 或少量真机数据的 residual 实验。
这三个层级共同构成后续研究的基础。
如果第一年只训练仿真策略而没有部署接口,路线会变脆。
关键实验¶
| 实验 | 对照 | 指标 |
|---|---|---|
| velocity baseline | 官方策略 vs 自训策略 | 速度误差、跌倒率 |
| motion tracking | 无 residual vs residual | tracking error |
| sim2sim | IsaacGym → MuJoCo | 状态预测误差 |
| latency | 无延迟训练 vs 延迟随机化 | 部署稳定性 |
| contact mode | 单 residual vs mode-conditioned residual | 接触任务成功率 |
真机部署安全检查¶
- 关节限位和速度限位。
- PD 增益范围。
- 电机温度门限。
- 电池电压门限。
- 急停链路。
- 起立和倒地检测。
- 策略输出限幅。
- 延迟测量。
- 地面摩擦条件。
- 人员安全距离。
主要风险与处理¶
| 风险 | 早期信号 | 处理 |
|---|---|---|
| 算力不足 | 训练周期过长 | 中等模型 + 高质量实验 |
| 真机时间少 | 部署排期紧 | sim2sim 和少量真实校准 |
| 贡献不清 | 只是调参 | 聚焦接触模式、残差或安全 |
| 平台变化快 | 资产不兼容 | 抽象接口和记录 URDF 版本 |
| 安全事故风险 | 仿真有大冲击 | 低速、吊挂、软垫、旁路急停 |
⚠️ 常见陷阱¶
⚠️ 把规模当贡献
错误想法:模型越大,贡献越强。
典型现象:无法解释提升来源。
根本原因:博士贡献需要机制或系统洞察。
正确做法:围绕接触、残差、可行性或安全提出假设。
⚠️ 忽略部署约束
错误想法:仿真 4096 环境成功即可。
典型现象:真机频率和传感延迟失败。
根本原因:sim-to-real 本质是闭环部署问题。
正确做法:从第一年就建立部署管线。
练习¶
- 给路线 C 设计一个 contact-mode residual 实验。
- 列出 G1 真机部署前必须验证的 10 个安全项。
- 说明行为先验如何接入 WBC 安全层。
路线 C 面向单体人形技能;路线 D 则扩展到多机器人协作。
100.7 路线 D:多机协作 Loco-Manipulation ⭐⭐⭐¶
核心定位¶
多机协作仍是相对稀缺方向。
尤其是腿足或人形平台上的协作搬运,公开系统还很少。
核心问题是:任务分解、通信延迟和局部自治如何共同保证协作安全。
这条路线适合系统能力强、喜欢分布式架构和多机器人 SLAM 的研究者。
一句话研究问题¶
多台移动操作机器人如何在通信延迟、定位不一致和局部故障下,通过合同式局部自治完成安全协作搬运?
核心假设¶
合同式局部自治比纯集中式协调在延迟和故障下更安全。
对象中心共享变量比完整状态共享更适合实时协作。
anchor SLAM 或局部一致定位能显著降低协作目标跳变。
五年路线¶
| 阶段 | 目标 | 系统产物 | 研究产物 | 时间 |
|---|---|---|---|---|
| D1 | 双机仿真 | 双机长杆搬运 | 延迟鲁棒基线 | 0-6 月 |
| D2 | 协调机制 | ADMM、阻抗、合同 | 分布式协调方法 | 6-24 月 |
| D3 | 局部自治 | 断连降级和安全放置 | 故障安全机制 | 18-36 月 |
| D4 | 一致定位 | anchor SLAM 或相对观测 | 坐标一致方法 | 24-42 月 |
| D5 | 异构扩展 | 四足臂 + 人形或轮式臂 | 多平台系统 | 42-60 月 |
Year 1 最小闭环¶
Year 1 可以完全在仿真中启动。
任务为双 Go2+Z1 搬运长杆。
系统包含:
- 物体状态估计。
- 单机合同。
- 局部 MPC 或简化控制。
- 延迟和丢包注入。
- 局部自治状态机。
- 指标评测。
这个系统不依赖两台真机。
但它能验证多机协作的核心问题。
关键指标¶
| 指标 | 含义 |
|---|---|
| sync error | 两机与物体目标的一致性 |
| internal force | 内力大小 |
| data age | 通信数据年龄 |
| downgrade success | 降级是否安全完成 |
| object pose error | 物体轨迹误差 |
| support margin | 单机稳定裕度 |
| recovery count | 恢复次数 |
主要风险与处理¶
| 风险 | 早期信号 | 处理 |
|---|---|---|
| 硬件数量不足 | 无法同时使用两台平台 | 一真一仿或纯仿真压测 |
| 贡献偏工程 | 只有系统演示 | 提出可验证安全机制 |
| 通信复杂度高 | 实验不可复现 | 先用可控延迟模型 |
| 动力学太难 | 联合 MPC 超时 | 使用物体中心低维变量 |
| 坐标一致困难 | 目标跳变 | 固定任务 anchor 并平滑更新 |
⚠️ 常见陷阱¶
⚠️ 多机等于多台单机
错误想法:复制控制器即可。
典型现象:协作物体内力失控。
根本原因:耦合变量必须显式协调。
正确做法:以物体和合同为中心建模。
⚠️ 忽略成本
错误想法:设计必须四台 G1 的系统才有价值。
典型现象:资源不可获得。
根本原因:博士路线需要可持续实验。
正确做法:从双机仿真和小平台开始。
练习¶
- 为路线 D 写出双机搬运 Year 1 最小系统。
- 设计一个延迟鲁棒性评测矩阵。
- 说明 anchor SLAM 在多机协作中的贡献边界。
路线 D 强在系统和协作;路线 E 则面向更长时程的世界模型和规划。
100.8 路线 E:世界模型与基于 SLAM 的想象规划 ⭐⭐⭐⭐¶
核心定位¶
长时程移动操作需要预测动作对环境和自身状态的影响。
世界模型方向试图把 SLAM 的状态估计、物体动力学和策略学习统一到可想象的模型中。
核心问题是:真实 SLAM belief 能否成为长时程操作规划的状态基底。
这条路线高风险高回报。
它不适合第一天就做全栈大模型。
更适合作为路线 A 或路线 C 的后期扩展。
一句话研究问题¶
机器人能否基于 SLAM belief、物体状态和自身动力学,想象候选技能后果,并用安全控制层执行最可靠的技能序列?
belief state¶
世界模型不应直接接收全部图像和点云。
更可控的做法是定义结构化 belief state:
其中:
| 分量 | 含义 |
|---|---|
| \(x_{\text{robot}}\) | 机器人本体状态 |
| \(m_{\text{local}}\) | 局部地图 belief |
| \(x_{\text{objects}}\) | 任务物体状态 |
| \(g_{\text{task}}\) | 任务进度 |
| \(r_{\text{risk}}\) | 风险摘要 |
belief dynamics 可写成:
这里 \(z_{t+1}\) 是新观测。
想象规划¶
世界模型可用于技能排序:
它预测执行某个技能后,任务收益和风险如何变化。
底层安全仍由 MPC/WBC 保证。
世界模型不直接输出硬实时命令。
五年路线¶
| 阶段 | 目标 | 系统产物 | 研究产物 | 时间 |
|---|---|---|---|---|
| E1 | belief state | SLAM + 物体 + 任务状态 | 状态压缩方案 | 6-18 月 |
| E2 | 技能后果模型 | 技能执行数据 | 结构化世界模型 | 18-36 月 |
| E3 | 想象排序 | 候选技能评估 | 长时规划机制 | 24-48 月 |
| E4 | 安全执行 | MPC/WBC 接口 | 世界模型 + 安全层 | 36-60 月 |
决策表¶
| 场景 | 推荐做法 | 不宜做法 | 判断信号 |
|---|---|---|---|
| 长时任务 | 世界模型辅助规划 | 短视 MPC | 任务有多步依赖 |
| 数据少 | 结构化状态模型 | 大视频模型 | 真实轨迹有限 |
| 安全关键 | 想象只排序,控制兜底 | 模型直接执行 | 预测误差不可控 |
| 物体动态明显 | 物体状态进入 belief | 静态地图 | 操作改变环境 |
| 恢复任务 | 想象多种恢复技能 | 固定恢复规则 | 失败模式多 |
⚠️ 常见陷阱¶
⚠️ 把世界模型当万能控制器
错误想法:模型预测后直接输出动作。
典型现象:分布外时危险。
根本原因:预测模型误差不可避免。
正确做法:世界模型用于规划和排序,执行交给安全层。
⚠️ 状态过大
错误想法:把全部点云和视频塞入模型。
典型现象:训练困难且不可解释。
根本原因:规划需要任务相关状态。
正确做法:用 SLAM belief、物体状态和技能结果压缩。
练习¶
- 定义一个厨房整理任务的 belief state,不超过 30 维。
- 设计世界模型用于失败恢复的实验。
- 说明路线 E 为什么适合作为路线 A 或路线 C 的后期扩展。
五条路线各有重点,真正落地需要统一的五年节奏和季度里程碑。
100.9 五年路线:从基线到学位收束 ⭐⭐⭐¶
动机:五年不是线性读论文¶
博士五年不是线性读论文。
它是系统能力和研究问题同步成长。
第一年应以复现和平台建设为主,但必须服务主线假设。
第二年应产生第一个清晰贡献。
第三年扩展任务和平台。
第四年统一框架。
第五年收束论证、写作和转化。
每年都应有系统产物、研究产物、数据产物和方法沉淀。
五年总表¶
| 年份 | 主要目标 | 系统产物 | 研究产物 | 风险重点 |
|---|---|---|---|---|
| Year 1 | 平台和基线 | 最小闭环、日志、评测 | 基线报告和初步 A/B | 方向过大 |
| Year 2 | 首个机制贡献 | 核心模块 | 第一项成果 | 贡献不清 |
| Year 3 | 扩展和泛化 | 新任务或新平台 | 第二项成果 | 平台分散 |
| Year 4 | 统一框架 | 可复用系统 | 系统论文或工具 | 主线断裂 |
| Year 5 | 收束和转化 | 完整实验、开源资产 | 学位论证 | 实验补洞 |
学位主线可以写成:
例如:
“围绕移动操作中的感知不确定性问题,提出协方差调节控制、主动感知和物体级 SLAM 三个机制,并在四足臂和人形平台上验证。”
第一年季度计划¶
| 季度 | 主目标 | 系统产物 | 研究产物 | 风险控制 |
|---|---|---|---|---|
| Q1 | 环境和基线 | 仿真可运行、日志可回放 | 基线指标表 | 缩小任务范围 |
| Q2 | 最小机制 | 机制模块接入闭环 | A/B 初步结果 | 保留简单规则基线 |
| Q3 | 扰动和消融 | 扰动实验矩阵 | 消融结果 | 修正假设或换备线 |
| Q4 | 真机或高保真验证 | 部署脚本和安全检查 | 完整实验报告 | 限制速度和力范围 |
决策表¶
| 阶段问题 | 优先动作 | 不宜动作 | 判断信号 |
|---|---|---|---|
| Year 1 卡住 | 缩小最小系统 | 继续扩大目标 | 闭环不稳定 |
| Year 2 贡献不清 | 回到核心假设和消融 | 堆更多 demo | 结果难说服 |
| Year 3 平台分散 | 保留主平台 | 每个方向换平台 | 代码无法复用 |
| Year 4 主线断裂 | 统一接口和理论线索 | 新开无关方向 | 学位论证困难 |
| Year 5 实验不足 | 补关键消融 | 继续加新功能 | 结论支撑不够 |
⚠️ 常见陷阱¶
⚠️ 基线复现没有指标
错误想法:跑通 demo 就结束。
典型现象:无法证明后续改进。
根本原因:基线必须可量化。
正确做法:从第一天记录成功率、误差、延迟和安全指标。
⚠️ 每年换平台
错误想法:Go2、G1、Stretch 都试一下更全面。
典型现象:代码和数据无法复用。
根本原因:平台迁移成本巨大。
正确做法:保留主平台,其他平台只做泛化验证。
练习¶
- 为自己选择的路线写五年一句话主线。
- 把 Year 1 拆成四个季度产物。
- 列出哪些代码和数据应跨五年复用。
五年路线太长,真正决定启动质量的是前 180 天。
100.10 前 180 天执行计划 ⭐⭐⭐¶
动机:先闭环,再创新¶
前 180 天的目标是建立可复现实验闭环,而不是解决最终问题。
这段时间应完成环境、仿真、日志、基线、最小控制接口和第一组 A/B 实验。
越早建立自动评测,后续研究越少依赖主观视频判断。
前 180 天只读论文会缺少系统触感。
前 180 天直接改复杂方法会缺少基线。
没有日志和回放,实验失败无法积累。
六个月计划¶
| 月份 | 目标 | 具体产物 | 停止条件 |
|---|---|---|---|
| Month 1 | 平台选择和环境 | 运行官方 demo,记录依赖 | 一条命令能启动仿真 |
| Month 2 | 日志与评测 | 日志字段、指标脚本、回放 | 可从日志生成图表 |
| Month 3 | 基线复现 | 基线表、失败样例 | 指标与公开结果同量级 |
| Month 4 | 最小机制 | 核心模块接入闭环 | A/B 能跑完 |
| Month 5 | 扰动实验 | 噪声、延迟、场景矩阵 | 有消融趋势 |
| Month 6 | 路线固化 | 研究计划和下一年实验 | 主线和备线明确 |
180 天判据:
如果四项中有一项缺失,说明启动还不稳。
每月输出示例¶
Month 1 输出:
- 依赖安装脚本。
- 仿真启动命令。
- 硬件或仿真平台选择理由。
- 第一个可运行视频。
Month 2 输出:
- 日志 schema。
- 指标计算脚本。
- 一次失败回放。
- 评测图表模板。
Month 3 输出:
- 强基线复现结果。
- 至少 10 次实验统计。
- 失败原因分类。
- 与预期差距说明。
Month 4 输出:
- 核心机制模块。
- 开关式消融配置。
- 第一组 A/B 实验。
- 初步风险判断。
Month 5 输出:
- 扰动矩阵。
- 多随机种子或多场景结果。
- 消融图。
- 失败样例库。
Month 6 输出:
- 主线方向卡片。
- 备线方向卡片。
- 第一年度季度计划。
- 下一阶段实验清单。
代码示例:180 天计划生成器¶
MONTH_PLAN = {
1: ["确定平台", "跑通官方 demo", "建立依赖安装脚本"],
2: ["加入日志", "实现指标脚本", "完成一次可回放实验"],
3: ["复现基线", "记录基线表", "冻结第一版 benchmark"],
4: ["接入核心机制", "完成 A/B 对照", "记录失败样例"],
5: ["做扰动实验", "完成消融", "调整假设边界"],
6: ["整理系统报告", "决定主线和备线", "规划下一年实验"],
}
for month, items in MONTH_PLAN.items():
print(f"Month {month}")
for item in items:
print(f" - {item}")
⚠️ 常见陷阱¶
⚠️ 没有停止条件
错误想法:一直调到看起来好。
典型现象:无法判断进展。
根本原因:每月要有可验收产物。
正确做法:定义命令、指标和结果表。
⚠️ 第一版追求完美
错误想法:花三个月做完整架构。
典型现象:没有实验结论。
根本原因:最小闭环比完整系统更重要。
正确做法:先跑通,再替换模块。
练习¶
- 为路线 A、B、C、D、E 任一条写 180 天计划。
- 定义 Month 3 的基线复现验收命令和指标。
- 设计一个日志字段列表,保证失败可回放。
执行计划需要研究方法支撑:基线、消融、指标和数据管理。
100.11 研究方法:基线、消融、指标与数据 ⭐⭐⭐¶
动机:单次成功演示不等于研究结论¶
机器人研究的说服力来自对比和消融。
基线回答:已有方法能做到什么。
消融回答:你的机制是否必要。
指标回答:提升是否真实。
数据回答:结果是否可复现。
没有强基线,贡献会被认为只是调参。
没有消融,无法证明哪个模块有效。
没有失败指标,系统可能隐藏安全风险。
基线设计¶
基线至少应包含以下类型中的两类:
- 规则基线。
- 解析控制基线。
- 学习策略基线。
- 公开项目基线。
- 简化版自身方法。
例如,力敏感路线可以比较:
- 上体 IK + 下体速度策略。
- 单策略 PPO。
- 双策略 PPO。
- WBC + residual。
- 你的力课程或阻抗机制。
消融设计¶
消融必须对应核心假设。
如果主张“协方差调节提高安全”,消融就应去掉协方差调节。
如果主张“主动感知降低目标不确定性”,消融就应关闭主动观察。
如果主张“接触模式 residual 更适合接触任务”,消融就应换成单一 residual。
不要去掉无关模块来证明核心机制。
指标分类¶
| 指标类别 | 示例 |
|---|---|
| 任务指标 | 成功率、任务时间、目标误差 |
| 安全指标 | 约束违反次数、最小支撑裕度、最大接触力 |
| 效率指标 | 能耗、路径长度、求解时间 |
| 系统指标 | p99 延迟、周期抖动、日志丢帧 |
| 恢复指标 | 失败检测时间、恢复成功率、人工介入次数 |
安全成功率比普通成功率更有价值:
如果一个方法成功率高,但经常触碰安全边界,它不适合真实机器人。
实验日志¶
每条实验记录至少应包含:
- 实验编号。
- 代码版本。
- 配置哈希。
- 随机种子。
- 平台。
- 任务。
- 成功与否。
- 安全成功与否。
- 任务时间。
- 最大误差。
- 最大接触力。
- 最小支撑裕度。
- p99 求解时间。
- p99 网络延迟。
- 失败原因。
代码示例:实验记录¶
from dataclasses import dataclass
@dataclass
class ExperimentRecord:
experiment_id: str
git_commit: str
config_hash: str
random_seed: int
platform: str
task_name: str
success: bool
safe_success: bool
task_time_sec: float
max_tracking_error: float
max_contact_force: float
min_support_margin: float
mpc_solve_p99_ms: float
network_delay_p99_ms: float
intervention_count: int
failure_reason: str
# 中文注释:每条实验记录都应能追溯到配置、代码版本和日志文件
决策表¶
| 情况 | 优先做法 | 不宜做法 | 原因 |
|---|---|---|---|
| 安全关键 | 安全成功率 | 单纯成功率 | 失败代价高 |
| 学习策略 | 多随机种子统计 | 单次视频 | 方差大 |
| 系统论文 | 端到端指标 + 模块指标 | 只给整体成功 | 诊断需要 |
| 硬件实验少 | 高质量日志 + 消融 | 追求大量次数 | 真机昂贵 |
| 方法复杂 | 简化版本基线 | 只与弱规则比 | 贡献需可信 |
⚠️ 常见陷阱¶
⚠️ 基线太弱
错误想法:只和手写规则比。
典型现象:提升显得虚高。
根本原因:强基线是研究可信度来源。
正确做法:至少选一个领域认可基线。
⚠️ 消融不对应假设
错误想法:去掉无关优化证明核心机制。
典型现象:结论不成立。
根本原因:消融必须直接对应论文主张。
正确做法:围绕核心机制设计开关。
练习¶
- 为力敏感路线设计 4 个基线。
- 为统一闭环路线设计 5 个消融。
- 把成功率改写为安全成功率。
好的研究方法也要转化为可协作、可维护、可交付的工程资产。
100.12 工程资产与产业转化接口 ⭐⭐¶
动机:系统资产会影响长期竞争力¶
博士阶段构建的系统资产会影响毕业后的产业或学术竞争力。
可复用资产包括:
- 仿真环境。
- 控制接口。
- 数据集。
- 评测脚本。
- 硬件部署工具。
- 安全规范。
- 日志回放工具。
产业转化更关心可靠性、成本、维护和可解释故障。
只产出一次性实验代码会降低长期效率。
只追求论文指标可能忽略真实部署成本。
没有安全和日志接口,系统很难走向团队协作或产品原型。
代码分层¶
| 代码层 | 职责 | 示例 |
|---|---|---|
| algorithm | 核心方法 | 协方差调度、残差策略、协调器 |
| interface | 消息和硬件接口 | ROS 2 msg、控制器接口 |
| experiment | 场景和配置 | benchmark、扰动矩阵 |
| evaluation | 指标和图表 | 评测脚本、报告生成 |
| deployment | 真机部署 | 安全检查、启动脚本 |
算法层应尽量不依赖具体硬件。
接口层应稳定。
实验层可以快速变化。
评测层必须可复现。
部署层必须保守。
产业指标¶
| 指标 | 含义 |
|---|---|
| safe success rate | 安全成功率 |
| mean time to recover | 平均恢复时间 |
| intervention rate | 人工介入率 |
| task throughput | 单位时间任务量 |
| hardware wear | 硬件磨损指标 |
| deployment time | 新场景部署时间 |
| explainability | 失败原因可解释程度 |
这些指标不一定进入第一篇论文。
但它们能帮助研究接近真实产品问题。
风险与转向表¶
| 风险 | 早期信号 | 保守处理 | 转向路线 |
|---|---|---|---|
| 真机不可用 | 硬件排期持续推迟 | 强化仿真和 sim2sim | 转统一闭环仿真 benchmark |
| MPC 实时性不足 | p99 求解超预算 | 降阶模型和 warm-start | 转分层 MPC/WBC |
| RL 策略不稳定 | 多种子方差大 | 缩小任务和奖励 | 转残差或安全过滤 |
| SLAM 协方差不可用 | 估计不稳定或接口缺失 | 用经验风险图替代 | 转主动感知或对象跟踪 |
| VLA 部署太慢 | 边缘推理延迟过大 | 远程推理或小模型 | 转技能接口与安全过滤 |
| 多机硬件不足 | 无法同时使用两台平台 | 一真一仿或纯仿真 | 转单机协作对象任务 |
| 研究贡献不清 | 结果像系统集成 | 重写假设和消融 | 聚焦单一机制 |
| 任务过大 | 三个月无闭环结果 | 缩到最小任务 | 保留同一平台换问题 |
代码示例:方向评分脚本¶
from dataclasses import dataclass
@dataclass
class DirectionScore:
name: str
impact: float
feasibility: float
differentiation: float
resource_fit: float
cost: float
risk: float
def score_direction(d: DirectionScore) -> float:
# 中文注释:权重应由导师环境和个人目标调整,这里给出保守默认值
return (0.25 * d.impact
+ 0.25 * d.feasibility
+ 0.20 * d.differentiation
+ 0.15 * d.resource_fit
- 0.10 * d.cost
- 0.05 * d.risk)
candidates = [
DirectionScore("统一闭环", 5, 4, 5, 4, 3, 3),
DirectionScore("力敏感行走操作", 5, 4, 4, 4, 4, 3),
DirectionScore("世界模型", 5, 2, 5, 3, 5, 5),
]
for item in sorted(candidates, key=score_direction, reverse=True):
print(item.name, round(score_direction(item), 2))
⚠️ 常见陷阱¶
⚠️ 资产边界不清
错误想法:所有代码混在一个脚本里最快。
典型现象:复用困难。
根本原因:研究需要快速替换模块。
正确做法:按算法、接口、实验、评测分层。
⚠️ 忽略失败数据
错误想法:只保存成功日志。
典型现象:无法改进恢复能力。
根本原因:失败是机器人系统最有价值数据。
正确做法:建立失败案例库和原因标签。
练习¶
- 把自己的研究系统分成四个代码包。
- 定义产业方会关心的 6 个稳定性指标。
- 设计一个小型开源 benchmark 的目录结构。
到这里,方向、路线、执行和评测已经形成闭环。
100.12B 开源生态与平台选型深度分析 ⭐⭐⭐¶
动机:平台选择决定研究效率¶
博士阶段的平台选择不只是"买哪台机器人"。它决定了仿真工具链、开源基线的可用性、社区支持的密度和硬件维护的成本。一个正确的平台选择可以让 Year 1 的基线复现从 6 个月缩短到 2 个月;一个错误的选择可能导致半年的时间花在硬件调试和工具链适配上。
仿真平台对比¶
2025-2026 年主流仿真平台的选型矩阵:
| 平台 | GPU 并行 | 接触精度 | RL 生态 | MPC 接口 | 适用方向 |
|---|---|---|---|---|---|
| IsaacLab (NVIDIA) | 极强(8192+ envs) | 中等 | 最成熟 | 需自行接入 | 腿足 RL、轮足 RL |
| MuJoCo (DeepMind) | 中等(GPU 支持中) | 高 | 成长中 | 好(mjpc) | MPC、精细接触、sim2sim |
| PyBullet | 弱(CPU) | 中等 | 基础 | 好 | 快速原型 |
| Genesis | 强(GPU) | 中等 | 新兴 | 有限 | 研究前沿探索 |
| Gazebo/ROS 2 | 弱 | 中等 | 弱 | 好 | 系统集成、多机 |
选型决策树:
如果方向是 RL 密集的(路线 B、C),优先选 IsaacLab——它的 GPU 并行能力决定了训练速度的天花板。
如果方向是 MPC 密集的(路线 A),优先选 MuJoCo——它的接触模型更精确,且 OCS2/Pinocchio 的 MuJoCo 接口更成熟。
如果方向是多机协作的(路线 D),考虑 Gazebo/ROS 2——它的通信和多机器人仿真生态最完整。
如果需要 sim2sim 验证(所有方向),在主仿真器之外保留一个 MuJoCo 环境做交叉验证。
硬件平台对比¶
| 平台 | 自由度 | 臂 | 开源程度 | 价格范围 | 适用路线 |
|---|---|---|---|---|---|
| Go2 + Z1 | 12+6 | 单臂 | 高 | 中等 | A(统一闭环)、D(多机) |
| G1 | 23+ | 双臂 | 中高 | 较高 | B(力敏感)、C(人形) |
| H1 | 19+ | 双臂 | 中 | 高 | C(人形 sim2real) |
| Booster T1 | 24+ | 双臂 | 中 | 高 | B(力敏感人形) |
| B2-W | 8+4轮 | 无 | 中高 | 中等 | 轮足 RL |
类比:选择研究平台就像选择攀岩路线——Go2+Z1 是"经典路线"(成熟、安全、资料多),G1 是"前沿路线"(热门、竞争大、回报高),H1/T1 是"挑战路线"(难度高、资源少、差异化强)。选择应基于个人能力、实验室资源和研究目标,不是跟风。这个类比的边界在于:攀岩路线难度固定,而研究平台的生态在快速变化——今天的"前沿路线"可能在两年后变成"经典路线"。
开源代码生态¶
| 代码库 | 方向 | 关键能力 | 复现难度 |
|---|---|---|---|
| legged_gym / rsl_rl | 腿足 RL | PPO、课程、DR | ⭐⭐ |
| Wheel-Legged-Gym | 轮足 RL | 轮足观测/奖励设计 | ⭐⭐ |
| OCS2 | MPC | 全身 MPC、移动操作 | ⭐⭐⭐ |
| Pinocchio / pin | 动力学 | RNEA、ABA、Jacobian | ⭐⭐ |
| IsaacLab | RL + 仿真 | GPU 并行、资产管理 | ⭐⭐ |
| HumanoidVerse | 人形 RL | 多技能、运动重定向 | ⭐⭐⭐ |
| openpi / Diffusion Policy | 操作策略 | 条件扩散、Action Chunk | ⭐⭐⭐ |
| GTSAM | SLAM | 因子图、协方差 | ⭐⭐⭐ |
决策表¶
| 资源条件 | 推荐仿真 | 推荐硬件 | 推荐代码栈 |
|---|---|---|---|
| GPU 强、硬件有限 | IsaacLab | Go2+Z1(性价比) | legged_gym + OCS2 |
| GPU 中等、硬件充足 | MuJoCo + IsaacLab | G1 | IsaacLab + Pinocchio |
| 多机需求 | Gazebo + IsaacLab | 双 Go2+Z1 | ROS 2 + OCS2 |
| 人形方向 | IsaacLab | G1 / H1 | HumanoidVerse |
| SLAM 交叉 | MuJoCo + Gazebo | Go2+Z1 | GTSAM + OCS2 |
⚠️ 常见陷阱¶
⚠️ 一开始就选择最贵的平台
错误想法:G1 比 Go2 好,所以研究也更好。
典型现象:硬件维护消耗大量时间。
根本原因:复杂硬件的维护成本与研究产出不成正比。
正确做法:用最简平台验证核心假设,用复杂平台做泛化验证。
⚠️ 忽略仿真器之间的差异
错误想法:在 IsaacLab 训练好的策略直接在 MuJoCo 也能用。
典型现象:sim2sim 行为差异很大。
根本原因:两个仿真器的接触模型和数值积分器不同。
正确做法:把 sim2sim 验证作为实验流程的标准步骤。
练习¶
- 为自己的候选方向列出仿真和硬件选型理由。
- 估算三种平台组合的一年运营成本(硬件折旧、维护、算力)。
- 选择一个开源代码库,列出从克隆到跑通 demo 的步骤和预计时间。
发表节奏与策略¶
博士阶段的发表不是越多越好,而是要形成清晰的研究主线。
推荐的发表节奏:
| 年份 | 目标 | 投稿类型 | 内容 |
|---|---|---|---|
| Year 1 下半年 | workshop paper 或 arXiv | 短文 / 技术报告 | 基线复现 + 初步机制 |
| Year 2 | 第一篇顶会 | ICRA / IROS | 核心机制 + 消融 + 仿真实验 |
| Year 3 | 第二篇顶会 | CoRL / RSS | 扩展任务 + 真机实验 |
| Year 4 | 系统论文或期刊 | T-RO / RA-L | 统一框架 + 完整评测 |
| Year 5 | 学位论文 | 博士论文 | 全部工作的统一叙事 |
发表策略的关键原则:
- 第一篇论文不要太大。一个清晰的机制 + 充分的消融就够了。系统级的宏大叙事留给后续论文。
- 每篇论文都应有开源代码。开源不仅增加引用,更重要的是迫使你写出可复现的实验流程。
- 失败实验也有价值。如果核心假设被否定,把否定的过程和发现写成论文——"X 不work,因为 Y"在某些情况下比"X works"更有信息量。
- 避免 paper 之间的断裂。每篇论文应自然地指向下一篇——Year 2 的论文提出的开放问题应在 Year 3 的论文中回答。
学术写作的工程化¶
研究计划书和论文的写作可以用工程方法管理:
| 写作阶段 | 时间分配 | 核心产出 |
|---|---|---|
| 大纲 | 1 天 | 节标题 + 每节一句话 |
| 实验 → 图表 | 2-4 周 | 所有关键图表先做出来 |
| 正文初稿 | 1-2 周 | 围绕图表写叙事 |
| 迭代修改 | 1-2 周 | 基于反馈修改 |
| 投稿前检查 | 2-3 天 | 格式、引用、补充材料 |
本质洞察:好的论文不是"写出来"的,是"实验出来"的。如果实验结果清晰、图表有说服力,论文写作只是把已有的结论组织成叙事。如果写论文时发现"不知道该怎么说",通常说明实验还不够充分——需要回去补实验,而不是硬写。
⚠️ 常见陷阱¶
⚠️ 第一年只做调研不做实验
错误想法:先读 200 篇论文再动手。
典型现象:一年后对领域很了解但没有任何系统产出。
根本原因:实验和调研应并行。
正确做法:Month 1-3 边读核心论文边搭环境,Month 4-6 边深度调研边做基线实验。
⚠️ 追求完美才发表
错误想法:实验必须覆盖所有场景才能投稿。
典型现象:始终在"还差一点"。
根本原因:顶会论文不需要完美,需要"一个清晰贡献 + 足够的证据"。
正确做法:当核心机制被消融验证后,就开始写论文。
练习¶
- 为 Year 2 的论文写一个 250 字 abstract,包含问题、方法、实验和结论。
- 设计 Year 2 论文的核心图:一张系统架构图 + 一张消融结果表。
- 列出从投稿到接收可能需要的修改类型和预计时间。
100.13 综合项目:博士启动包¶
项目目标¶
选择一条主线和一条备线。
搭建一个可运行的最小闭环系统。
建立日志、回放、指标和实验配置管理。
复现至少一个强基线。
完成一个核心机制的 A/B 对照。
形成下一年可执行的季度计划。
交付物¶
| 交付物 | 内容 | 验收标准 |
|---|---|---|
| direction_card.md | 研究问题和假设 | 一句话说清主线 |
| baseline_report.md | 基线复现结果 | 包含指标和失败样例 |
| experiment_config/ | 实验配置 | 可复现实验参数 |
| log_schema.md | 日志字段 | 覆盖任务、安全、系统指标 |
| ablation_report.md | 机制消融 | 至少一组 A/B 对照 |
| year1_plan.md | 第一年计划 | 季度里程碑明确 |
最小验收命令示例¶
# 运行基线仿真实验
uv run scripts/run_experiment.py --config configs/baseline.yaml
# 计算任务、安全和系统指标
uv run scripts/evaluate_logs.py --log runs/baseline/latest
# 运行核心机制对照实验
uv run scripts/run_experiment.py --config configs/ours_uncertainty_aware.yaml
# 生成对比表
uv run scripts/compare_runs.py --a runs/baseline/latest --b runs/ours/latest
方向卡片模板¶
研究计划书结构¶
研究计划书不应堆砌文献。
它应围绕系统和假设展开。
建议结构如下:
- 问题背景:真实任务中的失败模式是什么。
- 核心假设:为什么你的机制会改善它。
- 系统设计:最小闭环包含哪些模块。
- 实验计划:基线、消融、扰动和指标。
- 风险预案:硬件、算力、数据、方法失败时如何处理。
- 五年路线:每年产出什么系统和结论。
- 预期贡献:机制、系统、数据或工具。
100.13B 研究路线的风险对冲策略 ⭐⭐⭐¶
动机:单点押注的脆弱性¶
博士路线最大的风险不是"做不出来",而是"做出来了但没有价值"——核心假设被否定、平台被淘汰、竞争者抢先发表。这些风险无法消除,但可以通过系统化的对冲策略来管理。
风险分类与对冲¶
| 风险类型 | 示例 | 发生概率 | 对冲策略 |
|---|---|---|---|
| 假设风险 | 协方差调节对安全无显著影响 | 中 | 设计假设阶梯,每层可独立发表 |
| 平台风险 | G1 停产或接口变更 | 低 | 抽象硬件接口,保留 sim2sim 能力 |
| 竞争风险 | 同行在 ICRA deadline 前发表类似工作 | 中高 | 保持系统差异化,不只做算法 |
| 数据风险 | 真机实验数据不足 | 中 | 建立仿真评测基准,减少对真机的依赖 |
| 工程风险 | 系统集成耗时超预期 | 高 | 模块化设计,每个模块可独立验证 |
假设阶梯是最重要的对冲工具。它把一个大假设拆成多层小假设,每层都可以独立验证和发表:
假设阶梯示例(路线 A:统一闭环):
Level 1(最基础):
假设:地图方差可以区分安全和不安全落足区域
验证:离线相关性分析
产出:workshop paper / arXiv
Level 2(闭环验证):
假设:把地图方差接入 MPC 代价可以降低落足错误率
验证:A/B 实验
产出:ICRA / IROS paper
Level 3(系统验证):
假设:主动感知可以在不增加任务时间的情况下降低关键不确定性
验证:多场景实验
产出:RSS / CoRL paper
Level 4(框架验证):
假设:统一闭环框架可以泛化到多种移动操作任务
验证:多任务实验
产出:T-RO / 系统论文
每一层即使下一层失败也能独立成立。Level 1 失败时(协方差与安全不相关),可以转向其他风险指标(如距离度量)。Level 2 失败时(闭环改进不显著),可以转向主动感知或物体级 SLAM。
竞争分析方法¶
定期(至少每季度)做一次竞争分析:
- 搜索 arXiv 上最近 3 个月的相关论文
- 检查是否有人做了类似的工作
- 如果有,分析差异化:你的工作是否有他们没有的维度?
- 如果差异不够,调整研究角度或加速实验
不是 X 而是 Y:竞争分析的目的不是避免做相同的事。在机器人领域,独立复现和验证本身就有价值。目的是确保你的贡献有清晰可辨识的差异化——不同的平台、不同的约束处理方式、不同的评测维度、或更完整的系统集成。
转向决策框架¶
当主线遇到困难时,何时坚持、何时转向?
"有进展"的定义:每个季度至少有一个可验收产物(数据、代码、实验结果、论文草稿)。
"假设被否定"的定义:消融实验显示核心机制无效,且无法通过调整来挽救。
"资源不可得"的定义:关键硬件无法使用超过两个月,或关键合作者退出。
⚠️ 常见陷阱¶
⚠️ 把坚持等同于执着
错误想法:方向选了就不能变。
典型现象:明知假设有问题仍继续投入。
正确做法:坚持的是研究问题,不是具体方法。方法可以换,问题的核心不变。
⚠️ 转向太频繁
错误想法:每次遇到困难就换方向。
典型现象:三年换了四个方向,每个都只做了初步。
正确做法:给每个方向至少 6 个月的验证周期再决定是否转向。
练习¶
- 为自己的主线方向写一个四层假设阶梯。
- 定义"假设被否定"的具体判据:什么实验结果出现时,你应该考虑转向?
- 设计一个季度竞争分析模板:需要搜索哪些关键词、检查哪些会议、记录哪些信息。
100.14 练习合集¶
- 写一页研究方向卡片:问题、假设、系统、指标、基线、风险。
- 为路线 A 设计 180 天计划,并指定每月验收命令。
- 为路线 B 设计一个力敏感 benchmark,包含任务、扰动和指标。
- 为路线 C 写出 sim-to-real 安全检查表。
- 为路线 D 设计双机协作的最小仿真系统。
- 为路线 E 定义 belief state,不超过 30 维。
- 选择一个方向,列出三个强基线和三个消融。
- 把一个宽泛题目改写成可验证假设。
- 设计一份失败案例记录表,要求能定位感知、控制、通信或硬件原因。
- 写 2000 字研究计划书,重点写系统和实验路线,不堆砌文献。
100.14B 跨方向的共享资产与技术栈复用 ⭐⭐¶
动机:避免重复造轮子¶
五条候选路线虽然研究问题不同,但它们共享大量底层技术组件。如果每条路线都从零开始搭建这些组件,工程投入会翻倍。反之,如果提前规划共享资产,切换路线的成本会大幅降低。
共享资产矩阵¶
| 资产 | 路线 A | 路线 B | 路线 C | 路线 D | 路线 E |
|---|---|---|---|---|---|
| IsaacLab 环境 | 是 | 是 | 是 | 是 | 是 |
| PPO/RL 训练管线 | 部分 | 是 | 是 | 是 | 部分 |
| OCS2 MPC 接口 | 是 | 部分 | 部分 | 是 | 部分 |
| Pinocchio 动力学 | 是 | 是 | 是 | 是 | 部分 |
| SLAM/VIO | 是 | 部分 | 部分 | 是 | 是 |
| 日志与评测 | 是 | 是 | 是 | 是 | 是 |
| ROS 2 接口 | 是 | 是 | 是 | 是 | 是 |
| ONNX 导出 | 部分 | 是 | 是 | 是 | 部分 |
日志与评测是所有路线都需要的基础设施,应在 Month 1-2 就建立。一个好的日志系统应满足:
- 可回放:从日志中可以重放完整的实验过程
- 可查询:可以按时间、事件、指标筛选日志
- 可对比:不同实验的日志格式一致,可以自动生成对比表
技术栈复用策略¶
当从路线 A 转向路线 B 时(例如从统一闭环转向力敏感操作),可以复用的资产包括:
| 复用资产 | 从 A 到 B 的修改 |
|---|---|
| IsaacLab 环境 | 增加外力扰动和力传感器仿真 |
| 评测脚本 | 增加接触力指标 |
| 日志系统 | 增加力矩和接触力字段 |
| SLAM 模块 | 可能不需要(路线 B 更关注控制) |
| ROS 2 接口 | 增加力反馈消息类型 |
复用的关键是接口稳定。如果每个模块的输入输出接口是稳定的(用 protobuf 或 ROS 2 msg 定义),替换模块内部实现时不影响其他模块。
反事实推理:如果不做共享资产规划,从路线 A 转向路线 B 需要多少额外工作?大约 2-3 个月的环境搭建和日志适配。如果做了规划,转向只需要 2-3 周的模块替换和指标增加。差距是 5-10 倍。
⚠️ 常见陷阱¶
⚠️ 过度设计共享基础设施
错误想法:花 3 个月设计一个"完美的"通用框架再开始研究。
典型现象:框架完成后研究方向已经变了。
正确做法:先做最小可用基础设施,在实际使用中迭代改进。
练习¶
- 画出自己选择的两条路线之间的共享资产图。
- 估算有共享资产和无共享资产时,路线切换的时间成本差异。
- 为日志系统设计一个最小 schema,覆盖任务、安全和系统三类指标。
100.15 本章总结¶
| 主题 | 核心结论 | 可执行产物 |
|---|---|---|
| 方向选择 | 选择研究斜坡,不选择热门词 | 方向评分表 |
| 能力资产 | SLAM+控制+RL+C++ 是稀缺组合 | 能力映射图 |
| 路线 A | 统一闭环突出 SLAM 不确定性价值 | 协方差到控制原型 |
| 路线 B | 力敏感任务贴近人形前沿 | 动态接触 benchmark |
| 路线 C | 人形 sim-to-real 需要部署闭环 | G1 基线和 residual 实验 |
| 路线 D | 多机协作强调合同和自治 | 双机搬运仿真 |
| 路线 E | 世界模型适合作为中后期扩展 | belief state 和想象规划 |
| 五年路线 | 每年都有系统、机制、数据和评测 | 季度计划 |
| 180 天计划 | 先闭环、再创新、再扩展 | 博士启动包 |
100.16 延伸阅读与实践路径¶
| 方向 | 优先实践 | 建议阅读重点 |
|---|---|---|
| 统一闭环 | SLAM 协方差调节 MPC | Perceptive MPC、因子图不确定性 |
| 力敏感 | FALCON/SoFTA/FAME 风格基线 | 双策略 RL、阻抗、动量指标(FAME, arXiv 2026; CLAWAR 2025 loco-manipulation 专题) |
| 人形 sim-to-real | G1 velocity + motion tracking | ASAP、HumanoidVerse、IsaacLab(VB-Com 2025、BeamDojo 2025) |
| 多机协作 | 双机搬运仿真 | 分布式优化、anchor SLAM、局部自治 |
| 世界模型 | 技能后果预测 | Dreamer 类方法、SLAM belief、任务规划(3D World Model 2025-2026 前沿) |
课程收束:前面的章节提供了动力学、MPC、WBC、RL、VLA、SLAM 和多机协作的技术组件。本章的作用是把组件转化为博士研究路线。真正的起点不是再读一批论文,而是搭建第一个可回放、可评测、可失败分析的最小闭环系统。
100.17 常见误解汇总¶
| 误解 | 正确理解 |
|---|---|
| 热门方向一定适合做博士主线 | 方向选择需要匹配个人能力、资源和可行性 |
| 方向评分越高越好 | 评分必须体现资源约束和关键风险,不能全打高分 |
| 博士一定要选最前沿的方向 | 稳定的"可产出问题的研究斜坡"比单一热点更重要 |
| 研究路线一旦确定不能变 | 坚持的是研究问题,方法和工具可以随时调整 |
| 180 天内应该产出论文 | 180 天的目标是可复现闭环系统,不是论文 |
| 消融实验只在写论文前做 | 消融应在研究全过程中持续进行 |
| 工程资产不算研究贡献 | 机器人领域中可复用的系统和基线本身是贡献 |
| 方向选完就开始读论文 | 调研和实验应并行,Month 1 就应搭环境 |
| 所有路线都需要真机 | 前期可完全在仿真中验证,真机是后期泛化验证 |
| 世界模型适合做第一天的主线 | 高风险方向更适合作为中后期扩展或联合方向 |
100.18 研究实践建议¶
给新手的建议¶
- 先跑通一个现有系统再想改进。尝试改进一个你跑不通的系统是最大的时间浪费。
- 建立日志习惯。每次实验都记录:版本、配置、结果、失败原因。三个月后你会感谢自己。
- 不要同时做两个方向。深入一个方向比浅尝两个方向更有价值。
- 定期和导师/同行讨论。独自工作超过两周就容易陷入局部最优。
- 失败是信息,不是错误。每次失败都应该产出一条"为什么失败"的笔记。
给有经验者的建议¶
- 区分"有趣"和"可发表"。有趣的探索是必要的,但博士路线需要可发表的核心。
- 投资可复用基础设施。花两周写好日志和评测系统,比花三个月手动记录更高效。
- 关注系统级贡献。在算法趋同的时代,系统集成和可部署性是差异化来源。
- 安全成功率比成功率更有价值。真实部署关心的不是"能不能做到",而是"做到时是否安全"。
- 保持对硬件的直觉。每月至少花一天时间操作真机(哪怕只是遥控走动),保持对物理世界的感觉。
100.18B 博士阶段的心理建设与时间管理¶
动机:研究效率受心理状态影响¶
博士五年不仅是技术挑战,也是心理挑战。理解常见的心理陷阱并提前建立应对机制,对于持续产出同样重要。
常见心理陷阱与应对¶
| 心理陷阱 | 触发情境 | 应对策略 |
|---|---|---|
| 方向焦虑 | 看到别人做的方向更热 | 回顾方向卡片中的差异化分析 |
| 完美主义 | 实验结果"还不够好" | 设定明确的"足够好"标准 |
| 冒名顶替症候群 | 感觉自己不够资格 | 记录已完成的系统和实验清单 |
| 对比焦虑 | 同行发表了更好的结果 | 专注于自己路线的独特贡献 |
| 沉没成本 | 已投入半年但方向有问题 | 用转向决策框架客观评估 |
时间分配建议¶
一周 50 小时的工作时间推荐分配:
| 活动 | 时间占比 | 小时/周 |
|---|---|---|
| 编码和实验 | 40% | 20 |
| 阅读和调研 | 15% | 7.5 |
| 写作和文档 | 15% | 7.5 |
| 讨论和会议 | 10% | 5 |
| 学习新技能 | 10% | 5 |
| 反思和规划 | 10% | 5 |
每周至少 5 小时用于"反思和规划"——回顾本周做了什么、下周要做什么、当前路线是否偏离。没有这个反思时间,很容易在"忙碌但无产出"的状态中停留数周。
章末统一练习与故障排查¶
⚠️ 易错点一:只看单个指标。 300_研究方向与博士规划 中的任何结论都应同时检查任务指标、物理约束和软件接口。只看总误差或总奖励,容易把模型错误误判为参数问题。
💡 易错点二:忽略坐标系和时间戳。 复合机器人控制链很长,坐标系、采样频率和延迟一旦没有显式记录,后续所有优化和学习结果都会失去解释力。
🧠 易错点三:把演示成功当成系统可靠。 教学实验应至少包含一次扰动、一次异常输入和一次日志复盘,才能说明方法的边界。
练习¶
- 选择本章一个核心公式,写出每一项的单位、坐标系和数据来源。
- 选择本章一个代码片段,说明它依赖哪些配置项;如果配置错一个符号,会出现什么日志现象?
- 设计一个只改变单个因素的实验,用来验证本章最关键的工程判断。
本质洞察:复合机器人文档中的公式、代码和项目不是三块孤立内容。公式定义可行边界,代码实现边界,项目用日志证明边界是否真实存在。
故障排查¶
| 症状 | 优先怀疑 | 验证动作 |
|---|---|---|
| 仿真正常但部署异常 | 观测、坐标系或时间戳不一致 | 用同一段日志离线回放训练端和部署端 |
| 指标突然变差 | 模式切换、限幅或安全壳触发 | 画出模式、保护标志和控制命令 |
| 调参没有效果 | 根因不是权重而是模型假设错误 | 回到最小实验,关闭无关模块 |
| 结果难以复现 | 配置没有版本化 | 保存模型哈希、配置哈希和随机种子 |