Cue (0827 - ?)

· Last updated: 2025-09-13 770 字 · 4 分钟

数据/任务篇

具身领域任务一词含义非常丰富且不统一,不像在视觉和语言大模型领域有mask prediction和next-token prediction这样非常成熟的能力训练范式,而后者常见的做法是同一个大型高质量图文对齐数据集可以服务于各种各样的任务。
进一步说,Embodied数据不是静态的像素或语言数据,而是物理交互生成的。要合成一条有意义的数据(trajectory + observations + rewards),必须先定义任务和场景才行。具身的数据无法经过预处理适配新的任务(除非把仿真里换贴图和简单更换pick-and-place物品性质,但轨迹不变的场景称作新的任务)
所以,以我一个初学者的幼稚观点看来,数据、任务、场景,这三件事情在具身领域是比其他的AI相关领域更为紧密地捆绑在一起的。

  • Q:现在vla的数据都是什么样的?

    • RT-1:
    • RT-2:
    • Gr00t:
    • $\pi_{0}$:
    • $\pi_{0.5}$: 移动操作数据仅占PI-0.5训练集的3%。这些复杂的机器人数据很难获取。剩下的97%数据来自其他机器人的具身,包括可以放置在各种不同位置的更简单的机械臂、在实验室中收集的机器人数据等等。
    • GR-3:
  • Q:提高interactivity(铰链,开火,开水管,软体仿真,电梯)会不会有用?

  • Q:「GRscene benchmark里面是什么」 A:一堆房型,感觉像nav的benchmark

  • Q:现在的vla泛化性究竟如何?能接收什么样的指令?(以openvla和gr00t为例说明)

  • Q:如何衡量manip任务的数据多样性

  • Q:如何利用室内场景生成任务?如何判断生成的任务种类是否齐全?

  • Q:如何生成复杂任务/应该用室内场景合成什么样的数据?

    可以参考一下RoboGen。其中的合成task几乎已经是合成data,合成task并非只是生成task目录,而是指高层任务语义+任务所需场景+任务关联的关节和连杆+子任务分解+学习方式选择+训练监督的全流程生成。

  • Q:举例说明常用的数据合成方法?

    1 RL 的数据不是事先标注的,而是智能体通过和环境交互自动采样的。也就是说,RL policy 本身不依赖静态标注数据,而是靠 reward 信号引导探索,需要一个模拟器或真实环境,然后 RL 通过不断试错积累轨迹,最后这些轨迹可以当作 dataset 供下游训练。 2

  • Q:如何看待world model/video generation model用于机器人训练?ego-centric video generation呢?

    • Genie Envisioner

仿真篇

  • Q:用实验数据说明sim2real gap具体在哪里?能不能用ACDC类似的real2sim2real方法解决?

  • Q:sim的数据、训练和评测相对于real有什么样的优势?是否可以基于桃源做一套评测系统?

© Nataraj Basappa 2025