VLA (Eval)
Summary
这部分内容包含两个方面,一个是常见用于评测manip能力的典型任务(或者任务组合)有哪些,另一个是衡量这些任务完成效果和完成程度的指标有哪些。
如果不把换个操作对象认为是换了一个种类的话,典型任务的种类其实并不多,无非叠软体衣物、pick-and-place、开关铰链物体、拔插组合物体四类。

而衡量任务的完成质量的指标也并不像视觉/自然语言处理领域那样百花齐放。基本上,现有工作所用的指标都是比较直觉性的success rate(SR)、average task progress(ATP)、 Interaction Failure rate(IF rate,是更加过程性的一个指标)。
Task Suite: Google Robot
Eval in sim: SIMPLER
- paper link: https://arxiv.org/abs/2405.05941
Eval in sim: L-CALVIN
- paper link: https://arxiv.org/abs/2405.05941
复刻RLHF Reward Model?