VLA (Eval)

2025-07-29 · Last updated: 2025-10-24 226 字 · 1 分钟

Summary

这部分内容包含两个方面，一个是常见用于评测manip能力的典型任务（或者任务组合）有哪些，另一个是衡量这些任务完成效果和完成程度的指标有哪些。

如果不把换个操作对象认为是换了一个种类的话，典型任务的种类其实并不多，无非叠软体衣物、pick-and-place、开关铰链物体、拔插组合物体四类。

而衡量任务的完成质量的指标也并不像视觉/自然语言处理领域那样百花齐放。基本上，现有工作所用的指标都是比较直觉性的success rate(SR)、average task progress(ATP)、 Interaction Failure rate(IF rate，是更加过程性的一个指标)。

Task Suite: Google Robot

Eval in sim: SIMPLER

Eval in sim: L-CALVIN

复刻RLHF Reward Model？