VLA (Eval)

· Last updated: 2025-09-13 226 字 · 1 分钟

Summary

这部分内容包含两个方面,一个是常见用于评测manip能力的典型任务(或者任务组合)有哪些,另一个是衡量这些任务完成效果和完成程度的指标有哪些。

如果不把换个操作对象认为是换了一个种类的话,典型任务的种类其实并不多,无非叠软体衣物、pick-and-place、开关铰链物体、拔插组合物体四类。

图片

而衡量任务的完成质量的指标也并不像视觉/自然语言处理领域那样百花齐放。基本上,现有工作所用的指标都是比较直觉性的success rate(SR)、average task progress(ATP)、 Interaction Failure rate(IF rate,是更加过程性的一个指标)。

Task Suite: Google Robot

Eval in sim: SIMPLER

Eval in sim: L-CALVIN

复刻RLHF Reward Model?

© Nataraj Basappa 2025