VLN

· Last updated: 2025-09-13 253 字 · 2 分钟

写在前面

希望早日build起vln和vla(manip)的结合体,所以会着重关注memory representation的方式

Summary

Table 1 可能并不完整的简陋VLN Collection

Namemodeldataspeedbenchmarktaskhardwareaction

感觉VLN领域最近一年的动向和VLA有些区别,不是几篇代表作+后续全是同质的模式。
一些meta-annotation: - ASM: Annotated Semantic Map

ASM review Semantic Mapping in Indoor Embodied AI – A Survey on Advances, Challenges, and Future Directions

  • paper link:https://arxiv.org/pdf/2501.05750

$Nav^3$

Understanding Any Instruction, Navigating Anywhere, Finding Anything 前天刚挂的,趁热看

  • paper link: https://arxiv.org/pdf/2508.04598
  • time: 2025/08
  • core idea:
    • Understanding Any Instruction, Navigating Anywhere, Finding Anything
  • reading note:
    • 怀疑3D scene建立一个场景的semantics & memory从RGB image出发,reconstruct出来破破烂烂的3D point cloud的必要性,所以把前序工作Map Nav也看了一下,但还是解决不了这个疑问。从当前的camera vision映射到memory map有没有必要用3D数据格式?
    • 最后就是在latex里面玩一些前端花活还真的挺吸引人的。

© Nataraj Basappa 2025