VLN

2025-08-06 · Last updated: 2025-09-13 253 字 · 2 分钟

写在前面

希望早日build起vln和vla(manip)的结合体，所以会着重关注memory representation的方式

Summary

Table 1 可能并不完整的简陋VLN Collection

感觉VLN领域最近一年的动向和VLA有些区别，不是几篇代表作+后续全是同质的模式。
一些meta-annotation: - ASM: Annotated Semantic Map

ASM review Semantic Mapping in Indoor Embodied AI – A Survey on Advances, Challenges, and Future Directions

$Nav^3$

Understanding Any Instruction, Navigating Anywhere, Finding Anything 前天刚挂的，趁热看

paper link: https://arxiv.org/pdf/2508.04598
time: 2025/08
core idea:
- Understanding Any Instruction, Navigating Anywhere, Finding Anything
reading note:
- 怀疑3D scene建立一个场景的semantics & memory从RGB image出发，reconstruct出来破破烂烂的3D point cloud的必要性，所以把前序工作Map Nav也看了一下，但还是解决不了这个疑问。从当前的camera vision映射到memory map有没有必要用3D数据格式？
- 最后就是在latex里面玩一些前端花活还真的挺吸引人的。