VLN
写在前面
希望早日build起vln和vla(manip)的结合体,所以会着重关注memory representation的方式
Summary
Table 1 可能并不完整的简陋VLN Collection
Name | model | data | speed | benchmark | task | hardware | action |
---|---|---|---|---|---|---|---|
感觉VLN领域最近一年的动向和VLA有些区别,不是几篇代表作+后续全是同质的模式。
一些meta-annotation:
- ASM: Annotated Semantic Map
ASM review Semantic Mapping in Indoor Embodied AI – A Survey on Advances, Challenges, and Future Directions
- paper link:https://arxiv.org/pdf/2501.05750
$Nav^3$
Understanding Any Instruction, Navigating Anywhere, Finding Anything 前天刚挂的,趁热看
- paper link: https://arxiv.org/pdf/2508.04598
- time: 2025/08
- core idea:
- Understanding Any Instruction, Navigating Anywhere, Finding Anything
- reading note:
- 怀疑3D scene建立一个场景的semantics & memory从RGB image出发,reconstruct出来破破烂烂的3D point cloud的必要性,所以把前序工作Map Nav也看了一下,但还是解决不了这个疑问。从当前的camera vision映射到memory map有没有必要用3D数据格式?
- 最后就是在latex里面玩一些前端花活还真的挺吸引人的。