项目简介
本项目基于Mindspore框架实现了视觉语言导航系统。借助大型预训练模型(如ChatGPT和CLIP),系统具备在开放世界环境中进行视觉语言导航(VLN)的能力,能依据语言指令发现并校正地标,在未探索场景中实现精确导航。
项目的主要特性和功能
- 地标发现与校正:运用ChatGPT获取开放世界地标共现常识,通过CLIP模型进行视觉地标发现,引入可学习的共现评分模块校正地标的重要性。
- 观察增强策略:设计观察增强策略,用校正后的地标特征增强观察特征,提高导航决策的准确性。
- 多基准测试:在R2R、REVERIE、R4R、RxR等多个流行的VLN基准上开展广泛实验,在不可见场景中显著优于现有基线。
安装使用步骤
环境安装
- 安装Mindspore:
bash conda create -n mindspore_console_py39 python=3.9 -y conda activate mindspore_console_py39 pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.3.0rc2/MindSpore/unified/x86_64/mindspore-2.3.0rc2-cp39-cp39-linux_x86_64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
- 安装其他依赖:
bash pip install -r requirements.txt git clone -b r1.1.0 https://gitee.com/mindspore/mindformers.git cd mindformers bash build.sh pip install mindnlp==0.3.2 cd pytorch-image-models git checkout 9cc7dda6e5fcbbc7ac5ba5d2d44050d2a8e3e38d
- 安装Matterport3D模拟器:
数据准备
- 下载特征和连接文件:
- 下载注释数据:从这里下载包含顺序地标和地标共现的注释数据。
导航推理
- 运行VLN推理:
bash cd finetune_src bash scripts/run_r2r_mindspore.sh
引用
如果您使用本项目,请考虑引用以下论文:
bibtex
@article{lin2024correctable,
title={Correctable Landmark Discovery Via Large Models for Vision-Language Navigation},
author={Lin, Bingqian and Nie, Yunshuang and Wei, Ziming and Zhu, Yi and Xu, Hang and Ma, Shikui and Liu, Jianzhuang and Liang, Xiaodan},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
year={2024},
publisher={IEEE}
}
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】