littlebot
Published on 2025-04-08 / 1 Visits
0

【源码】基于Mindspore框架的视觉语言导航系统

项目简介

本项目基于Mindspore框架实现了视觉语言导航系统。借助大型预训练模型(如ChatGPT和CLIP),系统具备在开放世界环境中进行视觉语言导航(VLN)的能力,能依据语言指令发现并校正地标,在未探索场景中实现精确导航。

项目的主要特性和功能

  1. 地标发现与校正:运用ChatGPT获取开放世界地标共现常识,通过CLIP模型进行视觉地标发现,引入可学习的共现评分模块校正地标的重要性。
  2. 观察增强策略:设计观察增强策略,用校正后的地标特征增强观察特征,提高导航决策的准确性。
  3. 多基准测试:在R2R、REVERIE、R4R、RxR等多个流行的VLN基准上开展广泛实验,在不可见场景中显著优于现有基线。

安装使用步骤

环境安装

  1. 安装Mindsporebash conda create -n mindspore_console_py39 python=3.9 -y conda activate mindspore_console_py39 pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.3.0rc2/MindSpore/unified/x86_64/mindspore-2.3.0rc2-cp39-cp39-linux_x86_64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
  2. 安装其他依赖bash pip install -r requirements.txt git clone -b r1.1.0 https://gitee.com/mindspore/mindformers.git cd mindformers bash build.sh pip install mindnlp==0.3.2 cd pytorch-image-models git checkout 9cc7dda6e5fcbbc7ac5ba5d2d44050d2a8e3e38d
  3. 安装Matterport3D模拟器

数据准备

  1. 下载特征和连接文件
  2. 下载注释数据:从这里下载包含顺序地标和地标共现的注释数据。

导航推理

  1. 运行VLN推理bash cd finetune_src bash scripts/run_r2r_mindspore.sh

引用

如果您使用本项目,请考虑引用以下论文: bibtex @article{lin2024correctable, title={Correctable Landmark Discovery Via Large Models for Vision-Language Navigation}, author={Lin, Bingqian and Nie, Yunshuang and Wei, Ziming and Zhu, Yi and Xu, Hang and Ma, Shikui and Liu, Jianzhuang and Liang, Xiaodan}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2024}, publisher={IEEE} }

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】