【源码】基于Mindspore框架的视觉语言导航系统

项目简介

本项目基于Mindspore框架实现了视觉语言导航系统。借助大型预训练模型（如ChatGPT和CLIP），系统具备在开放世界环境中进行视觉语言导航（VLN）的能力，能依据语言指令发现并校正地标，在未探索场景中实现精确导航。

项目的主要特性和功能

地标发现与校正：运用ChatGPT获取开放世界地标共现常识，通过CLIP模型进行视觉地标发现，引入可学习的共现评分模块校正地标的重要性。
观察增强策略：设计观察增强策略，用校正后的地标特征增强观察特征，提高导航决策的准确性。
多基准测试：在R2R、REVERIE、R4R、RxR等多个流行的VLN基准上开展广泛实验，在不可见场景中显著优于现有基线。

安装使用步骤

环境安装

安装Mindspore： bash conda create -n mindspore_console_py39 python=3.9 -y conda activate mindspore_console_py39 pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.3.0rc2/MindSpore/unified/x86_64/mindspore-2.3.0rc2-cp39-cp39-linux_x86_64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
安装其他依赖： bash pip install -r requirements.txt git clone -b r1.1.0 https://gitee.com/mindspore/mindformers.git cd mindformers bash build.sh pip install mindnlp==0.3.2 cd pytorch-image-models git checkout 9cc7dda6e5fcbbc7ac5ba5d2d44050d2a8e3e38d
安装Matterport3D模拟器：

数据准备

下载特征和连接文件：
下载注释数据：从这里下载包含顺序地标和地标共现的注释数据。

导航推理

运行VLN推理： bash cd finetune_src bash scripts/run_r2r_mindspore.sh

引用

如果您使用本项目，请考虑引用以下论文： bibtex @article{lin2024correctable, title={Correctable Landmark Discovery Via Large Models for Vision-Language Navigation}, author={Lin, Bingqian and Nie, Yunshuang and Wei, Ziming and Zhu, Yi and Xu, Hang and Ma, Shikui and Liu, Jianzhuang and Liang, Xiaodan}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2024}, publisher={IEEE} }

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】

Menu

Share

【源码】基于Mindspore框架的视觉语言导航系统

项目简介

项目的主要特性和功能

安装使用步骤

环境安装

数据准备

导航推理

引用

下载地址

【源码】基于Python的猫眼电影票房数据分析系统

【源码】基于Python的云运动一键跑步脚本

【源码】基于ROS和MoveIt的双臂机器人控制系统

【源码】基于Node.js的B站动态抽奖自动化脚本

【源码】基于Spring Boot和Vue的苍穹外卖管理系统

【源码】基于Arduino的易经随机卦象生成器

【源码】基于ROS框架的UR5机器人视觉伺服仿真系统

【源码】基于Java的超星学习通PDF下载工具

【源码】基于思源笔记的插件开发示例

【源码】基于Arduino的智能花盆控制系统