forked from Ewenwan/MVision
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
1 changed file
with
29 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,2 +1,31 @@ | ||
# 视觉语言导航 vision-language navigation | ||
|
||
视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释:假如智能体接收到“向右转,径直走向厨房,然后左转,经过一张桌子后进入走廊...”等一系列语言命令,它需要分析指令中的物体和动作指令,在只能看到一部分场景内容的情况下,脑补整个全局图,并正确执行命令。所以这是一个结合 NLP 和 CV 两大领域,一项非常有挑战性的任务。 | ||
|
||
|
||
# 难点 | ||
|
||
虽然我们理解这项任务好像不是很难,但是放到 AI 智能体上并不像我们理解起来那么容易。对 AI 智能体来说,这项任务通常存在三大难点: | ||
|
||
难点一:跨模态的基标对准(cross-modal grounding);简单解释就是将NLP 的指令与 CV 场景相对应。 | ||
|
||
难点二:不适定反馈(ill-posed feedback);就是通常一句话里面包含多个指令,但并不是每个指令都会进行反馈,只有最终完成任务才有反馈,所以难以判断智能体是否完全按照指令完成任务。 | ||
|
||
难点三:泛化能力问题;由于环境差异大,VLN 的模型难以泛化。 | ||
|
||
[Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning | ||
for Vision-Language Navigation | ||
](https://arxiv.org/pdf/1811.10092.pdf) | ||
|
||
## 1、RCM(Reinforced Cross-Modal Matching)强化型跨模态匹配模型 | ||
用强化学习方法将局部和全局的场景联系起来。 | ||
RCM 模型主要由两个模块构成:推理导航器和匹配度评估器。 | ||
|
||
如图所示,通过训练其中绿色的导航器,让它学会理解局部的跨模态场景,推断潜在的指令,并生成一系列动作序列。 | ||
另外,论文还设置了匹配度评估器(Matching Critic)和循环重建奖励机制, | ||
用于评价原始指令与导航器生成的轨迹之间的对齐情况,帮助智能体理解语言输入,并且惩罚不符合语言指令的轨迹。 | ||
|
||
## 2、SIL(Self-supervised Imitation Learning)自监督模仿学习 方法 | ||
|
||
其目的是让智能体能够自主的探索未知的环境。其具体做法是,对于一个从未见过的语言指令和目标位置,导航器会得到一组可能的轨迹并将其中最优的轨迹(采用匹配度评估器)保存到缓冲区中,然后匹配度评估器会使用之前介绍的循环重建奖励机制来评估轨迹,SIL方法可以与多种学习方法想结合,通过模仿自己之前的最佳表现来得到更优的策略。 | ||
|