文 / Alexander Ku,软件工程师和 Peter Anderson,研究员,Google Research
机械进修 (ML) 的一项核心挑衅是构建可以或许在复杂的实际情况中导航,并对口头或书面敕令做出响应的代理 (Agents)。固然如今的代理,包含机械人,平日可以在复杂的情况中导航,但它们还不克不及懂得应用天然说话表达的导航目标,例如,“ 穿过右侧封闭的棕色双开门,然后 站在椅子后面与桌子前面。”
- 视觉-说话导航 http://openaccess.thecvf.com/content_cvpr_2018/papers/Anderson_Vision-and-Language_Navigation_Interpreting_CVPR_2018_paper.pdf
为了促进该范畴的成长,我们很高兴为 VLN 引入新数据集: Room-Across-Room(RxR)。如在 “ Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding ” 中所述,RxR 是 VLN 的第一个多说话数据集,包含了 126,069 条人工标注的导航指令,它们应用三种不合类型的说话 - 英语、印地语和泰卢固语。
- Room-Across-Room https://github.com/google-research-datasets/RxR
- Room-Across-Room:Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding https://www.aclweb.org/anthology/2020.emnlp-main.356/
每条指令描述一条经由过程照片级模仿器的路径,模仿器中充斥着各类室内幕况,它们来自 Matterport3D 数据集,个中包含居所、办公室和公共建筑的 3D 捕获。为了追踪 VLN 的进展,我们还宣布了 RxR 挑衅赛,这是一项鼓励机械进修社区基于 RxR 指令练习和评估他们本身的指令跟随代理的比赛。
- Matterport3D 数据集 https://niessner.github.io/Matterport/
- RxR 挑衅赛 https://ai.google.com/research/rxr
RxR 数据集中的英语、印地语和泰卢固语导航指令示例,每个导航指令均描述雷同的路径
姿势轨迹
除了导航指令和路径外,RxR 还包含一个新的、更具体的多模态标注,称为 姿势轨迹(Pose Traces)。受地位论述数据集中捕获的鼠标轨迹的启发,姿势轨迹经由过程丰富的 3D 设置在说话、视觉和活动之间供给 慎密的常识基本(Dense Groundings)。
为了生成导航指令,我们请求 领导(guide) 标注者在模仿器中沿一条路径移动,同时根据四周情况论述路径。姿势轨迹是领导沿该路径看到的所有器械的记录,并且与导航指令中的文字在时光上对齐。然后,这些轨迹与 跟随者 (follower) 标注者的姿势轨迹配对,后者的义务是经由过程收听领导的音频来沿着预期路径行进,从而验证导航指令的质量。
姿势轨迹隐式捕获地标选择和 视觉明显性概念,并及时表示若何解决导航指令生成义务(对于领导)和导航指令跟随义务(对于跟随者)。
RxR 数据集中的英语导航指令示例。指令文本( 右)中的单词经由色彩编码,与姿势轨迹( 左)对齐,姿势轨迹显示了领导标注者在描述路径的情况中移动时的动作和视觉感知
- 视觉明显性 http://www.scholarpedia.org/article/Visual_salience
雷同的 RxR 示例,导航指令中的文字沿该路径与 360° 图像对齐。领导标注者不雅察到的场景部分会高亮显示;标注者忽视的场景部分会淡化。红色和黄色框高亮显示了文本指令与标注者视觉提示之间的一些慎密对齐。红色十字线指导标注者的下一个移动偏向
范围
RxR 总共包含近 1000 万个单词,是现稀有据集(如 R2R和 Touchdown/ Retouchdown)的约 10 倍大年夜。这很重要,因为与基于静态图像和文本数据的义务比拟,须要经由过程活动或与情况的互动来进修的说话义务平日缺乏大年夜范围练习数据。RxR 还解决了其他数据集(例如 R2R)中出现的已知路径构造误差,此数据集中的所有路径都具有类似的长度,并且采取最短的路线达到目标。比拟之下,RxR 中的路径平均长度更长,更弗成猜测,这使得它们更难以跟随,并鼓励在数据集中练习的模型加倍强调说话在义务中的感化。RxR 的范围、范围和细节将扩大落地说话进修研究的范畴,同时减弱英语等资本丰富的说话的主导地位。
左:RxR 比现有的类似数据集大年夜一个数量级; 右:与 R2R 比拟,RxR 中的路径平日更长,更弗成猜测,这使得它们更难以跟随
- R2R https://bringmeaspoon.org/
- Touchdown https://github.com/lil-lab/touchdown
- Retouchdown https://ai.googleblog.com/2020/02/enhancing-research-communitys-access-to.html
基准模型
为了更好地表示和懂得 RxR 数据集,我们应用开源框架 VALAN和 multilingual BERT模型的说话表示,在 RxR 上练习了各类代理 (Agents)。我们发明, 在练习过程中包含跟随者标注和领导标注可以改良成果,并且自力练习的单说话代理的表示优于单个多说话代理。
- VALAN https://github.com/google-research/valan
- multilingual BERT https://github.com/google-research/bert/blob/master/multilingual.md
从概念上讲,这些代理的评估很直接?代理是否跟随了预期路径?从经验上讲,我们应用 NDTW 测量 VLN 代理采取的路径与参考路径之间的类似度,NDTW 是路径保真度的标准化度量,范围为 100(完全一致)到 0(完全缺点)。所有三种说话的跟随者标注者的平均得分是 79.5,这是由类似路径之间的天然变更所致。比拟之下,最佳模型(三个自力练习的单说话代理的组合,每种说话一个代理)在 RxR 测试集上获得的 NDTW 得分是 41.5。固然这比随机 (15.4) 要好得多,但仍然远远低于人类的表示。固然说话建模方面的进步持续敏捷侵蚀着 GLUE 和 SuperGLUE 等纯文本说话懂得基准模型改进空间的价值,然则像 RxR 如许将说话与物理世界接洽起来的基准却供给了巨大年夜的改进空间。
我们的多说话和单说话指令跟随代理在 RxR 测试标准分块上的成果。固然表示比随机行走要好得多,但在此项义务上仍有相昔时夜的改进空间来达到人类的表示
挑衅比赛
为了鼓励在这一范畴进行进一步研究,我们提议了 RxR 挑衅赛,这是一项机械进修社区正在举办的比赛,旨在开辟可以或许跟随天然说话导航指令的计算代理。要参加此项比赛,介入者须要上传他们的代理根据供给的 RxR 测试指令所采取的导航路径。在最艰苦的情况下(这里和 论文中有申报),所有测试情况都是前所未见的。然则,我们也许可代理预先在测试情况中进行练习或摸索。有关详情和最新成果,请拜访 挑衅赛网站。
- RxR 挑衅赛/挑衅赛网站 https://ai.google.com/research/rxr
- 论文 https://www.aclweb.org/anthology/2020.emnlp-main.356/
PanGEA
我们还将宣布基于收集的自定义标注对象,该对象是我们为收集 RxR 数据集而开辟的。Panoramic Graph Environment Annotation 对象包 (PanGEA) 是一个轻量级、可自定义的代码库,用于收集 Matterport3D和 StreetLearn等全景图情况中的语音和文本标注。它包含语音记录和虚拟姿势跟踪,以及用于将生成的姿势轨迹与人工转录对齐的对象。有关详情,请拜访 PanGEA GitHub 页面。
- Matterport3D https://niessner.github.io/Matterport/
- StreetLearn https://sites.google.com/corp/view/streetlearn
- PanGEA GitHub 页面 https://github.com/google-research/pangea
申谢
感激 Roma Patel、Eugene Ie 和 Jason Baldridge 对这项研究的供献。我们还要感激所有标注者,感激 Sneha Kudugunta 对泰卢固语标注的分析,感激 Igor Karpov、Ashwin Kakarla 和 Christina Liu 为这个项目供给的对象和标注支撑,感激 Austin Waters 和 Su Wang 为图像特点供给的赞助,感激 Daphne Luong 对数据收集的行政支撑。