论文分享-EgoEnv:Human-centric environment representations from egocentric video

研究背景第一视角视频通常是由头戴设备或身体装备的摄像机拍摄，提供从佩戴者视角出发的视觉信息。这种视频与传统第三人称视角视频相比，具有更高的个人化和动态性，但同时也由于视角的限制和信...

研究背景

第一视角视频通常是由头戴设备或身体装备的摄像机拍摄，提供从佩戴者视角出发的视觉信息。这种视频与传统第三人称视角视频相比，具有更高的个人化和动态性，但同时也由于视角的限制和信息的不完整性带来了理解上的难度。理解这类视频时构建增强现实（AR）应用的核心。AR通过将虚拟信息叠加到现实世界中，增强用户的感知。为了实现高效的AR应用，系统需要理解用户当前所处的环境，并提供上下文相关的辅助信息。

这就提出了一个重要的需求：对以人为中心的环境有所理解，即学习从视频中捕捉摄像头佩戴者在其环境中活动的表征。这些表征将编码人与环境的联系，并允许模型共同推理两者。

比如说我们想让AI回答：那个人在水槽旁边切了什么？如果不学习第一视角视频中的环境，那就仅仅只能捕捉到人类活动的狭窄、瞬时视图（比如说这个单拎出来的照片：在厨房台面上切洋葱）而考虑不到与活动相关的更广泛的上下文（比如左边用来煮洋葱的锅，更远处用来存放剩菜的冰箱）因此学习环境表征，来补充环境信息，能够将视频活动放置在一个全面的环境上下文中，增加模型对场景的整体理解。这样不仅可以改进活动识别的准确性，还可以拓展模型的应用范围，如更有效地辅助机器人导航或提升增强现实体验的相关性和互动性。

现有方法的局限

目前关于学习以人为中心的环境表征的工作却非常有限当前的视频模型将视频分割成短片段（1-2秒长），然后通过时间聚合片段特征来完成视频理解任务。片段特征编码了在短时间窗口内直接可见的内容，这种方法能够将他们在时间上聚合起来，但是不能在物理空间中联系起来。也有一些其他方法，使用显式的摄像机姿态信息（例如，通过SLAM）来定位摄像头佩戴者，但不涉及其与周围物体的关系（例如，预测），或者说按位置分组活动，但并不能学习代理视频的表征（例如，功能预测）。

为了解决这些问题，论文提出学习能够编码周围物理空间的具有环境感知的视频表征。定义了一个局部环境状态，即摄像头佩戴者前方、左侧、右侧和后方的物体集合及其大致距离。这种局部状态捕捉了与摄像头佩戴者相关的物体的大致布局。这对于理解物理空间非常重要——它提供了一个语义信号来定位摄像头佩戴者（例如，在客厅中，通过沙发、灯和桌子的排列）同时也对人类行为至关重要，因为人们会向支持活动的布局移动（例如，炉灶顶部区域、梳妆台）。

研究挑战

我们该如何监督这样的表征呢？这就带来了本文的研究挑战：

视角局限性：第一视角视频只捕捉有限的视角和环境信息，提供环境的稀疏覆盖，但用户的行为和环境互动常常涉及当前视野之外的元素。

动态环境适应性：第一视角视频往往会受用户活动的影响，涉及到更动态的环境，增加视频理解的复杂性。

跨环境泛化性：不同环境下的视频背景和情境可能差异很大，对模型的跨环境泛化能力需求较高。

因此如何有效的从第一视角视频中学习环境记忆，如何利用这些记忆来改善视频理解模型的性能，是本文关注的一个重点。

研究内容

研究的目标是：利用第一人称视频学习环境感知的视频特征，提高视频理解模型在人类中心视频任务上的性能。在这篇论文中也就是学习EgoEnv表征，用来编码摄像头佩戴者的局部环境。这一方法在模拟环境进行模型训练，在真实世界视频进行应用下面是模型的整体框架图：

下面是整体框架图：模型首先通过预测来自模拟视频漫游的观察之间的离散相对姿态来学习姿态嵌入。接下来，它将观察结果及其姿态嵌入编码进一个环境记忆中，该环境记忆被训练用于预测查询帧的局部环境状态训练完成之后的模型，为现实世界视频中任何感兴趣的时间点构建并查询环境记忆，以生成下游视频任务中分散和新颖场景的环境特征。

接下来是模型的主要部分。

局部环境状态

模拟环境中定义局部状态预测任务：要求模型不仅要处理直接可见的信息，还要能够预测和推断那些不直接可见的环境元素.将摄像头佩戴者的局部环境状态定义为每个相对方向的物体集合——即哪些物体位于摄像头佩戴者的前面、左侧、右侧或后面，以及它们与摄像头佩戴者的大致距离——并训练一个模型来预测这种状态之后训练一个模型来预测目标视频帧的局部状态，条件是视频轨迹。一旦训练完成，该模型可以将帧中可见的内容与摄像头佩戴者可能隐藏的周围环境联系起来，产生具有环境意识的特征。由于对主观视频中摄像头佩戴者的姿态和每个物体位置的监督非常困难，其中摄像头定位和跟踪容易出错，因此利用模拟环境中的视频进行训练。

环境感知的模型训练

首先进行姿态嵌入学习，从视频帧中学习到有关相机（即相机佩戴者）姿态的有效表征。使用transformer网络处理输入的视频帧序列，然后通过上述姿态嵌入，模型能够预测视频中每一帧与其他帧之间的相对姿态，包括位置和方向。以最小化所有观察对的预测与目标相对姿态标签之间为训练目标，采用基于预测误差的损失函数来训练模型，优化姿态嵌入的准确性，从而使得模型能更好地理解视频中的空间布局和动态变化训练完成后，姿态嵌入可以直接从视频帧中推断出来，提高模型的适用性和实用性。

然后进行局部状态预训练，即利用姿态嵌入和其他视觉信息共同预测视频中的局部环境状态。首先使用姿态嵌入和视觉信息联合编码视频帧，考虑物体的视觉外观和视频中的空间位置，之后利用编码后的帧构建环境记忆，存储有关场景和物体配置的信息，并在时间上进行更新和查询。在需要进行预测时，模型可以查询这个环境记忆，以获取关于摄像头当前及过去环境的综合信息，并预测每一帧的局部环境状态，以最小化每个方向上预测和目标状态标签的损失为训练目标，使用监督学习方法，利用带标注的模拟数据进行训练，优化模型的环境状态预测能力训练后的模型，会根据视频构建一个环境记忆，根据整个视频聚合的信息预测局部状态。

真实视频的环境记忆视频理解

利用环境记忆模型进行真实视频理解：通过增强标准剪辑特征与摄像头佩戴者周围环境的上下文来对代理周围环境的额外推理，模型利用在预训练阶段学到的环境记忆结构，针对新的视频序列建立动态更新的环境记忆，模型不断地更新其环境记忆，以包括新的观察信息和修改或改进的环境理解，从而在视频播放过程中实时响应环境变化模型之后在特定任务上进行实施，即将输出的EgoEnv应用到两个视频理解任务中去：一个是房间分类，需要判断视频中相机佩戴者所处的房间类型；另一个是自然语言查询：需要根据自然语言查询回答视频内容相关的问题。这两个任务都需要理解环境论文中利用相同的EvoEnv表征来处理这两个视频理解任务。

实验验证

实验设置

首先是使用具有高度逼真HM3D场景的Habitat模拟器来生成模拟视频漫游用于训练。使用HouseTours（来自YouTube的119小时真实世界房屋游览视频）和 Ego4D（人们进行日常活动的真实世界视频前两个数据集是真实世界视频数据集）两个数据集来测试对真实视觉以及各种杂乱环境中自然人类活动的泛化能力。使用Matterport3D（MP3D：来自90个高度逼真3D场景的模拟视频漫游数据集），MP3D提供了与HM3D不同的场景，可以用来测试模型对领域变化的鲁棒性。下游任务选用之前提到的两个任务：房间分类和自然语言查询。

姿态嵌入和局部状态预训练

评估姿态嵌入网络

网络功能：用于预测离散化成12个角度和4个距离范围的相对姿态

网络效果：模型在相对距离预测上达到48.4%的准确率，在相对方向预测上达到34.4%的准确率

评估局部状态推断

评估方式：报告每个方向的平均精度(AP)

给定前视图，物体可以可靠地被识别（37.8 AP）

链接视频轨迹中的视图，推断其他方向的物体：右侧 21.5 AP 、左侧 24.9 AP 和后方 20.2 AP

EgoEnv特征用于房间预测

任务目标：预测摄像头佩戴者在视频中访问哪个房间上的表现

实验结果：得到的EgoEnv特征对真实世界视频的下游任务仍然有用我们的方法在引入环境上下文较重要的难实例中表现比baseline方法都要好

这些图示展示了我们模型在关注对任务有帮助的视图方面的能力，以及在处理不同难度级别的房间预测任务上的优越性能。尽管模型完全在模拟中进行训练，并且使用来自一组不同环境的视频，但是得到的EgoEnv特征对真实世界视频的下游任务仍然有用尤其是在处理那些对传统方法来说更具挑战性的难实例时，我们的模型展现出更稳健的性能，这证明了我们的环境感知特征学习方法在实际应用中的有效性。方法超越了基线，特别是在难实例上（沿曲线的性能下降较小）。

EgoEnv特征用于情景记忆

任务目标：定位第一视角视频中自然语言查询的响应上的表现

实验结果：我们的 EgoEnv 方法总体上表现最好，甚至超过了EPC（在推断时可以访问真实姿态）。使用 EgoEnv 增强了基线，实现了最先进的结果。

模拟到现实差距分析

背景：在模拟到现实差距的背景下进行讨论

分析结果：我们的方法在两组场景中都有比较好的改进，凸显了模拟到现实差距的影响。我们的方法能够在所有场景中胜过其他方法，展示了以环境为中心的特征学习方法的价值。模拟训练对真实世界应用有正面影响；环境感知学习策略非常有效。

总结与思考

总结

提出了新的以人为中心的环境表示方法 - EgoEnv，构建了一个利用环境记忆增强视频理解的框架，有效地将视频中的时间信息和空间信息结合起来，提供更为丰富的环境理解。
通过在模拟环境中预训练，然后成功地迁移到处理真实世界视频的任务上。第一个展示出3D仿真数据对于现实世界第一视角视频理解的价值。
在真实世界视频的效果达到了最先进的水平。

思考

目前的模拟环境更多的专注于室内空间，所以当前模型更适合于室内环境的视频，需要考虑进一步改善模型的跨域适应能力的方法（采用更明确的方法来解决模拟到现实的差距）。
改进模拟视频的质量，考虑生成更人性化的模拟视频，更好地应用到真实世界。

发表于 2024-06-17 22:52
阅读 ( 1854 )
分类：论文分享

论文分享-EgoEnv:Human-centric environment representations from egocentric video

研究背景

现有方法的局限

研究挑战

相关工作

三维环境中的视频理解。

视频表征学习

具身智能的环境特征

基于模拟数据的学习