Skip to main content

概述:自我中心视频会议(Egocentric Videoconferencing)方法

本报告探讨了以自我为中心的视频会议的方法,该方法支持免提视频呼叫。
Created on December 1|Last edited on January 27
本报告是作者Ayush Thakur所写的"Overview: Egocentric Videoconferencing"的翻译
视频会议已成为我们日常生活的重要组成部分。 尽管它提供了各种好处,但互联网的带宽限制了它的使用,而且它具有设备限制和位置限制,需要使用前置摄像头才能获得良好的面部效果等缺陷。
移动式的视频会议具有挑战性,但如果实现就一定很方便。 本报告探讨了以自我为中心的视频会议的方法,该方法支持免提视频呼叫。 我强烈建议您浏览下面链接的项目网站。

项目网站 | 论文

前言

视频会议非常有用,因为它展示了各种通信信号,例如面部表情或视线。 视频通话需要使用前置摄像头,以实现良好的面部覆盖。 这在工作桌等受控且静态的室内环境中可行。 但是,对于人们使用手持移动设备的日常场景而言,这可能是一个挑战。 在室外环境中行走时甚至更具挑战性。
可以使用以自我为中心的输入视图实现常规视频会议的现有技术可以大致分为以下几种:
  • 基于正面化(frontalisation-based):在相机视图中变换脸部姿势,其中大部分脸部被遮挡为脸部的完整和正面视图。 现有方法会在面部结构中产生明显的伪像和变形。
  • 基于重新制定(reenactment-based):从视频中的源对象捕获面部表情并将其转移到其他目标面孔的视频中的过程。
    
  • 
-> 图1: 使用基于深度学习的视频到视频(video-to-video)“翻译”技术,实现从自我中心视图到正面视图。 (来源)<- ·
“以自我为中心的视频会议(Egocentric Videoconferencing)”的作者提出以下方法:
  • 一个低成本的可穿戴式以自我为中心的相机设置,以及
  • 一个深度学习框架,可将以自我为中心的面部视图(视频)转换为视频会议中常见的正面面部视图(视频)。 如图1所示。
  • 诸如舌头运动,眼睛运动,眨眼等微妙的表情可以毫不费力地转换为正面面部视图。 该算法的核心是视频到视频的“翻译”技术。



方法概述




-> 图2:方法框架的简单概述。 EiE_i 用于调节,渲染的中性面部图像为输入,合成的正面图像为输出.(来源)<-
所提出的方法是一种视频到视频的“翻译”技术,并使用了条件GAN(稍后会详细介绍)。 cGAN以个人的自我中心面部视图(EiE_i) 为条件,以便学习的生成器(GG)生成同一个人的正面面部视图。由于这是用于视频会议的,因此作者已经使用N = 11的序列而不是单个图像来训练模型结构。
cGAN在数学上由G(XY)G(X|Y) 给出。在这种情况下,YYEiE_i,,并且XX需要像输入一样的图像,因为我们要从一帧转换为另一帧。作者使用了中性人脸模型(CiC_i)的渲染。让我们分别查看每个步骤,但是在此之前,我们将快速介绍一下数据收集过程。

数据采集




-> 图3: 数据收集设置和使用的摄像机。 (来源) <-
  • 训练数据包括使用两个不同的RGB摄像机记录的成对的自我中心视频和前视视频。使用简单的校准即可同步它们。
  • 有两种录制设置:一种用于静态室内场景,另一种用于动态室外环境。
  • 以自我为中心的相机是低成本的RGB鱼眼相机。可以将其固定在眼镜架上。设置有点笨重,但是在设计和技术上的进一步改进将改善这一点。
  • 正面摄像机是用于室内场景的商用高清摄像机,而对于室外场景,则使用商用手机摄像机。
  • 作者收集了27个序列,平均长度为14000帧。使用了13个人,并且以24帧/秒的速度进行了提取。两种视频都沿着面部进行了裁剪。裁剪的帧被调整为256x256分辨率。
  • 在约14000帧中,有7500帧用于训练,2500帧用于验证,其余用于测试。因此,每个人都有一个独特的模型。



模型架构

所提出的方法的核心是视频到视频的“翻译”技术。 鉴于GAN在图像到图像翻译技术方面的成功,作者使用了conditional GAN

Conditional GAN 简介


如果您熟悉GAN,则可能听说过条件GAN。 如果没有,这是一个快速的总结。 传统的GAN生成器可以使用潜在矢量(随机噪声)生成图像。 但是,您无法控制生成的图像。 条件GAN(cGAN)是对常规GAN的简单而有效的修改,如图x所示。
图4: 条件GAN架构. (来源)
因此,通过将生成器(GG) 和鉴别器(DD) 都调整为某些额外信息(例如类标签yy),可以生成条件GAN。
您可以在这篇出色的博客文章 中了解有关cGAN的更多信息。 尝试使用链接的colab笔记本来试验简单的条件GAN。 批量生成器和鉴别器的损失(loss)显示在下面的媒体面板中。 如下所示,媒体面板中生成的图像的每一列都属于一个单独的类。 因此,图像是有条件生成的。



Run set
1

通过这个简单的演示,不难意识到cGAN对于使用自我中心的视图生成逼真的视频帧的重要性,因为必须根据自我中心帧捕获的表情,眨眼,视线等来调节生成的前视帧。 生成的前视帧还必须有基于头部姿势的条件。
在提出的模型设计中,
  • 生成器网络(GG)是U-Net样式的卷积神经网络。 提出的U-Net由具有跳跃连接的7个上下卷积层组成。 解码器与U-Net架构的编码器对称。 所有层使用的kernel大小为4x4,步幅为2。
  • 所用的鉴别器使用类似于pix2pix的基于补丁的卷积神经网络。 鉴别器以输入的自我中心视频帧为条件。



渲染的中性面部 (CiC_i)



-> 图5: 用于输入cGAN进行姿势调节的合成中性脸部渲染概述(来源) <-
如图2所示,cGAN接受渲染的中性面部图像作为输入。 这样可以控制目标视图中的头部移动。 这是通过首先使用 Face2Face获得单眼面部重建来实现的。 Face2Face的输入是前视摄像机的图像(如“数据收集”部分中所示)。
使用3D可变形人脸模型(3D Morphable Face Model /3DMM)是因为它能够对3D人脸的固有属性(例如形状,皮肤纹理,明暗,表情等)进行建模。但是,3DMM模型进行了修改,以仅使用几何形状和反射率属性来建模。因为表情 、姿势等属性是使用自我中心视图学习的。 在此详细调查中了解有关3DMM的更多信息。



去除背景

所提出的方法不能处理动态背景,并且从以自我为中心和正面的摄像机视频帧中都删除了。作者使用了称为BiSeNet的场景分割架构。每个帧都被分割,背景设置为黑色。



训练

像任何GAN模型一样对模型进行训练。生成器使对抗损失(adversarial loss)最小化,以提供高水平的视频真实感,而鉴别器则使真实视频和假视频的分类准确性最大化。除了提到的对抗性损失外,作者还采用了内容损失(content loss)和知觉损失(perceptual loss)。
  • 每个序列包含大约14000帧,其中7500帧用于训练。
  • 每个序列训练100个epoch。
  • 学习率(learning rate)为0.0002,第一个momentum为0.5,批量大小(batch size)为12。
  • 内容损失是一个简单的L1L1损失,它使输出图像G(XEi)G(X|E_i)接近真实图像YY. (ground truth)。
  • 感知损失是使用预训练的VGG-Face网络计算的。L1L1距离使用生成的帧与真实帧在VGG网络的中间卷积层的输出处计算。



结果

图6: 从面部的自我中心角度预测的正视图 (来源)



局限性和结论

这项工作是朝着移动眼镜设备的实时免提自我中心视频会议迈出的重要一步。结果显示出很大的希望,用Two Minutes Paper中的Károly的话说:再来两篇论文,我们将看到可观的进步。
此方法很有新颖之处,作者在指出其工作局限性方面也做得非常出色。列出其中一些:
  • · 该解决方案因人而异。cGAN的训练基于来自单个人的序列。它也受到训练时看到的表情的限制。
  • 对未见的人进行测试会产生带有强烈视觉伪影的不正确渲染。
  • 以自我为中心的相机设置非常笨重。
  • 该方法删除动态背景。
  • 该方法在非常黑暗的照明下拍摄的场景可能不太适用,从而导致伪影。
希望您喜欢本篇论文的解构。我很想知道您对此提议方法的看法。我发现这是条件GAN的一个有趣用例。这确实很聪明。

Iterate on AI agents and models faster. Try Weights & Biases today.