5分钟素材创造超写实人物形象！等团队提出SyncTalk - 高保真说话人合成

发布时间：2024/06/29 浏览次数：

　　5分钟素材创造超写实人物形象！等团队提出SyncTalk - 高保真说话人合成为了解决同步这一关键问题，作者引入了SyncTalk。这种基于NeRF的方法有效地保持了人物身份，增强了说话人物合成中的同步性和真实感。SyncTalk采用

　　（Face-Sync Controller）来使唇部动作与语音对齐，并创新性地使用3D面部混合形状模型来捕捉准确的面部表情。使用头部同步稳定器（Head-Sync Stabilizer）优化头部姿势，实现更自然的头部动作。使用动态肖像渲染（Dynamic Portrait Renderer）来生成高质量图像并恢复头发细节，提供更好的视觉体验。二、方法

　　在本节中，将介绍作者提出的SyncTalk的三个关键模块，如图2所示，分别是：1）使用Face-Sync Controller控制嘴唇动作和面部表情，2）使用Head-Sync Stabilizer提供稳定的头部姿势，以及使用Dynamic Portrait Renderer渲染高同步面部视频，以下将进行详细介绍。

　　图2 SyncTalk概述：给定一个剪裁后的说话人参考视频和相应的语音，SyncTalk可以通过两个同步模块(a)和(b)提取唇部特征 fi、表情特征fe和头部姿态(R,T)。然后使用三平面哈希表示建模头部，输出一个语音驱动视频。人像同步生成器进一步恢复了头发和背景等细节，最终生成高分辨率的说线 Face-Sync Controller

　　Audio-Visual Encoder现有的基于NeRF的方法主要使用Deepspeech、Wav2Vec 2.0或HuBERT等方法提取音频特征，但是这些专为自动语音识别（ASR）任务设计的音频编码器并不能准确反映嘴唇运动。这是因为预训练模型基于从音频到文本的特征分布，而该任务需要从音频到嘴唇运动的特征分布。作者选择使用在2D视听同步数据集LRS2上进行预训练的视听同步音频编码器半岛综合体育下载。这确保了通过该方法提取的音频特征和嘴唇运动具有相同的特征分布，从而提供更精准的唇部运动。

　　先前基于NeRF的方法只能控制眨眼，不能准确地控制面部表情。如果用于训练的角色有大幅度的面部动作，如眯眼、扬眉或皱眉，会导致面部表情僵硬和面部细节不正确等问题。考虑到对更加同步和逼真的面部表情的需求，本文增加了一个表情同步控制模块。具体来说，通过使用 B 表示的52个面部混合形状系数，引入3D面部先验来对面部进行建模，如图3所示。由于3D人脸模型可以保留人脸运动的结构信息，因此可以很好地反映面部的运动，而不会造脸结构失真。在训练过程中，首先使用来自EmoTalk的面部混合形状捕获模块将面部表情捕获为E(B) ，并选择七个核心面部表情控制系数来控制眉毛、额头和眼睛区域。它们与表情高度相关，与嘴唇运动无关。

　　2.2 Head-Sync Stabilizer为了获取头部姿态，本文首先使用头部运动跟踪器来将3D可变形模型（3DMM）中的投影Landmark与视频帧中的实际Landmark之间的误差降到最低，从而得到较为稳定的头部旋转和平移。考虑到基于NeRF的方法对于头部运动的稳定性要求较高，如果运动参数不准确会出现较为明显的头部忽大忽小的情况。之前的方法仅使用稀疏的面部关键点来得到不稳定的头部姿态。

　　本文通过引入稠密点面部运动的追踪算法，并使用SLAM中的Bundle Adjustment来提高关键点和头部姿态估计的准确性，并引入了一个两阶段的优化框架。在第一阶段，随机初始化个关键点的3D坐标，并优化它们的位置，使其与图像平面上跟踪的关键点对齐。此过程涉及最小化损失函数，该函数捕获投影关键点和跟踪关键点之间的差异，如下所示：在第二阶段，进行更全面的优化，以细化3D关键点和相关的头部联合姿态参数。通过Adam优化器调整了空间坐标、旋转角度和平移，使误差最小化，表示为：

　　Tri-Plane Hash Representation先前的方法如RAD-NeRF利用Instant-NGP实现了说话人的快速推理，但在音频驱动的3D动态头部建模中，哈希冲突影响了渲染质量和收敛性。为解决此问题，本文参考ER-NeRF使用三平面哈希表示，通过NeRF的三平面分解将3D空间分解为三个正交平面。在因子分解过程中，所有空间区域都被压缩到2D平面上，并修剪相应的特征网格，从而减少低维子空间中的散列冲突。在较少噪声的情况下，网络可以更专注于音频特征的处理，因此能够更准确地重建头部结构和更精细地捕捉动态运动。在建模过程中，对于给定的坐标，通过三个2D哈希编码器对其投影坐标进行编码：

　　其中输出，表示层级数，表示每个条目的特征维度，表示与投影坐标相对应的平面几何特征，表示平面的多分辨率哈希编码器。通过合并结果，得到最终的几何特征：其中特征的串联由表示，结果为一个通道的向量。利用、观察方向、嘴唇特征和表情特征，三平面哈希的隐式函数定义为：

　　在训练过程中，为了解决NeRF在捕捉头发细节和动态背景等细节方面的局限性，作者引入了一个具有两个关键部分的人像同步生成器。首先，NeRF渲染面部区域 ( ) ，通过高斯模糊创建作为面部的遮罩，然后使用同步的头部姿态，能够将面部渲染结果与原始图像 ( ) 贴合以增强头发细节的保真度。

　　其次，当头部和躯干结合在一起时，如果源视频中的角色说话而生成的面部保持沉默，可能会出现下巴上的伪影，我们使用平均颈部颜色 ( ) 来填充这些区域，从而实现了更加逼真的细节和改进的视觉质量。

　　首先作者比较了在自驱动情况下不同方法的结果，SyncTalk在图像质量上均优于其他方法，在同步性方面结果超过了大部分的方法。

　　SyncTalk具有两种输出模式，分别是使用人像同步生成器，和不使用人像同步生成器。通过使用人像同步生成器后，头发细节得到恢复，图像质量也得到提高。由于唇部、表情和姿势的同步，在图像质量方面也优于基于NeRF的方法，特别是在LPIPS度量方面。其次比较了使用异源音频驱动的效果(使用其他人说话的音频驱动当前人物)。

　　为了更直观地评估图像质量，在下图中展示了SyncTalk与其他方法之间的比较。从这张图中可以看出，SyncTalk展示了更高质量、更准确的面部细节。

　　为了对所提出的模型进行更全面的评估，作者设计了一个用户研究问卷，并要求参与者从五个角度对生成的视频进行评分：口型同步准确性、表情同步准确性、姿势同步准确性、图像质量、视频真实度。用户研究的结果见下表。SyncTalk在所有评估中都超越了以前的方法。此外，SyncTalk在视频真实性方面取得了最高分，比第二名的IP-LAP高出20%。可以看出该方法可以产生人类感知的视觉质量，从而实现高线用户研究结果

　　本文详细介绍了一种高度同步的基于NeRF的逼真语音驱动说话人合成方法 - SyncTalk。该框架包括面部同步、头部同步稳定器和人像同步生成器，它们可以保持人物身份并生成同步的嘴唇运动、面部表情和稳定的头部姿势。通过广泛的评估，与现有方法相比，SyncTalk 在创建逼真和同步的说话人视频方面表现出卓越的性能。随着说话人任务的快速发展，在不久后大家都可以拥有属于自己的虚拟人物。

　　TechBeat是由将门创投建立的AI学习社区（）。社区上线+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

　　稿件需要为原创文章，并标明作者信息。我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

　　。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

　　如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

咨询热线：

微
信
二
维
码

网站首页

关于半岛综合体育

产品展示

新闻资讯

客户案例

人才招聘

联系半岛综合体育

公司动态

5分钟素材创造超写实人物形象！等团队提出SyncTalk - 高保真说话人合成

友情链接：

咨询热线：

微 信 二 维 码

网站首页

关于半岛综合体育

产品展示

新闻资讯

客户案例

人才招聘

联系半岛综合体育

公司动态

5分钟素材创造超写实人物形象！等团队提出SyncTalk - 高保真说话人合成

友情链接：

微
信
二
维
码