半岛·体育(综合)官方APP下载·IOS/安卓/手机APP下载

咨询热线:

+86-0222-22366





公司动态

5分钟素材创造超写实人物形象!等团队提出SyncTalk - 高保真说话人合成

发布时间:2024/06/29    浏览次数:

  5分钟素材创造超写实人物形象!等团队提出SyncTalk - 高保真说话人合成为了解决同步这一关键问题,作者引入了SyncTalk。这种基于NeRF的方法有效地保持了人物身份,增强了说话人物合成中的同步性和真实感。SyncTalk采用

  (Face-Sync Controller)来使唇部动作与语音对齐,并创新性地使用3D面部混合形状模型来捕捉准确的面部表情。使用头部同步稳定器(Head-Sync Stabilizer)优化头部姿势,实现更自然的头部动作。使用动态肖像渲染(Dynamic Portrait Renderer)来生成高质量图像并恢复头发细节,提供更好的视觉体验。二、方法

  在本节中,将介绍作者提出的SyncTalk的三个关键模块,如图2所示,分别是:1)使用Face-Sync Controller控制嘴唇动作和面部表情,2)使用Head-Sync Stabilizer提供稳定的头部姿势,以及使用Dynamic Portrait Renderer渲染高同步面部视频,以下将进行详细介绍。

  图2 SyncTalk概述: 给定一个剪裁后的说话人参考视频和相应的语音,SyncTalk可以通过两个同步模块(a)和(b)提取唇部特征 fi、表情特征fe和头部姿态(R,T)。 然后使用三平面哈希表示建模头部,输出一个语音驱动视频。 人像同步生成器进一步恢复了头发和背景等细节,最终生成高分辨率的说线 Face-Sync Controller

  Audio-Visual Encoder现有的基于NeRF的方法主要使用Deepspeech、Wav2Vec 2.0或HuBERT等方法提取音频特征,但是这些专为自动语音识别(ASR)任务设计的音频编码器并不能准确反映嘴唇运动。这是因为预训练模型基于从音频到文本的特征分布,而该任务需要从音频到嘴唇运动的特征分布。作者选择使用在2D视听同步数据集LRS2上进行预训练的视听同步音频编码器半岛综合体育下载。这确保了通过该方法提取的音频特征和嘴唇运动具有相 同的特征分布,从而提供更精准的唇部运动。

  先前基于NeRF的方法只能控制眨眼,不能准确地控制面部表情。 如果用于训练的角色有大幅度的面部动作,如眯眼、扬眉或皱眉,会导致面部表情僵硬和面部细节不正确等问题。 考虑到对更加同步和逼真的面部表情的需求,本文增加了一个表情同步控制模块。 具体来说,通过使用 B 表示的52个面部混合形状系数,引入3D面部先验来对面部进行建模,如图3所示。 由于3D人脸模型可以保留人脸运动的结构信息,因此可以很好地反映面部的运动,而不会造脸结构失真。 在训练过程中,首先使用来自EmoTalk的面部混合形状捕获模块将面部表情捕获为E(B) ,并选择七个核心面部表情控制系数来控制眉毛、额头和眼睛区域。 它们与表情高度相关,与嘴唇运动无关。

  2.2 Head-Sync Stabilizer为了获取头部姿态,本文首先使用头部运动跟踪器来将3D可变形模型(3DMM)中的投影Landmark与视频帧中的实际Landmark之间的误差降到最低,从而得到较为稳定的头部旋转 和平移 。考虑到基于NeRF的方法对于头部运动的稳定性要求较高,如果运动参数不准确会出现较为明显的头部忽大忽小的情况。之前的方法仅使用稀疏的面部关键点来得到不稳定的头部姿态。

  本文通过引入稠密点面部运动的追踪算法,并使用SLAM中的Bundle Adjustment来提高关键点和头部姿态估计的准确性,并引入了一个两阶段的优化框架。在第一阶段,随机初始化 个关键点的3D坐标,并优化它们的位置,使其与图像平面上跟踪的关键点对齐。此过程涉及最小化损失函数 ,该函数捕获投影关键点 和跟踪关键点 之间的差异,如下所 示:在 第二阶段,进行更全面的优化,以细化3D关键点和相关 的头部联合姿态参数。通过Adam优化器调整了空间坐标、旋转角度 和平移 , 使误差 最 小化,表示为:

  Tri-Plane Hash Representation先前的方法如RAD-NeRF利用Instant-NGP实现了说话人的快速推理,但在音频驱动的3D动态头部建模中,哈希冲突影响了渲染质量和收敛性。为解决此问题,本文参考ER-NeRF使用三平面哈希表示,通过NeRF的三平面分解将3D空间分解为三个正交平面。在因子分解过程中,所有空间区域都被压缩到2D平面上,并修剪相应的特征网格,从而减少低维子空间中的散列冲突。在较少噪声的情况下,网络可以更专注于音频特征的处理,因此能够更准确地重建头部结构和更精细地捕捉动态运动。在建模过程中,对于给定的坐标 ,通过三个2D哈希编码器对其投影坐标进行编码:

  其中 输 出 , 表示层级数, 表示每个条目的特征维度,表示与投影坐标 相对应的平面几何特征, 表示平面 的多分辨率哈希编码器。通过合并结果,得到最终的几何特征 :其中特征的串联由 表示,结果为一个 通道的向量。利用 、观察方向 、嘴唇特征 和表情特征 ,三平面哈希的隐式函数定义为:

  在训练过程中,为了解决NeRF在捕捉头发细节和动态背景等细节方面的局限性,作者引入了一个具有两个关键部分的人像同步生成器。首先,NeRF渲染面部区域 ( ) ,通过高斯模糊创建 作为面部的遮罩,然后使用同步的头部姿态,能够将面部渲染结果与原始图像 ( ) 贴合以增强头发细节的保真度。

  其次,当头部和躯干结合在一起时,如果源视频中的角色说话而生成的面部保持沉默,可能会出现下巴上的伪影,我们使用平均颈部颜色 ( ) 来填充这些区域,从而实现了更加逼真的细节和改进的视觉质量。

  首先作者比较了在自驱动情况下不同方法的结果,SyncTalk在图像质量上均优于其他方法,在同步性方面结果超过了大部分的方法。

  SyncTalk具有两种输出模式,分别是使用人像同步生成器,和不使用人像同步生成器。通过使用人像同步生成器后,头发细节得到恢复,图像质量也得到提高。由于唇部、表情和姿势的同步,在图像质量方面也优于基于NeRF的方法,特别是在LPIPS度量方面。其次比较了使用异源音频驱动的效果(使用其他人说话的音频驱动当前人物)。

  为了更直观地评估图像质量,在下图中展示了SyncTalk与其他方法之间的比较。从这张图中可以看出,SyncTalk展示了更高质量、更准确的面部细节。

  为了对所提出的模型进行更全面的评估,作者设计了一个用户研究问卷,并要求参与者从五个角度对生成的视频进行评分:口型同步准确性、表情同步准确性、姿势同步准确性、图像质量、视频真实度。用户研究的结果见下表。SyncTalk在所有评估中都超越了以前的方法。此外,SyncTalk在视频真实性方面取得了最高分,比第二名的IP-LAP高出20%。可以看出该方法可以产生人类感知的视觉质量,从而实现高线 用户研究结果

  本文详细介绍了一种高度同步的基于NeRF的逼真语音驱动说话人合成方法 - SyncTalk。该框架包括面部同步、头部同步稳定器和人像同步生成器,它们可以保持人物身份并生成同步的嘴唇运动、面部表情和稳定的头部姿势。通过广泛的评估,与现有方法相比,SyncTalk 在创建逼真和同步的说话人视频方面表现出卓越的性能。随着说话人任务的快速发展,在不久后大家都可以拥有属于自己的虚拟人物。

  TechBeat是由将门创投建立的AI学习社区()。社区上线+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

  稿件需要为原创文章,并标明作者信息。我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

  。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

  如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:


Copyright © 2018-2028 半岛·体育(综合)官方APP下载·IOS/安卓/手机APP下载 版权所有      黔ICP备18003557号-1
电 话:+86-0222-22366 手 机:08663022900
地 址:广东省半岛·体育(综合)官方APP下载
扫一扫关注微信