Meta释出audio2photoreal技术框架,可依对话语音合成逼真虚拟人物动作

0
317

Meta新的人工智慧研究audio2photoreal技术框架,能够根据对话语音,生成相对应逼真的脸部、身体和手势。研究人员开发audio2photoreal框架的目的,是用於创建真实的虚拟人物,并让这些虚拟人物能够根据人们说话的内容和方式,做出各种自然的手势和表情。

Audio2photoreal研究的主要贡献,在於结合向量量化(Vector Quantization)技术以及扩散(Diffusion)演算法,生成动态和更具表现力的动作。向量量化在这个研究扮演的角色,是提供手势动作的样本多样性,简单来说,向量量化是一种将大量资料压缩成较少量代表性资料的技术,而用在audio2photoreal上,则可以有效地从大量手势动作中,选出具代表性的样本。

而扩散技术的作用,则是能够提供高频率细节和改善手势动作品质。扩散技术通常用於生成和改善图像与影片,特别是需要恢复细节,或是增加视觉真实感的场景中,当应用在虚拟人物手势生成的过程,扩散技术可以让手势更自然流畅,使其更接近真实人类的动作。

研究人员还在这个研究创建了一个多视角双人对话资料集,里面收录从不同角度拍摄的对话场景,让audio2photoreal能够更好地制作虚拟人物。

而经过实验验证,audio2photoreal在生成合适且多样化的手势上,明显比仅仰赖扩散或是向量量化的方法还要好,此外,相较於传统网格模型,audio2photoreal生成高度真实的虚拟人物,在准确捕捉对话手势动作的细节上,像是模拟用手指点、手腕快速转动或是耸肩等动作,表现得更加自然真实。研究团队现在公开相关程式码和资料集,以促进相关研究领域发展。

 

surfshark怎么注册

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论