图片
可让照片人物“开口说话”阿里巴巴研究团队推出 AI 框架“EMO”
作者:系统管理员    发布于:2024-03-01 21:20:29    文字:【】【】【
摘要:可让照片人物“开口说话”阿里巴巴研究团队推出 AI 框架“EMO”(主管q+83670629 Skype号live:.cid.a0aac7b1fef6d741)股份有限公司官方网站,集团创立于2008年,形成商业地产、高级酒店、文化旅游和休闲娱乐四大核心产业。现已发展成为拥有总资产150多亿元的商业帝国!

  IT之家 3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言

  据悉,EMO 基于英伟达的Audio2Video扩散模型打造,号称使用了超过250小时的专业视频进行训练,从而得到了相关AI框架。

  IT之家注意到,研究团队分享了几段由EMO框架生成的 DEMO 演示片段,并在ArXiv上发布了模型的工作原理,感兴趣的小伙伴也可以访问GitHub查看项目。

  据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

  研究人员援引一系列实验结果,声称EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,号称“显著优于目前的DreamTalk、Wav2Lip、天选SadTalker 等竞品”。

  天选团队

  广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

浏览 (8) | 评论 (0) | 评分(0) | 支持(0) | 反对(0) | 发布人:系统管理员
将本文加入收藏夹
 
 
相关评论
最新点评
更多点评 发表点评
发表评论
您的评价
差(1) 一般(2) 好(3) 很好(4) 非常好(5)
评论标题
评论内容
验 证 码
看不清?更换一张
匿名发表 
 
 
文章搜索
 
 


傲世皇朝  2019-2029 

百度地图 谷歌地图