图片
阿里云自研AI肖像视频生成框架已接入通义App
作者:系统管理员    发布于:2024-04-26 18:19:30    文字:【】【】【
摘要:阿里云自研AI肖像视频生成框架已接入通义App(主管q+83670629 Skype号live:.cid.a0aac7b1fef6d741)。老牌平台4年运用4年历史数据精算出目前适合市场推广的一种模式-超高日工资市场发展模式。本站为官方授权注册站。

  日前,阿里云方面宣布自研AI肖像视频生成框架“EMO”(Emote Portrait Alive)已接入通义App,并向所有用户免费开放。

  据了解,EMO框架可以用于生成“对口型”视频,用户只需输入人物照片及音频(说话、唱歌、rap均可),就能够让照片中的人物开口说出相关音频,并支持中英韩等多种语言。而生成视频的最终长度,则取决于输入音频的长度。

  据悉,EMO基于英伟达的Audio2Video扩散模型打造,使用了超过250个小时的专业视频和超过1.5亿张图像进行训练,相关训练分为图像预训练、视频训练和速度层训练三个阶段。其中在图像预训练阶段,网络以单帧图像为输入进行训练;在视频训练阶段,引入时间模块和音频层,处理连续帧;速度层训练则专注于调整角色头部的移动速度和频率。

  目前,通义App已首批上线个EMO模板,包括热门歌曲《上春山》、《野狼Disco》,天选以及网络热梗“钵钵鸡”、“回手掏”等,用户任选一款模板,然后上传一张肖像照片就能合成演戏、唱歌视频。但需要注意的是,目前通义App暂未开放自定义音频功能,即用户暂时无法自行上传音频内容进行合成。

  据了解,通义App是阿里云多项AI技术的重要落地和应用场景。例如此前曾走红的全民舞王应用,便是基于阿里通义实验室自研的Animate Anyone算法打造,并集成多项创新技术,包括引入ReferenceNet用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节,还使用了高效的Pose Guider姿态引导器 ,确保动作的精准可控,并通过时序生成模块保障视频帧之间的连贯流畅性等。

  此外基于通义千问大模型,近期通义App还陆续推出了超长文档解析、AI编码助手、AI会议助手等免费实用功能。

浏览 (14) | 评论 (0) | 评分(0) | 支持(0) | 反对(0) | 发布人:系统管理员
将本文加入收藏夹
 
 
相关评论
最新点评
更多点评 发表点评
发表评论
您的评价
差(1) 一般(2) 好(3) 很好(4) 非常好(5)
评论标题
评论内容
验 证 码
看不清?更换一张
匿名发表 
 
 
文章搜索
 
 


傲世皇朝  2019-2029 

百度地图 谷歌地图