阿里4个月发了6个AI视频项目,最新EMO让赫本、张国荣“复活”

AI百科1个月前发布 快创云
28 0

  年初,英伟达科学家Jim Fan曾预言,2024年将是AI视频技术的突破之年。这一预言似乎正在逐步成真,从Sora的横空出世,到Genie、Stable diffusion video、LTX Studio等AI视频应用的不断涌现,AI视频领域正经历着前所未有的创新与变革。

  最近,阿里巴巴也加入这一行列,推出了一款名为EMO的音频驱动肖像视频生成框架。EMO通过单一参考图像和音频输入,如说话或唱歌,能够生成表情丰富、头部动作多样的AI视频。其视频长度与输入音频的长度相对应,使得内容创作、虚拟角色开发、动画制作和学术研究等领域得以受益。

  EMO的特点包括:

  1. 音频驱动的视频生成:根据输入的音频和参考图像,生成具有表情变化和头部动作的虚拟角色视频。
  2. 多语言支持:支持多种语言的音频输入,为不同语言的歌曲生成相应的表情和动作。
  3. 表情和动作同步:确保生成的视频中的角色表情和头部动作与音频输入的节奏和情感相匹配。
  4. 风格多样性:为不同的肖像风格赋予动态和逼真的动作,并保持角色的一致性和身份特征。
  5. 跨文化和多语言应用:在多语言和多文化背景下,为角色提供表演和独白的能力。

  然而,EMO的发布也引发了一些关于开源问题的讨论。虽然项目发布在开源社区GitHub上,且目前GitHub Star数已达5.1k,但网友们发现项目仓库里并未包含实际代码,只有一个展示界面和视频。这一情况在GitHub Issues上引起了热议,有人质疑这不符合GitHub的开源精神,也有人认为这是刷Star混KPI的行为。不过,无论外界如何议论,EMO的推出无疑为AI视频领域带来了新的可能性。

  值得一提的是,阿里在AI视频领域的布局远不止于此。据统计,仅在过去四个月内,阿里就推出了包括“全民舞王”在内的6个AI视频项目。这些项目涵盖了从3D模型替换视频角色到无文本标注视频的多用途生成方案等多个方面,展现了阿里在AI视频技术上的深厚积累和创新实力。

© 版权声明

相关文章