半个月前,字节的OmniHuman-1模型在全球AI界掀起了巨大波澜。
或许有些朋友对这个模型还不太了解,那我来简单解释一下:只需一张图片加上一段音频,就能生成超逼真的唇形同步AI视频。
听起来是不是觉得之前已经有过类似的技术了?确实,这种AI视频我们通常称为“对照片说话”,我之前也写过相关文章介绍过。但那时候的效果是这样的:虽然已经很好了,但只能生成面部或头部的动画,背景和肢体都无法动起来,显得有些尴尬。
而这一次,OmniHuman-1实现了巨大的突破。一张照片加上一段音频,就能生成背景动态、支持全身动作的视频,并且还能保证口型同步。这在我心目中,才是真正的AI视频该有的样子。
我等了很久,终于在今天深夜,等到了OmniHuman-1的内测版本。这一次,他们把这个模型也放在了老朋友即梦上。在视频生成中的“大师模式”,就是OmniHuman-1。
对比了三种模式后,我玩了2个小时,只能感叹一句:AI视频中的人物表演,也终于走进了下一个时代。现在,视频中的人物再也不是默剧了,让人物开口说话也终于不用先跑一段动态AI视频再换口型了。只需一键,就能直接生成一段带表演、带口型的15秒视频。这就像当年的语音从TTS进化到了端到端的声音一样,酷到爆炸。
接下来给大家展示一下如何使用这个模型,真的非常简单。首先,你需要准备一张人物角色图和一段音频。图片的话没啥需要注意的,现在的OmniHuman-1支持任何比例。不过我自己测试下来,角色审核非常严格,一些拟人角色或稍微侧面的角色都显示未检测到可用角色。关于音频的话,除了真人配音之外,如果想用AI生成,我比较建议去海螺AI,目前我觉得那是最强的AI语音。我之前也写过文章介绍过。
全部准备就绪上传之后,你只要点击生成就可以了。比如我准备了一张图片和一段《哪吒2》里非常经典的语音,然后他们直接合成了一段AI哪吒念诗的视频。这效果虽然有一些瑕疵,但是已经是我见过的表演最好的了。
我又尝试了让奥特曼搞了个花的运动,这个运动非常夸张,不仅奥特曼自己的表演到位,背景里的行人也是匆匆穿越,稳得一笔。又或者这个miku酱弹吉他的视频,简直太牛逼了。
甚至不止单人,连多人都可以生成。AI女团有望了。以前要调、找配音、做后期合成,至少得个把星期的工作量,如今十几秒钟就能完成,还能批量跑,简直让人不敢相信这是现实。这就是我心里那个AI视频2.0时代的标志:人物不仅动了,还能用自然语音去表达信息,真正把视频当做核心载体,让AI深度参与到表演和叙事中。这样的想法放在半年前,像天方夜谭一样不可想象,可如今就真实地摆在我们面前。
再往后想,我们也许要重新思考:影视、动画、广告、甚至直播这些传统概念会不会因为一个AI而统统被打碎重构?相信结论都在大家的心中只是时间上的尺度有不同而已。科技的长河滚滚向前从来不会等待任何人。