AI驱动视频生成:国产AI迈入有声电影时代
自Sora引爆视频生成领域以来,AI生成的视频大多停留在“默片”阶段,即没有对应的音效。然而,这一局面如今已被打破,国产AI已能将视频生成带入有声电影时代,并实现了4K、60帧高清画质。
这款国产AI正是智谱刚升级的新清影,其特点包括:
- 电影级效果:支持4K、60帧高清画质,10秒时长和任意比例视频。
- 模型能力全面提升:背后的CogVideoX模型更懂复杂prompt,能够保持人物等主体的连贯性,效果更逼真。
- 自带音效:引入CogSound模型,能够自动根据视频内容生成匹配的音效,即将在清言APP上线。
利用这套AI组合拳,用户可以轻松生成微电影或短视频。首先,用户通过GLM 4 Plus生成微电影脚本,再用文生图AI生成高清大图。接着,将图像传入新清影的图生视频界面,并填写效果prompt。最后,选择基础参数后,即可生成电影级别、自带音效的高清视频片段。
智谱的CogSound模型在音效生成方面表现出色。无论是自然环境、动物世界还是多种乐器演奏的视频,CogSound都能精准理解视频内容并生成匹配的音效。例如,在《流浪地球》的视频片段中,CogSound生成的音效几乎与电影原声无异。
此外,智谱的CogVideoX在视频生成能力上也有大幅提升。例如,生成的老爷爷情绪和表情变化宛如电影片段,科幻火焰老虎的视觉效果也十分逼真。这些成果得益于CogVideoX在内容连贯性、可控性和训练效率等方面的能力提升。其模型架构基于多个专家Transformer模块,采用因果3D卷积和专家自适应层归一化等技术,实现了更自然、更具连贯性的视频生成。
智谱的多模态矩阵涵盖了文本生成、图像生成、视频生成、音效生成、音乐生成等多个领域。随着CogSound的发布和即将上线的音乐模型CogMusic以及此前已发布的GLM-4-Voice人声模型,智谱在视频生成中的“音”这块已全面布局。未来,随着这些技术的不断发展和应用,短视频制作领域或将迎来AI时代的全面到来。
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com