近日,谷歌DeepMind宣布了一项名为V2A(Video-to-Audio)的新系统,该系统能够根据视频内容或用户输入的提示词,为视频自动生成配音。此外,V2A还能为任意视频生成无限数量的音轨,为用户提供了极大的创作自由度。
V2A系统的最大亮点在于,它无需人工输入提示词就能理解视频内容,并据此生成合适的音频。据DeepMind介绍,V2A系统具备强大的视觉理解能力,能够“看懂”视频中的画面,并据此判断应出现的声音效果。
在发布V2A系统的同时,谷歌还展示了几个Demo视频,展示了V2A在恐怖片和西部片等不同场景下的应用效果。这些视频显示,V2A系统能够精准地根据画面和提示词生成与之匹配的音频,如紧张的音乐、悠扬的口琴声等。然而,在某些复杂场景中,如鼓手演奏架子鼓的视频中,V2A的音频生成出现了与画面不符的情况,显示出该系统在复杂场景下的理解仍存在不足。
与V2A系统不同,另一家语音克隆创企ElevenLabs也发布了其文字到音频模型的API,并基于该API开发了一个Demo应用,供公众免费使用。该应用通过GPT-4o模型将视频截图转换为文字提示词,再输入文字转在几秒内生成多条与画面内容匹配的音频。虽然该应用无法直接实现画面到音频的转换,但其在某些场景下表现出色。
值得一提的是,V2A系统采用了基于扩散的高质量音频输出技术,通过视觉输入和自然语言提示引导生成高度符合提示词的音频。同时,为了提升音频质量并增加对特定声音的理解能力,研究人员在训练过程中添加了AI根据视频生成的注释信息。这些信息包括画面内声音的详细描述和口语对话的记录等。
然而,目前V2A系统仍存在一些局限性。例如,如果输入的视频质量不高,输出的音频质量也会明显下降;在口型同步方面仍存在不足等。因此DeepMind表示需要进一步优化系统以提升其性能并降低潜在风险。
目前DeepMind并未计划向公众开放V2A系统而是与创作者进行沟通以收集反馈并优化系统。同时该公司也强调了SynthID工具包的重要性为所有AI生成内容添加水印以防止技术滥用。
综上所述V2A系统的发布标志着AI在音视频生成领域又迈出了重要一步。虽然目前仍存在一些局限性但随着技术的不断进步我们有理由相信未来AI将为内容创作带来更多可能性同时也需要关注其潜在风险并制定相应的应对策略。