今天凌晨,AIGC文生视频领域又迎来一款重量级产品。OpenAI发布了其首个视频模型Sora,该模型能够直接生成长达60秒的视频,且内容包含精细背景、多变镜头及情感丰富的角色。据产品官网展示的视频demo显示,Sora不仅能精准呈现细节,还能在一定程度上还原物体在现实世界中的状态,并能生成情感丰富的角色,甚至能根据提示补全缺失画面。
这一发布标志着AIGC视频时代正在加速到来。借助AI技术,用户无需专业技能即可自由创作视频。在谷歌、Meta、阿里云、百度之后,OpenAI凭借Sora正式进军文生视频领域,进一步提升了视频输出的时长与质量。不少网友对此表示惊叹:“这么强?未来视频也未必是真相了。”
Sora的发布意味着现实将被彻底颠覆。例如,在龙年春节的舞龙队伍中,人们可以边跟边拍;在雨后东京街头,一位时尚女士穿梭于霓虹灯下;城市轻轨穿越市区时,车内人物面朝窗外玩手机——这些场景都是AI生成的。OpenAI的目标是通过训练模型,帮助人们解决需要现实世界交互的问题。Sora是OpenAI在语言和图像生成领域工作的延伸,不仅能理解详细提示,还能通过动作和视觉叙事重新创造物理世界的动态。
仔细观看demo视频,可以发现其中充满了细节:舞龙队伍中的每个人物都有各自的行为;雨后街头,潮湿地面反射出逼真的光影效果;行驶中的车窗偶遇遮挡时,车内人物倒影在玻璃上——这些细节在原始文本中并未提及。
Sora的实现依赖于扩散模型技术,该模型能从类似静态噪声的视频开始,通过AI逐渐去除噪声,将随机像素转化为清晰场景。由于该模型基于Transformer架构,具有极强的扩展性,因此能够处理各种持续时间、分辨率和纵横比的视频数据。这使得Sora能在单个视频中创建多个镜头,并准确解释提示词,保留角色和视觉风格。
然而,Sora仍存在不足。目前它难以准确模拟复杂场景的物理原理,且可能无法理解因果关系。例如,视频中篮球未能正确被篮筐阻挡。尽管如此,AI文生视频领域仍保持快速发展趋势。
事实上,AI文生视频并非新鲜事物。在Sora之前,谷歌的Imagen和Meta的“做个视频”已发布多年。上月底,谷歌还发布了AI视频大模型Lumiere,同样能生成高质量动态视频。中国也在这一领域有所布局。去年3月,阿里达摩院推出了“文本生成视频大模型”,并在开源模型平台上测试;百度文心一言则支持多模态文本生成视频能力。尽管如此,这些模型与Sora相比在持续时长和镜头组合方面仍有差距。
随着AI技术的不断进步,AI文生视频领域将迎来更多创新和突破。未来一两年内,该领域将出现更智能的视频生成技术、更多样化的应用场景以及更完善的技术标准和商业模式。然而,也需面对数据安全和隐私保护等挑战。