- "Sora"一词的含义及其背后的寓意是什么?
在日语中,"Sora"意为"天空",象征着自由与无限可能。在Sora的官方介绍页面,你可以看到无数自由飞翔的纸飞机,它们仿佛拥有自主行动的能力,探索着无垠的天空。如果OpenAI的通用人工智能(AGI)梦想成真,这或许就是其追求的境界。
Sora是一个AI视频模型,只需输入一串文字,就能生成逼真的纯AI原创视频。此外,它还能将图片转换为视频,再用视频生成新的视频,功能强大且灵活多变。
Sora的发布已经在传播层面引发了"地震",不少人高呼影视行业即将迎来巨变,甚至有人将美国电影工业的象征——好莱坞,改写成这样的形象:
- 是什么让人们如此赞叹Sora,称其为"炸裂"、"史诗级"、"现实不存在了"?
最直观的原因是Sora生成的样片太过真实——人物的脸不再显得"恐怖谷",物体运动轨迹自然流畅,画面清晰顺畅,仿佛就是用我们手中的设备拍摄出来的。
与竞品相比,Sora堪称"灭霸"级别。之前主流的AI生成视频时长大多在4到16秒,且"卡成PPT",而Sora则直接将时长提升到60秒,其画面表现已媲美视频素材库,完全适合作为视频的背景空镜。
这让人感叹技术的发展虽有其规律可循,但突破节点却难以预测。
- 除了第一眼看上去的惊艳效果外,Sora还有哪些令人惊叹的功能?
Sora支持多机位生成,能够自然融合两种完全不相干的场景。视频不仅可以向前扩展、向后扩展,如果你对视频的局部(如背景)不满意,还可以直接进行更换。此外,Sora还能以文生图,甚至将图片转换成动态视频,且效果远超目前流行的"小动物跳舞"等粗糙效果。
- 输入《三体》的故事内容,Sora能直接生成视频吗?
目前就Sora所展示的功能而言,虽然支持多机位效果,但都是单一情节和镜头。而《三体》涉及多人视角和复杂的叙事结构,靠AI生成一条龙服务并不现实。据影视行业从业者所述,目前AI生成虽然高效但可控性不足主要应用在demo制作、概念设计、分镜编排等环节。
- 看到Sora的潜力后你有一个大胆的想法?请打住!
OpenAI正在评估Sora被滥用的风险因此目前并未向公众开放仅提供给一批在误导信息、仇恨内容和偏见等领域的专家以及创意人士使用。
- 每次技术革新时打工人总是最先感到焦虑这次该如何应对?
记住贩卖焦虑的往往是为了赚钱。虽然Sora尚未公测但已经有人开始售卖付费教程了。目前的Sora也存在"翻车"生成的情况如果这能给你带来安慰的话。AI技术更新迭代速度极快你可能刚在Pika上学了几个月怎么写提示词结果"灭霸"Sora就横空出世了此前积累的工具经验可能瞬间失效。因此与其沉迷研究工具不如在底层创作上多加操练。
- 我既害怕被取代也害怕AI变得越来越黑箱化
继文字(GPT系列)和画像(DALL·E)后OpenAI在视频赛道上再次"遥遥领先"。然而这家将AI安全视为初心的公司在技术公开上却越来越不开放有人戏称其为"ClosedAI"。这次Sora发布OpenAI现任CEO Sam Altman在X上"在线接单"帮网友生成视频结果有人给出了这样的提示词但Sam却拉黑了他。
- 未来我们真的能分清现实和AI生成的视频吗?
有人让Gemini 1.5观看并分析一个Sora生成的视频Gemini指出樱花一般在春天开放那时不下雪;雪下得太均匀了;虽然是下雪天但人穿得很单薄。于是AI判定这不是真实影像。看来要用魔法打败魔法啊!
- 为什么是OpenAI成功研发出Sora呢?
因为OpenAI拥有GPT和DALL·E的成功经验他们在以往的技术范式上做出了新突破:不仅能理解用户在提示中提出的要求还能理解它们在物理世界中的存在方式。生成视频效果如此好是因为Sora能更深入地理解用户给的提示词。根据官方说法他们利用DALL·E 3的re-captioning功能给训练用的视频素材都加上了高质量文本描述以提高输出视频的整体质量。此外你给的简短描述词AI会进行进一步扩写再交由Sora生成。更重要的是Sora是一个Diffusion Transformer而Transformers已被证明能在语言建模、计算机视觉和图像生成等领域表现出色。
- 视频模型的训练很消耗算力吗?OpenAI耗得起吗?
大约一周前Sam Altman宣布OpenAI启动"造芯"计划因为目前OpenAI每天需要生成约1000亿个单词这需要大量的GPU(图形处理器)芯片进行训练计算。他希望筹集到7万亿美元这个数额相当于全球GDP的10%是2.5个微软、3.75个谷歌、4个英伟达、7个Meta以及11.5个特斯拉的市值。