Sora 2 来袭：生成20秒逼真视频，正面碾压谷歌Veo 3？

这一次，OpenAI 再次放出大招，正式推出 Sora 2，能够直接生成长达 20 秒的 1080p 高清视频。

例如，有网友用奥特曼生成了“GPU外卖小哥”的视频，甚至还出现了去超市“偷显卡”的趣味剧情。

相比上一代，Sora 2 在物理准确性、画面真实感与可控性方面都有显著提升，并且与谷歌 Veo 3 一样，具备音画同步生成能力。

我们使用同一段提示词，让新旧两个版本的 Sora 同台比拼。

提示词为：“A black tech reviewer talking about a smartphone, while sitting at a desk in front of 2 displays.”（一位黑人技术评论员坐在桌前，面对两台显示屏谈论一款智能手机。）

在旧版 Sora 中，模型似乎未能充分“理解”视频中的物体，仍容易出现所谓的“幻觉”：黑人小哥手中的手机会凭空出现或消失，左手偶尔多出一根或少一根手指，屏幕中的图像也出现手指畸变。

而 Sora 2 生成的视频则几乎达到以假乱真的水平，物体之间没有异常穿透或无故消失重现，人物手指也始终保持正常形态，同时还实现了音视频同步输出。值得注意的是，我们并未对黑人小哥的评论内容作任何提示，但 Sora 2 生成的小哥口齿清晰、表达流畅，评论内容完全由模型自行生成。此外，用户还能自由调整生成视频的画面比例。

Sora 2 一经发布，立刻在海外社交媒体引发热烈讨论。

有人评价：“这款新一代 AI 音视频模型，可能成为 Veo 3 的真正竞争对手。”

也有人指出：“Sora 2 在音频生成方面比 Veo 3 更出色。”

当然，也不乏冷静的声音。有人提到：“Sora 2 生成的视频效果确实惊艳，但所需成本也极为高昂。”

Gary Marcus 也再次发表犀利评论，他引用研究数据指出：生成视频的长度翻倍，文生视频模型的能耗将增至四倍。他认为，GPU 作为 AI 开发的核心计算资源，需求巨大。将这些宝贵资源用于开发 AI 生成视频社交应用，而非癌症研究等更具意义的领域，可能是一种资源错配。

🔍 与 Veo 3 对比实测

目前 Sora 2 提供两种使用方式：网页端访问，或下载 Sora iOS 应用（限美国与加拿大用户）。两种方式均免费，但需邀请码及美国 IP 地址。

网页版访问地址：https://sora.chatgpt.com/explore

我们进行了一系列实测，将 Sora 2 与谷歌 Veo 3 进行正面比较。

第一轮：演技考验

提示词：手持中景镜头跟随一名美国士兵，穿行于黄昏时分废墟遍布的诺曼底战场，大雨滂沱。镜头向后拉，直面士兵。他满脸泥泞，表情空洞，眼神失焦，身后是不断闪烁的爆炸火光。他停下脚步，跪在泥泞中低语：“为什么我还在这里？”背景响起缓慢而沉重的管弦乐。

两者在人物表情与场景还原上都表现不错，爆炸声与配乐也搭配得当。但从提示词遵循度来看，Veo 3 更胜一筹——它完整呈现了“停下、跪地、低语”的流程，而 Sora 2 则省略了“跪地”动作。此外，Veo 3 的雨滴效果更逼真，人物动作幅度也更自然。

我们还对比了旧版 Sora，发现其镜头切换相当流畅，只是没有声音。

第二轮：ASMR 生成

Veo 3 发布时，有网友生成的 ASMR 视频一度走红。我们也进行了尝试。

提示词：ASMR 创作者正在敲击嘈杂的键盘，随后抬头对着麦克风吹气并说话。

两个模型的表现都非常出色，均能精准实现音画同步，捕捉每个细节。键盘敲击声清晰可辨，抬头呼气时音效切换自然，与画面完美契合。若不标注为 AI 生成，几乎可以骗过大多数观众。

第三轮：唱功测试

提示词：一位男歌手头戴耳机，在温馨的录音室中对着麦克风演唱，周围是吸音板与暖色灯光。镜头特写其富有情感的面部表情，氛围亲密。

效果十分真实，无论是 Sora 2 还是 Veo 3，音画同步处理精准，歌手口型与歌声完全匹配。耳机、麦克风及录音室环境细节也都还原到位，整体自然且可信。

第四轮：假新闻生成

我们测试了它们生成“假新闻”的能力。

提示词：一位新闻主播以严肃口吻报道一则关于外星人登陆纽约的明显虚假新闻，画面配有素材叠加、戏剧性音乐与动态图形，背景为新闻演播室。

本轮 Sora 2 胜出。Veo 3 生成的画面以 AI 主播为主，虽然播音腔纯正，但背后外星人画面较为模糊，略显出戏。Sora 2 除了主播播报，还会穿插“现场镜头”，使假新闻看起来更像真实报道。

第五轮：脱口秀生成

我们使用中文提示词，测试它们对非英语内容的理解能力。

提示词：一个脱口秀演员在台上讲了一个笑话，内容是“别整天说自己是单身狗，狗在你这个年纪，早 die 了”，观众爆笑。

Sora 2 能根据中文提示自动生成中国脱口秀演员形象，挑眉、嘴角上扬等微表情都捕捉到位，口型也严丝合缝。唯一的瑕疵是若提示词中夹杂英文，英文部分发音不够准确。而 Veo 3 在处理同一中文提示时，仍输出说英语的外国演员。我们再次通过 flow 平台测试 Veo 3，发现它目前仍仅支持英文提示。

第六轮：体操动作测试

无论是 Veo 3 还是 Sora 2，在生成体操视频时仍会出现失误。

提示词：一位体操运动员在明亮的体操馆中，身着鲜艳服装，在高低杠上优雅地旋转、跳跃、翻腾，动作流畅。镜头从多个角度捕捉她的表现，背景音乐为激昂交响乐，旁白讲解她的动作技巧与训练历程。

我们使用 Sora 2 分别生成了带中英文解说的体操视频，旁白效果不错，但动作仍会出错，例如运动员动作突然加速、多出胳膊，或在单杠大回环时飞出却仍能稳稳抓住杠体。Veo 3 同样存在手臂旋转异常等诡异细节。

🛡️ 版权与安全措施

在版权保护方面，OpenAI 吸取了教训。Sora 2 不仅采用邀请制，还加入了包括水印、对公众人物深度伪造的限制等安全措施，以防滥用。在我们实际体验中，Sora 2 App 常因版权保护等原因拒绝生成视频，其他创作者的作品也无法下载或录屏。

❓ 全是 AI 视频的 TikTok，会火吗？

除了常规视频生成，OpenAI 还推出了基于自拍的“客串”功能，例如让奥特曼出现在 SpaceX 发射现场。

提示词：@sama watches spaceX rocketship launch. Then laugh. @sama says “good job.”

Sora iOS 应用率先在美国和加拿大上线。用户可通过滑动浏览一个个完全由 AI 生成的视频流，并能进行生成、重混与分享。该应用的界面设计与 TikTok 极为相似，包括算法推荐的“为你推荐”页面，视频右侧设有点赞、评论、重混选项，底部导航栏包含首页、搜索、发布、通知和个人中心，甚至还有私信功能。

对于 OpenAI 这一策略，有人认为：“仅就视频生成模型而言，从谷歌到国内快手、字节、MiniMax、百度，竞争极为激烈，无人能持续领先。但通过 Sora 应用构建产品壁垒后，OpenAI 可获得喘息时间以缩小模型差距。即便某些指标暂时落后，也能牢牢占据用户入口和使用习惯。”

但 OpenAI 并非首个尝试此路径的公司。上周，Meta 刚宣布在其 Meta AI 应用中新增名为 Vibes 的视频流。而早在去年，国内“即梦AI App”就已上线，逐步构建起创作者视频流生态，如今已成为领先的 AI 内容创作与分发平台。

因此，一个完全由 AI 生成视频构成的 TikTok 能否持续走红、是否真能成为 OpenAI 的产品护城河，仍需时间检验。

参考链接：

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/4134

Sora 2 来袭：生成20秒逼真视频，正面碾压谷歌Veo 3？

相关推荐

OpenAI高层地震：COO转岗、高管离职，IPO冲刺期内部动荡引质疑

TCDiff++：突破群体舞蹈生成瓶颈，端到端模型实现虚拟群舞新高度

DeepSeek GitHub仓库突现密集更新，华尔街警惕“DeepSeek第二时刻”来临

Apple Silicon神经引擎潜力爆发：M4 Pro ANE实现3.8 TFLOPS，能效超GPU 80%

AI模型周报：阶跃星辰GUI Agent破纪录，Mistral 3系列开源引领多模态浪潮

发表回复