牛财金

重磅武器!OpenAI发布文生视频大模型Sora，文字直接生成1分钟精彩视频

OpenAI

2024-02-16

2024年2月16日牛财金消息，全球人工智能领航企业OpenAI推出了一种名为Sora的新人工智能模型，声称该模型可以通过文本提示快速创建“逼真”和“富有想象力”的60秒视频，其中包含高度精细的场景、复杂的摄像镜头运动以及充满活力情感的多个角色。

OpenAI表示，索拉Sora能够根据文本指令生成长达60秒的视频，并能够提供具有多个角色、特定类型的动作和详细背景细节的场景。

该文生视频大模型Sora不仅了解用户在提示中的要求，还了解这些东西在真实世界中是如何存在的。

OpenAI表示，它打算训练该人工智能模型，以便帮助人们解决需要现实世界互动的问题。

作为大热的聊天机器人ChatGPT背后支持的公司，这是OpenAI最新的研究成果，它将继续推动生成人工智能运动向前发展。

市场研究公司ABI research的高级分析师海登表示，尽管“多模态模型”并不新鲜，文本生成视频的模型也已经存在，但OpenAI声称Sora具有的长度和准确性使其与众不同。

牛财金分析师认为这些新类型的人工智能模型会生成新的个性化内容，通过数字网络渠道进行流式传播，对数字娱乐市场产生重大影响。

一个明显的应用案例是在电视中，可以方便的创造短场景来支持叙事。尽管这种模式仍然受限，但它显示了市场未来的方向。

与此同时，OpenAI表示，虽然索拉Sora的性能已经大幅提高，但仍然存在明显的“弱点”，尤其是在提示的空间细节（左右混合）以及前后因果方面。它举了一个例子，创建了一个视频，视频中有人咬了一口饼干，但饼干后面没有咬痕。

目前，OpenAI仍然专注于系统的安全性。公司表示，计划与一个专家团队合作，测试最新模型，并密切关注各个领域，包括错误信息、仇恨内容和偏见。公司还在开发工具，以帮助检测误导性信息。

索拉将首先提供给名为“red teamers”的网络安全教授，他们可以评估产品的危害或风险。它还允许一些视觉艺术家、设计师和电影制作人，收集创意专业人士使用索拉的反馈。

Sora根据文字提示创建的短视频

图1. Sora创建的1分钟短视频

图1A,F

文字提示：一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多行人走来走去。

图1B

文字提示：几头巨大的长毛象在雪地上漫步，它们长长的长毛在风中轻轻地吹着，远处是白雪皑皑的树木和引人注目的雪山，午后的光线与稀疏的云层和远处的太阳形成了温暖的光芒，低视角的视野令人惊叹，镜头捕捉到了这只毛茸茸的大型哺乳动物和景深。

图1C

文字提示：电影预告片，讲述了这位30岁的太空人的冒险故事，他戴着红色羊毛针织摩托车头盔，蓝天，盐沙漠，电影风格，用35毫米胶片拍摄，色彩生动。

图1D

文字提示：无人机可以看到海浪拍打着大苏尔加里角海滩上崎岖的悬崖。汹涌的蓝色海水形成了白色的波浪，而落日的金色光芒照亮了岩石海岸。远处坐落着一个带灯塔的小岛，绿色的灌木林覆盖着悬崖边缘。从公路到海滩的陡峭落差是令人惊叹，悬崖的边缘伸出大海。这是一个捕捉到海岸原始美景和太平洋海岸公路崎岖景观的视图。

图1E

文字提示：动画场景特写了一个毛茸茸的短怪物跪在融化的红色蜡烛旁。艺术风格是3D和逼真的，重点是照明和纹理。这幅画充满了好奇，怪物睁大眼睛张大嘴巴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉，仿佛它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。