OpenAI推出文本转视频AI模型Sora

OpenAI 正在推出一种新的视频生成模型，名为Sora。这家人工智能公司表示，Sora “可以根据文本指令创建现实且富有想象力的场景。”文本到视频模型允许用户创建长达一分钟的逼真视频——所有这些都基于他们编写的提示。

根据 OpenAI 的介绍性博客文章，Sora 能够创建“具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景”。该公司还指出，该模型可以理解物体“在物理世界中如何存在”，以及“准确地解释道具并生成引人注目的角色来表达充满活力的情感。”

该模型还可以基于静止图像生成视频，以及填充现有视频上缺失的帧或扩展它。 OpenAI 博客文章中包含的 Sora 生成的演示包括淘金热期间加利福尼亚州的空中场景、一段看起来像是从东京火车内部拍摄的视频等等。许多模型都有一些明显的人工智能迹象——比如博物馆视频中可疑移动的地板——OpenAI 表示，该模型“可能难以准确模拟复杂场景的物理原理”，但总体结果令人印象深刻。

几年前，像 Midjourney 这样的文本到图像生成器处于模型将文字转换为图像的能力的最前沿。但最近，视频开始以惊人的速度进步：Runway和 Pika 等公司展示了自己令人印象深刻的文本到视频模型，而谷歌的 Lumiere 也被认为是 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似，Lumiere 为用户提供文本转视频工具，还允许他们从静态图像创建视频。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Sora 目前仅适用于正在评估模型潜在危害和风险的“红队成员”。 OpenAI 还允许一些视觉艺术家、设计师和电影制作人获取反馈。它指出，现有模型可能无法准确模拟复杂场景的物理原理，并且可能无法正确解释某些因果实例。

本月早些时候，OpenAI 宣布将在其文本转图像工具 DALL-E 3 中添加水印，但指出它们可以“轻松删除”。与其他人工智能产品一样，OpenAI 将不得不应对虚假的人工智能真实视频被误认为真实的后果。

随着 OpenAI 继续推进 ChatGPT，最新的更新也随之而来。

本周早些时候，该公司表示正在测试一项功能，用户可以控制 ChatGPT 的内存，允许他们要求平台记住聊天内容，以使未来的对话更加个性化，或者告诉它忘记之前讨论的内容。

OpenAI推出文本转视频AI模型Sora

相关推荐

评论抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

相关推荐

评论 抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

评论抢沙发