來源:極客公園
正如外界猜測的那樣,在爲期 12 天直播的第三天,OpenAI 正式發布了文生視頻產品 Sora。
北京時間 12 月 10 日凌晨兩點,Sam Altman 和幾位 OpenAI 內部員工通過直播,展示了 Sora 的功能和實際用例。繼今年 2 月釋出視頻樣片後,Sora 引發了全球人工智能界熱潮,此後國內外人工智能公司紛紛推出文生視頻產品。而作爲這一賽道的开創者,今天 Sora 終於揭开了神祕面紗。
整體來說,Sora 展示的一系列產品功能,表明其在視頻生成的質量、功能的獨創性、技術的復雜度等方面,超出了目前的文生視頻產品。
在文、圖生視頻的基礎功能之上,它加入了故事板(相當於通過分鏡創作自己的故事)、用文本調整原視頻、不同場景視頻的融合等功能(相當於給視頻直接加特效),整個產品功能設計似乎都在讓視頻更接近創作者的自我表達、幫助他們完成一個理想的鏡頭故事。
當地時間 12 月 9 日晚些時候,美國、以及大多數其他國家的用戶,可以訪問官網體驗 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 的會員訂閱中,無需額外付費。其中,Plus 能生成最多 50 個高級視頻、視頻分辨率最高達 720p、時長爲 5 秒,而 Pro 則能生成最多 500 個高級視頻、分辨率高達 1080p、時長爲 20 秒、還能去水印。
Sam Altman 介紹做 Sora 有三大原因:
一是從工具性角度,OpenAI 喜歡爲創意人員制作工具,這對公司的文化很重要;
二是從用戶交互角度,人工智能系統不能只通過文本交互,也應該理解並生成視頻,幫助人類使用人工智能。這類似於國內大模型公司談到的,「模型每擴展一次模態,用戶滲透率就會上升。」
三則是從技術角度,這對 OpenAI 的 AGI 路线圖至關重要,人工智能應該學到更多關於世界的規律,這正是所謂理解物理規律的「世界模型」。
既要用技術改變世界,也要用產品促進人類創造,這就是 Sora 在做的事情。
01 生成視頻之外,還能分鏡、加特效、無限創作
Sora 最基礎的,首先是文生視頻、圖生視頻功能。
打开主界面,用戶可以查看和管理所有的視頻生成內容,並且切換網格視圖、列表視圖,以及創建文件夾和收藏夾,查看書籤等。研究人員稱這個主界面設計,是爲了更好地幫助用戶創作故事。
在主頁面的中間底部,是 Sora 的文生視頻、圖生視頻功能。
比如,Sam Altman 先給到文字輸入,「長毛猛獁象在沙漠中行走,廣角鏡頭拍攝」。接着,需要選擇視頻的畫面比、分辨率、時長(5-20 秒)、以及最終生成的視頻數量(最多可生成四段以供挑選)等,才能獲得生成的視頻。
最終,可以看到生成的視頻效果非常真實、有質感,且基本遵照了輸入的指令。對於 Sora 視頻生成效果的出色表現,或許人們是不意外的。
輸入「長毛猛獁象在沙漠中行走,廣角鏡頭拍攝」的文字後,Sora 生成了四段視頻 | 圖片來源:OpenAI
但此次,Sora 還發布了一系列獨有的、進階的的產品功能。在極客公園看來,這些功能基本圍繞視頻的更准確表達,也就是通過分鏡、加特效等等方式,讓人們能通過視頻創作出一個自己想要的故事。
首先是故事板(storyboard),它被研究人員稱爲是一種「全新的創意工具」。
從產品設計上看,它相當於按時間軸的方式,把一段故事(視頻)切成了多個不同的故事卡(視頻幀)。用戶只需要設計和調整每張故事卡(視頻幀),Sora 會自動把它們補成一段流暢的故事(視頻)——這很像電影裏的分鏡、動畫的手稿,當導演畫好分鏡、一個片子就拍出來了,一個漫畫師寫好手稿、一個動畫就設計出來了。
比如研究人員設想的第一個分鏡是,「美麗的白鶴站在小溪中,擁有一條黃色的尾巴。」第二個分鏡是,「鶴將頭探入水中,並捉出一條魚」。那他做的工作就是,分別創建這兩張故事卡(視頻幀),並在兩者之間設大概五秒鐘的間隔。這個間隔對 Sora 很重要,給了它把兩組動作連起來的發揮空間。
最終,他得到了一個完整的視頻鏡頭,「美麗的白鶴站在小溪中,它擁有一條黃色的尾巴。接着鶴將頭探入水中,並捉出一條魚。」
通過兩張故事卡(視頻幀),Sora 生成了一個完整的故事(視頻) | 圖片來源:OpenAI
更爲奇妙的是,在這個故事板上,創作要素不只是故事卡,也可以是直接的圖片、視頻。也就是說,可以將任意的圖片、視頻拉到故事板上,結合故事卡,對它進行創作。
以視頻爲例,研究人員將上述白鶴的視頻切下來導入故事板,進行了剪切,這就給視頻的前方和後方留出了繼續創作的間隙,也就是說可以有新的开頭和結尾。
這帶來的想象是,故事板可以無限的創作下去。也就是說 Sora 生成的 20 秒視頻,可以被不斷地創造、剪切、創造……直至完全達到心目中理想的鏡頭。這個過程就像一個剪輯師、導演,通過對分鏡設計和鏡頭素材的不斷生成剪輯,慢慢剪出自己心中的片子。
和真實世界中不同,Sora 提供的素材是無限的。而和其他的文生視頻產品不同,Sora 的視頻是可以修改加工的。這使得它生成的視頻一定會更符合用戶心中的想象、創意。
這似乎正是 Sora 此次產品的核心思路:盡最大可能地,讓生成的視頻符合用戶心中想要的創意。
這樣可以更好理解 Sora 的其他功能,比如可以通過文字直接修改視頻、可以無縫融合兩段不同的視頻、可以給視頻改變畫風等,這相當於是直接給視頻加「特效」了。而一般的文生視頻產品,可能需要不斷地調整 prompt(提示詞)、不斷重新生成視頻。
通過調整文字,用戶可以直接調整視頻 | 圖片來源:OpenAI
Sora 能將兩個兩段視頻合並爲一段無縫剪輯 | 圖片來源:OpenAI
總的來說,Sora 除了在生成視頻上不出意料的出色表現之外,它還帶來了更獨有的視頻創作產品功能,相當於給視頻加分鏡、剪輯、特效。這意味着,每個人都有機會創作出自己真正想要的表達,離當一個導演也更近了。
「如果你帶着期望進入 Sora,認爲你只需要點擊一個按鈕就可以生成一部電影,那么我認爲你的期望是錯誤的。」OpenAI 研究人員說道。
他表示,Sora 是一種工具,允許人們同時在多個地方、嘗試多個想法,嘗試以前完全不可能的事情,「實際上我們認爲這是創作者的超級特殊延伸。」
02 服務大衆還不單獨收費,還是靠底層模型的能力
作爲文生視頻賽道的开創者,Sora 的推出時間算是最晚的。對此,OpenAI 研究團隊表示,爲了對 Sora 進行廣泛的部署,需要找到讓模型更快、更便宜的辦法。爲此,研究團隊做了大量的工作。
在直播中,OpenAI 宣布推出 Sora turbo,這是原始 Sora 模型的新高端加速版本。它具有今年早些時候 OpenAI 在「世界模擬技術」報告中談到的所有功能,此外還增加了從文本生成視頻、動畫圖像和混合視頻等功能。這是此次 Sora 產品功能背後的技術基礎。
看起來相比文字,視頻的推理成本更高,但此次 OpenAI 並沒有單獨針對 Sora 收費。20 美元/月的 ChatGPT Plus 會員、以及 200 美元/月的 ChatGPT Pro 會員,都可以使用 Sora。
前者的權益包括最多 50 個高級視頻、分辨率達 720p,時長爲 5 秒,後者的權益包括最多 500 個高級視頻、無限普通視頻,分辨率高達 1080p、持續時間爲 20 秒、並且下載無水印。
不同會員對 Sora 的使用額度 | 圖片來源:OpenAI
Sora 對 OpenAI 的意義不止於此。團隊發現,視頻模型在大規模訓練時會展現出許多有趣的新能力,使得 Sora 能夠模擬現實世界中人、動物和環境的某些方面。「我們的結果表明,擴展視頻生成模型是構建物理世界通用模擬器的一條有希望的道路。」
或許正是因此,讓 Sora 盡快被大衆用起來、用數據更好地訓練世界模型,對於 OpenAI 最終的 AGI 夢想如此重要。
在迭代技術的路上,也順帶推動了人類的創造。
「這個版本的 Sora 會犯錯誤,它並不完美,但它已經到了我們認爲它將對增強人類創造力非常有用的地步。我們迫不及待地想看看世界將用它來做什么。」締造它的 OpenAI 如此說道。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。