【百姓彩票紅】重磅！OpenAI首個視頻生成模型發布，1分鐘流暢高清，效果炸裂

2024-04-14 11:51:07

每經編輯畢陸(lu)名

據OpenAI官網，重磅炸裂(lie)OpenAI首(shou)個視(shi)頻(pin)生(sheng)成(cheng)模型Sora發(fa)布，首(shou)個視(shi)頻(pin)生(sheng)成(cheng)完美繼承DALL·E 3的(de)模型畫(hua)質和遵循指(zhi)令(ling)能力，能生(sheng)成(cheng)長達1分鐘的(de)發(fa)布分鐘高(gao)清(qing)視(shi)頻(pin)。

AI想象中的流暢龍年春節，紅旗招展人山人海。高清百姓彩票紅

有(you)緊(jin)跟(gen)舞(wu)龍隊伍抬頭好奇官網的效(xiao)果兒童，還有(you)不少人(ren)掏出(chu)手機邊跟(gen)邊拍(pai)，重磅炸裂海量(liang)人(ren)物角色各有(you)各的首個視(shi)頻生(sheng)成(cheng)行為。

一位時(shi)髦女士(shi)漫(man)步在東京街頭，模型(xing)周圍(wei)是發布分(fen)鐘溫暖閃(shan)爍的霓虹(hong)燈和動感(gan)的城(cheng)市(shi)標志。

一名年約三十的流暢(chang)宇航員戴著(zhu)紅色針織摩托頭(tou)盔展開(kai)冒險之旅(lv)，電影預告片呈現其穿梭于藍(lan)天白云與(yu)鹽湖沙漠之間(jian)的高清精(jing)彩瞬間(jian)，獨特(te)的效(xiao)果電影風格、采用35毫米(mi)膠片拍攝，重磅炸裂色彩鮮艷。

豎屏超(chao)近(jin)景視角下，這只蜥蜴(yi)細節(jie)拉(la)滿：

OpenAI表示，公司正在教授人工智能理解和模擬運動中的物理世界，目標是訓練出能夠幫助人們解決需要與現實世界互動的問題的模型。在此，百姓彩票最新網址隆(long)重(zhong)推出(chu)文本(ben)到(dao)視(shi)頻(pin)模型(xing)——Sora。Sora可以生成長達一分(fen)鐘的視(shi)頻(pin)，同(tong)時保證視(shi)覺質量和符(fu)合用戶提示的要求。

如今，Sora正面向部分成員開放，以評估關鍵領域的潛在危害或風險。同時，OpenAI也邀請了一批視覺藝術家、設計師和電影制作人加入，期望獲得寶貴反饋，百姓彩票怎么買以推動模型進步，更(geng)好地助力創意(yi)工作者(zhe)。OpenAI提前分享研究進展(zhan)，旨在與OpenAI以外的人士合(he)作并獲取反饋(kui)，讓公眾了解即將到來的AI技術新篇章。

Sora模型能(neng)(neng)(neng)夠生成包(bao)含多(duo)(duo)個角(jiao)色、特定(ding)類型運動(dong)和(he)主體及背景精確(que)細節的(de)(de)復雜場景。該模型不(bu)僅能(neng)(neng)(neng)理解(jie)用(yong)戶在(zai)提(ti)示中所要求的(de)(de)內容(rong)，還能(neng)(neng)(neng)理解(jie)這些事(shi)物(wu)在(zai)現實世界(jie)中的(de)(de)存在(zai)方式(shi)。該模型對語言(yan)有(you)深刻理解(jie)，能(neng)(neng)(neng)準確(que)解(jie)讀提(ti)示，并生成表(biao)達豐富情感的(de)(de)引(yin)人(ren)入(ru)勝的(de)(de)角(jiao)色。Sora還能(neng)(neng)(neng)在(zai)單個生成的(de)(de)視(shi)頻中創建多(duo)(duo)個鏡頭，使角(jiao)色和(he)視(shi)覺風(feng)格保持準確(que)一致。

比(bi)如一大群紙(zhi)飛(fei)機(ji)在(zai)樹林中飛(fei)過，Sora知道碰撞后會(hui)發生什么，并表現其中的光(guang)影變化。

一群紙飛機(ji)在(zai)茂密的叢(cong)林中(zhong)翩翩起舞，在(zai)樹林中(zhong)穿(chuan)梭，就像(xiang)候鳥一樣。

Sora還可以在單個視頻(pin)中(zhong)創(chuang)建多(duo)個鏡頭(tou)，并依(yi)靠對(dui)語言的深(shen)入理解(jie)準(zhun)確地解(jie)釋提示詞(ci)，保留角(jiao)色和視覺風格。

對于Sora當前(qian)存在的(de)(de)弱點，OpenAI也不避諱，模(mo)型在準確模(mo)擬復(fu)雜場景的(de)(de)物理特(te)性方面可能會(hui)遇到(dao)困難(nan)，也可能無法理解具體的(de)(de)因果(guo)關系(xi)實(shi)例。例如“五只灰(hui)狼(lang)幼崽在一(yi)條偏(pian)僻(pi)的(de)(de)碎石路上互相嬉戲、追逐”，狼(lang)的(de)(de)數量會(hui)變化，一(yi)些憑空出(chu)現或消(xiao)失。

此外，模(mo)型還可能會混淆提示的(de)空(kong)間細節(jie)，例(li)如(ru)左右不分，并且在處理隨時間發生(sheng)的(de)事(shi)件(jian)的(de)精確(que)描述方面也可能存(cun)在困難，比如(ru)跟蹤特定的(de)攝(she)像(xiang)機軌跡。

如提示詞“籃(lan)球穿過籃(lan)筐然(ran)后(hou)爆炸(zha)”中(zhong)，籃(lan)球沒有正(zheng)確被籃(lan)筐阻擋。

技術方面，目前OpenAI透(tou)露(lu)的(de)不多，簡單介(jie)紹如下(xia)：

Sora是(shi)一(yi)種擴(kuo)(kuo)散模型(xing)，從噪聲開(kai)始(shi)，能夠一(yi)次生成整個視(shi)頻或擴(kuo)(kuo)展(zhan)視(shi)頻的長度，

關鍵之(zhi)處在(zai)于一次生成(cheng)多幀(zhen)的預測，確保(bao)畫面主體即使(shi)暫時離開視野(ye)也(ye)能保(bao)持(chi)不變。

與GPT模(mo)型類(lei)似，Sora使用了Transformer架(jia)構，有很強的(de)擴(kuo)展(zhan)性。

在數據方面，OpenAI將視頻(pin)和圖像表示為patch，類似于(yu)GPT中的token。

通過這種統一的(de)數據表(biao)示方式，可以在比以前更廣泛的(de)視覺數據上訓練模(mo)型，涵蓋(gai)不同的(de)持續時(shi)間、分(fen)辨率和縱橫比。

Sora建(jian)立在過去對(dui)DALL·E和GPT模(mo)型的研究之上。它使用(yong)DALL·E 3的重述提示詞技術，為視覺訓練數據生成高度描(miao)述性的標注(zhu)，因此能(neng)夠更忠(zhong)實地(di)遵(zun)循(xun)用(yong)戶的文本指令。

除了能夠(gou)僅根據文本指令生成視頻(pin)之外，該模型(xing)還能夠(gou)獲取現有的(de)靜態(tai)圖(tu)像(xiang)并從(cong)中生成視頻(pin)，準確地讓圖(tu)像(xiang)內容(rong)動(dong)起來并關注小細節。

該模型(xing)還可(ke)以獲(huo)取現(xian)有視(shi)頻并對(dui)其進行擴展或填充缺失(shi)的幀，請參閱技術(shu)論文(wen)了解更多信(xin)息(xi)（晚些時候發(fa)布(bu)）。

Sora是能(neng)夠(gou)理解和模(mo)擬現(xian)實世界的模(mo)型的基礎，OpenAI相(xiang)信這一功能(neng)將(jiang)成為實現(xian)AGI的重要里程碑(bei)。

每日經濟新(xin)聞(wen)綜合OpenAI官網

翻譯

搜索

復制

封面圖(tu)片來源：視頻截圖(tu)

上一篇：把文學人物搬上舞臺！南京市致遠初中讀書節遇見“光影之美”

下一篇：拜登贏得美國2024年總統選舉懷俄明州民主黨初選

最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX

【百姓彩票紅】重磅！OpenAI首個視頻生成模型發布，1分鐘流暢高清，效果炸裂

為您推薦