【百姓彩票最新網址】奧爾特曼選取網友提示詞，用OpenAI新款大模型Sora生成視頻

2024-05-04 20:44:52

每經(jing)編輯(ji) 畢(bi)陸名

2月16日凌晨，特曼提示OpenAI再次扔出一枚深水炸彈，選取新款型發布了首個文生視頻模型Sora。網友據介紹，詞用成視Sora可以直接輸出長達60秒的大模視頻，并且包含高度細致的特曼提示百姓彩票最新網址背景、復雜的選取新款型多角度鏡頭，以及富有情感的網友多個角色。

目前官網上已經更新了48個視頻demo，詞用成視在這些demo中，大模Sora不僅能準確呈現細節，特曼提示還能理解物體在物理世界中的選取新款型存在，并生成具有豐富情感的網友百姓彩票角色。該模型還可以(yi)根據提示、詞用(yong)成(cheng)視(shi)(shi)(shi)靜止圖像甚至填(tian)補(bu)現有視(shi)(shi)(shi)頻(pin)中的大模缺(que)失幀來生成(cheng)視(shi)(shi)(shi)頻(pin)。

一位時髦(mao)女士漫步在東(dong)京(jing)街頭，周圍是溫(wen)暖閃爍的(de)霓虹(hong)燈和動(dong)感的(de)城市(shi)標(biao)志。

一名年約三(san)十的宇航員(yuan)戴(dai)著(zhu)紅色(se)(se)針織(zhi)摩托頭盔展開冒(mao)險(xian)之旅，電影(ying)預告(gao)片呈現其穿梭于藍天白云與鹽湖沙漠之間的精彩瞬(shun)間，獨特(te)的電影(ying)風(feng)格、采用35毫米膠片拍攝，色(se)(se)彩鮮(xian)艷。

豎(shu)屏(ping)超近景(jing)視(shi)角下，這只蜥(xi)蜴(yi)細節拉滿：

OpenAI表示，公司正在教授人工智能理解和模擬運動中的百姓彩票網物理世(shi)界，目標是(shi)訓(xun)練出(chu)能(neng)夠幫(bang)助(zhu)人們解決需要與現(xian)實世(shi)界互動的(de)(de)問題的(de)(de)模(mo)型。在此，隆重推出(chu)文本(ben)到視頻(pin)模(mo)型——Sora。Sora可(ke)以生(sheng)成(cheng)長達一(yi)分鐘(zhong)的(de)(de)視頻(pin)，同時保證視覺質量和符合用戶(hu)提示的(de)(de)要求。

OpenAI創始人兼CEOSam Altman（奧爾特曼）太會玩了，讓網友評論回復Prompt（大語言模型中的提示詞），他選一些用Sora生成視頻。截至發稿，奧爾特曼連發多條根據網友提示詞生成的視頻，包括不同動物在海上進行自行車比賽、發布自制面疙瘩烹飪教學視頻的祖母、兩只金毛犬在山頂做播客、日落時分火星上進行的一場無人機競賽等。但這些視頻時長為9秒至17秒不等。

技(ji)術層面，Sora采用擴(kuo)(kuo)散(san)模(mo)(mo)型(xing)（diffusion probabilistic models）技(ji)術，基(ji)于Transformer架構(gou)，但為了(le)解(jie)決(jue)Transformer架構(gou)核心組件注意力機制的(de)長文本、高分辨率圖(tu)(tu)像(xiang)處理等問題，擴(kuo)(kuo)散(san)模(mo)(mo)型(xing)用可擴(kuo)(kuo)展(zhan)性更強的(de)狀態空間模(mo)(mo)型(xing)（SSM）主干替代了(le)傳統架構(gou)中的(de)注意力機制，可以使(shi)用更少的(de)算力，生成高分辨率圖(tu)(tu)像(xiang)。此(ci)前Midjourney與Stable Diffusion的(de)圖(tu)(tu)像(xiang)與視(shi)頻生成器同(tong)樣基(ji)于擴(kuo)(kuo)散(san)模(mo)(mo)型(xing)。

同時，Sora也存在一定的(de)技術(shu)不成熟之處。OpenAI表示(shi)，Sora可能難(nan)以準確模擬(ni)復雜(za)場(chang)景的(de)物(wu)理(li)原(yuan)理(li)，可能無(wu)法理(li)解因果關系，可能混淆提示(shi)的(de)空間細節(jie)，可能難(nan)以精(jing)確描述(shu)隨著時間推移發生的(de)事(shi)件，如遵循特(te)定的(de)相機軌跡等(deng)。

根據(ju)OpenAI關于(yu)Sora的技術(shu)報告《Video generation models as world simulators》（以下簡(jian)稱報告），跟大語言模型一樣，Sora也(ye)有涌現的模擬(ni)能力。

OpenAI方面在技術報告中表示，并未將Sora單純視作視頻模型，而是將視頻生成模型作為“世界模擬器”，不僅可以在不同設備的原生寬高比直接創建內容，而且展示了一些有趣的模擬能力，如3D一致性、長期一致性和對象持久性等。目前Sora能夠生成一分鐘的高保真視頻，OpenAI認為擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的途徑。

報告指出，OpenAI研究(jiu)了(le)在視(shi)頻(pin)數(shu)據上(shang)進(jin)行大規模(mo)(mo)訓練的(de)生(sheng)成模(mo)(mo)型。具體而言，聯(lian)合(he)訓練了(le)文本條件擴(kuo)散模(mo)(mo)型，該模(mo)(mo)型可處理不同持續時間、分(fen)辨率和長寬(kuan)比的(de)視(shi)頻(pin)和圖像(xiang)。OpenAI利用了(le)一種基于時空補(bu)丁(ding)的(de)視(shi)頻(pin)和圖像(xiang)潛在代(dai)碼的(de)變壓(ya)器(qi)架(jia)構(gou)。最大的(de)模(mo)(mo)型Sora能(neng)夠生(sheng)成一分(fen)鐘的(de)高保真視(shi)頻(pin)。結果表明，擴(kuo)展(zhan)視(shi)頻(pin)生(sheng)成模(mo)(mo)型是(shi)構(gou)建通(tong)用物理世界模(mo)(mo)擬器(qi)的(de)有前途(tu)的(de)途(tu)徑(jing)。

報告重點(dian)介紹了OpenAI將各類(lei)型(xing)視(shi)覺(jue)數(shu)(shu)據(ju)轉化為統一表示的(de)(de)方(fang)法(fa)，這(zhe)種方(fang)法(fa)能(neng)夠(gou)對(dui)生(sheng)(sheng)(sheng)成模型(xing)進行大規模訓練，并對(dui)Sora的(de)(de)能(neng)力與局限進行定性評估。先前的(de)(de)大量(liang)研(yan)究已(yi)經探索(suo)了使用多種方(fang)法(fa)對(dui)視(shi)頻數(shu)(shu)據(ju)進行生(sheng)(sheng)(sheng)成建模，包括循環(huan)網(wang)絡、生(sheng)(sheng)(sheng)成對(dui)抗(kang)網(wang)絡、自回歸轉換器(qi)和擴(kuo)散模型(xing)。這(zhe)些研(yan)究往往只關注(zhu)于狹窄(zhai)類(lei)別(bie)的(de)(de)視(shi)覺(jue)數(shu)(shu)據(ju)、較(jiao)短的(de)(de)視(shi)頻或固(gu)定大小的(de)(de)視(shi)頻。而(er)Sora是一個通用的(de)(de)視(shi)覺(jue)數(shu)(shu)據(ju)模型(xing)，它能(neng)夠(gou)生(sheng)(sheng)(sheng)成跨越不同(tong)時長、縱橫比(bi)和分辨率的(de)(de)視(shi)頻和圖(tu)像，甚至能(neng)夠(gou)生(sheng)(sheng)(sheng)成長達(da)一分鐘的(de)(de)高清視(shi)頻。

OpenAI從大型(xing)(xing)語言模(mo)(mo)型(xing)(xing)中汲(ji)取靈感，這(zhe)(zhe)(zhe)些(xie)(xie)模(mo)(mo)型(xing)(xing)通過訓(xun)(xun)練互(hu)聯(lian)網規(gui)模(mo)(mo)的(de)(de)數據獲得通用能力。LLM范式的(de)(de)成功在一(yi)定程(cheng)度上得益于令牌(pai)的(de)(de)使用，這(zhe)(zhe)(zhe)些(xie)(xie)令牌(pai)巧妙地統一(yi)了文本的(de)(de)不(bu)同模(mo)(mo)式——代碼、數學和(he)各種自然語言。在這(zhe)(zhe)(zhe)項工(gong)作中，OpenAI考慮視(shi)覺數據的(de)(de)生(sheng)成模(mo)(mo)型(xing)(xing)如何(he)繼(ji)承這(zhe)(zhe)(zhe)些(xie)(xie)優勢。雖然LLM有(you)文本令牌(pai)，但Sora有(you)視(shi)覺補(bu)丁。之(zhi)前已經證明，補(bu)丁是(shi)視(shi)覺數據模(mo)(mo)型(xing)(xing)的(de)(de)有(you)效表示。補(bu)丁是(shi)一(yi)種高(gao)度可擴展且有(you)效的(de)(de)表示，可用于在多種類型(xing)(xing)的(de)(de)視(shi)頻和(he)圖像(xiang)上訓(xun)(xun)練生(sheng)成模(mo)(mo)型(xing)(xing)。

Sora支持采樣(yang)多種(zhong)分(fen)辨(bian)率(lv)視頻，包括1920x1080p的(de)寬屏視頻、1080x1920的(de)豎屏視頻以及介(jie)于兩者之間(jian)的(de)所(suo)有分(fen)辨(bian)率(lv)。這使得Sora能夠直接(jie)以原(yuan)(yuan)生縱橫比為不(bu)同的(de)設(she)備創(chuang)建內(nei)容(rong)。同時，它還允許在生成全分(fen)辨(bian)率(lv)內(nei)容(rong)之前，使用相(xiang)同的(de)模型(xing)快速制作較小尺寸的(de)內(nei)容(rong)原(yuan)(yuan)型(xing)。

每日(ri)經濟新聞(wen)綜合OpenAI官(guan)網、公開消息

翻譯

搜索

復制

封面圖(tu)片來(lai)源：視頻截(jie)圖(tu)

上一篇：一等功×15，二等功×293，這些“90后”戍邊民警憑啥這么牛？

下一篇：南京江心洲金雞菊盛開

最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX

【百姓彩票最新網址】奧爾特曼選取網友提示詞，用OpenAI新款大模型Sora生成視頻

為您推薦