【百姓彩票最新網址】投下文生視頻“炸彈”，Sora是鲇魚還是鯊魚

2024-03-29 04:05:05

AI再度帶給人們一次震撼，炸彈不過，投下去(qu)年的文生主(zhu)角是ChatGPT，今(jin)年則換成了Sora。視頻

它們均出自OpenAI（美國開放人工智能研究中心），鲇魚又都擁有足以“以假亂真”的還鯊百姓彩票最新網址先(xian)進技術。不同的炸(zha)彈是，去年AI學會人類(lei)語言，投下(xia)而今年則掌握了人類(lei)看到的文生畫(hua)面。

2023年(nian)被(bei)稱為“人工智(zhi)能(neng)元年(nian)”，視頻(pin)在(zai)大(da)語言模(mo)(mo)型ChatGPT的鲇魚助推之下(xia)，2023年(nian)掀起(qi)了(le)生成式(shi)人工智(zhi)能(neng)的還鯊熱(re)潮，活躍的炸(zha)彈開源環境和(he)多模(mo)(mo)態模(mo)(mo)型一(yi)(yi)同推動了(le)人工智(zhi)能(neng)研究的進(jin)步。“如(ru)果說2023年(nian)是投(tou)下(xia)人們意識到人工智(zhi)能(neng)的一(yi)(yi)年(nian)，那么(me)2024年(nian)將是文(wen)生人工智(zhi)能(neng)整(zheng)合的一(yi)(yi)年(nian)。”美國西(xi)北大(da)學計算機(ji)科(ke)學教授克里斯蒂安·哈蒙德（Kristian Hammond）對(dui)新(xin)京報(bao)記者指出，人們將想辦法把這些新(xin)奇的玩(wan)具運用到生活中(zhong)。

Sora“懂物理”？

2月16日早上，王祚(zuo)的手機里收到了一條公眾號推送(song)，文(wen)章標(biao)題直白且不(bu)加掩飾——“現實，不(bu)存在了。”

這句看似從科幻小說《三體》中借鑒來的百姓彩票標題吸引了(le)王祚，出于(yu)好奇，他打開(kai)了(le)這(zhe)篇推(tui)文。文章中講述的(de)是OpenAI推(tui)出的(de)視頻(pin)生成模型Sora，它使用(yong)Transformer架構(gou)，可根據文本指令創建現實(shi)且富(fu)有想(xiang)象(xiang)力的(de)場景，生成多(duo)種風(feng)格、不同畫幅、最長(chang)60秒的(de)高(gao)清視頻(pin)。

OpenAI官網(wang)首頁(ye)上，一個身(shen)著皮衣、打扮時髦(mao)的女郎(lang)，走在(zai)東京(jing)夜晚(wan)的街頭。畫面(mian)或許不足為奇，一旁的提示詞(ci)則格外醒(xing)目：這(zhe)段視頻由AI生(sheng)成。

繼推出大語言模型ChatGPT后，OpenAI又進軍了視頻生成領域，雖然發布的視頻只是預覽版本，但其視覺效果已然令人咋舌。王祚是一名數字媒體藝術專業的碩士研究生，Sora的出現很快在王祚的同學和老師間引發了討論，從視覺效果到背后技術，百姓彩票網以(yi)及人工智能(neng)可能(neng)對數(shu)字(zi)媒體專業產生的影響。

還在(zai)研發(fa)中的(de)(de)(de)Sora也并非(fei)完美。王祚稱，雖然(ran)OpenAI發(fa)布(bu)的(de)(de)(de)是具有代表性、較為完美的(de)(de)(de)樣片，但他也看(kan)到(dao)了(le)其(qi)他博主在(zai)獲得Sora使用權限后(hou)生成(cheng)的(de)(de)(de)一些視頻，其(qi)中個別邏輯有明顯差錯(cuo)，例(li)如做出吹(chui)蠟燭動作后(hou)，火苗并沒有隨之熄滅，玻璃杯接觸地板后(hou)也沒有應聲摔碎。

Sora之前，文(wen)(wen)生視(shi)(shi)(shi)頻領域的(de)(de)創業公司主(zhu)要包(bao)括(kuo)Pika、Runway等。如(ru)果將生成(cheng)“東京女(nv)郎”的(de)(de)提(ti)示詞同樣輸(shu)入Pika文(wen)(wen)生視(shi)(shi)(shi)頻模(mo)型和Runway旗下的(de)(de)Gen-2video文(wen)(wen)生視(shi)(shi)(shi)頻模(mo)型，就能(neng)發現Sora對它們的(de)(de)“降(jiang)維打擊(ji)”——不僅生成(cheng)視(shi)(shi)(shi)頻的(de)(de)質(zhi)量(liang)更好(hao)，而(er)且前兩個大模(mo)型生成(cheng)的(de)(de)視(shi)(shi)(shi)頻只(zhi)有(you)數秒鐘(zhong)，Sora則(ze)可以做到(dao)1分鐘(zhong)。

差距(ju)不僅如(ru)此(ci)。此(ci)前AI生(sheng)成的視(shi)頻(pin)都是單鏡頭(tou)“一鏡到(dao)底”，一旦鏡頭(tou)切換，角(jiao)色可(ke)能就會發生(sheng)變化。同(tong)時，其人(ren)物形象穩定性同(tong)樣存在(zai)問題，隨著時間的推(tui)移，容易發生(sheng)變化，這也是舊有AI視(shi)頻(pin)技(ji)術(shu)的缺陷(xian)。

Sora修復了這一(yi)(yi)問題(ti)。OpenAI一(yi)(yi)則描述“太(tai)空人在鹽漠里的(de)電影預告片”中，Sora創造性地出(chu)現了多個(ge)鏡頭的(de)切分(fen)，而不同角(jiao)度的(de)鏡頭，視頻主角(jiao)“太(tai)空人”可以看(kan)出(chu)是同一(yi)(yi)人。

為何(he)Sora能夠在視頻(pin)生(sheng)成(cheng)的(de)(de)質量上(shang)明顯領先同業(ye)產品？簡(jian)單來說，Sora融合了文(wen)生(sheng)文(wen)視頻(pin)的(de)(de)Transformer架構以及文(wen)生(sheng)圖的(de)(de)DALL·E系(xi)統，將二(er)者結合后，“通(tong)過讓模型能夠預(yu)見多幀內容，團(tuan)隊(dui)成(cheng)功克服了確保(bao)視頻(pin)中的(de)(de)主體(ti)即(ji)便暫(zan)時消(xiao)失也能保(bao)持(chi)一(yi)致(zhi)性的(de)(de)難(nan)題。”

而更為通(tong)俗的說法是，Sora可(ke)能通(tong)過學習“理(li)解了物(wu)理(li)世界”。

英偉(wei)達高級(ji)科學(xue)家范麟熙認為，Sora是一個數據驅動(dong)的(de)物理(li)引擎(qing)，“它是對許多世界(jie)的(de)模擬，無論是真實的(de)，還是虛構(gou)的(de)。該模擬器通過去噪和(he)(he)梯(ti)度學(xue)習(xi)方式，學(xue)習(xi)了(le)復雜的(de)渲(xuan)染、直(zhi)觀的(de)物理(li)、長(chang)期推理(li)和(he)(he)語義理(li)解。”

OpenAI介紹，Sora能(neng)(neng)夠生成包含多個角色、特(te)定運動類型，精確主題以及背景(jing)細節的(de)復雜場景(jing)，它不僅了解(jie)用(yong)戶在(zai)(zai)文本(ben)提(ti)示中的(de)要求，還能(neng)(neng)理解(jie)所述(shu)內容(rong)在(zai)(zai)物理世界中的(de)存在(zai)(zai)方式(shi)，“相信(xin)這(zhe)一(yi)能(neng)(neng)力將(jiang)是實現通用(yong)人(ren)工智能(neng)(neng)的(de)重要里程碑(bei)。”

不過，也(ye)有不少業(ye)界人士并不認同Sora“懂(dong)物理(li)(li)”。Meta首席(xi)科學家楊立昆表示，僅根據文字提(ti)示生成逼(bi)真的(de)視頻，并不代表模(mo)型理(li)(li)解(jie)了(le)物理(li)(li)世(shi)界。

OpenAI也承認尚不完(wan)美，稱(cheng)目前的模型仍存在弱點，Sora生(sheng)成視頻中(zhong)可能包(bao)含(han)不合邏輯(ji)的圖像，混淆左(zuo)右等空(kong)間細節，難以準(zhun)確模擬復雜場景(jing)的物理原理和因(yin)果關系實例，但(dan)隨(sui)著算力的增(zeng)加(jia)(jia)，視頻生(sheng)成功能會變得更(geng)加(jia)(jia)完(wan)善(shan)。

雖然觀點(dian)各異，但(dan)絕大多數(shu)人認可(ke)一(yi)(yi)點(dian)：僅(jin)就展現出的(de)生成視頻(pin)的(de)效果(guo)來看，Sora確實帶(dai)來了(le)如同去年(nian)ChatGPT一(yi)(yi)樣的(de)沖擊，讓文生視頻(pin)大模型技術發展前進了(le)一(yi)(yi)大步。

自帶講故事天賦，視頻產業或生變

雖然Sora生成的(de)視頻令外界印(yin)象深刻，但在項(xiang)目(mu)研究人員(yuan)眼(yan)中，它(ta)最令人吃驚的(de)是那些并(bing)沒有被訓(xun)練過的(de)能(neng)力。《連線》雜志指出，Sora不僅可(ke)以大(da)量制作滿足(zu)文本提示(shi)要求的(de)視頻，它(ta)還有一(yi)定講故(gu)事(shi)的(de)天賦。

“Sora通(tong)過鏡(jing)頭的角度和(he)轉換鏡(jing)頭的時機創(chuang)造了一種敘事推力。”Sora項(xiang)目(mu)研究人員比爾(er)·皮(pi)布爾(er)斯說道，實(shi)際(ji)上視頻(pin)中出(chu)現了多個鏡(jing)頭變(bian)化(hua)，這(zhe)些(xie)并(bing)非(fei)拼接到一起，而是由(you)模型一次性(xing)生成，“我們沒有告訴它要這(zhe)么做，它只是自動(dong)做到了。”

Sora出現(xian)后(hou)，很多人的第一反應是，視頻相關產(chan)業將可能遭受巨大沖擊。Sora發(fa)布當天，頂流網紅“野獸先生”在OpenAI首(shou)席執行官山姆(mu)·奧特曼(man)社交賬號下留言：“求(qiu)求(qiu)你了山姆(mu)，不要讓(rang)我沒有工作。”

特斯(si)拉CEO馬斯(si)克則在社交平臺上發布短(duan)評“GG世(shi)界(jie)”。（GG是網(wang)絡游(you)戲的用語之一，原指(zhi)游(you)戲結束時玩家(jia)互(hu)相致意，后引申為“游(you)戲結束”）。

Sora的(de)(de)驚艷表(biao)現頻頻出圈(quan)。在(zai)Sora生(sheng)成的(de)(de)一個“毛茸(rong)茸(rong)小(xiao)怪物(wu)”視頻中，小(xiao)怪物(wu)的(de)(de)毛發(fa)紋(wen)(wen)理(li)極(ji)(ji)其自然。而此前，移動中的(de)(de)毛發(fa)紋(wen)(wen)理(li)效果(guo)往(wang)往(wang)會耗費(fei)動畫公司極(ji)(ji)大(da)精力(li)，如皮(pi)克(ke)斯的(de)(de)《怪獸公司》，技術團隊為毛發(fa)紋(wen)(wen)理(li)耗費(fei)了幾個月的(de)(de)時間(jian)，而Sora僅依(yi)靠AI就(jiu)生(sheng)成出來(lai)，這顯然是對電(dian)影特效工業(ye)的(de)(de)一次“彎道超車”。

360公司董(dong)事長周(zhou)鴻祎表示，一旦AI能夠接(jie)上攝像頭，觀看并(bing)理(li)解(jie)世界(jie)上所(suo)有的電影，它對世界(jie)的理(li)解(jie)能力將(jiang)遠遠超過(guo)(guo)僅(jin)僅(jin)通(tong)過(guo)(guo)文字(zi)學習所(suo)能達到(dao)的水平。在這種情況下，實(shi)現通(tong)用人工智(zhi)能不再是(shi)遙不可及(ji)的夢想。周(zhou)鴻祎甚至預(yu)測，這一天可能在兩到(dao)三(san)年(nian)內就會到(dao)來，而(er)不是(shi)十年(nian)或(huo)二(er)十年(nian)。

美國舊金山早期投資(zi)人Zak Kukoff預測，5年內，一個(ge)不到5人的團隊將可能用文生(sheng)視(shi)頻模型(xing)制作出一部票房收入超過5000萬美元的電(dian)影。

DCCI互(hu)聯網研究院(yuan)院(yuan)長劉興亮告訴新(xin)京報記者，Sora模型(xing)的(de)(de)(de)(de)(de)發布標志著AI技(ji)(ji)術(shu)在(zai)內容(rong)創(chuang)(chuang)(chuang)作(zuo)(zuo)領域的(de)(de)(de)(de)(de)一(yi)個(ge)新(xin)紀元，“通過簡(jian)短(duan)的(de)(de)(de)(de)(de)文(wen)本(ben)提示(shi)或(huo)一(yi)張靜態圖片，Sora能夠生成(cheng)持續一(yi)分鐘左右的(de)(de)(de)(de)(de)1080P高清(qing)視(shi)(shi)頻，涵蓋多(duo)個(ge)角色(se)、不(bu)同類(lei)型(xing)的(de)(de)(de)(de)(de)動作(zuo)(zuo)和(he)背景細(xi)節等，幾乎達到(dao)了(le)電影(ying)級別的(de)(de)(de)(de)(de)逼真場(chang)景。這(zhe)種能力不(bu)僅為(wei)內容(rong)創(chuang)(chuang)(chuang)作(zuo)(zuo)者提供了(le)前所(suo)未(wei)有的(de)(de)(de)(de)(de)工具(ju)，使他們(men)能夠以更(geng)低(di)的(de)(de)(de)(de)(de)成(cheng)本(ben)和(he)更(geng)快的(de)(de)(de)(de)(de)速度將創(chuang)(chuang)(chuang)意變為(wei)現實，而且為(wei)觀眾帶來了(le)更(geng)豐(feng)富和(he)多(duo)樣化的(de)(de)(de)(de)(de)視(shi)(shi)覺體驗(yan)。技(ji)(ji)術(shu)創(chuang)(chuang)(chuang)新(xin)的(de)(de)(de)(de)(de)這(zhe)一(yi)巨大飛躍，預示(shi)著AI在(zai)未(wei)來人類(lei)生活的(de)(de)(de)(de)(de)各個(ge)方面都將發揮更(geng)加重要的(de)(de)(de)(de)(de)作(zuo)(zuo)用。”

Sora的出現也讓行業內為之一(yi)振。“Sora的推出標志著人工智能(neng)(neng)行業向前(qian)邁出了一(yi)大步。”麥格里銀行美國人工智能(neng)(neng)和(he)軟件研究主管弗雷德·哈(ha)弗邁耶說(shuo)道。

新京(jing)報記者(zhe)(zhe)(zhe)采訪多(duo)位影(ying)視(shi)(shi)行業(ye)(ye)(ye)從業(ye)(ye)(ye)者(zhe)(zhe)(zhe)了解(jie)到(dao)，影(ying)視(shi)(shi)圈對于(yu)(yu)Sora的到(dao)來并非都持悲(bei)觀態度。一位從業(ye)(ye)(ye)者(zhe)(zhe)(zhe)表示，Sora目前只能(neng)生成局部細(xi)節(jie)的視(shi)(shi)頻，無法(fa)在宏觀上把(ba)控整體(ti)內容(rong)，對于(yu)(yu)影(ying)視(shi)(shi)從業(ye)(ye)(ye)者(zhe)(zhe)(zhe)而(er)言，這類AI可以成為(wei)很好的工具，而(er)不一定會(hui)取代(dai)人。

人工智能起源（20世紀50年代）

1950年：克勞德·香農提出“計(ji)算機能(neng)夠和人(ren)類(lei)進行國際象棋(qi)對弈”

1950年：艾倫·圖靈(ling)提出“圖靈(ling)測試”，機(ji)器產生智能這一想法(fa)開始(shi)進入人們(men)視野

1956年：達特茅(mao)斯會議將人工智(zhi)(zhi)能(neng)定(ding)義(yi)為(wei)計算(suan)機科學的研究領(ling)域，標志(zhi)人工智(zhi)(zhi)能(neng)學科誕生(sheng)

1957年(nian)：弗蘭(lan)克·羅森(sen)布(bu)拉特發明“感知機”的神(shen)經(jing)網(wang)絡(luo)模型，奠定神(shen)經(jing)網(wang)絡(luo)基礎

人工智能第一(yi)次浪潮（20世紀60年代）

1966年：約瑟夫·維森鮑姆發表論文，研究人(ren)類與機器之(zhi)間(jian)自(zi)然語言通信的可能性(xing)

1968年：愛(ai)德華·費(fei)根鮑姆提出首個專家(jia)系(xi)統DENRAL，并初步定(ding)義知識庫(ku)，孕育(yu)第(di)二(er)次人工智能浪潮

人工智能第二次(ci)浪潮（20世紀70年代(dai)末、80年代(dai)）

1979年：名為BKG9.8的計算機(ji)程(cheng)序(xu)在蒙特(te)卡洛世界(jie)西洋(yang)雙陸棋(qi)錦(jin)標賽中奪冠

1982年：大衛(wei)·馬爾提出視覺(jue)計算理論，以及首個(ge)較(jiao)為完善的(de)視覺(jue)系統框架(jia)

1988年：朱迪亞·珀(po)爾(er)提出(chu)概(gai)率方法(fa)和貝(bei)葉(xie)斯網(wang)絡(luo)，為(wei)后來的因果推斷奠定基(ji)礎

人工智能平穩發展期（20世(shi)紀90年代左右(you)）

1997年：IBM深藍戰(zhan)勝國(guo)際象棋冠軍卡斯帕羅夫，基于概(gai)率推論的新思路在(zai)AI領域得到(dao)廣泛(fan)應用

2001年：約翰·拉夫爾(er)提(ti)首次(ci)提(ti)出條件性隨機場模型，用(yong)于文本的分(fen)割和標注，在許多自然語(yu)言處(chu)理(li)任(ren)務中表現出色(se)

2003年(nian)：戴維(wei)·布雷(lei)、吳恩達(da)、邁(mai)克爾·喬(qiao)丹提出一(yi)種非監督(du)機器學(xue)習(xi)技術LDA，可用來識別大規(gui)模文(wen)檔集成或語料庫中潛藏的主題信(xin)息

人工智能第(di)三次浪潮（2006年后）

2006年：杰弗里·辛頓等人提出深度學(xue)習(xi)，這是機器學(xue)習(xi)最重要(yao)的一個分支

2011年：IBM的(de)沃(wo)森人(ren)(ren)工(gong)智能系(xi)統在(zai)智力(li)競賽《危(wei)險(xian)邊(bian)緣》中戰勝人(ren)(ren)類，獲(huo)得冠軍(jun)

2014年：伊恩(en)·古德費洛(luo)等(deng)人提(ti)出生成式(shi)對抗網絡的(de)非監督(du)學習方法(fa)，通過讓(rang)兩個(ge)神經網絡相互博弈的(de)方式(shi)進行(xing)學習

2016年：谷歌(ge)旗下(xia)DeepMind開(kai)發的AlphaGo戰勝圍棋世界(jie)冠(guan)軍李(li)世石

2022年(nian)：ChatGPT問世，通過深度學習和大規模數據訓(xun)練，ChatGPT能(neng)理解復(fu)雜(za)的人類語言，并(bing)生成(cheng)具(ju)有連貫(guan)性和創(chuang)造性的回應，人工智(zhi)能(neng)在自(zi)然語言處理領(ling)域取(qu)得(de)一大里程碑，開啟人工智(zhi)能(neng)新紀元(yuan)

上一篇：東方樹葉嶄露頭角，有望成為下一個200億大單品

下一篇：綠城中國：2023年營業收入逆勢創五年新高清零永續債筑牢安全底線

最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX

【百姓彩票最新網址】投下文生視頻“炸彈”，Sora是鲇魚還是鯊魚

為您推薦