【百姓神彩票】“人類思考方式有缺陷”！Sora三位大佬最新訪談：Sora仍處在GPT

2024-05-03 13:53:24

每(mei)經編(bian)輯(ji) 黃勝  

2月16日，人類仍處(chu)OpenAI推出新的思考AI大(da)(da)模型Sora，該(gai)文生視頻(pin)大(da)(da)模型可(ke)通過(guo)快速(su)文本提示創建(jian)“逼真”和(he)“富有想象(xiang)力”的式訪談60秒視頻(pin)。

一(yi)個月之后，有缺第一(yi)波(bo)試用(yong)者對(dui)使用(yong)情況進行(xing)了反饋(kui)。大佬

4月份，最新百姓神彩票OpenAI官方(fang)賬號發布的(de)人類(lei)仍處(chu)一(yi)支由(you)Sora制作的(de)MV（Music Video）——《Worldweight》，引發了不少(shao)網友們的(de)思考圍觀。

目(mu)前，式(shi)訪談Sora已經成為(wei)視(shi)頻(pin)大模型的有缺標(biao)桿。有人說，大佬在(zai)視(shi)頻(pin)生成領域(yu)，最新只有兩種模型：OpenAI Sora模型，人類仍處以(yi)及其(qi)他不(bu)是(shi)思考(kao)Sora的模型。

然而，式訪(fang)談Sora何時(shi)才能開(kai)放給公眾使(shi)用(yong)，OpenAI方(fang)面(mian)始終沒有給出具(ju)體(ti)的(de)時(shi)間表。

內(nei)測中的(de)Sora表現優(you)異(yi)，但OpenAI卻遲遲沒有正(zheng)式對(dui)外(wai)開(kai)放Sora，這背后(hou)可能(neng)會有成(cheng)(cheng)本(ben)(ben)原因的(de)考慮(lv)。知名科技作家Robert Scoble在社交平臺X上就表示(shi)，普(pu)通(tong)用戶僅(jin)僅(jin)每(mei)月支付20美(mei)元并(bing)不(bu)能(neng)涵蓋(gai)生成(cheng)(cheng)人(ren)工智能(neng)視頻(pin)的(de)成(cheng)(cheng)本(ben)(ben)。

近日，NoPriors播(bo)客發布了對(dui)Sora項目團隊三位負責人Tim Brooks、William Peebles(昵稱Bill)和(he)Aditya Ramesh的專(zhuan)訪。

Tim Brooks是DALL-E 3的主要作者之一。他本科就讀于卡內基梅隆大學，主修邏輯與計算，輔修計算機科學。去年1月，他順利從加州大學伯克利分校獲得博士學位后，立即加入OpenAI，參與了DALL-E 3和Sora的百姓彩票官網登錄開發工作。

Bill本科(ke)就讀于麻省理(li)工學院，主修計(ji)算機科(ke)學。在校期間，他參與了GAN和(he)(he)text2video的研究(jiu)，還在英(ying)偉達實(shi)習，專注于深度學習、自動駕駛和(he)(he)計(ji)算機視覺。去年5月(yue)，Bill從(cong)伯克(ke)利畢業后也加入了OpenAI。

Aditya Ramesh在OpenAI已經(jing)是個(ge)"老人"。作為DALL-E的(de)創造(zao)者，他(ta)主導了三代DALL-E的(de)研究工(gong)作。

在訪談中，這三位Sora負責人(ren)對外界關心的(de)有關Sora的(de)諸多方面問(wen)題給出了回(hui)答。

核心內容：

1，我們目前還沒有制定產品的即時計劃，甚至沒有制定產品的時間表。

2，現階段的Sora，就像是新視覺模型的GPT-1。

3，（關于偽造和安全）我認為這里要弄清楚的一個關鍵問題是，部署這項技術的公司承擔多少責任？例如，社交媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信來源？用戶在使用這項技術創造某些東西時要承擔多少責任？

4，這項技術有可能讓許多有才華橫溢、富有創造力的人創造出他們想要的東西。

5，在讓這項技術更廣泛地普及方面，有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術足夠便宜，讓人們可以使用。

6，百姓彩票最新網址我們思考事物的方式是有一個缺陷，就是沒有那么高的保真度。因此，我們對Sora的前景持樂觀態度，認為它將取代人類的某些能力。從長遠來看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。

以下為訪談節選：

主持人：很好。或許我們(men)可以從 OpenAI 的(de)(de)使命開始(shi)談起，那(nei)就(jiu)是(shi)實現(xian) AGI，也就(jiu)是(shi)更強大的(de)(de)人工智能(neng)。那(nei)么(me)，文本轉視頻(pin)的(de)(de)技術是(shi)否符合這個使命呢？你(ni)們(men)是(shi)如何(he)開始(shi)研究這個領(ling)域的(de)(de)呢？

Bill：是的，我們堅信像(xiang) Sora 這樣的模型確實是實現 AGI 的關鍵步驟。

展望未(wei)來(lai)(lai)，為了生成真(zhen)(zhen)正逼真(zhen)(zhen)的(de)(de)(de)視頻，你必須學習一(yi)些關于(yu)人(ren)(ren)們如(ru)何工(gong)作、如(ru)何與他(ta)人(ren)(ren)互動、最(zui)終如(ru)何思(si)考的(de)(de)(de)模(mo)(mo)型(xing)(xing)。這(zhe)不僅包(bao)括人(ren)(ren)，還有動物，以及任(ren)何你想要模(mo)(mo)擬的(de)(de)(de)物體。因(yin)此，展望未(wei)來(lai)(lai)，隨著(zhu)我們繼續擴大像Sora 這(zhe)樣的(de)(de)(de)模(mo)(mo)型(xing)(xing)，我們將(jiang)能夠(gou)構建(jian)這(zhe)些類似世(shi)界模(mo)(mo)擬器的(de)(de)(de)東西。隨著(zhu)我們未(wei)來(lai)(lai)擴大Sora的(de)(de)(de)規模(mo)(mo)，AGI就(jiu)會實現(xian)。

主持人：在更廣泛地(di)使(shi)用 Sora 之前(qian)，您需要做什(shen)么工作？Tim，你愿意談(tan)談(tan)這個(ge)問題(ti)嗎？

Tim：是的，我們目前還沒有制定產品的即時計劃，甚至沒有制定產品的時間表。然(ran)而，我們將Sora的(de)訪問權限提供給一小部分藝術家以及紅隊成(cheng)員(yuan)，以開始了(le)解Sora將產生的(de)影響(xiang)。我們從藝術家那(nei)里(li)得到了(le)反饋(kui)，關(guan)(guan)于如何讓它(ta)成(cheng)為(wei)對他(ta)們最有用(yong)的(de)工具，并(bing)從“紅隊成(cheng)員(yuan)”那(nei)里(li)得到了(le)反饋(kui)，關(guan)(guan)于如何讓它(ta)安全，如何將它(ta)介紹給公眾。

主持人：我知道，當它推出時，很多人都被一些圖(tu)像(xiang)所震撼(han)。你會看到(dao)一只(zhi)貓在(zai)水池(chi)中的(de)影子或諸如此(ci)類(lei)的(de)東西。但(dan)我只(zhi)是好(hao)奇，隨著越來越多的(de)人開始使用(yong)它，你看到(dao)了什么(me)。

Tim：是的(de)，看到藝術家們用這個(ge)模(mo)型生成(cheng)的(de)成(cheng)果(guo)，真的(de)很棒。

作為一個喜歡創造內容但又沒有足夠技能的人，使用這個模型并激發出一堆想法，并得到一些非常引人注目的東西是非常容易的。比如，在迭代提示方面，實際生成(cheng)它所(suo)花(hua)費的時間真(zhen)的不到一(yi)個小時。我非常高興地看到藝(yi)術家們也熱(re)衷于使用這些(xie)模型，并從中創作(zuo)出精彩的作(zuo)品。

主持人：這些(xie)模(mo)型在短(duan)片或其(qi)他領域的(de)廣泛應用的(de)時間表是什(shen)么？我們何時會開始看到(dao)來自(zi)Sora或其(qi)他模(mo)型的(de)實際內容，并成為更廣泛媒體類型的(de)一(yi)部分？

Tim：我沒有確切的時間表預測，但我對此非常感興趣，那就是除了傳統電影之外，人們可能會將其用于什么。我認為，在接下來的幾年里，我們會看到人們開始制作越來越多的電影，但我(wo)(wo)認為人(ren)們(men)也會找到(dao)使(shi)用這(zhe)些模型的(de)全(quan)新(xin)方式，這(zhe)些方式與我(wo)(wo)們(men)習慣的(de)當前媒(mei)體完(wan)全(quan)不同。

主持人：Aditya在OpenAI工作了(le)大(da)約五年，因此(ci)你見證了(le)許多模型和(he)公司的(de)發展。當你考慮這個世界模擬(ni)模型的(de)功能時，你認為(wei)它(ta)會成為(wei)模擬(ni)的(de)物(wu)理(li)引擎嗎？我對未來可(ke)能出現的(de)其他一些(xie)前(qian)瞻(zhan)性應(ying)用非常(chang)好(hao)奇。

Aditya：是的(de)，我(wo)完全(quan)認為在視頻(pin)模(mo)型中進行(xing)模(mo)擬(ni)是我(wo)們將來能夠做到的(de)事情(qing)。

Bill：你(ni)可以(yi)從視頻中學到(dao)很(hen)多(duo)東西。OpenAI等公司過去在這方(fang)面投(tou)入了大(da)量(liang)資金，比(bi)(bi)如(ru)(ru)語言，比(bi)(bi)如(ru)(ru)手臂和關(guan)節如(ru)(ru)何在空間中移動(dong)的細節，它(ta)們是如(ru)(ru)何以(yi)物(wu)(wu)理上準確(que)的方(fang)式與地面接觸的。所(suo)以(yi)，你(ni)只需(xu)通過對(dui)原始視頻的訓練(lian)就能學到(dao)很(hen)多(duo)關(guan)于物(wu)(wu)理世(shi)界(jie)的知識，我們真的相信，這對(dui)于未(wei)來(lai)的物(wu)(wu)理體現(xian)等事(shi)情至(zhi)關(guan)重要。

主持人：再談(tan)談(tan)模型本身(shen)。Tim，你能描述一下(xia)什(shen)么(me)是擴(kuo)散Transformer嗎？

Tim：擴散是一種數據生成過程。這個過程從噪音開始，通過反復多次去除噪音，直到最終去除了足夠多的噪音，只生成一個樣本。這就(jiu)是我們生成視(shi)頻的過程。

從架構(gou)角度來(lai)看，我(wo)們(men)的(de)模型(xing)(xing)必須是可(ke)擴(kuo)展的(de)，它(ta)們(men)需(xu)要(yao)能(neng)(neng)夠(gou)從大(da)量(liang)數據中(zhong)學習，并理解視頻中(zhong)那些(xie)非常復雜且具有挑戰性(xing)的(de)關(guan)系(xi)，這(zhe)(zhe)一點(dian)至(zhi)關(guan)重要(yao)。因此，我(wo)們(men)采用(yong)了一種類似于GPT模型(xing)(xing)的(de)架構(gou)，稱為Transformer。因此，將這(zhe)(zhe)兩個概念(nian)與Transformer架構(gou)結合起來(lai)的(de)擴(kuo)散(san)Transformer使我(wo)們(men)能(neng)(neng)夠(gou)擴(kuo)展這(zhe)(zhe)些(xie)模型(xing)(xing)。隨著我(wo)們(men)投入更多的(de)計算和更多的(de)數據來(lai)訓練(lian)它(ta)們(men)，它(ta)們(men)的(de)性(xing)能(neng)(neng)會越來(lai)越好。

主持人：Sora最引人注(zhu)目(mu)的一點就(jiu)是它的視覺美感。我對此感到好(hao)奇，你(ni)是如何調整或(huo)制作(zuo)這種美感的？

Bill：實際上，我們并沒有為Sora投入大量精力。我認為Sora的語言理解絕對允許用戶以一種比其他模型更難的方式來操縱它。你可以提供很多(duo)提示和視覺提示，這些提示將引導模型(xing)朝著你想要的(de)代數類(lei)型(xing)發展。

我認為展望未來，模型會賦予人們某種力量，讓他們理解你的個人審美感，這將是很多人期待的事(shi)情(qing)。

我(wo)們(men)接觸的(de)(de)許(xu)多藝術家和創作(zuo)者都希望將他(ta)們(men)的(de)(de)全部資產上傳到模(mo)(mo)型(xing)中，這(zhe)樣在寫(xie)標題時(shi)就可以借鑒大(da)量的(de)(de)作(zuo)品，并(bing)讓模(mo)(mo)型(xing)理(li)解他(ta)們(men)設計公司幾十(shi)年來積累的(de)(de)術語等等。因此我(wo)認為個性化以及它如何與美學結(jie)合在一起(qi)將會成為以后值得(de)探(tan)索(suo)的(de)(de)一件很(hen)酷的(de)(de)事情。

主持人：我(wo)(wo)認為Tim所說的就像超越傳統(tong)娛(yu)樂的新應用。但這(zhe)在計算上很(hen)昂貴，很(hen)難，而(er)且不(bu)太可能。但我(wo)(wo)會講(jiang)述一個故(gu)事，并讓神奇(qi)的視覺效果(guo)實時發生。我(wo)(wo)們會得到它嗎(ma)？

Tim：我認為我們正朝著那個方向前進。還有不同的娛樂模式、不同的教育模式和交流模式。娛樂是其中很重要的一部分，但我認為一旦真正理解了我們的世界，就會有很多潛在的應用。我們的世界和我們體驗世界的方式很大程度上都是視覺化的。這些模型真正酷的地方在于，它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術來娛樂自己，也可以用它們來教育我們。有時候，當我(wo)(wo)想學習一(yi)(yi)些(xie)東西時，最有效的(de)方(fang)法就(jiu)是找一(yi)(yi)個定制(zhi)的(de)教育視頻(pin)來(lai)解釋。同樣，如果我(wo)(wo)想和某人交流一(yi)(yi)些(xie)觀點，可能最好的(de)方(fang)式就(jiu)是制(zhi)作一(yi)(yi)個視頻(pin)來(lai)闡(chan)述我(wo)(wo)的(de)觀點。因此，我(wo)(wo)認為娛樂(le)和視頻(pin)模型可能有更廣泛的(de)潛在應用。

主持人：你(ni)們有嘗試(shi)過將這些(xie)技術應用于數(shu)字(zi)化身份(fen)等方面嗎？

Tim：到目前為止，我們并沒有真正專注于其背后的核心技術。我認為我們現在在Sora的發展進度就像是新視覺模型的GPT-1。所以，我們現(xian)在的(de)重點只是(shi)這項技術(shu)的(de)基礎發展，可(ke)能比特(te)定的(de)下游(you)應(ying)用更重要。

主持人：你們(men)是如何看(kan)待視頻模(mo)型中的安全性以及進(jin)行深度偽造(zao)或惡搞之類的事情？

Aditya：這絕對是(shi)一(yi)個相當復雜(za)的話題。我認為很多安全緩解措施(shi)可(ke)能都(dou)可(ke)以從DALL-E 3中移植(zhi)過來(lai)。

我認為這里要弄清楚的一個關鍵問題是，部署這項技術的公司承擔多少責任？例如，社交媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信來源？用戶在使用這項技術創造某些東西時要承擔多少責任？

主持人：我想向(xiang)在座(zuo)的各(ge)位(wei)提出一個問題，關于未來(lai)的產品路線圖、你(ni)的發展方向(xiang)或你(ni)接下來(lai)要開(kai)發的一些功能，你(ni)最興奮的是什么？

Tim：確實，這是一個好問題。我對人們將如何利用我們的產品創造出新的東西感到非常興奮。我認為有很多才華橫溢、富有創造力的人都有自己想要創造的東西。但有時要做到這一點真的很困難，因為他們可能缺乏必要的資源、工具或其他東西。這項技術有可能讓許多有才華橫溢、富有創造力的人創造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西，以及這項技術將如何幫助他們。

主持人：Bill，我想問(wen)你(ni)一(yi)個問(wen)題，這是否像你(ni)剛(gang)才(cai)提(ti)到(dao)的GPT-1一(yi)樣，我們還有很長(chang)的路(lu)要走。這不是普(pu)通大眾(zhong)有機會(hui)嘗試(shi)的東西。你(ni)能描述一(yi)下你(ni)想要解決(jue)的局限性或差距嗎？

Bill：是的，我認為，在讓這項技術更廣泛地普及方面，有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術足夠便宜，讓人們可以使用。

為了讓這項技術真正(zheng)變得更加廣泛(fan)地普及，我(wo)們需要確保安全(quan)性，特別是在(zai)選(xuan)舉(ju)年。我(wo)們對可能出現(xian)的錯誤信息(xi)和任何(he)相關風(feng)險(xian)非常謹慎。我(wo)們今天正(zheng)在(zai)積極(ji)努力解決這些問(wen)題。

主持人：你能(neng)談談你在Sora項目上(shang)的(de)(de)工作是如何(he)影響更廣泛的(de)(de)研究路線圖的(de)(de)嗎(ma)？

Tim：我認為，Sora的一個重要方面，是通過查看所有這些視覺數據來了解世界的知識。我們只是用視頻數據對它進行了訓練，它學會了3D，因為這些視頻中存在3D。它還學會了當你咬一口漢堡包時，會留下咬痕。所以它學到了很多關于我們這個世界的東西。當我(wo)(wo)們(men)與世界(jie)互動時(shi)，很多都是(shi)視覺(jue)的。我(wo)(wo)們(men)一生(sheng)(sheng)中看到和學(xue)到的東西很多都是(shi)視覺(jue)信息。所以我(wo)(wo)們(men)真的認(ren)為，對于智能，對于引導更(geng)(geng)(geng)智能的人工(gong)智能模型(xing)，更(geng)(geng)(geng)好地理解世界(jie)，這(zhe)(zhe)對它(ta)們(men)來(lai)說非常重(zhong)要，因為它(ta)們(men)需要有(you)這(zhe)(zhe)樣的基礎。有(you)很多關于人們(men)如(ru)何互動、事情如(ru)何發生(sheng)(sheng)、過去(qu)的事件(jian)如(ru)何影響未來(lai)的事件(jian)的內(nei)容，會催生(sheng)(sheng)比生(sheng)(sheng)成視頻更(geng)(geng)(geng)廣泛、更(geng)(geng)(geng)智能的人工(gong)智能模型(xing)。

主持人：這幾乎就像你同(tong)時發明(ming)了未來(lai)的視覺皮層和大腦(nao)推理(li)部(bu)(bu)分的某些部(bu)(bu)分。

Tim：是的，這是一個很酷的比較，因為人類擁有的很多智能實際上都與世界建模有關。當我們思考如何做事時，我們總是在腦海中演繹各種場景。我們會在夢中在腦海中演繹各種場景。所以我們有一個世界模型，將Sora構建為世界模型與人類擁有的大部分智能非常相似。

我認為我們思(si)考事物(wu)的(de)方式(shi)是，幾乎就(jiu)像人類(lei)的(de)一個(ge)缺(que)陷，就(jiu)是它沒有那么(me)高的(de)保真度。

因此，當(dang)你(ni)涉及到(dao)一組非常狹窄的物(wu)理學時，我們實際上無法(fa)做出(chu)非常準確的長期預測，這(zhe)是我們可以通過其中(zhong)一些系統進行(xing)改進的。

因此，我們對Sora的前景持樂觀態度，認為它將取代人類的某些能力。從長遠來看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。

隨著規模的擴大，真正有效的方法仍然只是預測數據。

主持人：你認(ren)為公眾對視(shi)頻模型或Sora有什么誤(wu)解嗎？或者你想讓他們知道(dao)什么？

Aditya：在內部，我們一直在將Sora與GPT模型進行比較。當GPT-1和GPT-2問世時(shi)，人們開(kai)始越(yue)來(lai)越(yue)清楚地認識到，只需擴大這些模型(xing)的(de)規模就能賦予它(ta)們驚(jing)人的(de)能力(li)。對我們來(lai)說，很明顯(xian)，將同(tong)樣的(de)方法應(ying)用于視頻模型(xing)也會帶來(lai)非常驚(jing)人的(de)能力(li)。

我們確實覺得這是GPT-1的時刻，這些模型很快就會變得更好。我(wo)們真(zhen)的(de)(de)很興(xing)奮，我(wo)們認(ren)為這將(jiang)給創(chuang)意(yi)世界帶來令(ling)人難(nan)以置(zhi)信的(de)(de)好處，這對(dui)AGI的(de)(de)長(chang)期影(ying)響是(shi)什么。

與此同(tong)時(shi)，我們正在(zai)努力非常注意安全考慮，并構建一個(ge)強大的堆棧(zhan)，以確保社會真(zhen)正從中獲益，同(tong)時(shi)減輕負面影響。

每日經濟新聞綜合公開資料

封面(mian)圖(tu)片來(lai)源：每日經濟新聞資料圖(tu)

上一篇：捷途大圣青春版南京上市，引領年輕時尚新潮流

下一篇：廣東梅大高速路面塌陷事故已致36人遇難

最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX

【百姓神彩票】“人類思考方式有缺陷”！Sora三位大佬最新訪談：Sora仍處在GPT

為您推薦