最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX

//kes.net.cn/template/company/tqiye406

【百姓彩票怎么買】揭秘Sora:開發團隊成立不到1年,核心成員包含多位華人

2024-03-28 21:25:49 

2月16日,揭秘OpenAI的團隊AI視頻模型Sora炸裂出道,生成的成立視頻無論是清晰度、連貫性和時間上都令人驚嘆,年核一時間,心成諸如“現實不存在了”的員包百姓彩票怎么買評論在全網刷屏。

Sora是含多如(ru)何(he)實現如(ru)此顛覆(fu)性的(de)能力的(de)呢?這就不(bu)得不(bu)提(ti)到(dao)其背后(hou)的(de)兩項核心技(ji)術突(tu)破——Spacetime Patch(時空Patch)技(ji)術和Diffusion Transformer(DiT,或擴散型 Transformer)架構。位(wei)華

《每(mei)日經濟新聞》記者查(cha)詢(xun)這(zhe)兩(liang)項技(ji)術(shu)(shu)的(de)揭秘原作論(lun)文(wen)(wen)發(fa)現,時空Patch的(de)團隊技(ji)術(shu)(shu)論(lun)文(wen)(wen)實際(ji)上是由谷歌DeepMind的(de)科學(xue)家們于(yu)2023年7月發(fa)表的(de)。DiT架構技(ji)術(shu)(shu)論(lun)文(wen)(wen)的(de)成(cheng)立一(yi)作則是Sora團隊領(ling)導者之一(yi)William Peebles,但(dan)戲劇性的(de)年核是,這(zhe)篇論(lun)文(wen)(wen)曾在2023年的(de)心成(cheng)計算機視覺會議上因(yin)“缺少創新性”而(er)遭到拒絕,僅僅1年之后,員包(bao)就(jiu)成(cheng)為Sora的(de)含多核心理論(lun)之一(yi)。

如今,Sora團隊(dui)毫無疑問已經成(cheng)為世界上最受關(guan)注的(de)技術(shu)團隊(dui)之(zhi)一。記(ji)者查詢OpenAI官(guan)網(wang)發現,Sora團隊(dui)由Peebles等(deng)3人領導,核心成(cheng)員包括12人,其中有多位華(hua)人。值得注意的(de)是,這支團隊(dui)十(shi)分年(nian)(nian)輕,成(cheng)立(li)時間尚未超過1年(nian)(nian)。

創新“站在谷歌肩上”

此前,OpenAI在(zai)X平臺上展(zhan)示了Sora將靜態圖像轉換為動(dong)態視頻的幾個案例,其逼真程度令人驚(jing)嘆。Sora是(shi)如何做到這一點的呢?這就不(bu)(bu)得不(bu)(bu)提到該AI視頻模(mo)型背后的兩項(xiang)核心技術——DiT架構和Spacetime Patch(時空(kong)Patch)。

據外媒報道,Spacetime Patch是Sora創新的核心之一,該項技術是百姓彩票網建立在谷歌DeepMind對NaViT(原生分辨率視(shi)覺Transformer)和ViT(視(shi)覺Transformer)的早期研究基礎(chu)上。

Patch可以(yi)(yi)理解為Sora的(de)(de)(de)(de)基(ji)本(ben)單(dan)元(yuan),就像GPT-4 的(de)(de)(de)(de)基(ji)本(ben)單(dan)元(yuan)是Token。Token是文字(zi)的(de)(de)(de)(de)片段,Patch則是視頻的(de)(de)(de)(de)片段。GPT-4被訓練以(yi)(yi)處理一(yi)串Token,并預(yu)測出(chu)下一(yi)個Token。Sora遵(zun)循相(xiang)同的(de)(de)(de)(de)邏輯,可以(yi)(yi)處理一(yi)系列的(de)(de)(de)(de)Patch,并預(yu)測出(chu)序列中的(de)(de)(de)(de)下一(yi)個Patch。

Sora之所(suo)以能實(shi)現突破,在于其通過Spacetime Patch將視(shi)(shi)頻視(shi)(shi)為補(bu)丁序列,Sora保(bao)持(chi)了原始的寬(kuan)高比和分辨率,類似于NaViT對圖像的處(chu)理。這對于捕捉視(shi)(shi)覺數據(ju)的真正本質(zhi)至關重要,使模(mo)型能夠(gou)從(cong)更準確(que)的表(biao)達中學習,從(cong)而賦予Sora近乎完美的準確(que)性(xing)。由此,Sora能夠(gou)有效(xiao)地處(chu)理各(ge)種視(shi)(shi)覺數據(ju),而無(wu)需調(diao)整大小或填充等(deng)預處(chu)理步驟。

記者注意到,OpenAI發布的Sora技術(shu)報告(gao)中透露了Sora的主要理論(lun)(lun)基礎,其中Patch的技術(shu)論(lun)(lun)文名為Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查(cha)詢預印本(ben)網站arxiv后發現,該篇論(lun)(lun)文是(shi)由(you)谷歌DeepMind的科學家們于2023年7月發表的。

相關論文曾遭拒絕

除此之外,Sora的另一個重大突破是其所使用的架構,傳統的文本到視頻模型(如Runway、Stable Diffusion)通常是擴散模型(Diffusion Model),文本模型例如GPT-4則是Transformer模型,而Sora則采用了DiT架構,百姓彩票紅融合了(le)前述兩者的(de)特(te)性。

據報道,傳統的(de)(de)(de)(de)擴散模型的(de)(de)(de)(de)訓練(lian)過(guo)(guo)程是(shi)通過(guo)(guo)多個步驟逐漸向圖片(pian)增加噪點(dian),直到(dao)圖片(pian)變成完全無結(jie)構(gou)(gou)的(de)(de)(de)(de)噪點(dian)圖片(pian),然后在生成圖片(pian)時(shi),逐步減少噪點(dian),直到(dao)還原出一張清(qing)(qing)晰的(de)(de)(de)(de)圖片(pian)。Sora采用(yong)的(de)(de)(de)(de)架構(gou)(gou)是(shi)通過(guo)(guo)Transformer的(de)(de)(de)(de)編碼器(qi)(qi)-解碼器(qi)(qi)架構(gou)(gou)處理包(bao)含噪點(dian)的(de)(de)(de)(de)輸入圖像,并在每一步預測出更清(qing)(qing)晰的(de)(de)(de)(de)圖像。DiT架構(gou)(gou)結(jie)合時(shi)空Patch,讓Sora能夠在更多的(de)(de)(de)(de)數(shu)據上進行訓練(lian),輸出質量也(ye)得到(dao)大幅提高。

OpenAI發布的Sora技術(shu)報告透露,Sora采(cai)用的DiT架構(gou)是基于一篇(pian)名為(wei)Scalable diffusion models with transformers的學術(shu)論文(wen)。記者查(cha)詢預印(yin)本網站arxiv后發現,該(gai)篇(pian)原作論文(wen)是2022年12月由伯(bo)克(ke)利(li)大學研究人員(yuan)(yuan)William (Bill) Peebles和紐(niu)約大學的一位(wei)研究人員(yuan)(yuan)Saining Xie共同發表。William (Bill) Peebles之(zhi)后加入了OpenAI,領(ling)導Sora技術(shu)團隊。

然而,戲劇化的(de)是(shi),Meta的(de)AI科學家Yann LeCun在X平(ping)臺上透(tou)露(lu),“這(zhe)篇論文曾在2023年的(de)計(ji)算機視(shi)覺會議(yi)(CVR2023)上因‘缺少創新性’而遭到拒(ju)絕,但在2023年國(guo)際計(ji)算機視(shi)覺會議(yi)(ICCV2023)上被接受發表,并且構成了(le)Sora的(de)基(ji)礎。”

作為最懂DiT架構(gou)的(de)人(ren)(ren)之一,在(zai)Sora發(fa)布后,Saining Xie在(zai)X平臺上發(fa)表了關于Sora的(de)一些(xie)猜(cai)想和技術(shu)解釋(shi),并表示,“Sora確實令(ling)人(ren)(ren)驚嘆,它(ta)將徹底改變(bian)視頻生(sheng)成領域。”

“當Bill和我參與(yu)DiT項目時,我們(men)(men)并未(wei)專注(zhu)于創新(xin),而是將重點放在了(le)兩個方(fang)面:簡潔性(xing)和可(ke)擴(kuo)展(zhan)性(xing)。”他寫道:“簡潔性(xing)代表著靈活性(xing)。關(guan)于標準的ViT,人(ren)們(men)(men)常忽(hu)視的一(yi)個亮點是,它讓模(mo)型(xing)在處理輸入數據(ju)時變得更加靈活。例如,在遮蔽自編碼(ma)器(MAE)中,ViT幫(bang)助我們(men)(men)只(zhi)處理可(ke)見的區(qu)塊,忽(hu)略(lve)被遮蔽的部分。同(tong)樣,Sora可(ke)以(yi)通過在適當大小(xiao)的網格(ge)中排列隨機初始化的區(qu)塊來控(kong)制生成視頻的尺寸。”

不過(guo),他認為,關(guan)(guan)于(yu)Sora仍有兩個關(guan)(guan)鍵(jian)點(dian)尚未被(bei)提(ti)及。一是(shi)關(guan)(guan)于(yu)訓練(lian)數據的(de)來源和構(gou)建,這意味著(zhu)數據很可能是(shi)Sora成(cheng)功的(de)關(guan)(guan)鍵(jian)因素(su);二是(shi)關(guan)(guan)于(yu)(自回歸的(de))長(chang)視(shi)頻生(sheng)成(cheng),Sora的(de)一大(da)突破是(shi)能夠生(sheng)成(cheng)長(chang)視(shi)頻,但OpenAI尚未揭示相(xiang)關(guan)(guan)的(de)技術細(xi)節。

開發團隊還有“00后”

隨(sui)著Sora的(de)爆(bao)火,Sora團隊(dui)也(ye)來(lai)到世界舞臺的(de)中央,引發了持續(xu)的(de)關注。記者查詢OpenAI官網發現(xian),Sora團隊(dui)由William Peebles等3人領導(dao),核心成員包(bao)括12人。從(cong)團隊(dui)領導(dao)和(he)(he)成員的(de)畢業和(he)(he)入職時間來(lai)看,這支(zhi)團隊(dui)成立(li)的(de)時間較短,尚未(wei)超過1年(nian)。

從年(nian)齡上來看,這支團隊也非常年(nian)輕,兩位研究(jiu)負責人都是(shi)在2023年(nian)才剛(gang)剛(gang)博士畢業。William (Bill) Peebles于去年(nian)5月畢業,其與Saining Xie合著的擴散Transformer論文(wen)成為Sora的核心理論基(ji)礎。Tim Brooks于去年(nian)1月畢業,是(shi)DALL-E 3的作者之(zhi)一,曾在谷歌和英(ying)偉達(da)就職。

團隊(dui)成(cheng)員中甚至還有“00后”。團隊(dui)中的Will DePue生于(yu)2003年(nian),2022年(nian)剛從(cong)密西根大學(xue)計算機系本科畢業,在今年(nian)1月(yue)加(jia)入Sora項目組。

此外,團隊還有(you)幾位華人(ren)。據媒(mei)體報道,Li Jing是DALL-E 3的(de)共同一作,2014年(nian)本科畢業于(yu)北京大學物理系,2019年(nian)獲(huo)得(de)MIT物理學博士學位,于(yu)2022年(nian)加入OpenAI。Ricky Wang則是今年(nian)1月(yue)剛剛從Meta跳槽到OpenAI。其(qi)余華人(ren)員工包(bao)括Yufei Guo等尚未有(you)太多公開資料介(jie)紹。

每經記者 文巧

分享
新浪微博
用微信掃描二維碼

揭秘Sora:開發團隊成立不到1年,核心成員包含多位華人

2024-02-20 06:09:21 來源:

2月(yue)16日,OpenAI的AI視頻(pin)模型Sora炸裂出道,生成的視頻(pin)無論是清(qing)晰(xi)度、連貫性和時間上都(dou)令人驚嘆,一時間,諸如“現實不存在(zai)(zai)了”的評論在(zai)(zai)全網刷(shua)屏。

Sora是如(ru)何實現(xian)如(ru)此顛覆性的(de)能力的(de)呢(ni)?這就(jiu)不(bu)得(de)不(bu)提(ti)到其背后(hou)的(de)兩項核心技術突破——Spacetime Patch(時(shi)空(kong)Patch)技術和Diffusion Transformer(DiT,或擴(kuo)散型 Transformer)架構。

《每日經濟新(xin)聞(wen)》記者查詢這兩(liang)項技術(shu)(shu)的(de)(de)原作論(lun)文發現,時空Patch的(de)(de)技術(shu)(shu)論(lun)文實際上是由谷歌DeepMind的(de)(de)科學(xue)家們于(yu)2023年(nian)7月發表的(de)(de)。DiT架構技術(shu)(shu)論(lun)文的(de)(de)一作則是Sora團隊領導者之一William Peebles,但戲劇性的(de)(de)是,這篇論(lun)文曾在2023年(nian)的(de)(de)計(ji)算(suan)機視覺會(hui)議上因(yin)“缺(que)少(shao)創新(xin)性”而遭到(dao)拒(ju)絕,僅僅1年(nian)之后,就(jiu)成(cheng)為(wei)Sora的(de)(de)核心理論(lun)之一。

如今,Sora團隊毫無疑問(wen)已經成為世界上最受關注的技術(shu)團隊之一。記者查(cha)詢OpenAI官網發現,Sora團隊由Peebles等3人(ren)領導,核心成員包括12人(ren),其(qi)中有多位華人(ren)。值得注意的是,這支團隊十分年(nian)輕,成立時(shi)間尚(shang)未超過1年(nian)。

創新“站在谷歌肩上”

此前(qian),OpenAI在X平臺上展示(shi)了(le)Sora將靜態(tai)圖像轉(zhuan)換為動態(tai)視頻(pin)的幾(ji)個案例,其逼真程度令人驚嘆。Sora是(shi)如何(he)做到(dao)這一點的呢?這就(jiu)不得不提到(dao)該AI視頻(pin)模型(xing)背后(hou)的兩項(xiang)核心技術——DiT架構和Spacetime Patch(時空Patch)。

據外(wai)媒報(bao)道,Spacetime Patch是Sora創新的核心之一(yi),該(gai)項技術是建立(li)在谷歌(ge)DeepMind對(dui)NaViT(原生分辨率視(shi)覺(jue)Transformer)和ViT(視(shi)覺(jue)Transformer)的早(zao)期研究基(ji)礎上(shang)。

Patch可以理解為Sora的(de)基本單元,就像GPT-4 的(de)基本單元是(shi)Token。Token是(shi)文(wen)字的(de)片段(duan)(duan),Patch則是(shi)視頻的(de)片段(duan)(duan)。GPT-4被(bei)訓練以處(chu)理一(yi)串Token,并預測出下一(yi)個(ge)Token。Sora遵循(xun)相(xiang)同(tong)的(de)邏輯,可以處(chu)理一(yi)系(xi)列的(de)Patch,并預測出序列中的(de)下一(yi)個(ge)Patch。

Sora之所以能實現突破,在于(yu)其(qi)通過Spacetime Patch將視(shi)頻(pin)視(shi)為補丁(ding)序(xu)列,Sora保持(chi)了原始(shi)的(de)寬高比和分辨率,類似于(yu)NaViT對(dui)圖像的(de)處理(li)(li)。這對(dui)于(yu)捕捉視(shi)覺(jue)數據的(de)真正本(ben)質至關重要(yao),使模型能夠(gou)從更準確的(de)表達中學習,從而賦予(yu)Sora近乎(hu)完美的(de)準確性。由(you)此,Sora能夠(gou)有效地處理(li)(li)各種視(shi)覺(jue)數據,而無需調整(zheng)大小或填充等預處理(li)(li)步驟(zou)。

記者注意到,OpenAI發(fa)布的(de)Sora技(ji)術報告中透(tou)露(lu)了Sora的(de)主要(yao)理論(lun)基礎,其中Patch的(de)技(ji)術論(lun)文(wen)名為(wei)Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預印本網站arxiv后(hou)發(fa)現,該篇(pian)論(lun)文(wen)是由谷歌DeepMind的(de)科學家(jia)們(men)于(yu)2023年7月發(fa)表的(de)。

相關論文曾遭拒絕

除(chu)此之外,Sora的(de)另一個重(zhong)大突破(po)是其(qi)所使用(yong)的(de)架構,傳(chuan)統的(de)文本到視頻模(mo)型(xing)(xing)(如Runway、Stable Diffusion)通常(chang)是擴(kuo)散模(mo)型(xing)(xing)(Diffusion Model),文本模(mo)型(xing)(xing)例如GPT-4則(ze)是Transformer模(mo)型(xing)(xing),而Sora則(ze)采用(yong)了DiT架構,融合了前述兩者的(de)特性。

據報道,傳統的(de)(de)擴散模型的(de)(de)訓(xun)練過程是通過多(duo)個步(bu)驟逐漸向圖(tu)片(pian)增加(jia)噪(zao)點(dian),直到(dao)圖(tu)片(pian)變成完(wan)全無結(jie)構(gou)的(de)(de)噪(zao)點(dian)圖(tu)片(pian),然后(hou)在生成圖(tu)片(pian)時,逐步(bu)減(jian)少(shao)噪(zao)點(dian),直到(dao)還(huan)原出(chu)一張清(qing)晰的(de)(de)圖(tu)片(pian)。Sora采用的(de)(de)架構(gou)是通過Transformer的(de)(de)編(bian)碼器-解碼器架構(gou)處理包含噪(zao)點(dian)的(de)(de)輸入(ru)圖(tu)像,并(bing)在每一步(bu)預(yu)測出(chu)更清(qing)晰的(de)(de)圖(tu)像。DiT架構(gou)結(jie)合時空Patch,讓Sora能夠在更多(duo)的(de)(de)數據上(shang)進(jin)行訓(xun)練,輸出(chu)質量也得(de)到(dao)大幅提高(gao)。

OpenAI發布(bu)的(de)(de)Sora技術報告(gao)透露,Sora采用的(de)(de)DiT架構是基于一篇名為Scalable diffusion models with transformers的(de)(de)學(xue)(xue)術論文。記者查(cha)詢預印本網站arxiv后(hou)(hou)發現,該篇原作論文是2022年12月由伯克利大(da)學(xue)(xue)研究人員William (Bill) Peebles和(he)紐約(yue)大(da)學(xue)(xue)的(de)(de)一位研究人員Saining Xie共同發表。William (Bill) Peebles之后(hou)(hou)加入(ru)了OpenAI,領導Sora技術團(tuan)隊。

然而(er),戲劇(ju)化的是(shi),Meta的AI科(ke)學(xue)家(jia)Yann LeCun在X平(ping)臺(tai)上透露,“這篇論文曾(ceng)在2023年(nian)的計算機(ji)視覺會議(CVR2023)上因(yin)‘缺少(shao)創新性’而(er)遭到拒絕(jue),但在2023年(nian)國際(ji)計算機(ji)視覺會議(ICCV2023)上被接受發表(biao),并且構成了Sora的基礎。”

作(zuo)為(wei)最(zui)懂DiT架構的人(ren)之一,在(zai)(zai)Sora發布(bu)后,Saining Xie在(zai)(zai)X平臺上發表了關于(yu)Sora的一些猜想和技術解釋,并表示,“Sora確實令人(ren)驚嘆,它將徹底(di)改變(bian)視頻(pin)生成領域。”

“當Bill和我(wo)(wo)參與DiT項(xiang)目(mu)時(shi),我(wo)(wo)們并(bing)未專注于(yu)創新(xin),而是(shi)(shi)將重點放在了兩個方面:簡(jian)潔性(xing)和可擴展性(xing)。”他寫道:“簡(jian)潔性(xing)代表著靈活(huo)性(xing)。關于(yu)標(biao)準的(de)(de)ViT,人們常忽視(shi)(shi)的(de)(de)一(yi)個亮(liang)點是(shi)(shi),它(ta)讓模型在處(chu)理輸入數據(ju)時(shi)變得更(geng)加(jia)靈活(huo)。例如(ru),在遮(zhe)(zhe)蔽自編碼器(qi)(MAE)中,ViT幫助我(wo)(wo)們只處(chu)理可見(jian)的(de)(de)區塊,忽略被遮(zhe)(zhe)蔽的(de)(de)部分(fen)。同(tong)樣(yang),Sora可以通過在適(shi)當大小的(de)(de)網格中排列(lie)隨機初始化(hua)的(de)(de)區塊來控制生成視(shi)(shi)頻的(de)(de)尺(chi)寸。”

不過(guo),他認為(wei),關(guan)(guan)于Sora仍有兩個(ge)關(guan)(guan)鍵點尚(shang)未(wei)被提(ti)及。一(yi)是關(guan)(guan)于訓練數據的(de)來(lai)源和構建,這意(yi)味著數據很可能是Sora成(cheng)功的(de)關(guan)(guan)鍵因素;二是關(guan)(guan)于(自回歸(gui)的(de))長視頻生成(cheng),Sora的(de)一(yi)大突(tu)破是能夠生成(cheng)長視頻,但OpenAI尚(shang)未(wei)揭示相(xiang)關(guan)(guan)的(de)技術細節。

開發團隊還有“00后”

隨著Sora的(de)爆(bao)火,Sora團(tuan)隊(dui)也(ye)來到世界舞臺的(de)中央,引發(fa)了持續(xu)的(de)關注。記者查詢OpenAI官網發(fa)現,Sora團(tuan)隊(dui)由William Peebles等3人領(ling)導(dao),核心成(cheng)員包括12人。從(cong)團(tuan)隊(dui)領(ling)導(dao)和成(cheng)員的(de)畢(bi)業(ye)和入(ru)職(zhi)時(shi)間來看,這支團(tuan)隊(dui)成(cheng)立(li)的(de)時(shi)間較短(duan),尚未超過1年。

從年(nian)齡上(shang)來看,這支團隊也非常(chang)年(nian)輕,兩位研究(jiu)負責人(ren)都(dou)是在(zai)2023年(nian)才(cai)剛剛博士畢業。William (Bill) Peebles于(yu)去年(nian)5月畢業,其與Saining Xie合(he)著的(de)擴散Transformer論文成為Sora的(de)核(he)心理論基礎。Tim Brooks于(yu)去年(nian)1月畢業,是DALL-E 3的(de)作(zuo)者之一,曾在(zai)谷歌和英(ying)偉達就職。

團(tuan)(tuan)隊(dui)成員(yuan)中(zhong)甚至還有“00后”。團(tuan)(tuan)隊(dui)中(zhong)的(de)Will DePue生(sheng)于2003年,2022年剛(gang)從密西根大學(xue)計算(suan)機(ji)系(xi)本(ben)科(ke)畢業,在今年1月加入Sora項目組。

此(ci)外,團隊還(huan)有幾位(wei)華人(ren)。據媒體報道,Li Jing是(shi)DALL-E 3的(de)共同一作,2014年本(ben)科(ke)畢業于北京大(da)學物理(li)系(xi),2019年獲得(de)MIT物理(li)學博(bo)士學位(wei),于2022年加入(ru)OpenAI。Ricky Wang則是(shi)今年1月剛剛從Meta跳槽到OpenAI。其余(yu)華人(ren)員工包(bao)括Yufei Guo等尚(shang)未(wei)有太多公開資料介紹。

每經記者 文巧

親愛的(de)(de)用(yong)戶(hu)(hu),“重慶(qing)”客戶(hu)(hu)端現已(yi)正式(shi)改版升(sheng)級為“新(xin)重慶(qing)”客戶(hu)(hu)端。為不影響后續使用(yong),請掃描(miao)上(shang)方二維碼(ma),及時下載新(xin)版本。更(geng)(geng)優(you)質(zhi)的(de)(de)內容,更(geng)(geng)便捷的(de)(de)體驗,我們在“新(xin)重慶(qing)”等你!

 

集團總部、集團營銷中心:普陀區曹楊新村27號
普洱廠部:寶山區友誼路街道1458號
服務熱線:066-15625893265

微信公眾號

微博

Copyright © 2024 百姓彩票 All Rights Reserved. @TIANHANET 網站地圖