【快3百姓彩票】林達華談大模型發展之路：未來會有更高效的模型結構出現

2024-03-28 21:36:21

澎湃新聞記者張靜

大(da)模(mo)型的林達路(lu)上(shang)下(xia)文(wen)(wen)長度快速增長，超長上(shang)下(xia)文(wen)(wen)解鎖新(xin)應用，華談但(dan)推理計(ji)算(suan)代價高昂，大(da)模(mo)上(shang)下(xia)文(wen)(wen)本身(shen)對于信息不(bu)會進行壓縮，型發效不(bu)能直接捕捉其(qi)中的更高深(shen)層知識和規律。

上海人工智能實驗室領軍科學家林達華。

過(guo)去一年(nian)，結構人工(gong)智(zhi)能領域風起(qi)云涌，出現模(mo)型(xing)(xing)架構、林達路訓(xun)練數據、華談多(duo)模(mo)態、大(da)模(mo)超長上下(xia)文、型(xing)(xing)發效智(zhi)能體發展突飛(fei)猛進(jin)。更高大(da)模(mo)型(xing)(xing)的模(mo)型(xing)(xing)技術演進(jin)路在何(he)方(fang)？

3月24日，在2024全球開發者先鋒大會的結構百姓彩票大廳大(da)模型前(qian)沿(yan)論壇上(shang)，上(shang)海人工智能實(shi)驗室(shi)領軍科(ke)學家林達華分(fen)享了(le)對大(da)模型的(de)思考(kao)。他表示，大(da)規模生產高質量(liang)數據是大(da)模型研發(fa)機構(gou)的(de)競爭力所在。當前(qian)主流的(de)大(da)模型無一例(li)外(wai)都建立在Transformer架構(gou)堆疊(die)的(de)基礎上(shang)，但產業界(jie)和學術(shu)界(jie)在不斷探索(suo)更加高效的(de)架構(gou)，隨著驗證逐漸(jian)成功，未來(lai)它們會慢(man)慢(man)進(jin)入產業界(jie)，帶來(lai)模型架構(gou)新的(de)黃(huang)金期。

林達華表示，在大模型時代，技術演進有兩股主要的驅動力量，一方面是研究人員對通用人工智能的追求和對尺度定律（Scaling Law）的信仰，從而不斷突破邊界，尋求接近通用人工智能的百姓彩票官網登錄道路。另一方面，產業(ye)界也看到了(le)大模型(xing)帶(dai)來產業(ye)革命的可能(neng)性，無數企(qi)業(ye)投入了(le)巨大資(zi)源。兩股(gu)力量交織，促成了(le)人工智(zhi)能(neng)行業(ye)的迅猛(meng)發展。過(guo)(guo)去(qu)(qu)一年(nian)，人工智(zhi)能(neng)領域所取得的技術突破遠(yuan)遠(yuan)超過(guo)(guo)了(le)過(guo)(guo)去(qu)(qu)十(shi)年(nian)甚至幾(ji)十(shi)年(nian)的突破和(he)進展。

在模(mo)型(xing)(xing)架(jia)構(gou)方面，當前主(zhu)(zhu)流的(de)大(da)模(mo)型(xing)(xing)無一(yi)例(li)外(wai)都(dou)建立在Transformer架(jia)構(gou)堆疊的(de)基礎上，但(dan)林(lin)達(da)華表示，這種架(jia)構(gou)的(de)問題是(shi)對計算(suan)資(zi)源的(de)消耗特(te)別大(da)，反觀人(ren)腦(nao)(nao)的(de)效率(lv)遠高于(yu)主(zhu)(zhu)流大(da)模(mo)型(xing)(xing)架(jia)構(gou)。人(ren)腦(nao)(nao)有大(da)約100萬億(yi)個神經連接，遠遠超(chao)過現有大(da)模(mo)型(xing)(xing)體量，但(dan)人(ren)腦(nao)(nao)的(de)運行功率(lv)只有20瓦，而千(qian)億(yi)參數模(mo)型(xing)(xing)的(de)推理(li)(li)功率(lv)是(shi)它(ta)的(de)百倍以(yi)上，處理(li)(li)的(de)信息也更單一(yi)。

過(guo)去一年，產(chan)業界和學(xue)術界在不斷探索(suo)更加高(gao)(gao)效的(de)架構，其(qi)中MoE是(shi)(shi)宏觀結構稀(xi)(xi)疏化的(de)一種(zhong)簡單形態，經過(guo)良好(hao)訓練的(de)MoE可取得比同等激(ji)活參(can)數量的(de)稠密(mi)模型更好(hao)的(de)性(xing)能。“但這僅(jin)僅(jin)是(shi)(shi)一個起(qi)點，未來還會有(you)更加高(gao)(gao)效的(de)稀(xi)(xi)疏模型結構出現。”林達華表示，這些(xie)架構現在還停留在學(xue)術研究階段，但隨(sui)著驗證(zheng)的(de)逐漸(jian)成功，它們會慢慢進(jin)入產(chan)業界，從而帶來模型架構新(xin)的(de)黃金時期。

在訓練(lian)數(shu)據方面，最(zui)初訓練(lian)數(shu)據并不被認為是大模(mo)(mo)型(xing)訓練(lian)最(zui)重要(yao)(yao)的(de)要(yao)(yao)素。2022年(nian)，DeepMind的(de)研究(jiu)報告提(ti)到，模(mo)(mo)型(xing)的(de)數(shu)據量(liang)(liang)要(yao)(yao)跟參數(shu)量(liang)(liang)同(tong)步增長(chang)，才能訓練(lian)出最(zui)佳模(mo)(mo)式。“從那時(shi)候起(qi)，人們開始關注模(mo)(mo)型(xing)的(de)數(shu)據。”林達華(hua)表示，去年(nian)一年(nian)，大模(mo)(mo)型(xing)的(de)參數(shu)體(ti)量(liang)(liang)沒有呈現(xian)指數(shu)級(ji)的(de)增長(chang)速度(du)，但無(wu)論是開源(yuan)模(mo)(mo)型(xing)還(huan)是閉源(yuan)模(mo)(mo)型(xing)，數(shu)據量(liang)(liang)增長(chang)了近一個數(shu)量(liang)(liang)級(ji)。

到去(qu)年(nian)中期，大(da)家(jia)慢慢觀察到數(shu)(shu)(shu)據(ju)質量(liang)扮演了越來越重要(yao)的(de)(de)角(jiao)色，高質量(liang)數(shu)(shu)(shu)據(ju)對模(mo)型(xing)能力和模(mo)型(xing)天花板有重要(yao)的(de)(de)正面意義，“大(da)規模(mo)生產高質量(liang)的(de)(de)數(shu)(shu)(shu)據(ju)是一個開放性的(de)(de)問題，也是大(da)模(mo)型(xing)研發機構的(de)(de)競爭力所在。”林達華表示，好的(de)(de)數(shu)(shu)(shu)據(ju)要(yao)有多樣(yang)性，單一數(shu)(shu)(shu)據(ju)對模(mo)型(xing)性能具(ju)有破壞性影響，“10%的(de)(de)帶(dai)有重復模(mo)式的(de)(de)數(shu)(shu)(shu)據(ju)注入到訓練集里，有可能會使(shi)得模(mo)型(xing)降級(ji)到原來1/2的(de)(de)體(ti)量(liang)。”

在多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)方面，多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)融合將成(cheng)為重要(yao)技術(shu)趨勢，但技術(shu)探索仍在路上。相(xiang)比語(yu)言，多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)型(xing)(xing)的(de)(de)(de)訓練多(duo)(duo)了(le)一個重要(yao)維度，即圖像和(he)視(shi)頻的(de)(de)(de)分(fen)(fen)辨(bian)(bian)率(lv)對多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)型(xing)(xing)最(zui)終(zhong)的(de)(de)(de)性能表現有(you)重要(yao)影響(xiang)。如果(guo)使(shi)用非常高的(de)(de)(de)分(fen)(fen)辨(bian)(bian)率(lv)進行多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)的(de)(de)(de)訓練和(he)推理(li)，模(mo)(mo)(mo)(mo)型(xing)(xing)能夠(gou)得到(dao)巨大提升，但高分(fen)(fen)辨(bian)(bian)率(lv)會帶來高計(ji)算(suan)成(cheng)本。“如何在高分(fen)(fen)辨(bian)(bian)率(lv)和(he)合理(li)計(ji)算(suan)成(cheng)本之間取得最(zui)佳平衡，這為架構研究帶來了(le)很大的(de)(de)(de)創新空間。”

在上(shang)(shang)下文(wen)方(fang)面，上(shang)(shang)下文(wen)長(chang)(chang)度快速增長(chang)(chang)。去(qu)年上(shang)(shang)半年，上(shang)(shang)下文(wen)基(ji)本處于4K水(shui)平。GBT-4突破(po)到32K，今年3月，支(zhi)持1M或更長(chang)(chang)上(shang)(shang)下文(wen)的模型出現。超長(chang)(chang)上(shang)(shang)下文(wen)解(jie)鎖新應用，2K的上(shang)(shang)下文(wen)只(zhi)能(neng)從(cong)事簡單的聊(liao)天(tian)和(he)短文(wen)分析(xi)(xi)；32K可以長(chang)(chang)時間對話，完成長(chang)(chang)文(wen)分析(xi)(xi)；上(shang)(shang)下文(wen)支(zhi)持能(neng)力突破(po)到1M時，就能(neng)閱讀長(chang)(chang)篇小說(shuo)，實現項目級的代碼分析(xi)(xi)和(he)構建。但(dan)超長(chang)(chang)上(shang)(shang)下文(wen)的推理計算代價高昂(ang)，上(shang)(shang)下文(wen)本身對于信息(xi)不(bu)會進行壓縮，不(bu)能(neng)直接捕捉其(qi)中的深層(ceng)知識和(he)規律(lv)。

在智能體(ti)方(fang)面，隨著GPT-4的(de)突破，智能體(ti)在去年成為領域(yu)內的(de)一(yi)個關注方(fang)向。林達華表(biao)示，智能體(ti)并不是一(yi)個簡(jian)單的(de)流程化過程，它需要建立在一(yi)個非常堅實(shi)的(de)基礎模型上，具有很強(qiang)的(de)指令跟(gen)隨能力、理解能力、反思能力和(he)執行能力。

在(zai)(zai)計算(suan)(suan)環境方面，林達(da)華(hua)表示，芯片(pian)進(jin)(jin)入到后摩爾定律時代，未(wei)來算(suan)(suan)力會變成(cheng)體量的拓展，越來越多的芯片(pian)連接(jie)在(zai)(zai)一起(qi)，建成(cheng)越來越大的計算(suan)(suan)中心，支撐(cheng)對通(tong)用人工智能(neng)(neng)的追求。最終瓶頸不(bu)再是芯片(pian)，而是能(neng)(neng)源。現在(zai)(zai)，小(xiao)規(gui)格的大語言模(mo)型已具備較強(qiang)性(xing)能(neng)(neng)水平和實用可能(neng)(neng)性(xing)，優秀的模(mo)型越做越小(xiao)，可以進(jin)(jin)入到手機直接(jie)運(yun)行。林達(da)華(hua)表示，端側(ce)算(suan)(suan)力快速(su)增(zeng)長，端側(ce)即將迎來黃金增(zeng)長期，云端協同將成(cheng)為未(wei)來重要趨勢。

2024全球開發者(zhe)(zhe)先鋒(feng)大會(hui)大模型前沿論(lun)壇由(you)全球開發者(zhe)(zhe)先鋒(feng)大會(hui)組委會(hui)指導，上(shang)海人(ren)工智能實(shi)驗室(shi)及上(shang)海市人(ren)工智能行業協會(hui)共同(tong)主辦。首屆(jie)書(shu)生(sheng)·浦源(yuan)大模型挑(tiao)戰賽(sai)（春季賽(sai)）于(yu)現(xian)場揭(jie)曉(xiao)比賽(sai)結(jie)果，同(tong)時啟動2024浦源(yuan)大模型系列挑(tiao)戰賽(sai)（夏(xia)季賽(sai)）。

上一篇：金陵四十八景

下一篇：為5萬余名師生筑牢安全“防火墻” 百場火災演練進校園

最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX

【快3百姓彩票】林達華談大模型發展之路：未來會有更高效的模型結構出現

為您推薦