【百姓彩票紅】Transformer架構席卷AI領域　算力基礎設施面臨諸多新挑戰Transformer架構席卷A

2024-03-29 03:13:41

日前，架卷Ar架卷OpenAI發布視頻生成模型Sora，構席構席引起了全球范圍內的領力基臨廣泛關注和討論。從深度學習嶄露頭角到大模型浪潮席卷科技圈，域算AI發展的礎設進程中經歷了許多里程碑式事件。其中，施面百姓彩票紅Transformer架構可以說是多新大(da)模(mo)型(xing)領域(yu)的“統治者(zhe)”。對于AI大(da)模(mo)型(xing)而(er)言(yan)，挑(tiao)戰(zhan)(zhan)Transformer架構發(fa)揮(hui)了怎樣的架卷Ar架卷作用？如何應對支撐大(da)模(mo)型(xing)的算力基礎(chu)設施在計算、存儲、構席構席互連等方面的領力基臨挑(tiao)戰(zhan)(zhan)？哪種大(da)模(mo)型(xing)新架構有可能成(cheng)為Transformer的替代者(zhe)？近(jin)日，針對業界(jie)關注(zhu)的域(yu)算熱點問題(ti)，記者(zhe)采(cai)訪了北京航(hang)空航(hang)天大(da)學計算機系主任肖利(li)民教授。礎(chu)設

四(si)大優(you)勢讓Transformer架(jia)構席卷(juan)AI領域

自2017年提出以來，施面Transformer憑借其卓越的多新語言理解能力超越遞歸神經網絡（RNN）模型，迅速在自然語言處理（NLP）領域嶄露頭角，后來又進軍圖像領域，打破了卷積神經網絡（CNN）的統治地位。Transformer強大的百姓彩票最新網址表示能(neng)(neng)力、并(bing)行計算能(neng)(neng)力、跨領域應用能(neng)(neng)力等(deng)為(wei)AI大模型(xing)的突破性進展(zhan)奠定了基礎。

肖利民解(jie)釋說，Transformer架構是一(yi)種(zhong)基于自注意力機制(zhi)的(de)神經網絡模(mo)(mo)型(xing)，解(jie)決了傳統RNN模(mo)(mo)型(xing)在處理長序列數(shu)據時(shi)存在的(de)計算效率問題和難(nan)以并行化等(deng)問題。他(ta)進(jin)一(yi)步(bu)闡述(shu)了Transformer架構在AI大(da)模(mo)(mo)型(xing)中(zhong)的(de)四個主要作(zuo)用和優勢(shi)。

一(yi)是Transformer通過自注意力機制(zhi)來捕捉(zhuo)輸入(ru)序列中的(de)全局依賴關(guan)(guan)系，解決了傳統神(shen)經網(wang)絡模型(xing)在(zai)(zai)處理(li)長序列數(shu)據時(shi)存在(zai)(zai)的(de)問題。這種機制(zhi)可以讓模型(xing)動態地關(guan)(guan)注輸入(ru)序列中的(de)不同部(bu)分(fen)，提高了模型(xing)對上下文信息的(de)準確處理(li)能力。

二是Transformer通過引入殘(can)差連接和層歸(gui)一(yi)化等技術，提高了模(mo)型的訓練效率和穩定(ding)性。相(xiang)比傳統的RNN和CNN模(mo)型，Transformer在處理長序列數據時更加高效和穩定(ding)。

三(san)是Transformer架構的(de)自注(zhu)意力(li)和(he)多頭注(zhu)意力(li)機(ji)制、層(ceng)次化結構以及可擴展(zhan)性使(shi)其成(cheng)為一種易于規模(mo)(mo)化和(he)并行化的(de)模(mo)(mo)型，非常(chang)適(shi)于大規模(mo)(mo)分(fen)布式計(ji)算。

四是百姓彩票怎么買Transformer架構在(zai)自(zi)然語言處(chu)理領域得到(dao)了廣泛應用，如(ru)機器翻譯、文(wen)本分類(lei)和生成等。同時，隨著對Transformer架構的(de)深入研究和改進，它還(huan)逐漸被應用于圖像處(chu)理、音頻處(chu)理、推薦系統等其他領域。

大模(mo)型“暴力美學”帶來的(de)挑(tiao)戰值(zhi)得關(guan)注

算力基(ji)礎設施(shi)是(shi)支(zhi)撐大(da)模(mo)(mo)型(xing)的算力底座，在大(da)算力的加持下，當訓(xun)(xun)練數(shu)據量、模(mo)(mo)型(xing)參(can)數(shu)規(gui)模(mo)(mo)、訓(xun)(xun)練充分程度達到一(yi)定(ding)水平時，大(da)模(mo)(mo)型(xing)在某(mou)些類型(xing)任務上的某(mou)些能(neng)力得(de)以“智能(neng)涌(yong)現”，這是(shi)AI大(da)模(mo)(mo)型(xing)的“暴力美學(xue)”。大(da)模(mo)(mo)型(xing)的參(can)數(shu)規(gui)模(mo)(mo)動輒幾千億甚至上萬億，大(da)規(gui)模(mo)(mo)分布式訓(xun)(xun)練復(fu)雜度高，對算力基(ji)礎設施(shi)提出了大(da)算力、大(da)內存、高訪存帶寬、高速互(hu)連等(deng)新的需求(qiu)和挑戰。

肖(xiao)利民表示，應(ying)重視算(suan)(suan)力基礎設施中(zhong)的多(duo)層(ceng)次軟硬件高效協同(tong)。通(tong)過(guo)分(fen)析大(da)(da)模型(xing)(xing)負(fu)載(zai)特征與智算(suan)(suan)系(xi)統(tong)結(jie)構(gou)的適配，優化(hua)大(da)(da)模型(xing)(xing)負(fu)載(zai)切分(fen)與并(bing)行(xing)化(hua)策略，并(bing)通(tong)過(guo)模型(xing)(xing)、框架(jia)、智算(suan)(suan)系(xi)統(tong)等多(duo)層(ceng)次縱(zong)向協同(tong)以及計算(suan)(suan)、存儲、互連等軟硬件資源(yuan)橫向協同(tong)，實現大(da)(da)模型(xing)(xing)的高效訓練(lian)和(he)推理。此外，利用(yong)多(duo)種類型(xing)(xing)算(suan)(suan)力芯(xin)片實現混合(he)計算(suan)(suan)也是應(ying)對(dui)算(suan)(suan)力稀缺的一種有益嘗試，通(tong)過(guo)聚合(he)不同(tong)類型(xing)(xing)的算(suan)(suan)力芯(xin)片資源(yuan)，形成多(duo)元異(yi)構(gou)算(suan)(suan)力資源(yuan)池，并(bing)通(tong)過(guo)異(yi)構(gou)編程、即時編譯、資源(yuan)感知(zhi)、負(fu)載(zai)切分(fen)和(he)動態調度(du)等技術，用(yong)于支撐同(tong)一模型(xing)(xing)訓練(lian)任務，以最(zui)大(da)(da)化(hua)利用(yong)各類算(suan)(suan)力資源(yuan)。

同時，肖(xiao)利民認為，還可(ke)重點從計(ji)算、存儲(chu)、互連、軟件棧等算力基(ji)礎設施的各個關鍵環節探(tan)尋提升大模型(xing)訓練和推理(li)效(xiao)能的技(ji)術(shu)途徑(jing)。

一是在計算(suan)方(fang)面，算(suan)力芯(xin)(xin)片(pian)的(de)(de)研制(zhi)或(huo)選型至關(guan)重要(yao)(yao)，既要(yao)(yao)考慮大模型主流架(jia)構(gou)正趨向集(ji)(ji)中于Transformer的(de)(de)現狀(zhuang)，也(ye)要(yao)(yao)考慮未來(lai)大模型架(jia)構(gou)可能(neng)的(de)(de)演(yan)進，“通用(yong)(yong)+定制(zhi)化”的(de)(de)芯(xin)(xin)片(pian)架(jia)構(gou)不(bu)失為(wei)一種兩者得兼的(de)(de)思路，例如(ru)在通用(yong)(yong)GPU架(jia)構(gou)中針對Transformer做(zuo)定制(zhi)化加速，兼顧(gu)大模型對芯(xin)(xin)片(pian)適應性和(he)高(gao)能(neng)效的(de)(de)需(xu)求(qiu)。此外，也(ye)可探索“存(cun)算(suan)一體”等新型芯(xin)(xin)片(pian)架(jia)構(gou)，將計算(suan)與存(cun)儲單元融合集(ji)(ji)成(cheng)于同一芯(xin)(xin)片(pian)中，大幅降(jiang)低數(shu)據在處理器與存(cun)儲器間搬(ban)運的(de)(de)延遲和(he)能(neng)耗。

二(er)是在存儲方(fang)面，可通過HBM技術提供大(da)容量存儲和(he)高帶(dai)寬訪(fang)存能力，或通過CXL技術實現大(da)內存池化(hua)共享(xiang)，更好承(cheng)載(zai)大(da)模(mo)型(xing)的訓(xun)(xun)練樣本、權重參數、優化(hua)器狀態(tai)等海量數據，提升大(da)模(mo)型(xing)訓(xun)(xun)練場(chang)景下訪(fang)存性能和(he)存儲利用效率(lv)。

三是(shi)在(zai)互(hu)連方面，可(ke)通(tong)(tong)過(guo)NVLink、HCCS等片間(jian)(jian)高(gao)速(su)互(hu)連機制、GPU節點間(jian)(jian)RDMA直通(tong)(tong)互(hu)連、GPU Direct RDMA加(jia)速(su)顯存間(jian)(jian)數(shu)據交換，以及AllReduce、AlltoAll等集合(he)通(tong)(tong)信函數(shu)優化，降低(di)大模型訓(xun)練的數(shu)據交互(hu)開(kai)銷。

四是(shi)在軟(ruan)件棧方面，應(ying)重點突破大模(mo)型負載(zai)自動切分與并行化(hua)工具、大模(mo)型分布式訓練(lian)的(de)彈性容錯機制、模(mo)型負載(zai)與芯片結構(gou)(gou)優化(hua)適配的(de)算子庫、多元(yuan)異構(gou)(gou)算力的(de)統(tong)一(yi)納(na)管和高效調度系統(tong)、跨(kua)芯片架(jia)構(gou)(gou)和自適應(ying)優化(hua)的(de)編(bian)程語言和編(bian)譯工具鏈等(deng)技術(shu)，建立(li)全棧軟(ruan)件環境，高效橋接(jie)上層(ceng)大模(mo)型應(ying)用與底層(ceng)硬件資(zi)源。

探(tan)尋Transformer架(jia)構的優(you)化之路

當前，幾乎所有的AI大(da)模型(xing)都是以(yi)Transformer架構為基(ji)礎單(dan)元堆疊構成，從BERT、GPT系列、Flan-T5等語言(yan)模型(xing)到SAM、Stable Diffusion等圖像模型(xing)，Transformer正以(yi)銳不可當之勢席卷AI大(da)模型(xing)世界(jie)。

當然，Transformer也(ye)有自身固有的(de)一些(xie)不(bu)足。肖利民(min)解釋道，目(mu)前(qian)的(de)AI模型已能處理更(geng)長(chang)的(de)序(xu)列(lie)和(he)更(geng)高維度的(de)表征，從而支持更(geng)長(chang)的(de)上(shang)下文和(he)更(geng)高的(de)質量，然而，當前(qian)Transformer架構的(de)時間和(he)空間復雜性(xing)在(zai)(zai)序(xu)列(lie)長(chang)度和(he)／或模型維度上(shang)呈二(er)次增長(chang)模式，這(zhe)不(bu)僅會限(xian)制上(shang)下文長(chang)度，還會增加(jia)擴展成本。為解決(jue)這(zhe)些(xie)問題，人們正在(zai)(zai)不(bu)斷探(tan)索優(you)化算法(fa)和(he)改進網(wang)絡結構等手段(duan)，以期提(ti)高Transformer的(de)性(xing)能并打破其(qi)局限(xian)性(xing)。

近期，斯(si)坦福大(da)學和(he)(he)紐(niu)約州立大(da)學布(bu)法羅分校(xiao)的(de)(de)(de)研(yan)究團隊提出了一種新的(de)(de)(de)替代技術：Monarch Mixer，摒棄了Transformer中(zhong)高成本(ben)的(de)(de)(de)注意力和(he)(he)MLP機(ji)制，代之以富有(you)表(biao)現力且(qie)計算復(fu)雜度為次二次元的(de)(de)(de)Monarch矩陣(zhen)。在語言和(he)(he)圖(tu)像實驗(yan)中(zhong)，Monarch Mixer以更低的(de)(de)(de)計算成本(ben)取得了更優的(de)(de)(de)表(biao)現。

更早之(zhi)前，斯坦福大學(xue)Chris Re實驗室(shi)在其名為S4的(de)研(yan)究中提出了一系列亞二次(ci)替代架(jia)構(gou)(gou)，這些架(jia)構(gou)(gou)在特定情境下能夠與Transformer架(jia)構(gou)(gou)的(de)性能相媲美(mei)，同時可顯著降低計算量。

肖(xiao)利民表(biao)示(shi)，以(yi)Transformer為基礎的大(da)模(mo)型(xing)(xing)還存在著(zhu)一個(ge)眾所周知的不足——由于訓(xun)練集(ji)不平衡導致的偏(pian)見問題(ti)。針對這一問題(ti)，斯(si)坦(tan)福大(da)學另一研究團隊(dui)提出(chu)了一種新(xin)型(xing)(xing)神經網絡架構(gou)Backpack，通(tong)過調控意義向(xiang)量來干預語言(yan)(yan)模(mo)型(xing)(xing)的行(xing)為，從而引導語言(yan)(yan)模(mo)型(xing)(xing)輸出(chu)符合預期的結果(guo)。

此外，還有其他多個研究團隊出于提高計算效(xiao)率等(deng)目的(de)，提出了若干Transformer替代(dai)架構，比(bi)如微軟(ruan)的(de)RetNet，騰訊與香港中文大學聯(lian)合(he)發(fa)布的(de)UniRepLKNet，以及(ji)OgetherAI的(de)StripedHyena等(deng)。

肖利(li)民(min)認為(wei)，目前人們正(zheng)在(zai)探索的(de)一些(xie)Transformer替代架構，將會為(wei)AI大模型(xing)發展帶來多重潛在(zai)的(de)益(yi)處。首先(xian)是計算復(fu)雜度的(de)降低(di)，使得同等目標性能(neng)(neng)下模型(xing)的(de)參數規(gui)模更小，進而減少對算力(li)的(de)需求。或者在(zai)相同的(de)參數規(gui)模和算力(li)支持(chi)下能(neng)(neng)夠讓模型(xing)的(de)性能(neng)(neng)更優(you)。

值得一(yi)提的(de)(de)(de)是，如果(guo)替代(dai)架(jia)構的(de)(de)(de)低(di)參數、高性(xing)(xing)能(neng)特性(xing)(xing)達到一(yi)定程度，亦可降低(di)大(da)模(mo)型(xing)在低(di)算(suan)力設備上的(de)(de)(de)部(bu)署(shu)門檻，從而進一(yi)步拓展大(da)模(mo)型(xing)的(de)(de)(de)應用范圍(wei)和(he)場景。此(ci)外，有些替代(dai)架(jia)構還能(neng)有效消除模(mo)型(xing)偏(pian)見問(wen)題，使得模(mo)型(xing)更可控和(he)更可解釋，使得用戶能(neng)夠通過適(shi)當(dang)的(de)(de)(de)干預(yu)引導模(mo)型(xing)輸出想要的(de)(de)(de)結果(guo)。

雖然當前已經出現(xian)了不少Transformer的(de)潛在(zai)替代(dai)架構，未來肯定還會出現(xian)更多的(de)Transformer競(jing)爭者或最終出現(xian)替代(dai)者，但預計在(zai)較長一個時(shi)期內(nei)，Transformer依然會是大模(mo)型領域的(de)主流架構。

上一篇：北汽集團換帥！姜德義卸任，“老將”張建勇履新北汽集團董事長

下一篇：奧普特董事盧治臨增持530股，增持金額5萬元

最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX

【百姓彩票紅】Transformer架構席卷AI領域 算力基礎設施面臨諸多新挑戰Transformer架構席卷A

為您推薦

【百姓彩票紅】Transformer架構席卷AI領域　算力基礎設施面臨諸多新挑戰Transformer架構席卷A