支持200K超長上下文、一次可讀30萬漢字，“書生·浦語”2.0正式開源

2024-03-28 12:58:06

1月17日，支持正式商湯科技與上海AI實驗室聯合香港中文大學和復旦大學正式發布新一代大語言模型書?·浦語2.0（InternLM2）。超長上次InternLM2的下文核心理念在于回歸語言建模的本質，致力于通過提高語料質量及信息密度，讀萬實現模型基座語言建模能力質的漢字提升，進而在數理、書生代碼、浦語對話、開(kai)源(yuan)創作等各方面都取得長足進步，支持正(zheng)式綜合性能達(da)到(dao)開(kai)源(yuan)模型的超長上次領先(xian)水平(ping)。

InternLM2是下文在2.6萬億token的(de)高質量語(yu)料上訓練得到的(de)。沿襲第一(yi)代書生·浦語(yu)（InternLM）的(de)讀萬設定，InternLM2包(bao)含7B及20B兩(liang)種參(can)數規(gui)格及基座、漢字對(dui)話等版本，書生滿(man)足不同復雜(za)應用場景需求，浦語(yu)繼續開源，提供(gong)免費商用授權。

開源鏈接

Github：//github.com/InternLM/InternLM

HuggingFace：//huggingface.co/internlm

ModelScope：//modelscope.cn/organization/Shanghai_AI_Laboratory

回歸語言建模本質，筑牢大模型能力基礎

大模型的研究應(ying)回歸語(yu)言建模本質，大模型各(ge)項性能提升(sheng)的基(ji)礎在于語(yu)言建模能力(li)的增強(qiang)。為(wei)此，聯合團隊提出(chu)了(le)新一(yi)代的數據(ju)清洗(xi)過(guo)濾技術，通過(guo)更(geng)(geng)高(gao)質量的語(yu)料以及更(geng)(geng)高(gao)的信息密(mi)度(du)，筑牢大模型能力(li)基(ji)礎。

主要(yao)發展(zhan)了(le)以下幾個方面(mian)的技(ji)術方法：

多(duo)維度數(shu)據(ju)價值(zhi)評(ping)估(gu)：基于文(wen)本質量(liang)、信(xin)息(xi)質量(liang)、信(xin)息(xi)密度等維度對(dui)數(shu)據(ju)價值(zhi)進行綜合評(ping)估(gu)與提(ti)升(sheng)；

高(gao)質量語料驅動的(de)數據富集：利用高(gao)質量語料的(de)特征從物理世界(jie)、互聯網以(yi)及(ji)語料庫(ku)中進一步富集類似語料；

針對性的數據補齊：針對性補充語料(liao)，重點加強現實世界知識、數理、代碼(ma)等核心能力。

目前，浦語背后(hou)的數據(ju)(ju)清洗過濾技術已(yi)經(jing)歷三輪(lun)迭代(dai)(dai)升級。僅使用(yong)約60%的訓練數據(ju)(ju)即可達到使用(yong)第二代(dai)(dai)數據(ju)(ju)訓練1T tokens的性能表現，模型訓練效率大幅提升。

第(di)三代數據清洗過(guo)濾(lv)技術大幅度提升模型訓(xun)練(lian)效率

基于第三代數據清洗過濾技術，InternLM2語言建模能力實現了顯著增強。

與第一代InternLM相比，InternLM2在大規模高質量的驗證語料上的Loss分布整體(ti)左移(yi)，表明其語言建模能力(li)實質性(xing)增強(qiang)

支持200K超長上下文，“大海撈針”近乎完美

長語境(jing)輸(shu)入(ru)及理解能力能夠顯著拓展(zhan)大(da)模型應用(yong)場景(jing)，比如支(zhi)持大(da)型文(wen)檔(dang)處(chu)(chu)理、復雜的推(tui)理演算(suan)和實(shi)際場景(jing)的工具調用(yong)等。然而，大(da)模型有限的上下文(wen)長度當(dang)前仍是學(xue)界(jie)及業內面臨(lin)的重要難題。通過拓展(zhan)訓練(lian)窗口大(da)小和位置編碼改進，InternLM2支(zhi)持20萬(wan)tokens的上下文(wen)，能夠一次性接受并(bing)處(chu)(chu)理約30萬(wan)漢(han)字（約五六(liu)百頁的文(wen)檔(dang)）的輸(shu)入(ru)內容，準確提取關鍵信息，實(shi)現(xian)長文(wen)本中“大(da)海撈針”。

參考(kao)業界范例，研究人員對(dui)InternLM2進行了“大(da)海撈(lao)針”試(shi)驗：將關(guan)鍵信息隨機插入一段(duan)長文(wen)本的不同位置并設置問題，測試(shi)模型能否從中提取(qu)出(chu)關(guan)鍵信息。

InternLM2“大海撈(lao)針”試驗(yan)效果

上(shang)(shang)圖展示了(le)InternLM2在不(bu)同長(chang)度(du)的(de)上(shang)(shang)下文(wen)（橫軸）及上(shang)(shang)下文(wen)中(zhong)不(bu)同位(wei)置（縱(zong)軸）上(shang)(shang)召回關鍵信息的(de)準確率（Recall）。紅色代(dai)表(biao)較(jiao)低的(de)召回準確率，而綠色則代(dai)表(biao)較(jiao)高的(de)召回率。試(shi)驗(yan)(yan)結果(guo)表(biao)明，InternLM2在上(shang)(shang)下文(wen)長(chang)度(du)延展到200K時依舊(jiu)保持了(le)近乎完美的(de)召回成功(gong)率，驗(yan)(yan)證了(le)InternLM2對于(yu)超長(chang)上(shang)(shang)下文(wen)堅實的(de)支持能力。

為測試InternLM2在(zai)(zai)真(zhen)實長文本處理任務(wu)中(zhong)的能力，研(yan)究人(ren)員將一份時(shi)長3小時(shi)的公(gong)開會議錄音轉錄稿輸入模型(xing)中(zhong)，并(bing)要求InternLM2從中(zhong)提取出關(guan)鍵信息。測試結果(guo)表明，盡管在(zai)(zai)未校對(dui)的文本中(zhong)存(cun)在(zai)(zai)較多錯別(bie)字，但InternLM2仍從中(zhong)準確提煉出了關(guan)鍵信息，并(bing)總結了關(guan)鍵發(fa)言人(ren)的觀點。

InternLM2準確總結(jie)“聯合國(guo)2023年10月2日召(zhao)開的聯合國(guo)貿易和發展會議會議記錄(lu)”

性能全面提升，綜合領先同量級開源模型

InternLM2的(de)各項能(neng)力(li)(li)取得全面(mian)(mian)進步，相比(bi)于初代(dai)InternLM，在推理(li)、數(shu)學、代(dai)碼等方面(mian)(mian)的(de)能(neng)力(li)(li)提升(sheng)尤為(wei)顯著(zhu)，綜合能(neng)力(li)(li)領先于同量級(ji)開源(yuan)模型(xing)。

根據(ju)大語言(yan)模(mo)型的應用方式和用戶關(guan)注的重點領域，研究人(ren)員(yuan)定義了(le)語言(yan)、知識、推理、數學(xue)、代碼、考試六(liu)個(ge)能力(li)維度，在55個(ge)主流評測(ce)集上對多個(ge)同量級(ji)模(mo)型的表現(xian)(xian)進行了(le)綜(zong)合評測(ce)。評測(ce)結果顯示，InternLM2的輕量級(ji)及中量級(ji)版本性能在同量級(ji)模(mo)型中表現(xian)(xian)優異。

InternLM2的(de)輕量(liang)級(ji)及中量(liang)級(ji)版本性(xing)能在同量(liang)級(ji)開(kai)源模型中表現優(you)異

下面的(de)表(biao)格對比(bi)(bi)了InternLM2各版本與(yu)ChatGPT（GPT-3.5）以及GPT-4在(zai)典型評測集上(shang)的(de)表(biao)現。可(ke)以看到，InternLM2只用20B參(can)數的(de)中(zhong)等(deng)規模(mo)，即(ji)在(zai)整(zheng)體(ti)表(biao)現上(shang)達(da)到了與(yu)ChatGPT比(bi)(bi)肩的(de)水平。其中(zhong)，在(zai)AGIEval、BigBench-Hard（BBH）、GSM8K、MATH等(deng)對推理(li)能力有較高要(yao)求的(de)評測上(shang)，InternLM2表(biao)現甚至優于ChatGPT。

InternLM2與ChatGPT的評測(ce)結果對比

與此同時，綜合性能(neng)的增(zeng)強，帶來了(le)下(xia)游任務(wu)的全(quan)方位能(neng)力(li)提升。新發(fa)布的InternLM2提供優秀的對話及(ji)創作體驗(yan)，支持(chi)多(duo)輪任務(wu)規劃及(ji)工具調用，并提供實(shi)用的數據分析能(neng)力(li)。

對話及創作：更溫情、更富想象力

InternLM2不僅在客觀(guan)性能指標上(shang)提升(sheng)顯著，在主觀(guan)體(ti)驗上(shang)也有明顯改(gai)善(shan)，可(ke)以為用戶(hu)提供優(you)秀(xiu)的對話和交互體(ti)驗。研究(jiu)測試(shi)表(biao)明，InternLM2-Chat可(ke)以精準地理解和遵循用戶(hu)意圖，具備較強的共情(qing)能力和豐富的結構(gou)化創作(zuo)能力。下(xia)面展示幾個示例：

示例(li)一(yi)：在嚴格(ge)的格(ge)式要(yao)求下編制課(ke)程大綱(gang)

InternLM2設計的課程大綱精準遵(zun)循用(yong)戶要求（比(bi)如格(ge)式、數量、內容(rong)等）。

示例(li)二：以富有人文關懷的回答開解用戶(hu)

InternLM2能夠在對話(hua)中與(yu)用(yong)戶“共情”

示例三：展開想象(xiang)力(li)，編寫(xie)《流(liu)浪地球3》的劇(ju)本

InternLM2設計的具備(bei)充滿豐富的合理想象，比如外星遺(yi)跡、量子糾纏的引入等。同時(shi)整(zheng)個故(gu)事表現了人類面對(dui)危機時(shi)的勇(yong)氣和團結精神。

對話和創造的(de)(de)體驗進(jin)步的(de)(de)原因，一方面是基(ji)礎語言能力的(de)(de)顯著增強，另一方面也(ye)(ye)得益(yi)于微(wei)調技術的(de)(de)提(ti)(ti)升。InternLM2進(jin)行微(wei)調的(de)(de)過(guo)程使用(yong)(yong)了(le)經過(guo)第(di)三代數(shu)據清(qing)洗過(guo)濾技術處理的(de)(de)指令微(wei)調語料，同(tong)時也(ye)(ye)采(cai)用(yong)(yong)了(le)更強的(de)(de)Online RLHF。研(yan)究人員(yuan)在微(wei)調InternLM2的(de)(de)過(guo)程中，對獎勵模(mo)型(xing)(xing)和對話模(mo)型(xing)(xing)進(jin)行了(le)三輪迭代更新，每一輪更新均(jun)針(zhen)對前一輪模(mo)型(xing)(xing)的(de)(de)表(biao)現更新偏好數(shu)據與提(ti)(ti)示(shi)(shi)詞。在獎勵模(mo)型(xing)(xing)訓練(lian)（RM）和近端(duan)策略優化（PPO）階段，研(yan)究人員(yuan)均(jun)衡(heng)采(cai)用(yong)(yong)各類提(ti)(ti)示(shi)(shi)詞，不僅提(ti)(ti)高了(le)對話的(de)(de)安(an)全性，也(ye)(ye)提(ti)(ti)升了(le)用(yong)(yong)戶體驗。

工具調用：能力升級，更精準的工具選用，更可靠的多步規劃

基于(yu)更強(qiang)大、更具(ju)泛化(hua)性的指令理解(jie)、工(gong)具(ju)篩選與結果反(fan)思等能力，InternLM2可(ke)支持復雜智能體的搭建，支持對工(gong)具(ju)進(jin)行多輪有效(xiao)調用及多步驟規劃，完成(cheng)復雜任(ren)務(wu)。聯合團隊針對多種任(ren)務(wu)構建了細粒(li)度(du)工(gong)具(ju)調用評測集T-Eval（//open-compass.github.io/T-Eval），InternLM2-Chat-7B在該評測集上表現超(chao)越了Claude-2.1和目前的開源(yuan)模型(xing)，性能接近GPT-3.5。

InternLM2工(gong)具調用能力全面(mian)提升

通過(guo)工(gong)具調用，使(shi)得大語言(yan)模型(xing)可通過(guo)搜索、計算、代碼(ma)解釋(shi)器等獲取(qu)知識并(bing)處(chu)理(li)(li)更(geng)復雜的(de)(de)問題，從而拓展(zhan)應用邊界。研(yan)究人員對模型(xing)調用工(gong)具流程實施(shi)細粒度的(de)(de)拆解和(he)分析，針對規劃、推理(li)(li)、工(gong)具選(xuan)擇、理(li)(li)解、執行、反思等步驟進行了針對性增強和(he)優(you)化。

基于InternLM2通過開源智能(neng)體框架Lagent搭建的(de)用戶助手智能(neng)體，能(neng)夠在一次指令回應(ying)中完成地圖查詢、路線規劃、發(fa)郵件等任務

數理推理：會做題，還會可視化分析

數學(xue)能力是大模(mo)型邏輯思(si)維和推(tui)理能力的重要體現。上海(hai)AI實(shi)驗室對InternLM2的數學(xue)能力進行(xing)全(quan)面(mian)提升，使其達(da)到(dao)當(dang)前(qian)開(kai)源模(mo)型的標(biao)桿水平。

基于更加科學(xue)構建的預訓練語料，InternLM2形成了很(hen)強(qiang)的內生計(ji)算(suan)(suan)能(neng)力(li)。在不(bu)依靠計(ji)算(suan)(suan)器(qi)等外部工具的情況(kuang)下，在100以內的簡單數學(xue)運算(suan)(suan)上能(neng)夠(gou)做到接近100%的準(zhun)確率，在1000以內達到80%左右的運算(suan)(suan)準(zhun)確率。在GSM8K和MATH評測中，InternLM2-20B的表現超過(guo)了ChatGPT（GPT-3.5）。

InternLM2在100以內的(de)簡單數(shu)學運算上能夠做到接近100%的(de)準確(que)率

為應對(dui)各類復雜(za)計(ji)(ji)算(suan)，InternLM2-Chat還可借(jie)助代(dai)碼解(jie)釋器（Code-Interpreter）編寫代(dai)碼進行計(ji)(ji)算(suan)，或(huo)對(dui)推理的(de)(de)(de)結果進行形式化驗(yan)證，從而解(jie)決(jue)計(ji)(ji)算(suan)要求更高(gao)或(huo)者演算(suan)過程(cheng)更加復雜(za)的(de)(de)(de)問題。在(zai)典型的(de)(de)(de)數(shu)學評測(ce)集(ji)GSM8K和MATH上，配合代(dai)碼解(jie)釋器，InternLM2取得了(le)更高(gao)的(de)(de)(de)評測(ce)分數(shu)。其中對(dui)于(yu)難度更高(gao)的(de)(de)(de)MATH數(shu)據集(ji)，InternLM2的(de)(de)(de)計(ji)(ji)算(suan)精(jing)度從32.5大幅(fu)提升到(dao)51.2，甚(shen)至超(chao)過了(le)GPT-4的(de)(de)(de)表現。

InternLM2與ChatGPT的數學能力評測結果對比

下面(mian)的示(shi)例展示(shi)了InternLM2可以和代碼(ma)解釋器(qi)結合解決較復雜的高等數學問題。

InternLM2能夠完成積分(fen)求解等(deng)高等(deng)數學題目

基(ji)(ji)于在(zai)(zai)計算及工具調用(yong)方(fang)面(mian)強大(da)的基(ji)(ji)礎能力(li)，InternLM2在(zai)(zai)語言(yan)模型中具備了(le)數據分(fen)析和可(ke)視化(hua)實用(yong)能力(li)，進一步貼近用(yong)戶使用(yong)場景。

向InternLM2輸入國家統計(ji)局公(gong)布的“2023年3-11月份規模以上工業(ye)企業(ye)主(zhu)要(yao)財務指標（分(fen)行業(ye)）”，InternLM2能夠(gou)分(fen)析(xi)數據并(bing)繪制(zhi)折線圖(tu)

上一篇：這個省宣布：戶口由農村遷往城鎮的，可申請遷回原地！具體辦法也明確了

下一篇：【視頻】守護國門安全對身邊的“偷渡者”說“不”

最爱高潮全过程免费的视频_国产无遮挡又黄又爽在线视频_免费人成在线视频_欧美老熟妇乱XXXXX