提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)

文檔序號：40610778發(fā)布日期：2025-01-07 20:53閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于大型語言模型，尤其涉及提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)。

背景技術(shù)：

1、相關(guān)技術(shù)中，大型語言模型（llms，large?language?models）的上下文窗口尺寸不斷增大，使其能夠出色地處理需要深入探索冗長文本的復(fù)雜任務(wù)。然而，這也給?llm?的計算和內(nèi)存占用帶來了挑戰(zhàn)。具體來說，一方面，由于大多數(shù)?llm?都基于?transformer架構(gòu)，注意力模塊的計算復(fù)雜度會隨著上下文窗口大小的增加而呈二次方增加。另一方面，kv?緩存的大小與上下文窗口大小呈線性關(guān)系，kv（key-value，鍵值對）緩存是一種常用的技術(shù)，旨在防止冗余計算。因此，利用擴展上下文窗口提高?llm?的效率至關(guān)重要。

2、在此背景下，許多研究人員提出了一些方法，通過舍棄上下文中的一些token（單元）來提高?llm?的推理效率。其中，window?attention方法和?streamingllm識別了“注意力匯集”（attention?sink）現(xiàn)象，同時保留了初始token和最近的token（見圖1中的(a)）。h2o考慮到了上下文中token的不同重要性，并根據(jù)注意力分?jǐn)?shù)在?kv?緩存中選擇性地只保留最重要的token。雖然這種方法提高了?llm?處理長上下文的效率，但也帶來了一個重大缺陷：后期文本生成所需的關(guān)鍵字元可能會在過程早期被不可逆轉(zhuǎn)地丟棄。如圖1中的（a）所示，當(dāng)重要的token（示例中的證據(jù)evidence）落在窗口之外時，預(yù)測就會失敗。此外，streamingllm和h2o?在兩個實際基準(zhǔn)上的性能下降也進(jìn)一步證實了這一點（見圖?1中的(b)）。

技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供一種提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)，用于至少解決上述技術(shù)問題之一。

2、第一方面，本發(fā)明實施例提供一種提升長上下文大型語言模型推理效率的方法，包括：在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性，并將連續(xù)的相似層歸類到同一區(qū)塊中；在每個區(qū)塊中應(yīng)用注意力共享，并對所述大型語言模型進(jìn)行后訓(xùn)練；使用后訓(xùn)練的大型語言模型進(jìn)行高效推理。

3、第二方面，提供一種電子設(shè)備，其包括：至少一個處理器，以及與所述至少一個處理器通信連接的存儲器，其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實施例的提升長上下文大型語言模型推理效率的方法的步驟。

4、第三方面，本發(fā)明實施例還提供一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括存儲在非易失性計算機可讀存儲介質(zhì)上的計算機程序，所述計算機程序包括程序指令，當(dāng)所述程序指令被計算機執(zhí)行時，使所述計算機執(zhí)行本發(fā)明任一實施例的提升長上下文大型語言模型推理效率的方法的步驟。

5、在本申請實施例的方法中，通過先分析層間注意力分?jǐn)?shù)的相似性，再根據(jù)相似性將連續(xù)的相似層歸類到同一區(qū)塊，之后在每個區(qū)塊中應(yīng)用注意力共享，對大型語言模型進(jìn)行后訓(xùn)練，并使用后訓(xùn)練后的大型語言模型進(jìn)行高效推理，從而可以提升長上下文大型語言模型的推理效率。

技術(shù)特征：

1.一種提升長上下文大型語言模型推理效率的方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性，并將連續(xù)的相似層歸類到區(qū)塊中包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述將連續(xù)的相似層分組為頭部塊包括：

4.根據(jù)權(quán)利要求3所述的方法，其中，所述在每個區(qū)塊中應(yīng)用注意力共享，并對所述大型語言模型進(jìn)行后訓(xùn)練包括：

5.根據(jù)權(quán)利要求4所述的方法，其中，所述聚合所述相近單元和所述遠(yuǎn)處單元的注意力輸出包括：

6.根據(jù)權(quán)利要求1所述的方法，其中，所述使用后訓(xùn)練的大型語言模型進(jìn)行高效推理包括：

7.一種電子設(shè)備，其包括：至少一個處理器，以及與所述至少一個處理器通信連接的存儲器，其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1至6任一項所述方法的步驟。

8.一種存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6任一項所述方法的步驟。

技術(shù)總結(jié)
本申請實施例公開提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)，其中，提升長上下文大型語言模型推理效率的方法包括：一種提升長上下文大型語言模型推理效率的方法，包括：在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性，并將連續(xù)的相似層歸類到同一區(qū)塊中；在每個區(qū)塊中應(yīng)用注意力共享，并對所述大型語言模型進(jìn)行后訓(xùn)練；使用后訓(xùn)練的大型語言模型進(jìn)行高效推理。

技術(shù)研發(fā)人員：陳露,俞凱,馬達(dá)
受保護(hù)的技術(shù)使用者：上海交通大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳露,俞凱,馬達(dá)
技術(shù)所有人：上海交通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)