两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)

文檔序號:40610778發(fā)布日期:2025-01-07 20:53閱讀:7來源:國知局
提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)

本發(fā)明屬于大型語言模型,尤其涉及提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)。


背景技術(shù):

1、相關(guān)技術(shù)中,大型語言模型(llms,large?language?models)的上下文窗口尺寸不斷增大,使其能夠出色地處理需要深入探索冗長文本的復(fù)雜任務(wù)。然而,這也給?llm?的計算和內(nèi)存占用帶來了挑戰(zhàn)。具體來說,一方面,由于大多數(shù)?llm?都基于?transformer架構(gòu),注意力模塊的計算復(fù)雜度會隨著上下文窗口大小的增加而呈二次方增加。另一方面,kv?緩存的大小與上下文窗口大小呈線性關(guān)系,kv(key-value,鍵值對)緩存是一種常用的技術(shù),旨在防止冗余計算。因此,利用擴展上下文窗口提高?llm?的效率至關(guān)重要。

2、在此背景下,許多研究人員提出了一些方法,通過舍棄上下文中的一些token(單元)來提高?llm?的推理效率。其中,window?attention方法和?streamingllm識別了“注意力匯集”(attention?sink)現(xiàn)象,同時保留了初始token和最近的token(見圖1中的(a))。h2o考慮到了上下文中token的不同重要性,并根據(jù)注意力分?jǐn)?shù)在?kv?緩存中選擇性地只保留最重要的token。雖然這種方法提高了?llm?處理長上下文的效率,但也帶來了一個重大缺陷:后期文本生成所需的關(guān)鍵字元可能會在過程早期被不可逆轉(zhuǎn)地丟棄。如圖1中的(a)所示,當(dāng)重要的token(示例中的證據(jù)evidence)落在窗口之外時,預(yù)測就會失敗。此外,streamingllm和h2o?在兩個實際基準(zhǔn)上的性能下降也進(jìn)一步證實了這一點(見圖?1中的(b))。


技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供一種提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì),用于至少解決上述技術(shù)問題之一。

2、第一方面,本發(fā)明實施例提供一種提升長上下文大型語言模型推理效率的方法,包括:在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性,并將連續(xù)的相似層歸類到同一區(qū)塊中;在每個區(qū)塊中應(yīng)用注意力共享,并對所述大型語言模型進(jìn)行后訓(xùn)練;使用后訓(xùn)練的大型語言模型進(jìn)行高效推理。

3、第二方面,提供一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實施例的提升長上下文大型語言模型推理效率的方法的步驟。

4、第三方面,本發(fā)明實施例還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括存儲在非易失性計算機可讀存儲介質(zhì)上的計算機程序,所述計算機程序包括程序指令,當(dāng)所述程序指令被計算機執(zhí)行時,使所述計算機執(zhí)行本發(fā)明任一實施例的提升長上下文大型語言模型推理效率的方法的步驟。

5、在本申請實施例的方法中,通過先分析層間注意力分?jǐn)?shù)的相似性,再根據(jù)相似性將連續(xù)的相似層歸類到同一區(qū)塊,之后在每個區(qū)塊中應(yīng)用注意力共享,對大型語言模型進(jìn)行后訓(xùn)練,并使用后訓(xùn)練后的大型語言模型進(jìn)行高效推理,從而可以提升長上下文大型語言模型的推理效率。



技術(shù)特征:

1.一種提升長上下文大型語言模型推理效率的方法,包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,所述在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性,并將連續(xù)的相似層歸類到區(qū)塊中包括:

3.根據(jù)權(quán)利要求2所述的方法,其中,所述將連續(xù)的相似層分組為頭部塊包括:

4.根據(jù)權(quán)利要求3所述的方法,其中,所述在每個區(qū)塊中應(yīng)用注意力共享,并對所述大型語言模型進(jìn)行后訓(xùn)練包括:

5.根據(jù)權(quán)利要求4所述的方法,其中,所述聚合所述相近單元和所述遠(yuǎn)處單元的注意力輸出包括:

6.根據(jù)權(quán)利要求1所述的方法,其中,所述使用后訓(xùn)練的大型語言模型進(jìn)行高效推理包括:

7.一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1至6任一項所述方法的步驟。

8.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6任一項所述方法的步驟。


技術(shù)總結(jié)
本申請實施例公開提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì),其中,提升長上下文大型語言模型推理效率的方法包括:一種提升長上下文大型語言模型推理效率的方法,包括:在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性,并將連續(xù)的相似層歸類到同一區(qū)塊中;在每個區(qū)塊中應(yīng)用注意力共享,并對所述大型語言模型進(jìn)行后訓(xùn)練;使用后訓(xùn)練的大型語言模型進(jìn)行高效推理。

技術(shù)研發(fā)人員:陳露,俞凱,馬達(dá)
受保護(hù)的技術(shù)使用者:上海交通大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
中超| 张家川| 周口市| 竹北市| 固镇县| 道真| 海口市| 萍乡市| 丰城市| 石河子市| 明光市| 莆田市| 临西县| 莱芜市| 舒城县| 汉寿县| 翁源县| 余姚市| 普定县| 凌海市| 博白县| 青神县| 仁布县| 临江市| 安塞县| 岳阳市| 简阳市| 当涂县| 兴海县| 滕州市| 长春市| 淳化县| 崇义县| 洛扎县| 阜阳市| 屏东市| 浙江省| 开化县| 台山市| 且末县| 河源市|