本發(fā)明屬于大型語言模型,尤其涉及提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、相關(guān)技術(shù)中,大型語言模型(llms,large?language?models)的上下文窗口尺寸不斷增大,使其能夠出色地處理需要深入探索冗長文本的復(fù)雜任務(wù)。然而,這也給?llm?的計算和內(nèi)存占用帶來了挑戰(zhàn)。具體來說,一方面,由于大多數(shù)?llm?都基于?transformer架構(gòu),注意力模塊的計算復(fù)雜度會隨著上下文窗口大小的增加而呈二次方增加。另一方面,kv?緩存的大小與上下文窗口大小呈線性關(guān)系,kv(key-value,鍵值對)緩存是一種常用的技術(shù),旨在防止冗余計算。因此,利用擴展上下文窗口提高?llm?的效率至關(guān)重要。
2、在此背景下,許多研究人員提出了一些方法,通過舍棄上下文中的一些token(單元)來提高?llm?的推理效率。其中,window?attention方法和?streamingllm識別了“注意力匯集”(attention?sink)現(xiàn)象,同時保留了初始token和最近的token(見圖1中的(a))。h2o考慮到了上下文中token的不同重要性,并根據(jù)注意力分?jǐn)?shù)在?kv?緩存中選擇性地只保留最重要的token。雖然這種方法提高了?llm?處理長上下文的效率,但也帶來了一個重大缺陷:后期文本生成所需的關(guān)鍵字元可能會在過程早期被不可逆轉(zhuǎn)地丟棄。如圖1中的(a)所示,當(dāng)重要的token(示例中的證據(jù)evidence)落在窗口之外時,預(yù)測就會失敗。此外,streamingllm和h2o?在兩個實際基準(zhǔn)上的性能下降也進(jìn)一步證實了這一點(見圖?1中的(b))。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供一種提升長上下文大型語言模型推理效率的方法、電子設(shè)備和存儲介質(zhì),用于至少解決上述技術(shù)問題之一。
2、第一方面,本發(fā)明實施例提供一種提升長上下文大型語言模型推理效率的方法,包括:在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性,并將連續(xù)的相似層歸類到同一區(qū)塊中;在每個區(qū)塊中應(yīng)用注意力共享,并對所述大型語言模型進(jìn)行后訓(xùn)練;使用后訓(xùn)練的大型語言模型進(jìn)行高效推理。
3、第二方面,提供一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實施例的提升長上下文大型語言模型推理效率的方法的步驟。
4、第三方面,本發(fā)明實施例還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括存儲在非易失性計算機可讀存儲介質(zhì)上的計算機程序,所述計算機程序包括程序指令,當(dāng)所述程序指令被計算機執(zhí)行時,使所述計算機執(zhí)行本發(fā)明任一實施例的提升長上下文大型語言模型推理效率的方法的步驟。
5、在本申請實施例的方法中,通過先分析層間注意力分?jǐn)?shù)的相似性,再根據(jù)相似性將連續(xù)的相似層歸類到同一區(qū)塊,之后在每個區(qū)塊中應(yīng)用注意力共享,對大型語言模型進(jìn)行后訓(xùn)練,并使用后訓(xùn)練后的大型語言模型進(jìn)行高效推理,從而可以提升長上下文大型語言模型的推理效率。
1.一種提升長上下文大型語言模型推理效率的方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述在給定的大型語言模型中分析層間注意力分?jǐn)?shù)的相似性,并將連續(xù)的相似層歸類到區(qū)塊中包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述將連續(xù)的相似層分組為頭部塊包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述在每個區(qū)塊中應(yīng)用注意力共享,并對所述大型語言模型進(jìn)行后訓(xùn)練包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,所述聚合所述相近單元和所述遠(yuǎn)處單元的注意力輸出包括:
6.根據(jù)權(quán)利要求1所述的方法,其中,所述使用后訓(xùn)練的大型語言模型進(jìn)行高效推理包括:
7.一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1至6任一項所述方法的步驟。
8.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6任一項所述方法的步驟。