本發(fā)明涉及人工智能領域,特別涉及一種基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法、設備及存儲介質(zhì)。
背景技術:
1、隨著科學技術的逐漸發(fā)展,大語言模型技術自出現(xiàn)以來,發(fā)展迅猛,日新月異,基于大語言模型的應用也層出不窮。大語言模型可簡要分成模型的訓練和模型的推理兩個部分,一般來說,大語言模型的應用主要是基于模型的推理來開展。由于大語言模型本身的參數(shù)量規(guī)模巨大,因此,模型的推理本身需要較大的算力成本,而算力成本最終將轉(zhuǎn)化成模型推理用戶的使用成本。
2、為了降低算力成本,現(xiàn)有技術一般引入緩存機制,通過緩存模型推理可復用的中間狀態(tài),或者直接緩存模型推理的最終輸出結(jié)果來降低算力成本。但是,緩存模型推理的中間過程的可復用的狀態(tài),這種方法與模型的算法本身強依賴,不同模型的算法之間可能無法直接復用,而且必須同模型在相同位置部署,無法靈活部署,限制較大。而直接緩存模型推理的最終輸出結(jié)果的方法若采用靜態(tài)緩存的方式,只適用于問題相對固定的場景,而用戶提問的場景是多樣的,因此,靜態(tài)緩存幾乎無法命中,也就無法達到降低使用成本的作用;若采用語義緩存,現(xiàn)有技術通常直接丟棄提示的上下文,降低了緩存的準確率;或者直接生硬地存儲與提示有關的所有信息,降低了緩存的命中率。由此可見,如何在降低算力成本、增強靈活性的同時兼顧語義緩存的命中率和準確率成為一個亟需解決的問題。
技術實現(xiàn)思路
1、本發(fā)明實施方式的目的在于提供一種基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法、設備及存儲介質(zhì),通過執(zhí)行本方案進行邊緣節(jié)點的語義緩存可以同時兼顧語義緩存的命中率和準確率,滿足各種應用場景,通用性較強。
2、為解決上述技術問題,本發(fā)明的實施方式提供了一種基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,包括:獲取用戶輸入的當前提示,并在所述當前提示具有上下文時判斷所述當前提示與所述當前提示的上下文之間的相關性;在判定所述當前提示與所述當前提示的上下文相關后,以所述當前提示與所述當前提示的上下文作為檢索條件在用戶所屬邊緣節(jié)點預先部署的語義緩存中檢索第一目標答案;其中,所述第一目標答案對應的第一目標提示與所述當前提示的語義相似度大于第一閾值,且所述第一目標提示的上下文與所述當前提示的上下文的語義相似度大于第二閾值;若檢索到所述第一目標答案,則將所述第一目標答案返回給用戶;若未檢索到所述第一目標答案,則將所述當前提示提交至大語言模型獲取答案并返回給用戶,并將根據(jù)用戶與所述大語言模型的對話信息確定的該對話信息的提示、上下文以及對應的答案存儲到用戶所屬邊緣節(jié)點預先部署的語義緩存中。
3、本發(fā)明的實施方式還提供了一種電子設備,包括:至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行如上所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法。
4、本發(fā)明的實施方式還提供了一種計算機可讀存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法。
5、本發(fā)明實施方式相對于現(xiàn)有技術而言,通過在內(nèi)容分發(fā)網(wǎng)絡的各邊緣節(jié)點部署語義緩存,根據(jù)用戶輸入的當前提示與其上下文之間的相關性以不同的檢索條件在該用戶所屬的邊緣節(jié)點的語義緩存中進行緩存檢索;若用戶輸入的當前提示與上下文的相關性較大則根據(jù)用戶當前提示與當前提示的上下文共同作為語義緩存中的緩存檢索條件來檢索第一目標答案,第一目標答案對應的提示與當前提示語義相似度大于第一閾值,且第一目標提示的上下文與當前提示的上下文的語義相似度大于第二閾值。若在當前節(jié)點的語義緩存中無法檢索到第一目標答案,則根據(jù)當前提示向大語言模型獲取答案返回用戶。在使用語義緩存時結(jié)合提示與其上下文的相關性進行不同條件的檢索可以同時兼顧并提高語義緩存的命中率和準確率,滿足各種應用場景。
1.一種基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,所述判斷所述當前提示與所述當前提示的上下文之間的相關性,包括:
3.根據(jù)權(quán)利要求2所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,在判定所述當前提示的語義完整性為不完整之后,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,在判定所述時間間隔不大于所述第三閾值之后,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,在判斷所述當前提示與所述當前提示的上下文之間不相關時,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,以所述當前提示與所述當前提示的上下文作為檢索條件在用戶所屬邊緣節(jié)點預先部署的語義緩存中檢索第一目標答案,包括:
7.根據(jù)權(quán)利要求6所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,所述選擇上下文與所述當前提示的上下文之間的語義相似度大于所述第二閾值的所述預備提示作為所述第一目標提示,包括:
8.根據(jù)權(quán)利要求1所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法,其特征在于,所述獲取用戶輸入的當前提示之前,所述方法包括:在內(nèi)容分發(fā)網(wǎng)絡的各邊緣節(jié)點分別部署語義緩存。
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質(zhì),存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8中任一項所述的基于內(nèi)容分發(fā)網(wǎng)絡的邊緣語義緩存方法。