本發(fā)明屬于信息檢索領域,尤其是一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法。
背景技術(shù):
1、檢索增強生成(retrieval-augmented?generation,rag)系統(tǒng)作為大語言模型應用的重要分支,通過引入外部知識來增強模型的生成能力,在問答系統(tǒng)、知識檢索、智能助手等領域展現(xiàn)出巨大的應用價值。傳統(tǒng)的生成系統(tǒng)往往受限于預訓練數(shù)據(jù)的時效性和領域覆蓋范圍,而rag系統(tǒng)能夠動態(tài)獲取和整合外部數(shù)據(jù),顯著提升系統(tǒng)的時效性和專業(yè)性。特別是在垂直領域應用中,準確高效的外部數(shù)據(jù)提取對于提升系統(tǒng)性能具有決定性作用,這使得外部數(shù)據(jù)提取方法的研究具有重要的理論意義和實踐價值。
2、目前的研究主要集中在基于關鍵詞匹配的檢索方法和簡單的模板填充技術(shù)。典型的方法包括使用tf-idf進行文本相似度計算、采用固定模板構(gòu)建檢索查詢、基于規(guī)則的數(shù)據(jù)過濾等。一些改進方案引入了詞向量技術(shù)來增強語義理解能力,或使用簡單的注意力機制來提升特征提取的準確性。在處理過濾規(guī)則時,主要依賴人工預定義的規(guī)則庫和靜態(tài)的繞過策略,缺乏對系統(tǒng)響應的動態(tài)分析和自適應調(diào)整能力。同時,現(xiàn)有方法在數(shù)據(jù)驗證和質(zhì)量控制方面主要依賴基礎的完整性檢查和格式驗證。
3、然而,這些方法在實際應用中存在諸多技術(shù)問題:首先,在序列優(yōu)化過程中,傳統(tǒng)的梯度下降方法難以有效處理離散型特征空間,導致優(yōu)化效果不穩(wěn)定;其次,現(xiàn)有的提示序列構(gòu)建方法缺乏對長程依賴關系的有效建模,使得生成的查詢難以準確表達復雜的信息需求;第三,在規(guī)則分析過程中,簡單的規(guī)則匹配無法應對動態(tài)變化的過濾機制,且缺乏對規(guī)則觸發(fā)條件的深入理解;第四,數(shù)據(jù)提取過程中的異步并行處理效率不高,未能充分利用系統(tǒng)資源;第五,在數(shù)據(jù)驗證環(huán)節(jié),現(xiàn)有方法難以準確識別和處理數(shù)據(jù)間的潛在關聯(lián)性,導致數(shù)據(jù)完整性驗證不夠全面;最后,缺乏對提取過程的實時監(jiān)控和動態(tài)調(diào)整機制,無法及時響應系統(tǒng)狀態(tài)的變化。這些技術(shù)問題嚴重制約了rag系統(tǒng)在復雜應用場景下的性能和可靠性。
技術(shù)實現(xiàn)思路
1、發(fā)明目的,提供一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,以解決現(xiàn)有技術(shù)存在的上述問題。
2、技術(shù)方案,一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,包括如下步驟:
3、s1、接收用戶查詢數(shù)據(jù),通過隨機選取初始詞語構(gòu)建序列,生成初始后綴序列數(shù)據(jù);基于預設目標輸出模板,生成目標輸出模板數(shù)據(jù);基于初始后綴序列數(shù)據(jù)和目標輸出模板數(shù)據(jù),計算位置損失,生成梯度特征矩陣數(shù)據(jù);基于梯度特征矩陣數(shù)據(jù),選取候選詞語并評估替換方案,生成評估矩陣數(shù)據(jù);從評估矩陣數(shù)據(jù)中選取最優(yōu)替換方案并更新序列,最終輸出優(yōu)化后綴序列數(shù)據(jù);
4、s2、基于優(yōu)化后綴序列數(shù)據(jù)和用戶查詢數(shù)據(jù),構(gòu)建基礎提示序列,進行特征分析優(yōu)化,生成增強提示序列數(shù)據(jù)和關聯(lián)特征向量數(shù)據(jù);
5、s3、基于優(yōu)化后綴序列數(shù)據(jù)、梯度特征矩陣數(shù)據(jù)、增強提示序列數(shù)據(jù)和關聯(lián)特征向量數(shù)據(jù),通過分析過濾規(guī)則并構(gòu)建繞過方案,生成繞過策略集合數(shù)據(jù)和執(zhí)行序列數(shù)據(jù);
6、s4、基于增強提示序列數(shù)據(jù)、繞過策略集合數(shù)據(jù)和執(zhí)行序列數(shù)據(jù),通過構(gòu)建查詢并執(zhí)行數(shù)據(jù)提取,生成提取數(shù)據(jù)集和完整性報告數(shù)據(jù)。
7、有益效果,本發(fā)明提升了系統(tǒng)理解用戶意圖的準確性,建立了智能化的過濾規(guī)則分析和繞過策略生成機制,確保了數(shù)據(jù)提取的質(zhì)量和可靠性,實現(xiàn)了整個系統(tǒng)的高效運行和穩(wěn)定性保障;不僅解決了傳統(tǒng)rag系統(tǒng)在外部數(shù)據(jù)提取過程中面臨的準確性、效率和可靠性等問題,而且提升了系統(tǒng)的整體性能,為構(gòu)建高質(zhì)量的檢索增強生成系統(tǒng)提供了可靠的技術(shù)支持。
1.一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s1進一步為:
3.根據(jù)權(quán)利要求2所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s2進一步為:
4.根據(jù)權(quán)利要求3所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s3進一步為:
5.根據(jù)權(quán)利要求4所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s4進一步為:
6.根據(jù)權(quán)利要求5所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s11進一步為:
7.根據(jù)權(quán)利要求5所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s12進一步為:
8.根據(jù)權(quán)利要求5所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s21進一步為:
9.根據(jù)權(quán)利要求5所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s22進一步為:
10.根據(jù)權(quán)利要求5所述的一種面向檢索增強生成系統(tǒng)的外部數(shù)據(jù)提取方法,其特征在于,步驟s31進一步為: