本申請涉及信息檢索,尤其涉及一種基于文檔嵌入的查詢匹配方法及裝置。
背景技術:
1、在傳統(tǒng)的信息檢索中,文檔通常被分割成多個小塊,然后將這些小塊存儲在搜索和分析引擎(比如elasticsearch)中以進行向量化和檢索。然而,由于嵌入模型窗口的限制,按固定長度或標點進行分段會導致語義相關的文本被分開。此外,基于相似度的傳統(tǒng)檢索方法有時無法準確反映語義相關性。因此,亟需提出更有效的查詢匹配方法以提高檢索性能。
技術實現(xiàn)思路
1、為了解決上述問題,本申請?zhí)岢鲆环N基于文檔嵌入的查詢匹配方法、裝置、計算機可讀存儲介質(zhì)及計算設備,能高效和高性能地實現(xiàn)語義的查詢匹配。
2、第一方面,本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配方法,應用于查詢匹配系統(tǒng),查詢匹配系統(tǒng)包括多個目標文檔,該方法包括:
3、在離線階段:
4、對每個目標文檔,基于預設切分規(guī)則對目標文檔進行切分,得到多個文本塊;
5、確定目標文檔的多個預測查詢問題,以及文檔標題;
6、基于文檔嵌入方式,生成各文本塊的文本塊向量、多個預測查詢問題各自對應的預測查詢向量,以及文檔標題對應的標題向量;
7、根據(jù)多個文本塊中各文本塊的文本塊向量、預測查詢向量、標題向量,生成各文本塊的目標向量,得到多個目標向量;
8、在查詢階段:
9、接收用戶查詢,計算對應的查詢向量;
10、對每個目標文檔,分別計算查詢向量與該目標文檔對應的多個目標向量的相似度,得到對應的多個相似度;
11、將多個相似度中最大相似度作為該目標文檔的文檔相似度,對多個目標文檔的多個文檔相似度,將其中最大的文檔相似度對應的目標文檔作為用戶查詢的查詢結果。
12、由此,在將目標文檔進行分塊得到多個文本塊的基礎上,利用大語言模型為目標文檔生成預測查詢問題以及標題,可以擴展目標文檔的語義表達類型,以實現(xiàn)更有效的相似度計算,從而提高查詢匹配效果。
13、第二方面,本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配裝置,部署有查詢匹配系統(tǒng),查詢匹配系統(tǒng)包括多個目標文檔,該裝置包括:
14、切分模塊,用于在離線階段對每個目標文檔,基于預設切分規(guī)則對目標文檔進行切分,得到多個文本塊;
15、處理模塊,用于在離線階段確定目標文檔的多個預測查詢問題,以及文檔標題;
16、處理模塊,還用于在離線階段基于文檔嵌入方式,生成各文本塊的文本塊向量、多個預測查詢問題各自對應的預測查詢向量,以及文檔標題對應的標題向量;
17、第一計算模塊,用于在離線階段根據(jù)多個文本塊中各文本塊的文本塊向量、預測查詢向量、標題向量,生成各文本塊的目標向量,得到多個目標向量;
18、接收模塊,用于在查詢階段接收用戶查詢,計算對應的查詢向量;
19、第二計算模塊,用于在查詢階段對每個目標文檔,分別計算查詢向量與該目標文檔對應的多個目標向量的相似度,得到對應的多個相似度;
20、輸出模塊,用于在查詢階段將多個相似度中最大相似度作為該目標文檔的文檔相似度,對多個目標文檔的多個文檔相似度,將其中最大的文檔相似度對應的目標文檔作為用戶查詢的查詢結果。
21、第三方面,本申請?zhí)峁┮环N計算機可讀存儲介質(zhì),其上存儲有計算機程序,當計算機程序在計算機中執(zhí)行時,令計算機執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。
22、第四方面,本申請?zhí)峁┮环N計算設備,包括:至少一個存儲器,用于存儲程序;至少一個處理器,用于執(zhí)行存儲器存儲的程序;其中,當存儲器存儲的程序被執(zhí)行時,處理器用于執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。
23、可以理解的是,上述第二方面至第四方面的有益效果可以參見上述第一方面中的相關描述,在此不再贅述。
1.一種基于文檔嵌入的查詢匹配方法,其特征在于,應用于查詢匹配系統(tǒng),所述查詢匹配系統(tǒng)包括多個目標文檔,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述確定所述目標文檔的多個預測查詢問題,以及文檔標題,包括:
3.根據(jù)權利要求1所述的方法,其特征在于,所述文本塊向量、預測查詢向量、標題向量各自具有不同的權重,
4.根據(jù)權利要求3所述的方法,其特征在于,所述文檔相似度的計算公式包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述預設切分規(guī)則包括基于所述目標文檔的長度和語義內(nèi)容動態(tài)確定的塊大小對所述目標文檔進行塊切分。
6.根據(jù)權利要求1所述的方法,其特征在于,所述基于文檔嵌入方式,生成各文本塊的文本塊向量、所述多個預測查詢問題各自對應的預測查詢向量,以及所述文檔標題對應的標題向量,包括:
7.根據(jù)權利要求1所述的方法,其特征在于,所述相似度計算包括余弦相似度計算。
8.一種基于文檔嵌入的查詢匹配裝置,其特征在于,部署有查詢匹配系統(tǒng),所述查詢匹配系統(tǒng)包括多個目標文檔,所述裝置包括:
9.一種計算機存儲介質(zhì),計算機存儲介質(zhì)中存儲有指令,當指令在計算機上運行時,使得計算機執(zhí)行如權利要求1-7任一所述的方法。
10.一種計算設備,其特征在于,包括:至少一個存儲器,用于存儲程序;至少一個處理器,用于執(zhí)行所述存儲器存儲的程序;其中,當所述存儲器存儲的程序被執(zhí)行時,所述處理器用于執(zhí)行如權利要求1-7任一所述的方法。