两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于文檔嵌入的查詢匹配方法及裝置與流程

文檔序號:40654277發(fā)布日期:2025-01-10 19:03閱讀:10來源:國知局
一種基于文檔嵌入的查詢匹配方法及裝置與流程

本申請涉及信息檢索,尤其涉及一種基于文檔嵌入的查詢匹配方法及裝置。


背景技術:

1、在傳統(tǒng)的信息檢索中,文檔通常被分割成多個小塊,然后將這些小塊存儲在搜索和分析引擎(比如elasticsearch)中以進行向量化和檢索。然而,由于嵌入模型窗口的限制,按固定長度或標點進行分段會導致語義相關的文本被分開。此外,基于相似度的傳統(tǒng)檢索方法有時無法準確反映語義相關性。因此,亟需提出更有效的查詢匹配方法以提高檢索性能。


技術實現(xiàn)思路

1、為了解決上述問題,本申請?zhí)岢鲆环N基于文檔嵌入的查詢匹配方法、裝置、計算機可讀存儲介質(zhì)及計算設備,能高效和高性能地實現(xiàn)語義的查詢匹配。

2、第一方面,本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配方法,應用于查詢匹配系統(tǒng),查詢匹配系統(tǒng)包括多個目標文檔,該方法包括:

3、在離線階段:

4、對每個目標文檔,基于預設切分規(guī)則對目標文檔進行切分,得到多個文本塊;

5、確定目標文檔的多個預測查詢問題,以及文檔標題;

6、基于文檔嵌入方式,生成各文本塊的文本塊向量、多個預測查詢問題各自對應的預測查詢向量,以及文檔標題對應的標題向量;

7、根據(jù)多個文本塊中各文本塊的文本塊向量、預測查詢向量、標題向量,生成各文本塊的目標向量,得到多個目標向量;

8、在查詢階段:

9、接收用戶查詢,計算對應的查詢向量;

10、對每個目標文檔,分別計算查詢向量與該目標文檔對應的多個目標向量的相似度,得到對應的多個相似度;

11、將多個相似度中最大相似度作為該目標文檔的文檔相似度,對多個目標文檔的多個文檔相似度,將其中最大的文檔相似度對應的目標文檔作為用戶查詢的查詢結果。

12、由此,在將目標文檔進行分塊得到多個文本塊的基礎上,利用大語言模型為目標文檔生成預測查詢問題以及標題,可以擴展目標文檔的語義表達類型,以實現(xiàn)更有效的相似度計算,從而提高查詢匹配效果。

13、第二方面,本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配裝置,部署有查詢匹配系統(tǒng),查詢匹配系統(tǒng)包括多個目標文檔,該裝置包括:

14、切分模塊,用于在離線階段對每個目標文檔,基于預設切分規(guī)則對目標文檔進行切分,得到多個文本塊;

15、處理模塊,用于在離線階段確定目標文檔的多個預測查詢問題,以及文檔標題;

16、處理模塊,還用于在離線階段基于文檔嵌入方式,生成各文本塊的文本塊向量、多個預測查詢問題各自對應的預測查詢向量,以及文檔標題對應的標題向量;

17、第一計算模塊,用于在離線階段根據(jù)多個文本塊中各文本塊的文本塊向量、預測查詢向量、標題向量,生成各文本塊的目標向量,得到多個目標向量;

18、接收模塊,用于在查詢階段接收用戶查詢,計算對應的查詢向量;

19、第二計算模塊,用于在查詢階段對每個目標文檔,分別計算查詢向量與該目標文檔對應的多個目標向量的相似度,得到對應的多個相似度;

20、輸出模塊,用于在查詢階段將多個相似度中最大相似度作為該目標文檔的文檔相似度,對多個目標文檔的多個文檔相似度,將其中最大的文檔相似度對應的目標文檔作為用戶查詢的查詢結果。

21、第三方面,本申請?zhí)峁┮环N計算機可讀存儲介質(zhì),其上存儲有計算機程序,當計算機程序在計算機中執(zhí)行時,令計算機執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

22、第四方面,本申請?zhí)峁┮环N計算設備,包括:至少一個存儲器,用于存儲程序;至少一個處理器,用于執(zhí)行存儲器存儲的程序;其中,當存儲器存儲的程序被執(zhí)行時,處理器用于執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

23、可以理解的是,上述第二方面至第四方面的有益效果可以參見上述第一方面中的相關描述,在此不再贅述。



技術特征:

1.一種基于文檔嵌入的查詢匹配方法,其特征在于,應用于查詢匹配系統(tǒng),所述查詢匹配系統(tǒng)包括多個目標文檔,所述方法包括:

2.根據(jù)權利要求1所述的方法,其特征在于,所述確定所述目標文檔的多個預測查詢問題,以及文檔標題,包括:

3.根據(jù)權利要求1所述的方法,其特征在于,所述文本塊向量、預測查詢向量、標題向量各自具有不同的權重,

4.根據(jù)權利要求3所述的方法,其特征在于,所述文檔相似度的計算公式包括:

5.根據(jù)權利要求1所述的方法,其特征在于,所述預設切分規(guī)則包括基于所述目標文檔的長度和語義內(nèi)容動態(tài)確定的塊大小對所述目標文檔進行塊切分。

6.根據(jù)權利要求1所述的方法,其特征在于,所述基于文檔嵌入方式,生成各文本塊的文本塊向量、所述多個預測查詢問題各自對應的預測查詢向量,以及所述文檔標題對應的標題向量,包括:

7.根據(jù)權利要求1所述的方法,其特征在于,所述相似度計算包括余弦相似度計算。

8.一種基于文檔嵌入的查詢匹配裝置,其特征在于,部署有查詢匹配系統(tǒng),所述查詢匹配系統(tǒng)包括多個目標文檔,所述裝置包括:

9.一種計算機存儲介質(zhì),計算機存儲介質(zhì)中存儲有指令,當指令在計算機上運行時,使得計算機執(zhí)行如權利要求1-7任一所述的方法。

10.一種計算設備,其特征在于,包括:至少一個存儲器,用于存儲程序;至少一個處理器,用于執(zhí)行所述存儲器存儲的程序;其中,當所述存儲器存儲的程序被執(zhí)行時,所述處理器用于執(zhí)行如權利要求1-7任一所述的方法。


技術總結
本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配方法,應用于查詢匹配系統(tǒng),該系統(tǒng)包括多個目標文檔,方法包括:在離線階段:對每個目標文檔,將其進行切分得到多個文本塊;確定目標文檔的預測查詢問題和文檔標題;生成各文本塊、預測查詢問題和文檔標題各自對應的向量;根據(jù)上述向量生成各文本塊對應的目標向量;在查詢階段:接收用戶查詢,計算對應的查詢向量;對每個目標文檔,分別計算查詢向量與該目標文檔對應的多個目標向量的相似度,并根據(jù)其中的最大相似度確定用戶查詢的查詢結果。由此,通過為目標文檔生成預測查詢問題以及標題,可以擴展目標文檔的語義表達類型,以實現(xiàn)更有效的相似度計算,從而提高查詢匹配效果。

技術研發(fā)人員:石潁樂,夏敏,易叢文,管健
受保護的技術使用者:深圳智現(xiàn)未來工業(yè)軟件有限公司
技術研發(fā)日:
技術公布日:2025/1/9
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
北流市| 翁牛特旗| 湘潭县| 高邮市| 永丰县| 永德县| 监利县| 辰溪县| 兖州市| 察雅县| 富平县| 天水市| 天镇县| 北宁市| 扎鲁特旗| 海晏县| 铜川市| 和平区| 禹州市| 金山区| 杭锦后旗| 梨树县| 大关县| 柳州市| 东阿县| 碌曲县| 泗水县| 鞍山市| 牡丹江市| 荥阳市| 奉贤区| 上栗县| 隆林| 依安县| 金溪县| 信宜市| 汨罗市| 凤山市| 休宁县| 叙永县| 通州区|