一種基于文檔嵌入的查詢匹配方法及裝置與流程

文檔序號：40654277發(fā)布日期：2025-01-10 19:03閱讀：10來源：國知局

本申請涉及信息檢索，尤其涉及一種基于文檔嵌入的查詢匹配方法及裝置。

背景技術：

1、在傳統(tǒng)的信息檢索中，文檔通常被分割成多個小塊，然后將這些小塊存儲在搜索和分析引擎(比如elasticsearch)中以進行向量化和檢索。然而，由于嵌入模型窗口的限制，按固定長度或標點進行分段會導致語義相關的文本被分開。此外，基于相似度的傳統(tǒng)檢索方法有時無法準確反映語義相關性。因此，亟需提出更有效的查詢匹配方法以提高檢索性能。

技術實現(xiàn)思路

1、為了解決上述問題，本申請?zhí)岢鲆环N基于文檔嵌入的查詢匹配方法、裝置、計算機可讀存儲介質(zhì)及計算設備，能高效和高性能地實現(xiàn)語義的查詢匹配。

2、第一方面，本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配方法，應用于查詢匹配系統(tǒng)，查詢匹配系統(tǒng)包括多個目標文檔，該方法包括：

3、在離線階段：

4、對每個目標文檔，基于預設切分規(guī)則對目標文檔進行切分，得到多個文本塊；

5、確定目標文檔的多個預測查詢問題，以及文檔標題；

6、基于文檔嵌入方式，生成各文本塊的文本塊向量、多個預測查詢問題各自對應的預測查詢向量，以及文檔標題對應的標題向量；

7、根據(jù)多個文本塊中各文本塊的文本塊向量、預測查詢向量、標題向量，生成各文本塊的目標向量，得到多個目標向量；

8、在查詢階段：

9、接收用戶查詢，計算對應的查詢向量；

10、對每個目標文檔，分別計算查詢向量與該目標文檔對應的多個目標向量的相似度，得到對應的多個相似度；

11、將多個相似度中最大相似度作為該目標文檔的文檔相似度，對多個目標文檔的多個文檔相似度，將其中最大的文檔相似度對應的目標文檔作為用戶查詢的查詢結果。

12、由此，在將目標文檔進行分塊得到多個文本塊的基礎上，利用大語言模型為目標文檔生成預測查詢問題以及標題，可以擴展目標文檔的語義表達類型，以實現(xiàn)更有效的相似度計算，從而提高查詢匹配效果。

13、第二方面，本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配裝置，部署有查詢匹配系統(tǒng)，查詢匹配系統(tǒng)包括多個目標文檔，該裝置包括：

14、切分模塊，用于在離線階段對每個目標文檔，基于預設切分規(guī)則對目標文檔進行切分，得到多個文本塊；

15、處理模塊，用于在離線階段確定目標文檔的多個預測查詢問題，以及文檔標題；

16、處理模塊，還用于在離線階段基于文檔嵌入方式，生成各文本塊的文本塊向量、多個預測查詢問題各自對應的預測查詢向量，以及文檔標題對應的標題向量；

17、第一計算模塊，用于在離線階段根據(jù)多個文本塊中各文本塊的文本塊向量、預測查詢向量、標題向量，生成各文本塊的目標向量，得到多個目標向量；

18、接收模塊，用于在查詢階段接收用戶查詢，計算對應的查詢向量；

19、第二計算模塊，用于在查詢階段對每個目標文檔，分別計算查詢向量與該目標文檔對應的多個目標向量的相似度，得到對應的多個相似度；

20、輸出模塊，用于在查詢階段將多個相似度中最大相似度作為該目標文檔的文檔相似度，對多個目標文檔的多個文檔相似度，將其中最大的文檔相似度對應的目標文檔作為用戶查詢的查詢結果。

21、第三方面，本申請?zhí)峁┮环N計算機可讀存儲介質(zhì)，其上存儲有計算機程序，當計算機程序在計算機中執(zhí)行時，令計算機執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

22、第四方面，本申請?zhí)峁┮环N計算設備，包括：至少一個存儲器，用于存儲程序；至少一個處理器，用于執(zhí)行存儲器存儲的程序；其中，當存儲器存儲的程序被執(zhí)行時，處理器用于執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

23、可以理解的是，上述第二方面至第四方面的有益效果可以參見上述第一方面中的相關描述，在此不再贅述。

技術特征：

1.一種基于文檔嵌入的查詢匹配方法，其特征在于，應用于查詢匹配系統(tǒng)，所述查詢匹配系統(tǒng)包括多個目標文檔，所述方法包括：

2.根據(jù)權利要求1所述的方法，其特征在于，所述確定所述目標文檔的多個預測查詢問題，以及文檔標題，包括：

3.根據(jù)權利要求1所述的方法，其特征在于，所述文本塊向量、預測查詢向量、標題向量各自具有不同的權重，

4.根據(jù)權利要求3所述的方法，其特征在于，所述文檔相似度的計算公式包括：

5.根據(jù)權利要求1所述的方法，其特征在于，所述預設切分規(guī)則包括基于所述目標文檔的長度和語義內(nèi)容動態(tài)確定的塊大小對所述目標文檔進行塊切分。

6.根據(jù)權利要求1所述的方法，其特征在于，所述基于文檔嵌入方式，生成各文本塊的文本塊向量、所述多個預測查詢問題各自對應的預測查詢向量，以及所述文檔標題對應的標題向量，包括：

7.根據(jù)權利要求1所述的方法，其特征在于，所述相似度計算包括余弦相似度計算。

8.一種基于文檔嵌入的查詢匹配裝置，其特征在于，部署有查詢匹配系統(tǒng)，所述查詢匹配系統(tǒng)包括多個目標文檔，所述裝置包括：

9.一種計算機存儲介質(zhì)，計算機存儲介質(zhì)中存儲有指令，當指令在計算機上運行時，使得計算機執(zhí)行如權利要求1-7任一所述的方法。

10.一種計算設備，其特征在于，包括：至少一個存儲器，用于存儲程序；至少一個處理器，用于執(zhí)行所述存儲器存儲的程序；其中，當所述存儲器存儲的程序被執(zhí)行時，所述處理器用于執(zhí)行如權利要求1-7任一所述的方法。

技術總結
本申請?zhí)峁┮环N基于文檔嵌入的查詢匹配方法，應用于查詢匹配系統(tǒng)，該系統(tǒng)包括多個目標文檔，方法包括：在離線階段：對每個目標文檔，將其進行切分得到多個文本塊；確定目標文檔的預測查詢問題和文檔標題；生成各文本塊、預測查詢問題和文檔標題各自對應的向量；根據(jù)上述向量生成各文本塊對應的目標向量；在查詢階段：接收用戶查詢，計算對應的查詢向量；對每個目標文檔，分別計算查詢向量與該目標文檔對應的多個目標向量的相似度，并根據(jù)其中的最大相似度確定用戶查詢的查詢結果。由此，通過為目標文檔生成預測查詢問題以及標題，可以擴展目標文檔的語義表達類型，以實現(xiàn)更有效的相似度計算，從而提高查詢匹配效果。

技術研發(fā)人員：石潁樂,夏敏,易叢文,管健
受保護的技術使用者：深圳智現(xiàn)未來工業(yè)軟件有限公司
技術研發(fā)日：
技術公布日：2025/1/9

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：石潁樂,夏敏,易叢文,管健
技術所有人：深圳智現(xiàn)未來工業(yè)軟件有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于文檔嵌入的查詢匹配方法及裝置與流程