两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種非結(jié)構(gòu)化數(shù)據(jù)的檢索方法、裝置、設(shè)備及可讀介質(zhì)與流程

文檔序號:40655800發(fā)布日期:2025-01-10 19:06閱讀:7來源:國知局
一種非結(jié)構(gòu)化數(shù)據(jù)的檢索方法、裝置、設(shè)備及可讀介質(zhì)與流程

本發(fā)明涉及信息檢索,特別是涉及一種非結(jié)構(gòu)化數(shù)據(jù)的檢索方法、一種非結(jié)構(gòu)化數(shù)據(jù)的檢索裝置、一種電子設(shè)備以及一種計算機可讀介質(zhì)。


背景技術(shù):

1、在當(dāng)前的大數(shù)據(jù)時代,存在來自多個渠道和來源的大量非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)涵蓋了文本、圖像、音頻和視頻等多種形式。傳統(tǒng)的數(shù)據(jù)檢索方法在處理快速增長且種類繁多的非結(jié)構(gòu)化數(shù)據(jù)時,面臨著諸多挑戰(zhàn)。

2、在對非結(jié)構(gòu)化數(shù)據(jù)進行檢索時,如果采用人工調(diào)權(quán)的方法,即通過人工來調(diào)整不同數(shù)據(jù)項的權(quán)重,通常需要耗費大量的時間和人力資源,成本較高。此外,由于人的主觀性、疲勞、知識限制等因素,人工判斷可能不夠準(zhǔn)確或一致,這可能導(dǎo)致檢索結(jié)果不夠精確,無法很好地滿足用戶的需求或準(zhǔn)確反映數(shù)據(jù)的真實相關(guān)性,從而導(dǎo)致人工調(diào)權(quán)的效果較差。


技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供一種非結(jié)構(gòu)化數(shù)據(jù)的檢索方法、裝置、設(shè)備以及計算機可讀存儲介質(zhì),以解決在對非結(jié)構(gòu)化數(shù)據(jù)進行檢索時,人工調(diào)權(quán)需要耗費大量的時間和人力資源,成本較高且效果較差的問題。

2、本發(fā)明實施例公開了一種非結(jié)構(gòu)化數(shù)據(jù)的檢索方法,應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng),所述非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)至少包括網(wǎng)關(guān)層、業(yè)務(wù)服務(wù)層以及數(shù)據(jù)處理層;所述方法包括:

3、利用所述數(shù)據(jù)處理層獲取預(yù)設(shè)的非結(jié)構(gòu)化數(shù)據(jù);

4、利用所述數(shù)據(jù)處理層將所述非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為向量,并將所述向量存放入預(yù)設(shè)的向量存儲庫中;

5、利用所述網(wǎng)關(guān)層獲取用戶的所述非結(jié)構(gòu)化數(shù)據(jù)的檢索請求,并將所述檢索請求發(fā)送至所述業(yè)務(wù)服務(wù)層;

6、利用所述業(yè)務(wù)服務(wù)層將所述檢索請求發(fā)送至所述數(shù)據(jù)處理層;

7、基于所述向量存儲庫,利用所述數(shù)據(jù)處理層對所述檢索請求中的待檢索數(shù)據(jù)進行檢索,得到檢索結(jié)果;

8、通過所述業(yè)務(wù)服務(wù)層利用預(yù)設(shè)的相似度腳本對所述檢索結(jié)果進行篩選,得到目標(biāo)檢索結(jié)果,并將所述目標(biāo)檢索結(jié)果發(fā)送至所述網(wǎng)關(guān)層;

9、利用所述網(wǎng)關(guān)層輸出所述目標(biāo)檢索結(jié)果。

10、可選地,所述非結(jié)構(gòu)化數(shù)據(jù)至少包括文本數(shù)據(jù)、視頻數(shù)據(jù)、圖像數(shù)據(jù)以及音頻數(shù)據(jù)中的一個或多個;所述將所述非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為向量,并將所述向量存放入預(yù)設(shè)的向量存儲庫中的步驟包括:

11、利用預(yù)設(shè)的詞嵌入模型將所述文本數(shù)據(jù)轉(zhuǎn)換為文本向量;

12、利用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和/或循環(huán)神經(jīng)網(wǎng)絡(luò)模型,將所述視頻數(shù)據(jù)、所述圖像數(shù)據(jù)以及所述音頻數(shù)據(jù)分別轉(zhuǎn)換為視頻向量、圖像向量以及音頻向量;

13、將所述文本向量、所述視頻向量、所述圖像向量以及所述音頻向量存放入所述向量存儲庫中。

14、可選地,所述將所述非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為向量的步驟之前包括:

15、去除所述非結(jié)構(gòu)化數(shù)據(jù)中的噪聲;和/或,

16、對所述非結(jié)構(gòu)化數(shù)據(jù)進行分類;和/或,

17、提取所述非結(jié)構(gòu)化數(shù)據(jù)的特征;和/或,

18、對所述非結(jié)構(gòu)化數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。

19、可選地,所述利用所述數(shù)據(jù)處理層對所述檢索請求中的待檢索數(shù)據(jù)進行檢索,得到檢索結(jié)果的步驟包括:

20、提取所述檢索請求中的所述待檢索數(shù)據(jù);所述待檢索數(shù)據(jù)為待檢索的非結(jié)構(gòu)化數(shù)據(jù);

21、將所述待檢索的非結(jié)構(gòu)化數(shù)據(jù)進行預(yù)處理;

22、將預(yù)處理后的所述待檢索的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為待檢索向量;

23、利用所述數(shù)據(jù)處理層對所述待檢索向量進行檢索,得到所述檢索結(jié)果。

24、可選地,所述利用所述數(shù)據(jù)處理層對所述待檢索向量進行檢索,得到所述檢索結(jié)果的步驟包括:

25、獲取預(yù)設(shè)長度的檢索半徑;

26、將所述向量存儲庫中所述待檢索向量周圍的所述檢索半徑內(nèi)的向量作為所述檢索結(jié)果。

27、可選地,所述相似度腳本至少涉及余弦相似度和/或歐氏距離。

28、可選地,所述利用所述數(shù)據(jù)處理層獲取預(yù)設(shè)的非結(jié)構(gòu)化數(shù)據(jù)的步驟包括:

29、利用所述數(shù)據(jù)處理層從預(yù)設(shè)的文件服務(wù)器中獲取所述非結(jié)構(gòu)化數(shù)據(jù)。

30、本發(fā)明實施例還公開了一種非結(jié)構(gòu)化數(shù)據(jù)的檢索裝置,應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng),所述非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)至少包括網(wǎng)關(guān)層、業(yè)務(wù)服務(wù)層以及數(shù)據(jù)處理層;所述裝置包括:

31、數(shù)據(jù)獲取模塊,用于利用所述數(shù)據(jù)處理層獲取預(yù)設(shè)的非結(jié)構(gòu)化數(shù)據(jù);

32、向量轉(zhuǎn)換模塊,用于利用所述數(shù)據(jù)處理層將所述非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為向量,并將所述向量存放入預(yù)設(shè)的向量存儲庫中;

33、檢索請求獲取模塊,用于利用所述網(wǎng)關(guān)層獲取用戶的所述非結(jié)構(gòu)化數(shù)據(jù)的檢索請求,并將所述檢索請求發(fā)送至所述業(yè)務(wù)服務(wù)層;

34、檢索請求發(fā)送模塊,用于利用所述業(yè)務(wù)服務(wù)層將所述檢索請求發(fā)送至所述數(shù)據(jù)處理層;

35、檢索模塊,用于基于所述向量存儲庫,利用所述數(shù)據(jù)處理層對所述檢索請求中的待檢索數(shù)據(jù)進行檢索,得到檢索結(jié)果;

36、篩選模塊,用于通過所述業(yè)務(wù)服務(wù)層利用預(yù)設(shè)的相似度腳本對所述檢索結(jié)果進行篩選,得到目標(biāo)檢索結(jié)果,并將所述目標(biāo)檢索結(jié)果發(fā)送至所述網(wǎng)關(guān)層;

37、輸出模塊,用于利用所述網(wǎng)關(guān)層輸出所述目標(biāo)檢索結(jié)果。

38、可選地,所述非結(jié)構(gòu)化數(shù)據(jù)至少包括文本數(shù)據(jù)、視頻數(shù)據(jù)、圖像數(shù)據(jù)以及音頻數(shù)據(jù)中的一個或多個;所述向量轉(zhuǎn)換模塊包括:

39、第一向量轉(zhuǎn)換子模塊,用于利用預(yù)設(shè)的詞嵌入模型將所述文本數(shù)據(jù)轉(zhuǎn)換為文本向量;

40、第二向量轉(zhuǎn)換子模塊,用于利用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和/或循環(huán)神經(jīng)網(wǎng)絡(luò)模型,將所述視頻數(shù)據(jù)、所述圖像數(shù)據(jù)以及所述音頻數(shù)據(jù)分別轉(zhuǎn)換為視頻向量、圖像向量以及音頻向量;

41、向量存儲子模塊,用于將所述文本向量、所述視頻向量、所述圖像向量以及所述音頻向量存放入所述向量存儲庫中。

42、可選地,所述裝置包括:

43、非結(jié)構(gòu)化數(shù)據(jù)處理模塊,用于去除所述非結(jié)構(gòu)化數(shù)據(jù)中的噪聲;和/或,

44、對所述非結(jié)構(gòu)化數(shù)據(jù)進行分類;和/或,

45、提取所述非結(jié)構(gòu)化數(shù)據(jù)的特征;和/或,

46、對所述非結(jié)構(gòu)化數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。

47、可選地,所述檢索模塊包括:

48、提取子模塊,用于提取所述檢索請求中的所述待檢索數(shù)據(jù);所述待檢索數(shù)據(jù)為待檢索的非結(jié)構(gòu)化數(shù)據(jù);

49、預(yù)處理子模塊,用于將所述待檢索的非結(jié)構(gòu)化數(shù)據(jù)進行預(yù)處理;

50、第三向量轉(zhuǎn)換子模塊,用于將預(yù)處理后的所述待檢索的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為待檢索向量;

51、檢索子模塊,用于利用所述數(shù)據(jù)處理層對所述待檢索向量進行檢索,得到所述檢索結(jié)果。

52、可選地,所述檢索子模塊包括:

53、半徑獲取單元,用于獲取預(yù)設(shè)長度的檢索半徑;

54、檢索結(jié)果作為單元,用于將所述向量存儲庫中所述待檢索向量周圍的所述檢索半徑內(nèi)的向量作為所述檢索結(jié)果。

55、可選地,所述相似度腳本至少涉及余弦相似度和/或歐氏距離。

56、可選地,所述數(shù)據(jù)獲取模塊包括:

57、數(shù)據(jù)獲取子模塊,用于利用所述數(shù)據(jù)處理層從預(yù)設(shè)的文件服務(wù)器中獲取所述非結(jié)構(gòu)化數(shù)據(jù)。

58、本發(fā)明實施例還公開了一種電子設(shè)備,包括處理器、通信接口、存儲器和通信總線,其中,所述處理器、所述通信接口以及所述存儲器通過所述通信總線完成相互間的通信;

59、所述存儲器,用于存放計算機程序;

60、所述處理器,用于執(zhí)行存儲器上所存放的程序時,實現(xiàn)如本發(fā)明實施例所述的方法。

61、本發(fā)明實施例還公開了一個或多個計算機可讀介質(zhì),其上存儲有指令,當(dāng)由一個或多個處理器執(zhí)行時,使得所述處理器執(zhí)行如本發(fā)明實施例所述的方法。

62、本發(fā)明實施例包括以下優(yōu)點:

63、在本發(fā)明實施例中,非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)至少包括網(wǎng)關(guān)層、業(yè)務(wù)服務(wù)層以及數(shù)據(jù)處理層。非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)利用數(shù)據(jù)處理層獲取預(yù)設(shè)的非結(jié)構(gòu)化數(shù)據(jù),利用數(shù)據(jù)處理層將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為向量,并將向量存放入預(yù)設(shè)的向量存儲庫中。非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)利用網(wǎng)關(guān)層獲取用戶的非結(jié)構(gòu)化數(shù)據(jù)的檢索請求,并將檢索請求發(fā)送至業(yè)務(wù)服務(wù)層,利用業(yè)務(wù)服務(wù)層將檢索請求發(fā)送至數(shù)據(jù)處理層,基于向量存儲庫,利用數(shù)據(jù)處理層對檢索請求中的待檢索數(shù)據(jù)進行檢索,得到檢索結(jié)果,然后通過業(yè)務(wù)服務(wù)層利用預(yù)設(shè)的相似度腳本對檢索結(jié)果進行篩選,得到目標(biāo)檢索結(jié)果,并將目標(biāo)檢索結(jié)果發(fā)送至網(wǎng)關(guān)層,利用網(wǎng)關(guān)層輸出目標(biāo)檢索結(jié)果。在本發(fā)明實施例中,非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)在將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為向量時,根據(jù)非結(jié)構(gòu)化數(shù)據(jù)的不同類別確定了對應(yīng)的向量維度,選擇了合適的特征作為向量的組成部分,提高了非結(jié)構(gòu)化數(shù)據(jù)檢索的效果和性能。在本發(fā)明實施例中,非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)的應(yīng)用優(yōu)化了非結(jié)構(gòu)化數(shù)據(jù)的查詢處理過程,實現(xiàn)了向量的生成和相似度計算的優(yōu)化,避免了人工調(diào)權(quán)的成本較高且效果較差的問題,提高了非結(jié)構(gòu)化數(shù)據(jù)的檢索速度和準(zhǔn)確性。本發(fā)明的非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)可以實現(xiàn)針對大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)的處理和檢索,優(yōu)化了對非結(jié)構(gòu)化數(shù)據(jù)的檢索。本發(fā)明的非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)還具有可擴展性和可定制性,可以適應(yīng)未來數(shù)據(jù)的增長和應(yīng)用場景的變化。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平塘县| 红原县| 安岳县| 乌拉特中旗| 河东区| 将乐县| 泰来县| 尖扎县| 麻栗坡县| 克山县| 南康市| 广元市| 贡嘎县| 甘洛县| 独山县| 庆安县| 广宗县| 延寿县| 望都县| 二连浩特市| 常熟市| 屏东县| 都江堰市| 沁阳市| 内黄县| 开化县| 神木县| 舟曲县| 都昌县| 枣阳市| 镇宁| 乐山市| 车险| 长沙市| 博湖县| 莱州市| 惠水县| 建始县| 合山市| 奎屯市| 通化县|