一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置與流程

文檔序號：40647401發(fā)布日期：2025-01-10 18:53閱讀：1來源：國知局

本發(fā)明涉及檔案數(shù)據(jù)檢索，具體為一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置。

背景技術：

1、目前的檔案數(shù)據(jù)檢索方法及系統(tǒng)，是在信息技術尤其是計算機技術迅猛發(fā)展的背景下逐步發(fā)展起來的，旨在提高檔案信息的利用效率和管理水平。當前檔案數(shù)據(jù)檢索方法及系統(tǒng)背景技術具體包括關鍵詞搜索：

2、原理：通過用戶輸入的關鍵詞，在檔案數(shù)據(jù)庫中搜索包含這些關鍵詞的記錄。

3、特點：快速、直接，適用于有明確關鍵詞的查詢需求。

4、應用：廣泛應用于各類檔案管理軟件中，如根據(jù)檔案標題、內容摘要等關鍵詞進行搜索。

5、屬性篩選：

6、原理：根據(jù)檔案的屬性(如檔案類型、編號、狀態(tài)、所屬部門等)進行篩選，縮小搜索范圍。

7、特點：精準、高效，適用于對檔案有特定屬性要求的查詢。

8、應用：在檔案管理軟件的界面上，用戶可以選擇不同的屬性進行組合篩選，快速定位到目標檔案。

9、目錄導航：

10、原理：利用檔案目錄的層級結構，通過點擊目錄項逐級定位到所需檔案。

11、特點：直觀、易用，適合對檔案結構有一定了解的用戶。

12、應用：在檔案管理軟件中，通常會提供目錄導航功能，幫助用戶快速找到目標檔案所在的位置。

13、標簽管理：

14、原理：為檔案打上不同的標簽，用戶可以通過選擇標簽來查找具有相同標簽的檔案。

15、特點：靈活、多樣，可以根據(jù)不同的分類標準(如年份、部門、項目等)為檔案打上標簽。

16、應用：在檔案管理軟件中，用戶可以自定義標簽，并對檔案進行標記和分類，以便快速查找和管理。

17、全文搜索：

18、原理：對檔案內容進行全文索引，用戶可以通過輸入關鍵詞來搜索檔案中的文本內容。

19、特點：全面、深入，能夠覆蓋檔案的全部內容，提高查找的準確性和全面性。

20、應用：在需要查找檔案中具體文本內容的情況下，全文搜索功能尤為重要。

21、但是檢索算法的局限性，關鍵詞匹配不精確：依賴于關鍵詞匹配可能會忽略語義相似但用詞不同的文檔。同義詞處理不足：系統(tǒng)可能無法識別同義詞或多義詞的不同意義。上下文理解能力有限：雖然有自然語言處理技術的支持，但在處理復雜的查詢意圖時仍有一定難度；并且在多模態(tài)檢索的范圍，存在跨模態(tài)一致性問題，在處理文本與非文本(如圖像、視頻)的關聯(lián)時，系統(tǒng)難以確保一致性。

22、所以針對上述問題，就需要一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置。

技術實現(xiàn)思路

1、本發(fā)明的目的在于提供一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置。本發(fā)明可以更準確地理解用戶的查詢意圖和文檔的內容，并進行關鍵詞提取、情感分析可以幫助系統(tǒng)更全面地分析文檔，從而提高檢索結果的相關性。并且增強檢索速度，分布式存儲和云計算技術可以顯著提升數(shù)據(jù)處理的速度，使得大規(guī)模檔案檢索變得更加迅速，高效的索引結構和并行處理能力有助于加快檢索過程。通過跨模態(tài)融合模塊，系統(tǒng)能夠處理和檢索包含文本、圖像、視頻等多種類型的數(shù)據(jù)。使得用戶可以通過任何一種模態(tài)的數(shù)據(jù)來查詢相關的其他模態(tài)數(shù)據(jù)。

2、本發(fā)明是這樣實現(xiàn)的：

3、本發(fā)明提供一種檔案數(shù)據(jù)檢索方法，具體按以下步驟執(zhí)行：

4、s1:首先進行清理和標準化系統(tǒng)內的多個檔案數(shù)據(jù)，對文檔的數(shù)據(jù)進行預處理，其中對文檔的數(shù)據(jù)處理具體包括文字、圖片和視頻數(shù)據(jù)；

5、具體按以下步驟執(zhí)行：

6、s1.1:進行數(shù)據(jù)清洗，去除噪聲、糾正拼寫錯誤、統(tǒng)一日期和時間格式，去噪如式(1)；

7、

8、其中，yi為經(jīng)過移動平均處理后的新序列中的第i個元素；n為移動平均的窗口大小，計算平均值的數(shù)據(jù)點數(shù)量；

9、xj為原始數(shù)據(jù)序列中的第j個元素；

10、j＝i-(n-1)/2到i+(n-1)/2為參與平均計算的數(shù)據(jù)點范圍；

11、具體使用levenshtein距離計算兩個字符串之間的差異進行糾正拼寫錯誤，并應用最接近的正確拼寫；如式(2)；

12、

13、其中，d表示levenshtein距離函數(shù)，v是詞匯表；

14、s1.2:將所有文檔數(shù)據(jù)具有相同的元數(shù)據(jù)格式；對數(shù)據(jù)進行標準化，具體采用標準化方法進行去除，如式(3)；

15、

16、其中，x是原始數(shù)據(jù)點，μ是均值，σ是標準差；

17、s1.3：進行數(shù)據(jù)日期規(guī)范化，將所有日期通過iso?8601轉換為統(tǒng)一的格式，如式(4)；

18、normalized?date＝converttoiso8601(original?date)??式(4)

19、s2:對處理好的檔案數(shù)據(jù)進行語義表示，具體利用深度學習模型為文檔創(chuàng)建語義向量表示；

20、進行語義表示，具體按以下步驟執(zhí)行：

21、s2.1：其中文本編碼，使用transformer模型，bert或其變體獲取文本的語義表示；具體如式(5)；

22、

23、其中，ti是文本序列t＝[t1，t2，...，tn]中的第i個詞，使用bert模型獲取每個詞的嵌入向量ei；

24、s2.2：對圖像編碼，使用卷積神經(jīng)網(wǎng)絡cnn提取圖像特征；使用預訓練的resnet模型對圖像i，進行編碼，得到特征向量vi，具體如式(6)；

25、vi＝resnet(i)??式(6)

26、s2.3：進行視頻編碼，使用3dcnn或lstm提取視頻幀的特征，使用3dcnn模型對視頻v中的幀進行編碼，然后對所有幀的特征向量求平均；如式(7)；

27、

28、其中，fj為視頻中的第j幀,3dcnn(·)為3d?cnn模型的前向傳播函數(shù)。

29、s3:將文本、圖像和視頻的表示融合成一個統(tǒng)一的向量空間，并整合文本、圖像和視頻多種數(shù)據(jù)類型的數(shù)據(jù)，進行跨模態(tài)檢索；

30、具體按以下步驟執(zhí)行：

31、s3.1:通過加權平均創(chuàng)建聯(lián)合表，將文本、圖像和視頻的表示融合成一個統(tǒng)一的向量空間；如式(8)；

32、vjoint＝αvt+βvi+γvv??式(8)

33、其中，α、β、γ為權重系數(shù)；

34、s3.2:用戶查詢通過步驟s3.1編碼器進行編碼；如式(9)；

35、q＝encoder(q)??式(9)

36、其中，q為用戶提供的文本查詢數(shù)據(jù)；encoder(·)為編碼器函數(shù)；

37、s3.3:使用余弦相似度衡量查詢向量q和文檔聯(lián)合表示vjoint之間的相似度；如式(10)；

38、

39、其中，q·vjoint為向量的積，||q||和||vjoint||分別為向量的歐幾里得范數(shù)；

40、s3.4：根據(jù)相似度排名輸出檢索結果。

41、s4:根據(jù)相似度排名，輸出檢索結果。

42、進一步，本發(fā)明在步驟s2中，文本處理模塊對文檔的文字內容還進行情感分析，識別文檔的情感傾向，具體按以下步驟執(zhí)行：

43、s5.1：使用tf-idf將文本轉換為數(shù)值向量；并計算詞頻-逆文檔頻率，如式(11)-式(12)；

44、if-idf(t，d，d)＝tf(t，d)＝idf(t，d)??式(11)

45、其中，tf(t，d)為詞t在文檔d中出現(xiàn)的頻率，idf(t，d)為詞t在逆文檔的頻率；

46、

47、其中，n為文檔總數(shù)，nt為包含詞t的文檔數(shù)量；

48、s5.2：計算文檔的情感得分，進行情感分類，如式(13)-式(14)；

49、y＝σ(wtx+b)??式(13)

50、其中，x為特征量，w為權重向量，b為偏置項，σ(·)為sigmoid函數(shù)；

51、

52、其中，n為文檔中詞的數(shù)量，wi為給定詞ti的權重，tf-idf(ti，d，d)為詞ti在文檔d中的tf-idf值。

53、進一步，本發(fā)明對跨模態(tài)檢索還包括以下方法：

54、s6.1:首先對處理好的數(shù)據(jù)進行構建索引結構,其中索引結構為kd樹結構；索引結構基于遞歸分區(qū)構建，每次選擇一個維度，并在該維度上找到中位數(shù)，以此作為分割點；并使用訓練數(shù)據(jù)集作為構建索引結構的基礎數(shù)據(jù)；并通過步驟s1中識別出的文檔數(shù)據(jù)進行維護索引，實時數(shù)據(jù)流不斷更新索引結構。

55、s6.2:當收到文檔查詢時，使用索引結構快速定位到可能的候選集合；對候選集合中的元素進行精確的距離計算，找出最近鄰，接收到查詢信息時，使用遞歸的方式遍歷樹，每次根據(jù)查詢點的坐標決定進入左子樹還是右子樹，如果遇到葉子節(jié)點，記錄該節(jié)點中的所有數(shù)據(jù)點；

56、回溯時檢查另一側的子樹是否有可能包含更好的候選點；

57、計算查詢點q與數(shù)據(jù)點p之間的距離，具體進行精確距離計算，從候選集合中找出真正的最近鄰，首先對候選集合中的每一個數(shù)據(jù)點計算與查詢點之間的精確距離，然后找出具有最小距離的數(shù)據(jù)點作為最近鄰如式(15)；

58、

59、其中，pi和qi分別是數(shù)據(jù)點，p和查詢點q在第i維度上的值，k是數(shù)據(jù)點的維度；

60、進一步，本發(fā)明提供一種檔案數(shù)據(jù)檢索系統(tǒng)，包括數(shù)據(jù)預處理模塊，所述的數(shù)據(jù)預處理模塊包括進行數(shù)據(jù)清洗，具體進行文本清洗，去除無關字符、標點符號，進行拼寫校正，并進行數(shù)據(jù)標準化：統(tǒng)一文檔的格式，包括日期格式、大小寫；

61、包括文本處理模塊，進行文本編碼，通過transformer，bert或roberta獲取文檔的語義表示；

62、并進行關鍵詞提取，通過tf-idf從文檔中提取關鍵詞，增強檢索效果；并進行情感分析，識別文檔的情感傾向；

63、圖像處理模塊，通過圖像處理模塊進行文檔內的圖像編碼，使用預訓練的cnn模型提取圖像特征；

64、并進行對象檢測，使用目標檢測yolo或mask?r-cnn識別圖像中的對象；

65、視頻處理模塊，通過視頻處理模塊進行視頻幀抽取，從視頻中選擇關鍵幀進行分析；并進行視頻編碼，使用3d?cnn或lstm來提取視頻幀的特征；并進行語音轉文本，利用語音識別將視頻中的語音轉換為文本；

66、跨模態(tài)融合模塊，通過跨模態(tài)融合模塊聯(lián)合表示，使用加權平均、注意力機制方法將不同模態(tài)的特征融合到一個統(tǒng)一的表示空間；并進行模態(tài)融合，通過實驗確定最佳的融合策略；

67、檢索引擎模塊，通過檢索引擎模塊進行相似度計算，使用余弦相似度、jaccard相似度方法計算查詢向量與文檔向量之間的相似度，并進行排序，具體根據(jù)相似度分數(shù)、文檔的相關性等指標對結果進行排序；

68、用戶交互模塊，通過用戶交互模塊進行查詢接口，提供簡潔易用的用戶界面，用戶輸入文本查詢、上傳圖像或視頻；

69、后端服務模塊，進行分布式存儲：使用分布式文件系統(tǒng)(如hadoop?hdfs)存儲大規(guī)模檔案數(shù)據(jù)；并通過云服務，部署在云平臺上。

70、進一步，本發(fā)明提供一種檔案數(shù)據(jù)檢索裝置，包括存儲器，用于存儲計算機可執(zhí)行指令；處理器，用于執(zhí)行所述存儲器中存儲的計算機可執(zhí)行指令時，實現(xiàn)上述中任一項所述的文檔檢索方法。

71、與現(xiàn)有技術相比，本發(fā)明的有益效果是：

72、1、可以更準確地理解用戶的查詢意圖和文檔的內容，并進行關鍵詞提取、情感分析可以幫助系統(tǒng)更全面地分析文檔，從而提高檢索結果的相關性。并且增強檢索速度，分布式存儲和云計算技術可以顯著提升數(shù)據(jù)處理的速度，使得大規(guī)模檔案檢索變得更加迅速，高效的索引結構和并行處理能力有助于加快檢索過程。通過跨模態(tài)融合模塊，系統(tǒng)能夠處理和檢索包含文本、圖像、視頻等多種類型的數(shù)據(jù)。使得用戶可以通過任何一種模態(tài)的數(shù)據(jù)來查詢相關的其他模態(tài)數(shù)據(jù)。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：王永青,孔玲娜
技術所有人：北京阿提拉科技有限公司
我是此專利的發(fā)明人

上一篇：互聯(lián)系統(tǒng)和計算機服務器集群的制作方法
上一篇：一種鋼筋混凝土梁節(jié)點加固裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置與流程

一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置與流程