本發(fā)明涉及檔案數(shù)據(jù)檢索,具體為一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置。
背景技術:
1、目前的檔案數(shù)據(jù)檢索方法及系統(tǒng),是在信息技術尤其是計算機技術迅猛發(fā)展的背景下逐步發(fā)展起來的,旨在提高檔案信息的利用效率和管理水平。當前檔案數(shù)據(jù)檢索方法及系統(tǒng)背景技術具體包括關鍵詞搜索:
2、原理:通過用戶輸入的關鍵詞,在檔案數(shù)據(jù)庫中搜索包含這些關鍵詞的記錄。
3、特點:快速、直接,適用于有明確關鍵詞的查詢需求。
4、應用:廣泛應用于各類檔案管理軟件中,如根據(jù)檔案標題、內容摘要等關鍵詞進行搜索。
5、屬性篩選:
6、原理:根據(jù)檔案的屬性(如檔案類型、編號、狀態(tài)、所屬部門等)進行篩選,縮小搜索范圍。
7、特點:精準、高效,適用于對檔案有特定屬性要求的查詢。
8、應用:在檔案管理軟件的界面上,用戶可以選擇不同的屬性進行組合篩選,快速定位到目標檔案。
9、目錄導航:
10、原理:利用檔案目錄的層級結構,通過點擊目錄項逐級定位到所需檔案。
11、特點:直觀、易用,適合對檔案結構有一定了解的用戶。
12、應用:在檔案管理軟件中,通常會提供目錄導航功能,幫助用戶快速找到目標檔案所在的位置。
13、標簽管理:
14、原理:為檔案打上不同的標簽,用戶可以通過選擇標簽來查找具有相同標簽的檔案。
15、特點:靈活、多樣,可以根據(jù)不同的分類標準(如年份、部門、項目等)為檔案打上標簽。
16、應用:在檔案管理軟件中,用戶可以自定義標簽,并對檔案進行標記和分類,以便快速查找和管理。
17、全文搜索:
18、原理:對檔案內容進行全文索引,用戶可以通過輸入關鍵詞來搜索檔案中的文本內容。
19、特點:全面、深入,能夠覆蓋檔案的全部內容,提高查找的準確性和全面性。
20、應用:在需要查找檔案中具體文本內容的情況下,全文搜索功能尤為重要。
21、但是檢索算法的局限性,關鍵詞匹配不精確:依賴于關鍵詞匹配可能會忽略語義相似但用詞不同的文檔。同義詞處理不足:系統(tǒng)可能無法識別同義詞或多義詞的不同意義。上下文理解能力有限:雖然有自然語言處理技術的支持,但在處理復雜的查詢意圖時仍有一定難度;并且在多模態(tài)檢索的范圍,存在跨模態(tài)一致性問題,在處理文本與非文本(如圖像、視頻)的關聯(lián)時,系統(tǒng)難以確保一致性。
22、所以針對上述問題,就需要一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種檔案數(shù)據(jù)檢索方法、系統(tǒng)及裝置。本發(fā)明可以更準確地理解用戶的查詢意圖和文檔的內容,并進行關鍵詞提取、情感分析可以幫助系統(tǒng)更全面地分析文檔,從而提高檢索結果的相關性。并且增強檢索速度,分布式存儲和云計算技術可以顯著提升數(shù)據(jù)處理的速度,使得大規(guī)模檔案檢索變得更加迅速,高效的索引結構和并行處理能力有助于加快檢索過程。通過跨模態(tài)融合模塊,系統(tǒng)能夠處理和檢索包含文本、圖像、視頻等多種類型的數(shù)據(jù)。使得用戶可以通過任何一種模態(tài)的數(shù)據(jù)來查詢相關的其他模態(tài)數(shù)據(jù)。
2、本發(fā)明是這樣實現(xiàn)的:
3、本發(fā)明提供一種檔案數(shù)據(jù)檢索方法,具體按以下步驟執(zhí)行:
4、s1:首先進行清理和標準化系統(tǒng)內的多個檔案數(shù)據(jù),對文檔的數(shù)據(jù)進行預處理,其中對文檔的數(shù)據(jù)處理具體包括文字、圖片和視頻數(shù)據(jù);
5、具體按以下步驟執(zhí)行:
6、s1.1:進行數(shù)據(jù)清洗,去除噪聲、糾正拼寫錯誤、統(tǒng)一日期和時間格式,去噪如式(1);
7、
8、其中,yi為經(jīng)過移動平均處理后的新序列中的第i個元素;n為移動平均的窗口大小,計算平均值的數(shù)據(jù)點數(shù)量;
9、xj為原始數(shù)據(jù)序列中的第j個元素;
10、j=i-(n-1)/2到i+(n-1)/2為參與平均計算的數(shù)據(jù)點范圍;
11、具體使用levenshtein距離計算兩個字符串之間的差異進行糾正拼寫錯誤,并應用最接近的正確拼寫;如式(2);
12、
13、其中,d表示levenshtein距離函數(shù),v是詞匯表;
14、s1.2:將所有文檔數(shù)據(jù)具有相同的元數(shù)據(jù)格式;對數(shù)據(jù)進行標準化,具體采用標準化方法進行去除,如式(3);
15、
16、其中,x是原始數(shù)據(jù)點,μ是均值,σ是標準差;
17、s1.3:進行數(shù)據(jù)日期規(guī)范化,將所有日期通過iso?8601轉換為統(tǒng)一的格式,如式(4);
18、normalized?date=converttoiso8601(original?date)??式(4)
19、s2:對處理好的檔案數(shù)據(jù)進行語義表示,具體利用深度學習模型為文檔創(chuàng)建語義向量表示;
20、進行語義表示,具體按以下步驟執(zhí)行:
21、s2.1:其中文本編碼,使用transformer模型,bert或其變體獲取文本的語義表示;具體如式(5);
22、
23、其中,ti是文本序列t=[t1,t2,...,tn]中的第i個詞,使用bert模型獲取每個詞的嵌入向量ei;
24、s2.2:對圖像編碼,使用卷積神經(jīng)網(wǎng)絡cnn提取圖像特征;使用預訓練的resnet模型對圖像i,進行編碼,得到特征向量vi,具體如式(6);
25、vi=resnet(i)??式(6)
26、s2.3:進行視頻編碼,使用3dcnn或lstm提取視頻幀的特征,使用3dcnn模型對視頻v中的幀進行編碼,然后對所有幀的特征向量求平均;如式(7);
27、
28、其中,fj為視頻中的第j幀,3dcnn(·)為3d?cnn模型的前向傳播函數(shù)。
29、s3:將文本、圖像和視頻的表示融合成一個統(tǒng)一的向量空間,并整合文本、圖像和視頻多種數(shù)據(jù)類型的數(shù)據(jù),進行跨模態(tài)檢索;
30、具體按以下步驟執(zhí)行:
31、s3.1:通過加權平均創(chuàng)建聯(lián)合表,將文本、圖像和視頻的表示融合成一個統(tǒng)一的向量空間;如式(8);
32、vjoint=αvt+βvi+γvv??式(8)
33、其中,α、β、γ為權重系數(shù);
34、s3.2:用戶查詢通過步驟s3.1編碼器進行編碼;如式(9);
35、q=encoder(q)??式(9)
36、其中,q為用戶提供的文本查詢數(shù)據(jù);encoder(·)為編碼器函數(shù);
37、s3.3:使用余弦相似度衡量查詢向量q和文檔聯(lián)合表示vjoint之間的相似度;如式(10);
38、
39、其中,q·vjoint為向量的積,||q||和||vjoint||分別為向量的歐幾里得范數(shù);
40、s3.4:根據(jù)相似度排名輸出檢索結果。
41、s4:根據(jù)相似度排名,輸出檢索結果。
42、進一步,本發(fā)明在步驟s2中,文本處理模塊對文檔的文字內容還進行情感分析,識別文檔的情感傾向,具體按以下步驟執(zhí)行:
43、s5.1:使用tf-idf將文本轉換為數(shù)值向量;并計算詞頻-逆文檔頻率,如式(11)-式(12);
44、if-idf(t,d,d)=tf(t,d)=idf(t,d)??式(11)
45、其中,tf(t,d)為詞t在文檔d中出現(xiàn)的頻率,idf(t,d)為詞t在逆文檔的頻率;
46、
47、其中,n為文檔總數(shù),nt為包含詞t的文檔數(shù)量;
48、s5.2:計算文檔的情感得分,進行情感分類,如式(13)-式(14);
49、y=σ(wtx+b)??式(13)
50、其中,x為特征量,w為權重向量,b為偏置項,σ(·)為sigmoid函數(shù);
51、
52、其中,n為文檔中詞的數(shù)量,wi為給定詞ti的權重,tf-idf(ti,d,d)為詞ti在文檔d中的tf-idf值。
53、進一步,本發(fā)明對跨模態(tài)檢索還包括以下方法:
54、s6.1:首先對處理好的數(shù)據(jù)進行構建索引結構,其中索引結構為kd樹結構;索引結構基于遞歸分區(qū)構建,每次選擇一個維度,并在該維度上找到中位數(shù),以此作為分割點;并使用訓練數(shù)據(jù)集作為構建索引結構的基礎數(shù)據(jù);并通過步驟s1中識別出的文檔數(shù)據(jù)進行維護索引,實時數(shù)據(jù)流不斷更新索引結構。
55、s6.2:當收到文檔查詢時,使用索引結構快速定位到可能的候選集合;對候選集合中的元素進行精確的距離計算,找出最近鄰,接收到查詢信息時,使用遞歸的方式遍歷樹,每次根據(jù)查詢點的坐標決定進入左子樹還是右子樹,如果遇到葉子節(jié)點,記錄該節(jié)點中的所有數(shù)據(jù)點;
56、回溯時檢查另一側的子樹是否有可能包含更好的候選點;
57、計算查詢點q與數(shù)據(jù)點p之間的距離,具體進行精確距離計算,從候選集合中找出真正的最近鄰,首先對候選集合中的每一個數(shù)據(jù)點計算與查詢點之間的精確距離,然后找出具有最小距離的數(shù)據(jù)點作為最近鄰如式(15);
58、
59、其中,pi和qi分別是數(shù)據(jù)點,p和查詢點q在第i維度上的值,k是數(shù)據(jù)點的維度;
60、進一步,本發(fā)明提供一種檔案數(shù)據(jù)檢索系統(tǒng),包括數(shù)據(jù)預處理模塊,所述的數(shù)據(jù)預處理模塊包括進行數(shù)據(jù)清洗,具體進行文本清洗,去除無關字符、標點符號,進行拼寫校正,并進行數(shù)據(jù)標準化:統(tǒng)一文檔的格式,包括日期格式、大小寫;
61、包括文本處理模塊,進行文本編碼,通過transformer,bert或roberta獲取文檔的語義表示;
62、并進行關鍵詞提取,通過tf-idf從文檔中提取關鍵詞,增強檢索效果;并進行情感分析,識別文檔的情感傾向;
63、圖像處理模塊,通過圖像處理模塊進行文檔內的圖像編碼,使用預訓練的cnn模型提取圖像特征;
64、并進行對象檢測,使用目標檢測yolo或mask?r-cnn識別圖像中的對象;
65、視頻處理模塊,通過視頻處理模塊進行視頻幀抽取,從視頻中選擇關鍵幀進行分析;并進行視頻編碼,使用3d?cnn或lstm來提取視頻幀的特征;并進行語音轉文本,利用語音識別將視頻中的語音轉換為文本;
66、跨模態(tài)融合模塊,通過跨模態(tài)融合模塊聯(lián)合表示,使用加權平均、注意力機制方法將不同模態(tài)的特征融合到一個統(tǒng)一的表示空間;并進行模態(tài)融合,通過實驗確定最佳的融合策略;
67、檢索引擎模塊,通過檢索引擎模塊進行相似度計算,使用余弦相似度、jaccard相似度方法計算查詢向量與文檔向量之間的相似度,并進行排序,具體根據(jù)相似度分數(shù)、文檔的相關性等指標對結果進行排序;
68、用戶交互模塊,通過用戶交互模塊進行查詢接口,提供簡潔易用的用戶界面,用戶輸入文本查詢、上傳圖像或視頻;
69、后端服務模塊,進行分布式存儲:使用分布式文件系統(tǒng)(如hadoop?hdfs)存儲大規(guī)模檔案數(shù)據(jù);并通過云服務,部署在云平臺上。
70、進一步,本發(fā)明提供一種檔案數(shù)據(jù)檢索裝置,包括存儲器,用于存儲計算機可執(zhí)行指令;處理器,用于執(zhí)行所述存儲器中存儲的計算機可執(zhí)行指令時,實現(xiàn)上述中任一項所述的文檔檢索方法。
71、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
72、1、可以更準確地理解用戶的查詢意圖和文檔的內容,并進行關鍵詞提取、情感分析可以幫助系統(tǒng)更全面地分析文檔,從而提高檢索結果的相關性。并且增強檢索速度,分布式存儲和云計算技術可以顯著提升數(shù)據(jù)處理的速度,使得大規(guī)模檔案檢索變得更加迅速,高效的索引結構和并行處理能力有助于加快檢索過程。通過跨模態(tài)融合模塊,系統(tǒng)能夠處理和檢索包含文本、圖像、視頻等多種類型的數(shù)據(jù)。使得用戶可以通過任何一種模態(tài)的數(shù)據(jù)來查詢相關的其他模態(tài)數(shù)據(jù)。