一種基于多特征融合的多哈希表的查詢方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機搜索技術(shù)領(lǐng)域,尤其涉及一種基于多特征融合的多哈希表的查 詢方法。
【背景技術(shù)】
[0002] 圖片、視頻等數(shù)據(jù)的快速增長給數(shù)據(jù)索引和搜索帶來了極大的挑戰(zhàn)。大數(shù)據(jù)上的 近似最近鄰搜索由于其在檢索性能和效率的出色表現(xiàn),在過去數(shù)十年中引起越來越多的關(guān) 注?;诠5淖罱徦阉髟趯嵺`中取得了成功,同時由于其局部敏感的特征,在理論上也 存在可靠的性能保證。
[0003] 基于哈希的最近鄰搜索技術(shù)有著廣泛的應用前景,尤其在實際應用中,為了提高 搜索的整體性能,往往需要建立多個哈希表,并且將探測到的多個哈希桶中的數(shù)據(jù)作為返 回結(jié)果,從而可以整體提高搜索的性能。多哈表的應用包括,但不限于:(1)基于內(nèi)容的圖 像檢索,可以對圖片特征向量建立哈希表索引加快檢索速度;(2)重復網(wǎng)頁檢測,可以檢測 網(wǎng)頁、新聞等重復內(nèi)容,常用方法的有minhash和simhash ; (3)大規(guī)模機器學習,可以用來 加速基于最近鄰查找的機器學習,如SVM或者稀疏優(yōu)化等;(4)計算機視覺,可以用于大規(guī) 模的手勢識別、物體分類等視覺應用;(5)內(nèi)容推薦,可以加速基于相似內(nèi)容或者相似用戶 的內(nèi)容協(xié)同過濾。
[0004] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005] 現(xiàn)有的基于哈希的最近鄰搜索技術(shù),為了提高搜索的整體性能,往往需要建立多 個哈希表,并且將探測到的多個哈希桶中的數(shù)據(jù)作為返回結(jié)果,導致內(nèi)存消耗大,響應時間 長等問題,進而影響查詢效率。
【發(fā)明內(nèi)容】
[0006] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或 者減緩上述問題的基于多特征融合的多哈希表的查詢方法。
[0007] 根據(jù)本發(fā)明的一個方面,提供了一種基于多特征融合的多哈希表的查詢方法,該 方法包括:
[0008] 訓練數(shù)據(jù)提取多種特征,并生成每種特征的至少一個錨點;
[0009] 根據(jù)所述每種特征的至少一個錨點,對提取的所述多種特征分別生成每種特征相 應的錨點圖;
[0010] 根據(jù)所述每種特征相應的錨點圖計算每種特征的相似度量;
[0011] 根據(jù)所述每種特征的相似度量,順序?qū)W習每種特征的哈希函數(shù)和錨點圖的組合系 數(shù),并更新每種特征的相似度量矩陣;
[0012] 根據(jù)學習得到的每種特征的哈希函數(shù)和組合系數(shù)對任意數(shù)據(jù)進行哈希編碼,并建 立多哈希表,根據(jù)所述多哈希表進行數(shù)據(jù)查詢。
[0013] 可選的,所述訓練數(shù)據(jù)提取多種特征,并生成每種特征的至少一個錨點,具體為:
[0014] 訓練數(shù)據(jù)提取多種特征,并采用聚類的方式生成所述每種特征的至少一個錨點。
[0015] 可選的,所述訓練數(shù)據(jù)提取多種特征,并采用聚類的方式生成所述每種特征的至 少一個錨點,具體包括:
[0016] 對訓練數(shù)據(jù)集X中的每個樣例Xi提取M種特征i xpl},其中,1彡i彡N,1彡m彡M; [0017] 對每種特征,采用聚類的方式生成至少一個錨點,得到錨點集合U(m),其中,
【主權(quán)項】
1. 一種基于多特征融合的多哈希表的查詢方法,其特征在于,所述方法包括: 訓練數(shù)據(jù)提取多種特征,并生成每種特征的至少一個錨點; 根據(jù)所述每種特征的至少一個錨點,對提取的所述多種特征分別生成每種特征相應的 錨點圖; 根據(jù)所述每種特征相應的錨點圖計算每種特征的相似度量; 根據(jù)所述每種特征的相似度量,順序?qū)W習每種特征的哈希函數(shù)和錨點圖的組合系數(shù), 并更新每種特征的相似度量矩陣; 根據(jù)學習得到的每種特征的哈希函數(shù)和組合系數(shù)對任意數(shù)據(jù)進行哈希編碼,并建立多 哈希表,根據(jù)所述多哈希表進行數(shù)據(jù)查詢。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓練數(shù)據(jù)提取多種特征,并生成每種 特征的至少一個錨點,具體為: 訓練數(shù)據(jù)提取多種特征,并采用聚類的方式生成所述每種特征的至少一個錨點。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述訓練數(shù)據(jù)提取多種特征,并采用聚類 的方式生成所述每種特征的至少一個錨點,具體包括: 對訓練數(shù)據(jù)集X中的每個樣例Xi提取M種特征XjjM ,其中,I < i < N,I < m < M ; 對每種特征,采用聚類的方式生成至少一個錨點,得到錨點集合Uw,其中,
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每種特征的至少一個錨點, 對提取的所述多種特征分別生成每種特征相應的錨點圖,具體包括; 根據(jù)所述每種特征的至少一個錨點,對提取的所述多種特征分別生成每種特征相應的 錨點圖:
其中,〈i>(m) C [1:K]表示依據(jù)核函數(shù)KG.)鋪點集合Uw中到點x^s(s<<K) 近鄰的索引;矩陣Zw通常非常稀疏,它能夠刻畫數(shù)據(jù)在流形上的近鄰結(jié)構(gòu),同時由于矩陣 每行和為1,因此,Z w用來近似數(shù)據(jù)的相似度量矩陣0m) = 其中 Aw= diag(Z WT1)。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述每種特征的相似度量,順序 學習每種特征的哈希函數(shù)和錨點圖的組合系數(shù),并更新每種特征的相似度量矩陣,具體包 括: 根據(jù)所述錨點圖初始化每種特征的相似度量其中,§(m)= z(m)A(m)-lz(m)T5 Λ ? = diag (Z (m) I); 根據(jù)多種特征中每種特征的相似度量,順序?qū)W習當前哈希表的哈希函數(shù)和錨點圖的組 合系數(shù),迭代優(yōu)化所述當前哈希表的哈希函數(shù)和錨點圖的組合系數(shù); 更新每種特征的相似度量矩陣; 在當前學習的哈希表小于預設數(shù)量時,重復執(zhí)行所述迭代優(yōu)化當前哈希表的哈希函數(shù) 和錨點圖的組合系數(shù)的步驟。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)學習得到的每種特征的哈希函 數(shù)和組合系數(shù)對所有的數(shù)據(jù)進行哈希編碼,并建立多哈希表,并根據(jù)所述多哈希表進行數(shù) 據(jù)查詢,具體包括: 對任意數(shù)據(jù),根據(jù)學習得到的每種特征的哈希函數(shù)和組合系數(shù)對所述數(shù)據(jù)進行哈希編 碼; 根據(jù)所述哈希編碼構(gòu)建多哈希表; 對任意的查詢數(shù)據(jù),根據(jù)所述多哈希表對所述查詢數(shù)據(jù)進行哈希編碼,以實現(xiàn)查詢數(shù) 據(jù)對任意數(shù)據(jù)的查詢。
【專利摘要】本發(fā)明提供了一種基于多特征融合的多哈希表的查詢方法,該方法包括:訓練數(shù)據(jù)提取多種特征,并生成每種特征的至少一個錨點;根據(jù)所述每種特征的至少一個錨點,對提取的所述多種特征分別生成每種特征相應的錨點圖;根據(jù)所述每種特征相應的錨點圖計算每種特征的相似度量;根據(jù)所述每種特征的相似度量,順序?qū)W習每種特征的哈希函數(shù)和錨點圖的組合系數(shù),并更新每種特征的相似度量矩陣;根據(jù)學習得到的每種特征的哈希函數(shù)和組合系數(shù)對任意數(shù)據(jù)進行哈希編碼,并建立多哈希表,根據(jù)所述多哈希表進行數(shù)據(jù)查詢。本發(fā)明基于多特征融合的多哈希表,實現(xiàn)了快速最近鄰搜索,內(nèi)存消耗小,有效地提高了查詢效率和準確率。
【IPC分類】G06F17-30
【公開號】CN104731884
【申請?zhí)枴緾N201510107009
【發(fā)明人】劉祥龍, 郎波
【申請人】北京航空航天大學
【公開日】2015年6月24日
【申請日】2015年3月11日