專利名稱:一種用于基于內容的海量圖片快速檢索的索引構建方法
技術領域:
本發(fā)明屬于智能信息處理技術,具體涉及的是一種用于基于內容的海量圖片快速檢索的索引構建方法。
背景技術:
基于內容的圖像檢索方式可以避免人工標注,克服用文字描述圖像的主觀性和信息損失,從而成為當前圖像檢索的主要技術手段。隨著數(shù)字圖像的大量增加,圖片庫變得越來越龐大,采用“順序查找”的方法進行檢索時需要將查詢樣例圖片與圖片庫中的每個圖片進行比較,難以滿足實際應用中的快速響應的要求。為此,人們采用相似搜索的索引結構來提高檢索的速度。目前,主要的相似搜索索引結構主要有K-D-B樹、R-樹、SS-樹、SR-樹、TV-樹、M-樹、Δ-樹、Clindex和iDistance等。
(1)K-D-B-樹K-D-B樹是一種與B+樹相似的平衡樹,用于多維點數(shù)據(jù)的索引結構。它通過遞歸的采用垂直于坐標軸的坐標平面對搜索空間進行切割來構建樹形索引結構,每個內部節(jié)點和葉子節(jié)點都對應一個空間區(qū)域,并存儲到同一物理存儲塊。它的最大特點是在樹的同一層節(jié)點對應的子空間是互相沒有重疊的,從而使得任意一個點查詢的路徑對應唯一的一條從根到葉子的路徑。
然而,這種沒有空間重疊的分割會引起空節(jié)點或包含很少的數(shù)據(jù)的節(jié)點產生,在對空間塊數(shù)據(jù)進行搜索時,須對數(shù)據(jù)塊進行強制切割,從而降低存儲的利用率和相似搜索的效率。
(2)R-樹及其變種R-樹是為多維矩形塊數(shù)據(jù)設計的一種索引結構。是一種采用矩形空間嵌套的平衡樹,它的每個節(jié)點對應一個矩形區(qū)域。在樹的構建中,保持矩形具有最小的邊界。與K-D-B-樹的不同之處在于,R-樹的節(jié)點對應空間矩形,矩形之間可以有重疊。這種重疊會使得搜索需要更多的時間,但存儲效率更高。雖然它是為多維矩形數(shù)據(jù)設計的,但也可應用于點數(shù)據(jù)。
R*-樹是R-樹的變形樹。R*-樹通過修改R-樹的插入、分裂算法并引入強制重新插入機制,使性能得以提高。
VAMSplit R-樹通過優(yōu)化分裂算法,使得分裂后所使用磁盤數(shù)據(jù)塊的數(shù)目最少。
TV-樹根據(jù)多維數(shù)據(jù)中各維具有不同重要性,對維進行了減少與壓縮,從而相對于R*-樹提高了性能。
X-樹是R*-樹的變種,它引入新的分裂機制和超節(jié)點機制,使得節(jié)點分裂后,搜索空間被分成象K-D-B-tree那樣沒有重疊的區(qū)域。性能得以提高。
(3)SS-樹及其變種SS-樹是一種為多維點數(shù)據(jù)相似搜索而設計的索引結構。它是在R*-樹的基礎上進行了修改首先,它采用球形邊界代替R*-樹的矩形邊界。在數(shù)據(jù)插入時,通過比較新數(shù)據(jù)與球心距離來決定新數(shù)據(jù)該插入樹中的哪個節(jié)點。當節(jié)點滿了的時候,節(jié)點進行分裂,分裂算法是通過計算各維坐標跨度,選擇跨度最大的維,進行數(shù)據(jù)的分割。采用球形邊界還可以使得邊界描述信息減少(只需要球心與半徑),從而提高節(jié)點的扇出數(shù),降低樹的高度。其次,SS-樹修改了R*-樹的強制重新插入機制,當節(jié)點滿的時候,R*-樹重新插入優(yōu)先于分裂,除非在樹的同一層已經(jīng)做過強制重新插入;而在SS-樹需進行重新插入,除非在同一節(jié)點已經(jīng)進行過重新插入。
SR-樹綜合了球形邊界和矩形邊界,節(jié)點被交替的使用球形邊界和矩形邊界,從而使得近鄰可被分割到更小的區(qū)域并降低重疊度,增強了相似搜索效率。
SS+-樹采用了一種近似最小等距包絡算法,使得每個節(jié)點的邊界更緊密。并使用了k-means聚類算法進行節(jié)點分裂,并在構建樹的過程中引入本地重構規(guī)則,從而減少節(jié)點間的空間重疊。
(4)M-樹與Δ-樹M-樹是為對非特定度量空間(a generic“metric space”)的數(shù)據(jù)集進行搜索而設計。在這一空間中,對象的相似度由其距離函數(shù)定義,距離函數(shù)只須滿足“非負”、“對稱”和“三角不等”這三個基本條件,不必考慮對象在多維空間中的絕對位置,及維之間的相關性等問題。
M-樹是一棵平衡樹,可動態(tài)處理數(shù)據(jù)文件,并且不需要定期重組。M-樹是用距離函數(shù)進行對象的索引,它對度量空間的特性要求大大降低,從而使得搜索的應用場合大大擴大。
Δ-樹類似于M-樹,其主要特點在于通過主成分分析實現(xiàn)對索引樹內部節(jié)點特征的降維,從而減小計算量并降低內部節(jié)點的空間占用量,使得更多的節(jié)點能放入內存。其缺點在于數(shù)據(jù)需要進行主成分分析,數(shù)據(jù)動態(tài)更新后需要進行索引樹的重構。
(5)ClindexClindex(CLustering for INDEXing)主要用于對離線的靜態(tài)數(shù)據(jù)集進行分析,數(shù)據(jù)集首先被分為“相似”的聚類,每個聚類被存儲在一個順序文件中,并為索引聚類建立一張一維映射表。對于一個查詢,將查詢點附近的聚類提取到內存中,并通過計算各點與查詢點的距離,而獲得結果。這一方法大大提高了搜索的召回率及性能。
現(xiàn)有技術的基本步驟是1)讀取圖片文件從圖片庫中讀入一個未加入索引庫的圖片文件;2)特征分析對圖片的特征進行提取(包括顏色、紋理、布局等信息);3)檢查索引結構樹是否在內存中,如果不在內存中則從磁盤文件中讀取,如果磁盤中不存在相關索引文件則創(chuàng)建一個新的索引文件;4)根據(jù)圖片特征信息檢測該圖片應該插入到索引樹的哪個葉子節(jié)點中;5)如果該葉子節(jié)點未滿則將新圖片信息加入該葉子節(jié)點,并跳轉到第9步;6)如果該葉子節(jié)點已滿則考慮新圖片和原葉子節(jié)點中包含的所有圖片,將節(jié)點分裂形成兩個葉子節(jié)點;7)考察該節(jié)點的父節(jié)點是否已滿,如果未滿則跳轉到第9步;8)對該節(jié)點進行分裂,并返回轉到第7步考察其父節(jié)點;9)修改該節(jié)點及其祖先節(jié)點的覆蓋半徑;10)結束該圖片的索引插入過程。
基于內容的海量圖片快速檢索存在以下特點,使得現(xiàn)有技術在實際使用中不夠理想(1)圖片庫是高維海量數(shù)據(jù)。圖片庫的圖片數(shù)量通常是百萬量級,使得順序查找的方法不可行。每個圖片的圖像特征量通常在一百維以上,使得按數(shù)據(jù)維進行數(shù)據(jù)分割的R-樹及其變種等非常低效。
(2)圖片庫的圖片是動態(tài)更新的。圖片庫中的圖片通常是每天不斷增加,這種動態(tài)更新的特性使得Clindex等靜態(tài)分析方法不能適用,Δ-樹因需要重構也難以滿足應用需求。
(3)索引系統(tǒng)的健壯性要求。在實際使用環(huán)境下,系統(tǒng)斷電等異常終止的情況偶有發(fā)生,在這種情況下一個健壯實用的系統(tǒng)當系統(tǒng)重新啟動后應該仍能正常繼續(xù)工作,而不應出現(xiàn)索引系統(tǒng)被破壞等問題,現(xiàn)在這方面還沒有公開的技術手段。
發(fā)明內容
根據(jù)基于內容的海量圖片快速檢索存在上述特點,針對現(xiàn)有技術中存在的缺陷,本發(fā)明的目的是為基于內容的海量圖片快速檢索提供一種動態(tài)、高效、健壯的索引方法。該發(fā)明技術對基于內容的海量圖片快速檢索具有重要的實用價值。
為達到以上目的,本發(fā)明采用的技術方案是一種用于基于內容的海量圖片快速檢索的索引構建方法,包括以下步驟1)讀取圖片文件,并對圖片特征進行分析,圖片特征分析結果為一組實數(shù);2)對圖片特征進行量化將在步驟1中得到的一組實數(shù)形式的圖片特征分析結果量化為一組整數(shù);3)檢查索引結構樹是否在內存中,如果不在內存中則從磁盤文件中讀取,如果磁盤中不存在相關索引文件則創(chuàng)建一個新的索引文件;4)根據(jù)量化的圖片特征信息檢測該圖片應該插入到索引樹的哪個葉子節(jié)點中;5)如果該葉子節(jié)點未滿則將新圖片信息加入該葉子節(jié)點,并跳轉到第10步;6)如果該葉子節(jié)點已滿則考慮新圖片和原葉子節(jié)點中包含的所有圖片,將節(jié)點分裂形成兩個葉子節(jié)點;7)考察該節(jié)點的父節(jié)點是否已滿,如果未滿則跳轉到第10步;8)如果該節(jié)點的父節(jié)點已滿,則檢查該節(jié)點是否經(jīng)過聚類,如果經(jīng)過聚類調整則對該節(jié)點進行分裂,并返回轉到第7步考察其父節(jié)點;9)如果該節(jié)點沒有經(jīng)過聚類調整,進行聚類調整;10)修改該節(jié)點及其祖先節(jié)點的覆蓋半徑;11)考察當前內存中被修改而未存盤的節(jié)點數(shù)是否達到上限,如果達到上限則將部分被修改而未存盤的節(jié)點進行存盤,結束該圖片的索引插入過程。
更進一步,步驟1中所述的圖片特征包括圖片的顏色、紋理和布局。
更進一步,為了使本發(fā)明具有更好的效果,在第2步進行圖片特征量化時,將圖片特征分析結果量化為0到255之間的整數(shù),并用1個計算機字節(jié)表示;對圖片特征進行量化的方式最好采用非線性的量化方式,所述的非線性量化即非均勻地量化,即各量化區(qū)間的取值范圍是不相等的,量化中各區(qū)間的取值范圍是根據(jù)圖片特征取值的分布來決定的。
再進一步,在本發(fā)明第9步進行聚類調整時,將待聚類調整的節(jié)點的子節(jié)點的所有數(shù)據(jù)項看作一個數(shù)據(jù)集進行聚類分析,采用K-Means聚類算法,將分析后形成的每個數(shù)據(jù)簇組成一個當前節(jié)點的子節(jié)點。
再進一步,在本發(fā)明第11步進行選擇存盤時,依據(jù)最小完備子樹更新策略進行選擇存盤,即查找新插圖片所在葉子節(jié)點的最近的未被修改的祖先節(jié)點,并將該祖先節(jié)點所有修改而未存盤的子孫節(jié)點進行存盤。
本發(fā)明的效果在于本發(fā)明由于對圖片特征進行了非線性的量化,以整數(shù)替代原實數(shù)類型,在幾乎不降低準確度的情況下使得索引構建與檢索的計算速度大為增加,且存儲量減少。通過對索引方法中引入聚類調整機制使得在數(shù)據(jù)動態(tài)更新的情況下索引結構仍能保持較為合理的狀態(tài)。通過采用最小完備子樹更新的策略使得系統(tǒng)的健壯性大為抬高。實驗表明,在普通PC環(huán)境下(CPU為P4 2.0G,內存為1.0GB),在一百萬張圖片的圖片庫中找出與指定圖片相似的20張圖片僅需2秒左右,而且在斷電等異常情況出現(xiàn)后,索引庫不被破壞,當系統(tǒng)重起后仍能繼續(xù)工作。
本發(fā)明之所以具有以上的效果,是因為本發(fā)明相對現(xiàn)有技術增加了一下三個步驟1)第2步,對圖片特征進行量化,量化后的圖片特征以一個特定范圍的整數(shù)表示,相對原始的浮點數(shù)方式不但大大加快了計算的速度,而且內存與磁盤的占用量降低,同時由于根據(jù)特征取值的分布信息進行非線性的量化,使得檢索結果的準確性方面影響不大;2)第9步,對節(jié)點進行聚類分析,實際應用系統(tǒng)中圖片庫中的圖片是不斷加入的,現(xiàn)有技術的索引樹往往會因為新數(shù)據(jù)項的不斷加入使得索引樹節(jié)點分布變得不夠緊湊,降低索引與檢索的效率,本方法通過引入聚類調整機制采用聚類分析進行調整使得節(jié)點分布變得更為合理;3)第11步,現(xiàn)有技術中有些是每次修改都進行存盤,有些是定期完整更新未存盤節(jié)點,還有一些是根據(jù)最近最少使用策略進行存盤。對第一種方式需要經(jīng)常進行磁盤操作,效率低,第二種方式在異常情況下會有大量數(shù)據(jù)丟失,且更新時間長而影響檢索使用;第三種方式會在異常情況發(fā)生時,索引數(shù)據(jù)不一致而導致索引文件被破壞。而本發(fā)明所述方法的第12步克服了現(xiàn)有技術上述的缺點,特別是本發(fā)明所提出的最小完備子樹更新策略具有很好的實用性。
圖1是本發(fā)明所述方法的流程圖。
具體實施例方式
下面結合附圖對本發(fā)明的具體實施方式
做進一步的描述。
如圖1所示,一種用于基于內容的海量圖片快速檢索的索引構建方法,包括以下步驟1)讀取圖片文件從圖片庫中讀入一個未加入索引庫的圖片文件;對圖片特征進行分析對圖片的特征進行提取,圖片的特征包括顏色、紋理、布局等信息;2)對圖片特征進行非線性的量化根據(jù)圖片特征取值的分布信息,將步驟2中得到的圖片特征分析結果(即一組實數(shù))采用非線性方法量化為1到255之間的整數(shù),并用1個計算機字節(jié)(Byte)表示;3)檢查索引結構樹是否在內存中,如果不在內存中則從磁盤文件中讀取,如果磁盤中不存在相關索引文件則創(chuàng)建一個新的索引文件;4)根據(jù)量化的圖片特征信息檢測該圖片應該插入到索引樹的哪個葉子節(jié)點中;5)如果該葉子節(jié)點未滿則將新圖片信息加入該葉子節(jié)點,并跳轉到第10步;6)如果該葉子節(jié)點已滿則考慮新圖片和原葉子節(jié)點中包含的所有圖片,將節(jié)點分裂形成兩個葉子節(jié)點;7)考察該節(jié)點的父節(jié)點是否已滿,如果未滿則跳轉到第10步;8)否則(該節(jié)點滿),檢查該節(jié)點是否經(jīng)過聚類,如果經(jīng)過聚類調整則對該節(jié)點進行分裂,并返回轉到第7步考察其父節(jié)點;9)否則(沒有經(jīng)過聚類調整),進行聚類調整將待聚類調整的節(jié)點的子節(jié)點的所有數(shù)據(jù)項看作一個數(shù)據(jù)集進行聚類分析,本實施例中采用K-Means聚類算法,將分析后形成的每個數(shù)據(jù)簇組成一個當前節(jié)點的子節(jié)點;所述的K-Means聚類算法(又稱為K均值聚類算法)是一種常用的基于劃分的聚類算法,其基本思想是計算每個聚類中對象的平均值,并作為新的聚類種子重新進行聚類對象劃分,直到穩(wěn)定的聚類結果。
10)修改該節(jié)點及其祖先節(jié)點的覆蓋半徑;11)考察當前內存中被修改而未存盤的節(jié)點數(shù)是否達到上限,如果達到上限,則查找新插圖片所在葉子節(jié)點的最近的未被修改的祖先節(jié)點,并將該祖先節(jié)點所有修改而未存盤的子孫節(jié)點進行存盤,結束該圖片的索引插入過程。
實際應用過程中,第10步中在進行聚類調整時,還可以采用BIRCH聚類算法、CLARANS聚類算法、AHC聚類算法等其他聚類方法;第12步中,還可以采用完整更新方法或采用最近最少使用算法的更新方法或其他更新策略的方法。因此,本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,只要是本領域技術人員根據(jù)本發(fā)明的技術方案得出其他的實施方式,同樣屬于本發(fā)明的技術創(chuàng)新范圍。
權利要求
1.一種用于基于內容的海量圖片快速檢索的索引構建方法,包括以下步驟1)讀取圖片文件,并對圖片特征進行分析,圖片特征分析結果為一組實數(shù);2)對圖片特征進行量化將在步驟1中得到的一組實數(shù)形式的圖片特征分析結果量化為一組整數(shù);3)檢查索引結構樹是否在內存中,如果不在內存中則從磁盤文件中讀取,如果磁盤中不存在相關索引文件則創(chuàng)建一個新的索引文件;4)根據(jù)量化的圖片特征信息檢測該圖片應該插入到索引樹的哪個葉子節(jié)點中;5)如果該葉子節(jié)點未滿則將新圖片信息加入該葉子節(jié)點,并跳轉到第10步;6)如果該葉子節(jié)點已滿則考慮新圖片和原葉子節(jié)點中包含的所有圖片,將節(jié)點分裂形成兩個葉子節(jié)點;7)考察該節(jié)點的父節(jié)點是否已滿,如果未滿則跳轉到第10步;8)如果該節(jié)點的父節(jié)點已滿,則檢查該節(jié)點是否經(jīng)過聚類,如果經(jīng)過聚類調整則對該節(jié)點進行分裂,并返回轉到第7步考察其父節(jié)點;9)如果該節(jié)點沒有經(jīng)過聚類調整,進行聚類調整;10)修改該節(jié)點及其祖先節(jié)點的覆蓋半徑;11)考察當前內存中被修改而未存盤的節(jié)點數(shù)是否達到上限,如果達到上限則將部分被修改而未存盤的節(jié)點進行存盤,結束該圖片的索引插入過程。
2.如權利要求1所述的一種用于基于內容的海量圖片快速檢索的索引構建方法,其特征在于步驟1中所述的圖片特征包括圖片的顏色、紋理和布局。
3.如權利要求1或2所述的一種用于基于內容的海量圖片快速檢索的索引構建方法,其特征在于在第2步進行圖片特征量化時,將圖片特征分析結果量化為0到255之間的整數(shù),并用1個計算機字節(jié)表示。
4.如權利要求3所述的一種用于基于內容的海量圖片快速檢索的索引構建方法,其特征在于步驟2中對圖片特征進行量化的方式采用非線性的量化方式,所述的非線性量化即非均勻地量化,即各量化區(qū)間的取值范圍是不相等的,量化中各區(qū)間的取值范圍是根據(jù)圖片特征取值的分布來決定的。
5.如權利要求4所述的一種用于基于內容的海量圖片快速檢索的索引構建方法,其特征在于在第9步進行聚類調整時,將待聚類調整的節(jié)點的子節(jié)點的所有數(shù)據(jù)項看作一個數(shù)據(jù)集進行聚類分析,將分析后形成的每個數(shù)據(jù)簇組成一個當前節(jié)點的子節(jié)點。
6.如權利要求5所述的一種用于基于內容的海量圖片快速檢索的索引構建方法,其特征在于步驟9中,進行聚類調整的算法采用K-Means算法。
7.如權利要求1或2所述的一種用于基于內容的海量圖片快速檢索的索引構建方法,其特征在于在第11步進行選擇存盤時,依據(jù)最小完備子樹更新策略進行選擇存盤,即查找新插圖片所在葉子節(jié)點的最近的未被修改的祖先節(jié)點,并將該祖先節(jié)點所有修改而未存盤的子孫節(jié)點進行存盤。
8.如權利要求6所述的一種用于基于內容的海量圖片快速檢索的索引構建方法,其特征在于在第11步進行選擇存盤時,依據(jù)最小完備子樹更新策略進行選擇存盤,即查找新插圖片所在葉子節(jié)點的最近的未被修改的祖先節(jié)點,并將該祖先節(jié)點所有修改而未存盤的子孫節(jié)點進行存盤。
全文摘要
本發(fā)明涉及一種用于基于內容的海量圖片快速檢索的索引構建方法,屬于智能信息處理技術。現(xiàn)有技術中,對海量圖片進行基于內容的檢索時,系統(tǒng)響應的時間長,檢索效率低,且系統(tǒng)的健壯性不夠強。本發(fā)明針對基于內容的海量圖片快速檢索的效率與系統(tǒng)健壯性問題,在平衡多路查找樹的索引結構基礎上,引入聚類調整機制并提出最小完備子樹更新策略和非線性特征量化算法。采用本發(fā)明所述的方法將大大提高索引結構的性能,降低檢索響應時間,增強系統(tǒng)健壯性,對基于內容的海量圖片快速檢索系統(tǒng)具有重要的應用價值。
文檔編號G06F17/30GK1687932SQ20051007346
公開日2005年10月26日 申請日期2005年5月30日 優(yōu)先權日2005年5月30日
發(fā)明者楊建武, 吳於茜, 陳曉鷗, 劉燦 申請人:北大方正集團有限公司, 北京北大方正技術研究院有限公司