專利名稱:用于分布式圖片搜索的索引構(gòu)建方法和服務(wù)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖片的搜索領(lǐng)域,尤其涉及一種用于分布式圖片搜索的索引構(gòu)建方 法、服務(wù)器、圖片搜索方法和圖片搜索系統(tǒng)。
背景技術(shù):
近年來(lái)國(guó)內(nèi)外涌現(xiàn)出大量有關(guān)視覺檢索方法即直接采用圖片進(jìn)行搜索的研究成 果,并且視覺搜索成為智能手機(jī)、電子商務(wù)等工業(yè)領(lǐng)域的熱點(diǎn)應(yīng)用。然而,針對(duì)視覺特征在海量圖片數(shù)據(jù)庫(kù)中的檢索需要花費(fèi)較長(zhǎng)的時(shí)間,主要是由 于互聯(lián)網(wǎng)應(yīng)用帶來(lái)的海量圖片數(shù)據(jù)庫(kù)的大量出現(xiàn),造成整個(gè)圖像數(shù)據(jù)庫(kù)的倒排索引文件的 遠(yuǎn)遠(yuǎn)超出了單臺(tái)服務(wù)器的內(nèi)存容量;進(jìn)一步地,倒排索引完全存入單臺(tái)服務(wù)器的內(nèi)存,在巨 大的單一倒排索引中查找結(jié)果圖片將花費(fèi)很長(zhǎng)的搜索時(shí)間,難以滿足用戶對(duì)搜索速度的要 求,更無(wú)法滿足用戶實(shí)時(shí)響應(yīng)的檢索需求。
發(fā)明內(nèi)容
本發(fā)明提供一種用于分布式圖片搜索的索引構(gòu)建方法,該索引構(gòu)建方法通過(guò)有效 視覺單詞詞典的均衡分配以建立圖片數(shù)據(jù)庫(kù)的分布式索引,進(jìn)而可有效提高目標(biāo)圖片的檢 索速度,同時(shí)提高了服務(wù)器的檢索效率,滿足了用戶在檢索中實(shí)時(shí)響應(yīng)的需求。本發(fā)明提供一種服務(wù)器。該服務(wù)器中的每一檢索服務(wù)器能夠均衡分配服務(wù)器的檢 索請(qǐng)求,進(jìn)而可使服務(wù)器內(nèi)的檢索任務(wù)均衡分配,以有效提高服務(wù)器的檢索效率。本發(fā)明提供一種圖片搜索方法和圖片搜索系統(tǒng),該圖片搜索方法和圖片搜索系統(tǒng) 能夠依據(jù)目標(biāo)圖片的檢索需求均衡分配至服務(wù)器中的各檢索服務(wù)器上,使得圖片搜索系統(tǒng) 中搜索目標(biāo)圖片的效率和精確度提高,進(jìn)而滿足用戶在搜索圖片時(shí)實(shí)時(shí)響應(yīng)的需求。本發(fā)明中的用于分布式圖片搜索的索引構(gòu)建方法,其步驟包括提取服務(wù)器的圖片數(shù)據(jù)庫(kù)中所有圖片的一個(gè)以上的特征,并將該些特征轉(zhuǎn)換為視 覺單詞集合,得到原始視覺單詞詞典及對(duì)應(yīng)的總索引表;依據(jù)有效視覺單詞詞典的篩選規(guī)則,獲取代表原始視覺單詞詞典的有效視覺單詞 詞典,該有效視覺單詞詞典中的每一視覺單詞均建立有各自相對(duì)應(yīng)的倒排記錄表;采用第一預(yù)設(shè)規(guī)則,將有效視覺單詞詞典中的各視覺單詞均衡分配至各檢索服務(wù) 器內(nèi),使每一檢索服務(wù)器得到其內(nèi)部的視覺單詞組成的子視覺單詞詞典,以及該子視覺單 詞詞典中的每一視覺單詞的倒排記錄表組成該子視覺單詞詞典的索引表。另外,本發(fā)明還提供一種服務(wù)器,該服務(wù)器包括一個(gè)以上的檢索服務(wù)器,還包括提取模塊,用于提取服務(wù)器的圖片數(shù)據(jù)庫(kù)中所有圖片的一個(gè)以上的特征,并將該 些特征轉(zhuǎn)換為視覺單詞集合,得到原始視覺單詞詞典及對(duì)應(yīng)的總索引表文件;有效視覺單詞詞典生成模塊,用于依據(jù)有效視覺單詞詞典的篩選規(guī)則,獲取代表 原始視覺單詞詞典的有效視覺單詞詞典,該有效視覺單詞詞典中的每一視覺單詞均建立有 各自相對(duì)應(yīng)的倒排記錄表文件;
分配模塊,用于采用第一預(yù)設(shè)規(guī)則,將有效視覺單詞詞典中的各視覺單詞均衡分 配至各檢索服務(wù)器內(nèi),使每一檢索服務(wù)器得到其內(nèi)部的視覺單詞組成的子視覺單詞詞典;索引建立模塊,用于根據(jù)該子視覺單詞詞典中的每一視覺單詞的倒排記錄表文件 組成該子視覺單詞詞典的索引表文件。根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種圖片搜索方法,該圖片搜索方法是采 用如上任意所述的服務(wù)器進(jìn)行檢索,所述圖片搜索方法包括所述服務(wù)器接收一待查詢的目標(biāo)圖片,并獲取該目標(biāo)圖片的目標(biāo)視覺單詞集合, 或者,所述服務(wù)器接收針對(duì)待查詢的目標(biāo)圖片的目標(biāo)視覺單詞集合;獲取所述服務(wù)器內(nèi)的包含有所述目標(biāo)視覺單詞集合中的目標(biāo)視覺單詞的各檢索 服務(wù)器,并將該目標(biāo)視覺單詞分配到相對(duì)應(yīng)的包含該目標(biāo)視覺單詞的檢索服務(wù)器;所述檢索服務(wù)器依據(jù)分配的目標(biāo)視覺單詞的檢索請(qǐng)求,在其內(nèi)部的子視覺單詞詞 典及其對(duì)應(yīng)的索引表文件中進(jìn)行檢索,依據(jù)相似性度量規(guī)則,獲取圖片數(shù)據(jù)庫(kù)中部分或全 部圖片的相似性分?jǐn)?shù),根據(jù)相似性分?jǐn)?shù)對(duì)各圖片進(jìn)行排序,得到圖片排序結(jié)果,進(jìn)而將相似 性分?jǐn)?shù)和對(duì)應(yīng)的圖片排序結(jié)果發(fā)送給所述服務(wù)器;所述服務(wù)器接收并匯總各檢索服務(wù)器傳送的相似性分?jǐn)?shù)和對(duì)應(yīng)的圖片排序結(jié)果, 進(jìn)而將符合所述目標(biāo)圖片的結(jié)果圖片全部或部分輸出。本發(fā)明還提供一種圖片搜索系統(tǒng),其包括目標(biāo)視覺單詞集合獲取模塊,所述服務(wù)器接收一待查詢的目標(biāo)圖片,并獲取該目 標(biāo)圖片的目標(biāo)視覺單詞集合,或者,所述服務(wù)器接收針對(duì)待查詢的目標(biāo)圖片的目標(biāo)視覺單 詞集合;查找分配模塊,用于查找服務(wù)器內(nèi)的包含有所述目標(biāo)視覺單詞集合中的目標(biāo)視覺 單詞的各檢索服務(wù)器,并將該目標(biāo)視覺單詞分配到相對(duì)應(yīng)的包含該目標(biāo)視覺單詞的檢索服 務(wù)器;檢索模塊,用于所述檢索服務(wù)器依據(jù)分配的目標(biāo)視覺單詞的檢索請(qǐng)求,在其內(nèi)部 的子視覺單詞詞典及其對(duì)應(yīng)的索引表文件中進(jìn)行檢索,依據(jù)相似性度量規(guī)則,獲取圖片數(shù) 據(jù)庫(kù)中部分或全部圖片的相似性分?jǐn)?shù),根據(jù)相似性分?jǐn)?shù)對(duì)各圖片進(jìn)行排序,得到圖片排序 結(jié)果,進(jìn)而將相似性分?jǐn)?shù)和對(duì)應(yīng)的圖片排序結(jié)果發(fā)送給所述服務(wù)器;匯總輸出模塊,用于所述服務(wù)器接收并匯總各檢索服務(wù)器傳送的相似性分?jǐn)?shù)和對(duì) 應(yīng)的圖片排序結(jié)果,進(jìn)而將符合所述目標(biāo)圖片的結(jié)果圖片全部或部分輸出。本發(fā)明的用于分布式圖片搜索的索引構(gòu)建方法,主要是將有效視覺單詞詞典的采 用共生頻數(shù)之和的方式均衡分配至各檢索服務(wù)器,以建立圖片數(shù)據(jù)庫(kù)的分布式索引,使得 各檢索服務(wù)器內(nèi)的子視覺單詞詞典建立相對(duì)應(yīng)的索引表,實(shí)現(xiàn)了采用分布式索引的方法來(lái) 并行處理圖片數(shù)據(jù)庫(kù)中圖片的檢索。該方法不僅有效地避免了服務(wù)器內(nèi)各檢索服務(wù)器的負(fù) 載不均衡的問題,以便提高圖片數(shù)據(jù)庫(kù)中的視覺搜索效率,縮短用戶的等待時(shí)間。
為了更清楚地說(shuō)明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù) 描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一 些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明中的用于分布式圖片搜索的索引構(gòu)建方法實(shí)施例的步驟流程圖;圖2為本發(fā)明中的用于分布式圖片搜索的索引構(gòu)建方法實(shí)施例中篩選有效視覺 詞典的具體步驟流程圖;圖3為本發(fā)明中的用于分布式圖片搜索的索引構(gòu)建方法實(shí)施例中分配有效視覺 單詞詞典的具體步驟流程圖;圖4為本發(fā)明中的服務(wù)器實(shí)施例的結(jié)構(gòu)示意圖;圖5為本發(fā)明中的圖片搜索方法實(shí)施例的流程示意圖;圖6為本發(fā)明中的圖片搜索系統(tǒng)實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附 圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明 一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有 作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。視覺單詞對(duì)視覺特征空間的進(jìn)行離散劃分,每個(gè)單詞為一個(gè)劃分,采用圖片特征 來(lái)描述圖片內(nèi)容,為最基本的數(shù)據(jù)特征;視覺單詞詞典圖片數(shù)據(jù)庫(kù)中所有或挑選的部分圖片的視覺單詞構(gòu)成的集合。參考圖1所示,圖1示出了本發(fā)明中的用于分布式圖片搜索的索引構(gòu)建方法實(shí)施 例的步驟流程圖;具體地,索引構(gòu)建方法的步驟包括步驟101 提取服務(wù)器內(nèi)圖片數(shù)據(jù)庫(kù)中所有圖片的一個(gè)以上的特征,并將該些特 征轉(zhuǎn)換為視覺單詞集合,得到原始視覺單詞詞典及對(duì)應(yīng)的總索引表。上述圖片數(shù)據(jù)庫(kù)包括專利圖片、地標(biāo)圖片、書本封頁(yè)的圖片、商品的外觀照片、博 物館場(chǎng)館指示標(biāo)志的全局照片、部分包含條形碼或電子標(biāo)簽的圖片、或者為風(fēng)景照片等等, 本發(fā)明中對(duì)其圖片數(shù)據(jù)庫(kù)中圖片的類型和圖片內(nèi)容不進(jìn)行限定。優(yōu)選地,服務(wù)器內(nèi)圖片數(shù)據(jù)庫(kù)中的圖片可采用聚類方式建立原始視覺單詞詞典。 (該處的聚類方法的具體方式可以是K均值聚類、分層聚類、譜聚類等,其中譜聚類可以 參考文獻(xiàn)"Ng A. , Jordan Μ. , and Weiss Y. On SpectralClustering :Analysis and an algorithm. NIPS,849-856,2001” 中的方法。)具體地, 本實(shí)施例中的服務(wù)器可通過(guò)提取所述圖片數(shù)據(jù)庫(kù)中每一圖片的顏色直方圖、紋理 圖、尺度不變描述子、梯度位置朝向直方圖或方向梯度直方圖作為特征;接著,根據(jù)上述特征與所述視覺單詞的映射規(guī)則,將所述圖片的顏色直方圖、紋理 圖、尺度不變描述子(SIFT)、梯度位置朝向直方圖(GLOH)或方向梯度直方圖(HOG)轉(zhuǎn)換成 視覺單詞,該些視覺單詞的集合即為原始視覺單詞詞典。該些原始視覺單詞詞典與其相對(duì) 應(yīng)的總索引表對(duì)應(yīng)(該索引表優(yōu)選采用倒排索引表),該些總索引表是在建立視覺單詞的 過(guò)程中同時(shí)建立的,其總索引表建立方式可依據(jù)現(xiàn)有技術(shù)中的任一方式,本實(shí)施例不對(duì)其 進(jìn)行限定。步驟102 依據(jù)有效視覺單詞詞典的篩選規(guī)則,獲取代表原始視覺單詞詞典的有 效視覺單詞詞典,該有效視覺單詞詞典中的每一視覺單詞均建立有各自相對(duì)應(yīng)的倒排記錄表;當(dāng)然,所述有效視覺單詞詞典內(nèi)部的每一視覺單詞的倒排記錄表匯總之后即為原 始視覺單詞詞典中的總索引表。優(yōu)選地,該處的有效視覺單詞詞典的篩選規(guī)則可為子步驟1021 從圖片數(shù)據(jù)庫(kù)中選擇某一數(shù)量的圖片作為樣本圖片,以及將樣本圖 片的特征轉(zhuǎn)換為原始視覺單詞詞典中的視覺單詞。子步驟1022 依據(jù)樣本圖片的視覺單詞在所述原始視覺單詞詞典的總索引表中 查詢,獲得原始查詢結(jié)果;即根據(jù)樣本圖片的視覺單詞,在所述原始視覺單詞詞典的總索引 表中查詢,獲得原始查詢結(jié)果。子步驟1023 將屬于原始視覺單詞詞典的任意視覺單詞進(jìn)行組合,以構(gòu)成一個(gè) 篩選視覺單詞詞典(即從原始視覺單詞詞典中選取一定數(shù)量的單詞構(gòu)成篩選視覺單詞詞 典),基于篩選視覺單詞詞典,將所述樣本圖片的特征轉(zhuǎn)換為對(duì)應(yīng)該篩選視覺單詞詞典內(nèi)的 第一視覺單詞,并采用第一視覺單詞在所述原始視覺單詞詞典的總索引表中查詢,獲得與 篩選視覺單詞詞典對(duì)應(yīng)的第一查詢結(jié)果。子步驟10 比較所有樣本圖片的原始查詢結(jié)果與所述第一查詢結(jié)果,以選取一 符合篩選標(biāo)準(zhǔn)的篩選視覺單詞詞典作為有效視覺單詞詞典。也就是說(shuō),將原始視覺單詞詞 典的子集作為篩選的視覺單詞詞典,根據(jù)篩選的視覺單詞詞典,將樣本圖片的特征轉(zhuǎn)換為 視覺單詞,利用該視覺單詞在總索引表中查詢相似圖片,獲得與篩選的視覺單詞詞典對(duì)應(yīng) 查詢結(jié)果,通過(guò)比較原始查詢結(jié)果與篩選的視覺單詞詞典對(duì)應(yīng)查詢結(jié)果,從原始視覺單詞 詞典的子集中篩選出一個(gè)最優(yōu)子集(本實(shí)施方式不限定最優(yōu),可以是次優(yōu)子集等,只要能 夠滿足查詢要求即可,該處的最優(yōu)子集為業(yè)內(nèi)人士的通俗說(shuō)法)。進(jìn)一步地,在篩選有效視覺單詞詞典的過(guò)程中還需要說(shuō)明的是比較樣本圖片的查詢結(jié)果和原始查詢結(jié)果,若樣本圖片的查詢結(jié)果與原始查詢結(jié) 果相符(滿足正常的誤差范圍,即業(yè)內(nèi)人士認(rèn)可的誤差范圍),則采用當(dāng)前的篩選視覺單詞 詞典作為有效視覺單詞詞典;否則從所述原始視覺單詞詞典中選擇一個(gè)視覺單詞增加到當(dāng) 前的篩選視覺單詞詞典中,返回到獲取所述第一視覺單詞的子步驟1023。重復(fù)上述過(guò)程,直 到查詢結(jié)果與原始查詢結(jié)果的偏差滿足正常的誤差范圍的篩選視覺單詞詞典即有效視覺 單詞詞典停止。需要注意的是,本實(shí)施例中優(yōu)選使用疊加循環(huán)的方式獲取的有效視覺單詞 詞典即為所述原始視覺單詞詞典的子集。步驟103 采用第一預(yù)設(shè)規(guī)則,將有效視覺單詞詞典中的各視覺單詞均衡分配至 各檢索服務(wù)器內(nèi),使每一檢索服務(wù)器得到其內(nèi)部的視覺單詞組成的子視覺單詞詞典,以及 該子視覺單詞詞典中的每一視覺單詞的倒排記錄表組成該子視覺單詞詞典的索引表。也就是說(shuō),該些子視覺單詞詞典的索引表合并之后與所述有效視覺單詞詞典內(nèi)部 的每一視覺單詞的倒排記錄表合并之后的結(jié)果相同,也為原始視覺單詞詞典中的總索引 表。應(yīng)了解的是,該些合并或匯總方式可以為現(xiàn)有技術(shù)中的簡(jiǎn)單累加,本實(shí)施例不對(duì)其限 定。在本實(shí)施例中,上述的第一預(yù)設(shè)規(guī)則可為子步驟1031 選擇所述有效視覺單詞詞典內(nèi)的任意一個(gè)待分配到各檢索服務(wù)器 的視覺單詞,
子步驟1032分析該視覺單詞與每一檢索服務(wù)器內(nèi)已有的所有視覺單詞的共生頻 數(shù)之和,選取所述共生頻數(shù)之和最小的檢索服務(wù)器;子步驟1033 將該視覺單詞以及與該視覺單詞的倒排記錄表分配給所選取的檢 索服務(wù)器。參照?qǐng)D2所示,圖2示出了本發(fā)明中的用于分布式圖片搜索的索引構(gòu)建方法實(shí)施 例中篩選有效視覺詞典的具體步驟流程圖;即,上述用于分布式圖片搜索的索引構(gòu)建方法 實(shí)施例中篩選有效視覺詞典的具體計(jì)算步驟包括第一步201 從整個(gè)圖片數(shù)據(jù)庫(kù)中挑選出Nsample張樣本圖片,將這些樣本圖片作 為查詢圖片在視覺單詞索引表中查詢,檢索前R個(gè)查詢圖片結(jié)果。對(duì)于第i張圖片,其查 詢結(jié)果
權(quán)利要求
1.一種用于分布式圖片搜索的索引構(gòu)建方法,其特征在于,步驟包括提取服務(wù)器的圖片數(shù)據(jù)庫(kù)中所有圖片的一個(gè)以上的特征,并將該些特征轉(zhuǎn)換為視覺單 詞集合,得到原始視覺單詞詞典及對(duì)應(yīng)的總索引表;依據(jù)有效視覺單詞詞典的篩選規(guī)則,獲取代表原始視覺單詞詞典的有效視覺單詞詞 典,該有效視覺單詞詞典中的每一視覺單詞均建立有各自相對(duì)應(yīng)的倒排記錄表;采用第一預(yù)設(shè)規(guī)則,將有效視覺單詞詞典中的各視覺單詞均衡分配至各檢索服務(wù)器 內(nèi),使每一檢索服務(wù)器得到其內(nèi)部的視覺單詞組成的子視覺單詞詞典,以及該子視覺單詞 詞典中的每一視覺單詞的倒排記錄表組成該子視覺單詞詞典的索引表。
2.根據(jù)權(quán)利要求1所述的用于分布式圖片搜索的索引構(gòu)建方法,其特征在于,所述第 一預(yù)設(shè)規(guī)則為選擇所述有效視覺單詞詞典內(nèi)的任意一個(gè)待分配到各檢索服務(wù)器的視覺單詞, 分析該視覺單詞與每一檢索服務(wù)器內(nèi)已有的所有視覺單詞的共生頻數(shù)之和,選取共生 頻數(shù)之和最小的檢索服務(wù)器;將該視覺單詞以及與該視覺單詞的倒排記錄表分配給所選取的檢索服務(wù)器。
3.根據(jù)權(quán)利要求1所述的用于分布式圖片搜索的索引構(gòu)建方法,其特征在于,所述有 效視覺單詞詞典的篩選規(guī)則為從圖片數(shù)據(jù)庫(kù)中選擇某一數(shù)量的圖片作為樣本圖片,以及將樣本圖片的特征轉(zhuǎn)換為原 始視覺單詞詞典中的視覺單詞;依據(jù)樣本圖片的視覺單詞在所述原始視覺單詞詞典的總索引表中查詢,獲得原始查詢 結(jié)果;從原始視覺單詞詞典中選取一定數(shù)量的視覺單詞構(gòu)成篩選視覺單詞詞典,基于篩選視 覺單詞詞典,將所述樣本圖片的特征轉(zhuǎn)換為對(duì)應(yīng)該篩選視覺單詞詞典內(nèi)的第一視覺單詞, 并采用第一視覺單詞在所述原始視覺單詞詞典的總索引表中查詢,獲得與篩選視覺單詞詞 典對(duì)應(yīng)的第一查詢結(jié)果;比較所有樣本圖片的原始查詢結(jié)果與所述第一查詢結(jié)果,以選取一符合篩選標(biāo)準(zhǔn)的篩 選視覺單詞詞典作為有效視覺單詞詞典。
4.根據(jù)權(quán)利要求3所述的用于分布式圖片搜索的索引構(gòu)建方法,其特征在于,所述選 取一符合篩選標(biāo)準(zhǔn)的篩選視覺單詞詞典作為有效視覺單詞詞典進(jìn)一步包括從所述原始視覺單詞詞典中選擇一定數(shù)量的視覺單詞作為篩選視覺單詞詞典; 根據(jù)所述篩選視覺單詞詞典,獲取所述第一視覺單詞;利用該第一視覺單詞在所述原始視覺單詞詞典的總索引表中查詢相似圖片,獲得查詢結(jié)果;比較樣本圖片的查詢結(jié)果和原始查詢結(jié)果,若樣本圖片的查詢結(jié)果與原始查詢結(jié)果相 符,則采用當(dāng)前的篩選視覺單詞詞典作為有效視覺單詞詞典;否則從所述原始視覺單詞詞 典中選擇一個(gè)視覺單詞增加到當(dāng)前的篩選視覺單詞詞典中,返回到獲取所述第一視覺單詞 的步驟。
5.一種服務(wù)器,該服務(wù)器包括一個(gè)以上的檢索服務(wù)器,其特征在于,還包括提取模塊,用于提取服務(wù)器的圖片數(shù)據(jù)庫(kù)中所有圖片的一個(gè)以上的特征,并將該些特 征轉(zhuǎn)換為視覺單詞集合,得到原始視覺單詞詞典及對(duì)應(yīng)的總索引表文件;有效視覺單詞詞典生成模塊,用于依據(jù)有效視覺單詞詞典的篩選規(guī)則,獲取代表原始 視覺單詞詞典的有效視覺單詞詞典,該有效視覺單詞詞典中的每一視覺單詞均建立有各自 相對(duì)應(yīng)的倒排記錄表文件;分配模塊,用于采用第一預(yù)設(shè)規(guī)則,將有效視覺單詞詞典中的各視覺單詞均衡分配至 各檢索服務(wù)器內(nèi),使每一檢索服務(wù)器得到其內(nèi)部的視覺單詞組成的子視覺單詞詞典;索引建立模塊,用于根據(jù)該子視覺單詞詞典中的每一視覺單詞的倒排記錄表文件組成 該子視覺單詞詞典的索引表文件。
6.根據(jù)權(quán)利要求5所述的服務(wù)器,其特征在于,所述第一預(yù)設(shè)規(guī)則為選擇所述有效視覺單詞詞典內(nèi)的任意一個(gè)待分配到所述各檢索服務(wù)器的視覺單詞; 分析該視覺單詞與每一檢索服務(wù)器內(nèi)已有的所有視覺單詞的共生頻數(shù)之和,選取共生 頻數(shù)之和最小的檢索服務(wù)器;將該視覺單詞以及與該視覺單詞的倒排記錄表文件分配給所選取的檢索服務(wù)器。
7.根據(jù)權(quán)利要求5所述的服務(wù)器,其特征在于,所述有效視覺單詞詞典的篩選規(guī)則為 從圖片數(shù)據(jù)庫(kù)中選擇某一數(shù)量的圖片作為樣本圖片,以及將樣本圖片的特征轉(zhuǎn)換為原始視覺單詞詞典中的視覺單詞;依據(jù)樣本圖片的視覺單詞在所述原始視覺單詞詞典的總索引表文件中查詢,獲得原始 查詢結(jié)果;從原始視覺單詞詞典中選取一定數(shù)量的單詞構(gòu)成篩選視覺單詞詞典,基于篩選視覺單 詞詞典,將所述樣本圖片的特征轉(zhuǎn)換為對(duì)應(yīng)該篩選視覺單詞詞典內(nèi)的第一視覺單詞,并采 用第一視覺單詞在所述原始視覺單詞詞典的總索引表文件中查詢,獲得與篩選視覺單詞詞 典對(duì)應(yīng)的第一查詢結(jié)果;比較所有樣本圖片的原始查詢結(jié)果與所述第一查詢結(jié)果,若所有樣本圖片的第一查詢 結(jié)果與原始查詢結(jié)果相符,則采用當(dāng)前的篩選視覺單詞詞典作為有效視覺單詞詞典;否則 從所述原始視覺單詞詞典中選擇一個(gè)視覺單詞增加到當(dāng)前的篩選視覺單詞詞典中,返回到 獲取所述第一視覺單詞的步驟。
8.根據(jù)權(quán)利要求5所述的服務(wù)器,其特征在于,所述服務(wù)器還包括匯總模塊,用于將各檢索服務(wù)器傳送的檢索結(jié)果匯總; 以及,所述服務(wù)器還包括輸出模塊,用于將匯總的檢索結(jié)果全部或部分輸出; 進(jìn)一步地,所述服務(wù)器為集群服務(wù)器。
9.一種圖片搜索方法,其特征在于,該圖片搜索方法是采用如上權(quán)利要求5至8任一項(xiàng) 所述的服務(wù)器進(jìn)行檢索,所述圖片搜索方法包括所述服務(wù)器接收一待查詢的目標(biāo)圖片,并獲取該目標(biāo)圖片的目標(biāo)視覺單詞集合,或者, 所述服務(wù)器接收針對(duì)待查詢的目標(biāo)圖片的目標(biāo)視覺單詞集合;獲取所述服務(wù)器內(nèi)的包含有所述目標(biāo)視覺單詞集合中的目標(biāo)視覺單詞的各檢索服務(wù) 器,并將該目標(biāo)視覺單詞分配到相對(duì)應(yīng)的包含該目標(biāo)視覺單詞的檢索服務(wù)器;所述檢索服務(wù)器依據(jù)分配的目標(biāo)視覺單詞的檢索請(qǐng)求,在其內(nèi)部的子視覺單詞詞典及 其對(duì)應(yīng)的索引表文件中進(jìn)行檢索,依據(jù)相似性度量規(guī)則,獲取圖片數(shù)據(jù)庫(kù)中部分或全部圖 片的相似性分?jǐn)?shù),根據(jù)相似性分?jǐn)?shù)對(duì)各圖片進(jìn)行排序,得到圖片排序結(jié)果,進(jìn)而將相似性分 數(shù)和對(duì)應(yīng)的圖片排序結(jié)果發(fā)送給所述服務(wù)器;所述服務(wù)器接收并匯總各檢索服務(wù)器傳送的相似性分?jǐn)?shù)和對(duì)應(yīng)的圖片排序結(jié)果,進(jìn)而 將符合所述目標(biāo)圖片的結(jié)果圖片全部或部分輸出。
10. 一種圖片搜索系統(tǒng),其特征在于,包括目標(biāo)視覺單詞集合獲取模塊,所述服務(wù)器接收一待查詢的目標(biāo)圖片,并獲取該目標(biāo)圖 片的目標(biāo)視覺單詞集合,或者,所述服務(wù)器接收針對(duì)待查詢的目標(biāo)圖片的目標(biāo)視覺單詞集 合;查找分配模塊,用于查找服務(wù)器內(nèi)的包含有所述目標(biāo)視覺單詞集合中的目標(biāo)視覺單 詞的各檢索服務(wù)器,并將該目標(biāo)視覺單詞分配到相對(duì)應(yīng)的包含該目標(biāo)視覺單詞的檢索服務(wù) 器;檢索模塊,用于所述檢索服務(wù)器依據(jù)分配的目標(biāo)視覺單詞的檢索請(qǐng)求,在其內(nèi)部的子 視覺單詞詞典及其對(duì)應(yīng)的索引表文件中進(jìn)行檢索,依據(jù)相似性度量規(guī)則,獲取圖片數(shù)據(jù)庫(kù) 中部分或全部圖片的相似性分?jǐn)?shù),根據(jù)相似性分?jǐn)?shù)對(duì)各圖片進(jìn)行排序,得到圖片排序結(jié)果, 進(jìn)而將相似性分?jǐn)?shù)和對(duì)應(yīng)的圖片排序結(jié)果發(fā)送給所述服務(wù)器;匯總輸出模塊,用于所述服務(wù)器接收并匯總各檢索服務(wù)器傳送的相似性分?jǐn)?shù)和對(duì)應(yīng)的 圖片排序結(jié)果,進(jìn)而將符合所述目標(biāo)圖片的結(jié)果圖片全部或部分輸出。
全文摘要
本發(fā)明公開了一種用于分布式圖片搜索的索引構(gòu)建方法和服務(wù)器,其索引構(gòu)建方法的步驟包括提取服務(wù)器的圖片數(shù)據(jù)庫(kù)中所有圖片的一個(gè)以上的特征,并將該些特征轉(zhuǎn)換為視覺單詞集合,得到原始視覺單詞詞典及對(duì)應(yīng)的總索引表;另獲取代表原始視覺單詞詞典的有效視覺單詞詞典,該有效視覺單詞詞典中的每一視覺單詞均建立有各自相對(duì)應(yīng)的倒排記錄表;采用第一預(yù)設(shè)規(guī)則,將有效視覺單詞詞典中的各視覺單詞均衡分配至各檢索服務(wù)器內(nèi),使每一檢索服務(wù)器得到其內(nèi)部的視覺單詞組成的子視覺單詞詞典,以及該子視覺單詞詞典中的每一視覺單詞的倒排記錄表組成該子視覺單詞詞典的索引表。上述方法能夠提高服務(wù)器的檢索效率,滿足了用戶在檢索中實(shí)時(shí)響應(yīng)的需求。
文檔編號(hào)G06F17/30GK102081666SQ20111002414
公開日2011年6月1日 申請(qǐng)日期2011年1月21日 優(yōu)先權(quán)日2011年1月21日
發(fā)明者姚鴻勛, 李冰, 段凌宇, 紀(jì)榮嶸, 陳杰, 高文, 黃鐵軍 申請(qǐng)人:北京大學(xué)