利用網(wǎng)絡(luò)信息挖掘的視頻內(nèi)產(chǎn)品注釋的制作方法
【專利摘要】一種系統(tǒng)向一個或者多個用戶提供視頻中的產(chǎn)品注釋。該系統(tǒng)從用戶接收視頻,其中該視頻包括多個視頻幀。該系統(tǒng)從視頻提取多個關(guān)鍵幀并且生成關(guān)鍵幀的可視化表示。該系統(tǒng)將關(guān)鍵幀的可視化表示與多個產(chǎn)品可視簽名進(jìn)行比較,其中每個可視簽名標(biāo)識一個產(chǎn)品?;陉P(guān)鍵幀的可視化表示和產(chǎn)品可視簽名的比較,該系統(tǒng)確定關(guān)鍵幀是否包含由產(chǎn)品的可視簽名所標(biāo)識的產(chǎn)品。為了生成多個產(chǎn)品可視簽名,該系統(tǒng)收集多個訓(xùn)練圖像,這些訓(xùn)練圖像包括從專家產(chǎn)品庫獲得的專家產(chǎn)品圖像中的多個專家產(chǎn)品圖像,每個專家產(chǎn)品圖像與從多個網(wǎng)絡(luò)資源獲得的多個產(chǎn)品圖像關(guān)聯(lián)。
【專利說明】利用網(wǎng)絡(luò)信息挖掘的視頻內(nèi)產(chǎn)品注釋
[0001]相關(guān)申請的交叉引用[0002]本申請要求對名稱為“In-Video Product Annotation with Web InformationMining”、于2011年4月12日提交的第61/474,328號美國臨時申請的權(quán)益,其全部內(nèi)容通過引用而并入于此?!炯夹g(shù)領(lǐng)域】[0003]描述的實(shí)施例總體上涉及視頻中的產(chǎn)品注釋并且具體地涉及使用網(wǎng)絡(luò)信息挖掘的視頻內(nèi)產(chǎn)品注釋。
【背景技術(shù)】
[0004]隨著存儲設(shè)備、網(wǎng)絡(luò)和壓縮技術(shù)的迅速發(fā)展,來自不同領(lǐng)域的視頻數(shù)據(jù)正在以爆炸速率增長。以向視頻內(nèi)容自動指派描述概念為目標(biāo)的視頻注釋(也公知為視頻概念檢測或者高級特征提取)在既往數(shù)年內(nèi)已經(jīng)引起強(qiáng)烈的研究興趣。然而關(guān)于自動視頻注釋的多數(shù)現(xiàn)有工作都聚焦于高級概念、比如事件(例如飛機(jī)碰撞和運(yùn)行)、景象(例如日落和海灘)和對象類別(例如小汽車和屏幕)而很少有關(guān)于注釋具體產(chǎn)品概念、比如iPhone視頻廣告中的iPhone的研究。[0005]產(chǎn)品概念注釋對許多應(yīng)用、比如視頻瀏覽、搜索和廣告頗為重要。關(guān)于網(wǎng)絡(luò)視頻搜索的查詢?nèi)罩镜难芯勘砻饔脩舯纫话愀拍罡l繁地使用具體查詢。另外,產(chǎn)品注釋能夠顯著提高視頻廣告的相關(guān)性。然而,自動化的產(chǎn)品注釋由于訓(xùn)練數(shù)據(jù)不足和難以生成適當(dāng)可視化表示而具有挑戰(zhàn)。[0006]自動化的產(chǎn)品注釋的第一挑戰(zhàn)在于用于注釋的訓(xùn)練數(shù)據(jù)。現(xiàn)有的基于學(xué)習(xí)的視頻注釋方式大量依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量,但是人工收集訓(xùn)練樣本耗費(fèi)時間并且人力密集。具體而言,對于產(chǎn)品圖像有多視圖問題。具體產(chǎn)品通常具有不同視圖、比如前視圖、側(cè)視圖和后視圖,并且這些視圖可能視覺上大相徑庭。因此需要收集描述產(chǎn)品的不同視圖的訓(xùn)練數(shù)據(jù)。[0007]第二挑戰(zhàn)是有效可視化表示。視覺詞袋(BoVW)特征是流行方式并且已經(jīng)在許多應(yīng)用、比如圖像分類、集群和檢索中展示它的有效性。為了生成圖像的BoVW表示,對關(guān)于多個檢測的關(guān)鍵點(diǎn)或者通過稠密采樣產(chǎn)品圖像的補(bǔ)片而獲得的尺度不變特征轉(zhuǎn)換(SIFT)描述符進(jìn)行提取并且將這些描述符量化成可視詞。生成BoVW直方圖以描述產(chǎn)品圖像。然而圖像的描述符是關(guān)于整個圖像而不是在圖像中所包含的產(chǎn)品部分并且對于產(chǎn)品注釋包含大量噪聲。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的實(shí)施例使用來自網(wǎng)絡(luò)挖掘的產(chǎn)品訓(xùn)練圖像來向一個或者多個用戶提供視頻中的產(chǎn)品注釋。[0009]在一個實(shí)施例中,一種計(jì)算機(jī)系統(tǒng)向一個或者多個用戶提供視頻中的產(chǎn)品注釋服務(wù)。系統(tǒng)從用戶接收視頻,其中視頻包括多個視頻幀。系統(tǒng)從視頻提取多個關(guān)鍵幀并且生成關(guān)鍵幀的可視化表示。系統(tǒng)將關(guān)鍵幀的可視化表示與多個產(chǎn)品可視簽名進(jìn)行比較,其中每個可視簽名標(biāo)識一個產(chǎn)品。為了生成多個產(chǎn)品可視簽名,系統(tǒng)收集多個訓(xùn)練圖像,這些訓(xùn)練圖像包括從專家產(chǎn)品庫獲得的專家產(chǎn)品圖像中的多個專家產(chǎn)品圖像,每個專家產(chǎn)品圖像與從多個網(wǎng)絡(luò)資源獲得的多個產(chǎn)品圖像關(guān)聯(lián)?;陉P(guān)鍵幀的可視化表示和產(chǎn)品可視簽名的比較,系統(tǒng)確定關(guān)鍵幀是否包含由產(chǎn)品的可視簽名所標(biāo)識的產(chǎn)品。
[0010]在說明書中描述的特征和優(yōu)點(diǎn)并非囊括,并且具體而言,許多附加特征和優(yōu)點(diǎn)將鑒于附圖、說明書和權(quán)利要求而為本領(lǐng)域普通技術(shù)人員所清楚。另外,應(yīng)當(dāng)注意,在說明書中使用的言語已經(jīng)主要出于可讀性和指導(dǎo)目的而加以選擇并且可以未被選擇用來界定或者限制公開的主題內(nèi)容。
【專利附圖】
【附圖說明】
[0011]圖1是被配置用于向客戶端提供視頻內(nèi)產(chǎn)品注釋服務(wù)的計(jì)算環(huán)境的框圖。
[0012]圖2是用于生成產(chǎn)品可視簽名并且對在視頻流中檢測到的產(chǎn)品進(jìn)行注釋的視頻內(nèi)產(chǎn)品注釋模塊的框圖。
[0013]圖3是根據(jù)本發(fā)明的一個實(shí)施例的收集用于視頻內(nèi)產(chǎn)品注釋過程的訓(xùn)練圖像的示例。
[0014]圖4是用于共同生成產(chǎn)品可視簽名的產(chǎn)品圖像的示例。
[0015]圖5是根據(jù)本發(fā)明的一個實(shí)施例的用于生成產(chǎn)品的可視簽名的過程的流程圖。
[0016]圖6是根據(jù)本發(fā)明的一個實(shí)施例的用于在視頻流的一個或者多個視頻幀中檢測產(chǎn)品并且對檢測到的產(chǎn)品進(jìn)行注釋的過程的流程圖。
[0017]圖7是根據(jù)本發(fā)明的一個實(shí)施例的視頻內(nèi)產(chǎn)品注釋系統(tǒng)的示例。
[0018]圖8是根據(jù)本發(fā)明的一個實(shí)施例的視頻內(nèi)產(chǎn)品注釋過程的示例結(jié)果。
[0019]附圖僅出于示例的目的而描繪本發(fā)明的各種實(shí)施例。本領(lǐng)域技術(shù)人員將從以下討論容易認(rèn)識可以運(yùn)用這里所示結(jié)構(gòu)和方法的備選實(shí)施例而未脫離這里描述的本發(fā)明的原理。
【具體實(shí)施方式】
[0020]將理解已經(jīng)簡化本發(fā)明的附圖和描述以舉例說明對于清楚理解本發(fā)明的實(shí)施例而言相關(guān)的單元,而為了清楚起見消除在典型的基于網(wǎng)絡(luò)的視頻播放器及其使用方法中發(fā)現(xiàn)的許多其它單元。本領(lǐng)域普通技術(shù)人員可以認(rèn)識在實(shí)施本發(fā)明時希望有和/或需要其它單元和/或步驟。然而,由于這樣的單元和步驟在本領(lǐng)域中是熟知的并且由于它們無助于更好地理解本發(fā)明,所以這里未提供這樣的單元和步驟的討論。這里的公開內(nèi)容涉及對本領(lǐng)域技術(shù)員已知的這樣的單元和方法的所有這樣的變化和修改。
[0021]圖1是被配置用于向客戶端110提供視頻內(nèi)產(chǎn)品注釋的計(jì)算環(huán)境100的框圖。多個用戶/查看者使用客戶端110A-N以向視頻內(nèi)產(chǎn)品注釋服務(wù)120提供視頻流并且請求視頻內(nèi)產(chǎn)品注釋服務(wù)120注釋在視頻流的視頻幀中所包含的產(chǎn)品。產(chǎn)品注釋服務(wù)120存儲視頻流并且用產(chǎn)品檢測和注釋結(jié)果向客戶端110做出對請求的響應(yīng)。每個客戶端110執(zhí)行用于瀏覽視頻流和來自產(chǎn)品注釋服務(wù)120的產(chǎn)品注釋結(jié)果的瀏覽器112。其它實(shí)施例可以具有不同配置。
[0022]轉(zhuǎn)向圖1上所圖示的個體,每個客戶端110由用戶用來使用由視頻內(nèi)產(chǎn)品注釋服務(wù)120所提供的服務(wù)。例如用戶使用客戶端110以瀏覽視頻、請求在視頻中所包含的產(chǎn)品的注釋并且從產(chǎn)品注釋服務(wù)120接收產(chǎn)品檢測和注釋結(jié)果??蛻舳?10可以是任何類型的計(jì)算機(jī)設(shè)備、比如個人計(jì)算機(jī)(例如桌面型、筆記本和膝上型)計(jì)算機(jī)以及有能力記錄視頻內(nèi)容的設(shè)備比如移動電話或者個人數(shù)字助理??蛻舳?10通常包括處理器、顯示設(shè)備(或者向顯示設(shè)備的輸出)、本地存儲裝置(比如硬驅(qū)動或者閃存設(shè)備,客戶端110向該本地存儲裝置存儲用戶在執(zhí)行任務(wù)時使用的數(shù)據(jù))以及用于經(jīng)由網(wǎng)絡(luò)130耦合到視頻內(nèi)產(chǎn)品注釋服務(wù)120的網(wǎng)絡(luò)接口。[0023]網(wǎng)絡(luò)130使得能夠在客戶端110與視頻內(nèi)產(chǎn)品注釋服務(wù)120之間通信。在一個實(shí)施例中,網(wǎng)絡(luò)130是因特網(wǎng)并且使用使客戶端110能夠與視頻內(nèi)產(chǎn)品注釋服務(wù)120通信的、現(xiàn)在已知或者隨后將來開發(fā)的標(biāo)準(zhǔn)化聯(lián)網(wǎng)通信技術(shù)和協(xié)議。在另一實(shí)施例中,網(wǎng)絡(luò)130是云計(jì)算網(wǎng)絡(luò)并且包括視頻內(nèi)產(chǎn)品注釋服務(wù)120的一個或者多個部件。
[0024]在一個實(shí)施例中,有用于檢測和注釋視頻內(nèi)的產(chǎn)品的兩個階段:產(chǎn)品可視簽名生成階段和運(yùn)行時間視頻處理階段。可視簽名生成階段包括三個組成:從庫、例如AMAZON?收集產(chǎn)品的高質(zhì)量可視示例、用因特網(wǎng)產(chǎn)品圖像搜索結(jié)果擴(kuò)展收集的可視示例以及從包括產(chǎn)品的高質(zhì)量可視示例及其來自搜索結(jié)果的對應(yīng)產(chǎn)品圖像的訓(xùn)練示例生成可視簽名。該多種已知產(chǎn)品的可視簽名存儲在產(chǎn)品可視簽名文件中。
[0025]運(yùn)行時間視頻處理階段包括特征提取和產(chǎn)品注釋這兩個組成。對于輸入視頻流,產(chǎn)品注釋服務(wù)120標(biāo)識視頻流的關(guān)鍵幀集合,并且對于每個關(guān)鍵幀,產(chǎn)品注釋服務(wù)120提取可視特征(例如尺度不變特征轉(zhuǎn)換(SIFT)描述符)并且生成提取的特征的可視化表示(例如視覺詞袋(BoVW)直方圖)。產(chǎn)品注釋服務(wù)120通過比較在可視簽名文件中存儲的每個產(chǎn)品的可視特征與輸入視頻的每個關(guān)鍵幀的BoVW直方圖來執(zhí)行產(chǎn)品注釋。
[0026]在圖1中所圖不的實(shí)施例中,視頻內(nèi)廣品注釋服務(wù)120具有視頻內(nèi)廣品注釋I旲塊102、視頻服務(wù)器104和產(chǎn)品圖像數(shù)據(jù)庫106。視頻內(nèi)產(chǎn)品注釋模塊102包括用于產(chǎn)品可視簽名生成的產(chǎn)品可視簽名生成模塊200和用于處理來自客戶端110的輸入視頻的視頻處理模塊300。視頻服務(wù)器104存儲從客戶端110所接收的視頻流和視頻流中的注釋的視頻幀。產(chǎn)品圖像數(shù)據(jù)庫106包括兩個子數(shù)據(jù)庫:數(shù)據(jù)庫I (106A)和數(shù)據(jù)庫2 (106B),用以存儲從一個或者多個在線產(chǎn)品商戶、比如AMAZON?獲得的高質(zhì)量產(chǎn)品圖像和通過因特網(wǎng)搜索收集的相關(guān)廣品圖像。
[0027]來自已知產(chǎn)品商戶的產(chǎn)品圖像一般具有高可視質(zhì)量,但是它們用于給定的產(chǎn)品的數(shù)目可能有限。對于給定的產(chǎn)品,使用各種搜索引擎、比如G00GLE?通過因特網(wǎng)搜索獲得的相關(guān)的產(chǎn)品圖像的數(shù)目可能龐大但是有噪聲(例如包含與產(chǎn)品無關(guān)的文字信息)。產(chǎn)品注釋服務(wù)120基于高質(zhì)量產(chǎn)品圖像過濾從因特網(wǎng)搜索結(jié)果獲得的相關(guān)產(chǎn)品圖像以生成產(chǎn)品可視簽名,并且使用產(chǎn)品可視簽名以檢測和注釋視頻流中的產(chǎn)品。為了簡化本發(fā)明的一個實(shí)施例,來自已知商戶的高質(zhì)量產(chǎn)品圖像被稱為“專家產(chǎn)品圖像”,并且對于給定的專家產(chǎn)品圖像,從因特網(wǎng)搜索獲得的它的關(guān)聯(lián)圖像被稱為“擴(kuò)展產(chǎn)品圖像”。
[0028]視頻內(nèi)產(chǎn)品注釋-可視簽名生成
[0029]圖2是根據(jù)一個實(shí)施例的用于生成產(chǎn)品可視簽名并且對在視頻流中檢測到的產(chǎn)品進(jìn)行注釋的視頻內(nèi)產(chǎn)品注釋模塊102的框圖。產(chǎn)品注釋模塊102包括產(chǎn)品可視簽名生成模塊200和視頻處理模塊300。產(chǎn)品可視簽名生成模塊200包括專家產(chǎn)品圖像模塊210、擴(kuò)展產(chǎn)品圖像模塊220和可視簽名生成模塊230。視頻處理模塊300包括幀提取模塊310、特征提取和量化模塊320和產(chǎn)品注釋模塊330。
[0030]產(chǎn)品可視簽名生成模塊200被配置用于生成產(chǎn)品可視簽名。專家產(chǎn)品圖像模塊210被配置用于收集產(chǎn)品的高質(zhì)量可視示例(例如在不同視圖、比如前視圖、側(cè)視圖和后視圖中的專家產(chǎn)品圖像)。在一個實(shí)施例中,專家產(chǎn)品圖像模塊210針對多種消費(fèi)者產(chǎn)品、t匕如數(shù)碼相機(jī)、汽車和數(shù)字電話從AMAZON?收集專家產(chǎn)品圖像。
[0031]給定的產(chǎn)品的專家產(chǎn)品圖像經(jīng)常太少而無法構(gòu)造用于產(chǎn)品的良好可視簽名。例如針對產(chǎn)品從AMAZON?收集的專家產(chǎn)品圖像數(shù)目從I至8變化。在另一方面,在因特網(wǎng)上有可用的可以通過圖像搜索引擎容易訪問的大量不同尺寸和視圖的產(chǎn)品圖像。在一個實(shí)施例中,擴(kuò)展產(chǎn)品圖像模塊220被配置用于從因特網(wǎng)收集具有一個或者多個專家產(chǎn)品圖像的產(chǎn)品的關(guān)聯(lián)圖像。例如,對于每個專家產(chǎn)品圖像,將產(chǎn)品名稱用作使用G00GLE?搜索引擎在因特網(wǎng)中針對關(guān)聯(lián)產(chǎn)品圖像的搜索查詢。該過程用于使用網(wǎng)絡(luò)產(chǎn)品圖像數(shù)據(jù)庫來擴(kuò)展專家產(chǎn)品圖像。
[0032]來自因特網(wǎng)搜索的圖像包含大量噪聲、例如文字信息(比如圍繞標(biāo)題的文字,這些文字中的許多文字都與搜索查詢無關(guān))。在簽名生成模塊230生成產(chǎn)品的可視特征之前,簽名生成模塊230基于專家產(chǎn)品圖像對來自因特網(wǎng)搜索結(jié)果的擴(kuò)展產(chǎn)品圖像重新排序。對于每個專家產(chǎn)品圖像,選擇與專家產(chǎn)品圖像接近的預(yù)定數(shù)目的擴(kuò)展產(chǎn)品圖像作為過濾的結(jié)果。對于給定的產(chǎn)品,專家產(chǎn)品圖像和過濾的擴(kuò)展產(chǎn)品圖像形成用于產(chǎn)品的正向訓(xùn)練圖像集合,從該集合簽名生成模塊230生成用于產(chǎn)品的可視特征。已知產(chǎn)品的訓(xùn)練圖像的收集可以是自動化的以提高視頻內(nèi)產(chǎn)品注釋系統(tǒng)性能。
[0033]為了過濾與專家產(chǎn)品圖像關(guān)聯(lián)的擴(kuò)展產(chǎn)品圖像,簽名生成模塊230提取專家產(chǎn)品圖像及其關(guān)聯(lián)的擴(kuò)展產(chǎn)品圖像的可視特征。在一個實(shí)施例中,產(chǎn)品圖像的可視特征是視覺詞袋(BoVW)特征。簽名生成模塊230關(guān)于若干檢測的關(guān)鍵點(diǎn)或者通過稠密采樣每個產(chǎn)品圖像的補(bǔ)片來提取一個或者多個SIFT描述符并且將SIFT描述符量化成多個可視詞。從量化的SIFT描述符生成BoVW直方圖以描述每個圖像。例如簽名生成模塊230使用可視特征檢測和提取方法、例如高斯差值方法以從產(chǎn)品圖像提取128維SIFT特征并且將SIFT特征分組成具有分級K均值的160,000個集群。產(chǎn)品圖像由160,000維BoVW直方圖所代表。
[0034]對于每個專家產(chǎn)品圖像,簽名生成模塊230基于在下式(I)中定義的相似度測量
從與專家產(chǎn)品圖像關(guān)聯(lián)的擴(kuò)展產(chǎn)品圖像選擇預(yù)定數(shù)目的最近近鄰:
[0035]
【權(quán)利要求】
1.一種用于向一個或者多個用戶提供視頻中的產(chǎn)品注釋的計(jì)算機(jī)方法,所述方法包括: 接收用于產(chǎn)品注釋的視頻,所述視頻包括多個視頻幀; 從所述視頻幀提取多個關(guān)鍵幀;以及 對于每個關(guān)鍵幀: 生成所述關(guān)鍵幀的可視化表示; 比較所述可視化表示與多個產(chǎn)品可視簽名;以及 基于所述比較,確定所述關(guān)鍵幀是否包含由所述產(chǎn)品可視簽名之一所標(biāo)識的產(chǎn)品。
2.根據(jù)權(quán)利要求1所述的方法,其中從所述視頻提取多個關(guān)鍵幀包括: 在所述視頻的固定點(diǎn)提取所述多個關(guān)鍵幀中的每個關(guān)鍵幀。
3.根據(jù)權(quán)利要求1所述的方法,其中生成關(guān)鍵幀的所述可視簽名包括: 從所述關(guān)鍵幀提取多個可視特征; 將所述多個可視特征分組成多個集群;以及 生成多維視覺詞袋直方圖作為所述關(guān)鍵幀的所述可視簽名。
4.根據(jù)權(quán)利要求3所述的方法,其中關(guān)鍵幀的所述多個可視特征是所述關(guān)鍵幀的尺度不變特征轉(zhuǎn)換(SIFT)描述符。
5.根據(jù)權(quán)利要求1所述的方法,還包括: 對于多個產(chǎn)品中的每個產(chǎn)品: 收集所述產(chǎn)品的多個訓(xùn)練圖像;以及 根據(jù)所述產(chǎn)品的所收集的訓(xùn)練圖像來生成所述產(chǎn)品的可視簽名。
6.根據(jù)權(quán)利要求5所述的方法,其中收集產(chǎn)品的所述多個訓(xùn)練圖像包括: 從專家產(chǎn)品庫收集所述產(chǎn)品的多個專家產(chǎn)品圖像; 對于所述產(chǎn)品的每個專家產(chǎn)品圖像: 從多個網(wǎng)絡(luò)資源搜索多個相關(guān)產(chǎn)品圖像;以及 基于在相關(guān)產(chǎn)品圖像中的每個相關(guān)產(chǎn)品圖像與所述專家產(chǎn)品圖像之間的相似度測量來選擇預(yù)定數(shù)目的相關(guān)產(chǎn)品圖像, 其中所述專家產(chǎn)品圖像和所選擇的相關(guān)產(chǎn)品圖像包括所述產(chǎn)品的所述訓(xùn)練圖像。
7.根據(jù)權(quán)利要求5所述的方法,其中根據(jù)所述產(chǎn)品的所收集的訓(xùn)練圖像來生成所述產(chǎn)品的可視簽名包括: 將集體稀疏化方案應(yīng)用于所述產(chǎn)品的所述訓(xùn)練圖像,其中在生成所述產(chǎn)品的所述可視簽名時減少與在相關(guān)產(chǎn)品圖像中包含的所述產(chǎn)品無關(guān)的信息。
8.根據(jù)權(quán)利要求5所述的方法,其中根據(jù)所述產(chǎn)品的所收集的訓(xùn)練圖像來生成所述產(chǎn)品的可視簽名包括: 通過預(yù)定數(shù)目的迭代來迭代地更新所述產(chǎn)品的所述可視簽名。
9.根據(jù)權(quán)利要求5所述的方法,其中產(chǎn)品的所述多個專家產(chǎn)品圖像包括所述產(chǎn)品在不同視圖的專家產(chǎn)品圖像。
10.根據(jù)權(quán)利要求1所述的方法,其中確定關(guān)鍵幀是否包含由所述產(chǎn)品可視簽名之一所標(biāo)識的產(chǎn)品包括: 估計(jì)在所述關(guān)鍵幀的所述可視化表示與所述多個產(chǎn)品可視簽名中的每個產(chǎn)品可視簽名之間的廣品相關(guān)度;以及 基于所估計(jì)的產(chǎn)品相關(guān)度,確定關(guān)鍵幀是否包含由所述產(chǎn)品可視簽名之一所標(biāo)識的產(chǎn)品。
11.一種存儲可執(zhí)行計(jì)算機(jī)程序指令的非瞬態(tài)計(jì)算機(jī)可讀存儲介質(zhì),所述可執(zhí)行計(jì)算機(jī)程序指令用于向一個或者多個用戶提供按需數(shù)字資產(chǎn)托管服務(wù),所述計(jì)算機(jī)程序指令包括用于以下操作的指令: 從用戶接收用于產(chǎn)品注釋的視頻,所述視頻包括多個視頻幀; 從所述視頻提取多個關(guān)鍵幀;以及 對于每個關(guān)鍵幀: 生成所述關(guān)鍵幀的可視化表示; 比較所述可視化表示與多個產(chǎn)品可視簽名;以及 基于所述比較,確定所述關(guān)鍵幀是否包含由所述產(chǎn)品可視簽名之一所標(biāo)識的產(chǎn)品。
12.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲介質(zhì),其中用于從所述視頻提取多個關(guān)鍵幀的所述計(jì)算機(jī)程序指令包括用于以下操作的指令: 在所述視頻的固定點(diǎn)提取所述多個關(guān)鍵幀中的每個關(guān)鍵幀。
13.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲介質(zhì),其中用于生成關(guān)鍵幀的所述可視簽名的所述計(jì)算機(jī)程序指令包括用于以下操作的指令: 從所述關(guān)鍵幀提取多個可視特征; 將所述多個可視特征分組成多個集群;以及 生成多維視覺詞袋直方圖作為所述關(guān)鍵幀的所述可視簽名。
14.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)可讀存儲介質(zhì),其中關(guān)鍵幀的所述多個可視特征是所述關(guān)鍵幀的尺度不變特征轉(zhuǎn)換(SIFT)描述符。
15.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲介質(zhì),還包括用于以下操作的計(jì)算機(jī)程序指令: 對于多個產(chǎn)品中的每個產(chǎn)品: 收集所述產(chǎn)品的多個訓(xùn)練圖像;以及 根據(jù)所述產(chǎn)品的所收集的訓(xùn)練圖像來生成所述產(chǎn)品的可視簽名。
16.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)可讀存儲介質(zhì),其中用于收集產(chǎn)品的所述多個訓(xùn)練圖像的所述計(jì)算機(jī)程序指令包括用于以下操作的指令: 從專家產(chǎn)品庫收集所述產(chǎn)品的多個專家產(chǎn)品圖像; 對于所述產(chǎn)品的每個專家產(chǎn)品圖像: 從多個網(wǎng)絡(luò)資源搜索多個相關(guān)產(chǎn)品圖像;以及 基于在相關(guān)產(chǎn)品圖像中的每個相關(guān)產(chǎn)品圖像與所述專家產(chǎn)品圖像之間的相似度測量來選擇預(yù)定數(shù)目的相關(guān)產(chǎn)品圖像, 其中所述專家產(chǎn)品圖像和所選擇的相關(guān)產(chǎn)品圖像包括所述產(chǎn)品的所述訓(xùn)練圖像。
17.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)可讀存儲介質(zhì),其中用于根據(jù)所述產(chǎn)品的所收集的訓(xùn)練圖像來生成所述產(chǎn)品的可視簽名的所述計(jì)算機(jī)程序指令包括用于以下操作的指令: 將集體稀疏化方案應(yīng)用于所述產(chǎn)品的所述訓(xùn)練圖像,其中在生成所述產(chǎn)品的所述可視簽名時減少與在相關(guān)產(chǎn)品圖像中包含的所述產(chǎn)品無關(guān)的信息。
18.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)可讀存儲介質(zhì),其中用于根據(jù)所述產(chǎn)品的所收集的訓(xùn)練圖像來生成所述產(chǎn)品的可視簽名的所述計(jì)算機(jī)程序指令還包括用于以下操作的指令: 通過預(yù)定數(shù)目的迭代來迭代地更新所述產(chǎn)品的所述可視簽名。
19.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)可讀存儲介質(zhì),其中產(chǎn)品的所述多個專家產(chǎn)品圖像包括所述產(chǎn)品在不同視圖的專家產(chǎn)品圖像。
20.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲介質(zhì),其中用于確定關(guān)鍵幀是否包含由所述產(chǎn)品可視簽名之一所標(biāo)識的產(chǎn)品的所述計(jì)算機(jī)程序指令包括用于以下操作的指令: 估計(jì)在所述關(guān)鍵幀的所述可視化表示與所述多個產(chǎn)品可視簽名中的每個產(chǎn)品可視簽名之間的廣品相關(guān)度;以及 基于所估計(jì)的產(chǎn)品相關(guān)度,確定關(guān)鍵幀是否包含由所述產(chǎn)品可視簽名之一所標(biāo)識的產(chǎn)品O
【文檔編號】G06K9/62GK103608826SQ201280027434
【公開日】2014年2月26日 申請日期:2012年4月11日 優(yōu)先權(quán)日:2011年4月12日
【發(fā)明者】蔡達(dá)成, 李廣達(dá), 盧正, 汪萌 申請人:新加坡國立大學(xué)