两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

使用運(yùn)動(dòng)流形來(lái)改進(jìn)圖像匹配的制作方法

文檔序號(hào):7993669閱讀:174來(lái)源:國(guó)知局
使用運(yùn)動(dòng)流形來(lái)改進(jìn)圖像匹配的制作方法
【專利摘要】一種運(yùn)動(dòng)流形系統(tǒng),分析視頻集合,從而識(shí)別在那些視頻內(nèi)與感興趣的區(qū)域?qū)?yīng)的圖像圖塊,并且通過跟蹤該區(qū)域在視頻中隨時(shí)間的移動(dòng)來(lái)識(shí)別圖塊軌跡?;趫D塊識(shí)別和跟蹤,該系統(tǒng)產(chǎn)生運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu),該運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)捕獲相同語(yǔ)義區(qū)域可以隨時(shí)間具有不同視覺表示的方式。然后,可以應(yīng)用運(yùn)動(dòng)流形以確定在不同圖塊之間或者在更高級(jí)別構(gòu)造、諸如圖像或者視頻段之間的語(yǔ)義相似性,包括檢測(cè)在視覺上不相似的圖塊或者其它構(gòu)造之間的語(yǔ)義相似性。
【專利說明】使用運(yùn)動(dòng)流形來(lái)改進(jìn)圖像匹配
【技術(shù)領(lǐng)域】
[0001]本公開一般地涉及數(shù)字視頻領(lǐng)域,并且更具體地涉及確定兩個(gè)圖像或者其部分的語(yǔ)義相似性的方法。
【背景技術(shù)】
[0002]對(duì)圖像和視頻的自動(dòng)化分析具有諸多有用的應(yīng)用。作為一個(gè)示例,用于量化圖像或者其中的對(duì)象的語(yǔ)義相似性的能力將允許用戶搜尋與當(dāng)前被觀看的圖像或者視頻相似的圖像或者視頻,或者允許系統(tǒng)在視頻內(nèi)跨時(shí)間識(shí)別特定對(duì)象而無(wú)論它的視覺外觀如何改變。
[0003]然而,常規(guī)技術(shù)在比較兩個(gè)視覺對(duì)象或者隨時(shí)間跟蹤對(duì)象時(shí)依賴于一致視覺相似性的存在。雖然這樣的技術(shù)可以應(yīng)用于具有一致視覺表示的對(duì)象,但是它們?cè)诳赡茏冃蔚膶?duì)象(諸如破裂氣球或者隨時(shí)間張開和閉合的眼睛)、能夠進(jìn)行有關(guān)節(jié)的運(yùn)動(dòng)的對(duì)象(諸如人或者動(dòng)物)和可能隨時(shí)間明顯改變它們的視覺外觀的其它類型的對(duì)象的情況下表現(xiàn)欠佳。

【發(fā)明內(nèi)容】

[0004]一種計(jì)算機(jī)實(shí)施的方法的一個(gè)實(shí)施例包括識(shí)別數(shù)字視頻集合中的語(yǔ)義區(qū)域并且通過跨視頻的幀跟蹤與語(yǔ)義區(qū)域?qū)?yīng)的圖塊(patch)來(lái)識(shí)別圖塊軌跡。該方法還包括使用圖塊軌跡來(lái)創(chuàng)建運(yùn)動(dòng)流形(manifold),該運(yùn)動(dòng)流形針對(duì)語(yǔ)義區(qū)域中的語(yǔ)義區(qū)域指示語(yǔ)義區(qū)域的不同視覺表示。該方法還包括存儲(chǔ)運(yùn)動(dòng)流形。
[0005]一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的實(shí)施例具有在其上體現(xiàn)的用于執(zhí)行動(dòng)作的可執(zhí)行計(jì)算機(jī)程序。這些動(dòng)作包括識(shí)別數(shù)字視頻集合中的視頻的語(yǔ)義區(qū)域并且通過跨視頻的幀跟蹤與語(yǔ)義區(qū)域?qū)?yīng)的圖塊來(lái)識(shí)別圖塊軌跡。這些動(dòng)作還包括使用圖塊軌跡來(lái)創(chuàng)建運(yùn)動(dòng)流形,該運(yùn)動(dòng)流形針對(duì)語(yǔ)義區(qū)域中的語(yǔ)義區(qū)域指示語(yǔ)義區(qū)域的不同視覺表示,并且存儲(chǔ)運(yùn)動(dòng)流形。
[0006]在一個(gè)實(shí)施例中,一種計(jì)算機(jī)系統(tǒng)包括計(jì)算機(jī)處理器和具有在其中體現(xiàn)的可執(zhí)行計(jì)算機(jī)程序指令的計(jì)算機(jī)可讀介質(zhì)。在由計(jì)算機(jī)處理器執(zhí)行時(shí),該指令執(zhí)行動(dòng)作,這些動(dòng)作包括識(shí)別數(shù)字視頻集合中的視頻的語(yǔ)義區(qū)域并且通過跨視頻的幀跟蹤與語(yǔ)義區(qū)域?qū)?yīng)的圖塊來(lái)識(shí)別圖塊軌跡。這些動(dòng)作還包括使用圖塊軌跡來(lái)創(chuàng)建運(yùn)動(dòng)流形,該運(yùn)動(dòng)流形針對(duì)語(yǔ)義區(qū)域中的語(yǔ)義區(qū)域指示語(yǔ)義區(qū)域的不同視覺表示,并且存儲(chǔ)運(yùn)動(dòng)流形。
[0007]一種計(jì)算機(jī)實(shí)施的方法的一個(gè)實(shí)施例包括訪問運(yùn)動(dòng)流形,該運(yùn)動(dòng)流形針對(duì)包括視覺上相似的圖像圖塊的圖塊聚類(cluster)對(duì)來(lái)量化從在視頻的過程期間、在圖塊聚類中的圖塊之間的轉(zhuǎn)變的分析中推導(dǎo)的語(yǔ)義相似性的程度。該方法還包括使用運(yùn)動(dòng)流形來(lái)確定來(lái)自第一視覺元素的第一圖塊與來(lái)自第二視覺元素的第二圖塊之間的語(yǔ)義相似性的程度。
[0008]在說明書中描述的特征和優(yōu)點(diǎn)并非窮盡的,并且具體而言,許多附加特征和優(yōu)點(diǎn)將鑒于附圖、說明書和權(quán)利要求而為本領(lǐng)域普通技術(shù)人員所清楚。另外,應(yīng)當(dāng)注意在說明書中使用的言語(yǔ)已經(jīng)主要出于可讀性和指導(dǎo)目的而加以選擇并且可能未被選擇用于界定或者限制發(fā)明主題。
【專利附圖】

【附圖說明】
[0009]圖1是根據(jù)一個(gè)實(shí)施例的其中可以構(gòu)造運(yùn)動(dòng)流形的視頻共享服務(wù)的框圖。
[0010]圖2圖示用于區(qū)域的隨時(shí)間變化的軌跡的概念。
[0011]圖3圖示根據(jù)一個(gè)實(shí)施例的圖1的運(yùn)動(dòng)流形模塊的各種部件。
[0012]圖4A和圖4B分別圖示示例聚類圖和對(duì)應(yīng)聚類矩陣。
[0013]圖5A和圖5B是表不根據(jù)一個(gè)實(shí)施例的由運(yùn)動(dòng)流形模塊分析、產(chǎn)生和/或應(yīng)用的各種類型的數(shù)據(jù)的關(guān)系和推導(dǎo)的數(shù)據(jù)流圖。
[0014]附圖僅出于示例的目的而描繪本公開的各實(shí)施例。本領(lǐng)域技術(shù)人員將從以下描述容易認(rèn)識(shí)到可以運(yùn)用這里所示結(jié)構(gòu)和方法的備選實(shí)施例而不脫離這里描述的本公開的原理。
【具體實(shí)施方式】
[0015]系統(tǒng)架構(gòu)
[0016]圖1是根據(jù)一個(gè)實(shí)施例的其中可以運(yùn)用分類器訓(xùn)練的示例視頻共享服務(wù)100的框圖。視頻共享服務(wù)100表示一個(gè)系統(tǒng),諸如YOUTUBE系統(tǒng),該系統(tǒng)存儲(chǔ)內(nèi)容提供者130提供的視頻并且使視頻可用于客戶端,諸如客戶端設(shè)備135。視頻共享服務(wù)100因此經(jīng)由網(wǎng)絡(luò)140與多個(gè)內(nèi)容提供者130和客戶端設(shè)備135通信以有助于在用戶之間共享視頻內(nèi)容。注意,為了清楚,圖1僅描繪了內(nèi)容提供者130和客戶端設(shè)備135的一個(gè)實(shí)例,但是可以存在任何數(shù)目的內(nèi)容提供者和客戶端設(shè)備。
[0017]視頻共享服務(wù)100還包括前端接口 102、視頻服務(wù)提供模塊104、視頻搜索模塊106、上傳服務(wù)器108和視頻貯存庫(kù)116。未示出其它常規(guī)特征、諸如防火墻、負(fù)荷平衡器、認(rèn)證服務(wù)器、應(yīng)用服務(wù)器、故障恢復(fù)服務(wù)器、站點(diǎn)管理工具等以便更清楚地圖示視頻共享服務(wù)100的特征。適合的服務(wù)100的一個(gè)示例是在www.youtube, com上找到的YOUTUBE網(wǎng)站。其它視頻托管站點(diǎn)也是已知的并且可以適于根據(jù)這里公開的教導(dǎo)來(lái)操作。可以將視頻共享服務(wù)100的所示部件實(shí)施為單個(gè)或者多個(gè)軟件或者硬件部件。一般而言,在一個(gè)實(shí)施例中描述為由一個(gè)部件執(zhí)行的功能在其它實(shí)施例中也可以由其它部件執(zhí)行或者由部件組合執(zhí)行。另外,在一個(gè)實(shí)施例中描述為由視頻共享服務(wù)100的部件執(zhí)行的功能在適當(dāng)?shù)那闆r下在其它實(shí)施例中也可以由一個(gè)或者多個(gè)客戶端135執(zhí)行。
[0018]客戶端設(shè)備135是執(zhí)行客戶端軟件、例如web瀏覽器或者內(nèi)置客戶端應(yīng)用以經(jīng)由網(wǎng)絡(luò)140連接到視頻共享服務(wù)100的前端接口 102并且顯示視頻的計(jì)算設(shè)備。客戶端設(shè)備135可以例如是個(gè)人計(jì)算機(jī)、個(gè)人數(shù)字助理、智能電話、膝上型計(jì)算機(jī)、電視“機(jī)頂盒”等。
[0019]在概念上,內(nèi)容提供者130向視頻共享服務(wù)100提供視頻內(nèi)容,并且客戶端135觀看該內(nèi)容。在實(shí)踐中,內(nèi)容提供者也可以是內(nèi)容觀看者。此外,內(nèi)容提供者130可以是操作視頻共享服務(wù)100的相同實(shí)體。
[0020]內(nèi)容提供者130操作客戶端設(shè)備以執(zhí)行各種內(nèi)容提供者功能。內(nèi)容提供者功能可以例如包括向視頻共享服務(wù)100上傳視頻文件、編輯視頻共享服務(wù)100存儲(chǔ)的視頻文件或者編輯與視頻文件關(guān)聯(lián)的內(nèi)容提供者偏好。
[0021]客戶端135在設(shè)備上操作以觀看視頻共享服務(wù)100存儲(chǔ)的視頻內(nèi)容??蛻舳?35也可以用來(lái)配置與視頻內(nèi)容有關(guān)的觀看者偏好。在一些實(shí)施例中,客戶端135包括嵌入式視頻播放器、諸如例如來(lái)自Adobe Systems, Inc.的FLASH播放器或者適合用于在視頻共享服務(wù)100中使用的視頻文件格式的任何其它播放器。注意,如這里所使用的術(shù)語(yǔ)“客戶端”和“內(nèi)容提供者”可以如從使用該術(shù)語(yǔ)的上下文清楚得知的那樣是指提供客戶端和內(nèi)容提供功能的軟件、軟件在其上執(zhí)行的硬件或者操作軟件和/或硬件的實(shí)體。
[0022]視頻共享服務(wù)100的上傳服務(wù)器108從客戶端135接收視頻內(nèi)容。在視頻貯存庫(kù)116中存儲(chǔ)接收的內(nèi)容。響應(yīng)于來(lái)自客戶端135的請(qǐng)求,視頻服務(wù)提供模塊104向客戶端135提供來(lái)自視頻貯存庫(kù)116的視頻數(shù)據(jù)??蛻舳?35也可以使用視頻搜索模塊106、諸如通過錄入包含感興趣的關(guān)鍵詞的文本查詢來(lái)搜尋在視頻貯存庫(kù)116中存儲(chǔ)的感興趣的視頻。前端接口 102提供在客戶端135與視頻共享服務(wù)100的各種部件之間的接口。
[0023]視頻貯存庫(kù)116包含內(nèi)容提供者130提交的視頻集合117。視頻貯存庫(kù)116可以包含任何數(shù)目的視頻117、諸如數(shù)以萬(wàn)計(jì)或者數(shù)以億計(jì)。視頻117中的每個(gè)視頻具有使它區(qū)別于其它視頻中的每個(gè)其它視頻的唯一視頻標(biāo)識(shí)符、諸如文本名稱(例如,串“a91qrx8”)、整數(shù)或者唯一命名視頻的任何其它方式??梢砸愿鞣N容器(container)、諸如AV1、MP4或者M(jìn)OV封裝視頻117并且可以使用視頻編解碼器、諸如MPEG-2、MPEG-4、H.264等對(duì)視頻117進(jìn)行編碼。除了它們的視聽內(nèi)容之外,視頻117還可以具有上傳了視頻的內(nèi)容提供者130所提供的關(guān)聯(lián)元數(shù)據(jù)117A,例如文本元數(shù)據(jù)、諸如標(biāo)題、描述和/或標(biāo)簽。
[0024]視頻共享服務(wù)100還包括分析視頻117內(nèi)的內(nèi)容并且創(chuàng)建運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)的運(yùn)動(dòng)流形模塊119,該運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)捕獲相同邏輯對(duì)象可能隨時(shí)間在視覺上變化的方式。更具體而言,運(yùn)動(dòng)流形模塊119跨連續(xù)視頻幀跟蹤“圖塊”的移動(dòng)和改變,“圖塊”是與圖像幀的在語(yǔ)義上有意義的區(qū)域、諸如完整對(duì)象(例如,眼睛)或者其個(gè)別點(diǎn)(例如,在眼角的點(diǎn))對(duì)應(yīng)的圖像數(shù)據(jù)。
[0025]例如,考慮人臉的視頻,該視頻示出人的眼睛和嘴。眼睛的視覺外觀和性質(zhì)可以在視頻段的過程內(nèi)改變、諸如隨著相機(jī)放大和縮小而變得略微更大或者更小或者從閉合狀態(tài)(即,眼皮覆蓋眼睛)改變成張開狀態(tài),并且眼睛的位置可能隨著相機(jī)搖動(dòng)而跨圖像幀改變。因此,表示眼睛的區(qū)域不僅可能改變位置(例如,由于人轉(zhuǎn)動(dòng)他的或者她的頭部)而且可能改變大小(例如,由于人眨眼)。相似地,嘴的形狀和大小隨著人在說話而隨時(shí)改變。與諸如這樣的區(qū)域關(guān)聯(lián)的是表示眼睛和嘴的圖像數(shù)據(jù)的圖塊,其大小和位置是跨幀而被跟蹤的。作為另一示例,考慮貓?zhí)S的視頻。這里同樣,與貓關(guān)聯(lián)的區(qū)域的大小和形狀在視頻的持續(xù)時(shí)間內(nèi)迅速改變。應(yīng)當(dāng)注意圖塊不需要對(duì)應(yīng)于必然離散或者完整的對(duì)象,例如圖塊可以僅對(duì)應(yīng)于臉、貓等的一部分,或者可以對(duì)應(yīng)于事件、諸如在電影視頻中的爆炸。
[0026]跨時(shí)間與相同語(yǔ)義區(qū)域?qū)?yīng)的跟蹤的圖塊集合被稱為“軌跡”。圖2圖示用于區(qū)域的隨時(shí)間變化的軌跡的概念。示例視頻117包括許多幀210,在圖2中描繪了這些幀的子集。軌跡220表示隨著特定對(duì)象在視頻段的過程內(nèi)改變位置、大小和形狀而顯示該特定對(duì)象的邏輯區(qū)域的集合,并因此可以被可視化為在幀平面內(nèi)具有空間范圍(例如,輪廓)和在一定數(shù)目的連續(xù)幀內(nèi)具有時(shí)間范圍的體積。具體而言,軌跡包括與對(duì)象對(duì)應(yīng)的多個(gè)圖塊,諸如圖2中所示十個(gè)圖塊。在第一所示圖塊220A中,區(qū)域比較小、比它的高度明顯更寬并且位于它的幀的左上側(cè)中。隨著視頻進(jìn)展,截至第七幀,圖塊220B已經(jīng)變得更高而保持相同寬度并且在它的幀中比圖塊220A位于更右側(cè)而且有些更低。最后所示圖塊220C已經(jīng)變得甚至更高、因此接近圓形并且在幀中更下移。應(yīng)理解圖2完全用于示例的目的。在多數(shù)情況下,軌跡將例如具有比十幀更大的持續(xù)時(shí)間。
[0027]跟蹤允許觀察相同對(duì)象隨時(shí)間采用的不同視覺外觀,諸如貓?jiān)谡九c坐之間采用的各種位置、變色龍可以在保持靜止時(shí)采用的各種顏色或者爆破氣球的各種形狀。圖1的運(yùn)動(dòng)流形模塊119然后對(duì)在視覺上相似的圖塊進(jìn)行分組并且形成捕獲觀察到的時(shí)間轉(zhuǎn)變的運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)。因此,運(yùn)動(dòng)流形表示對(duì)于相同邏輯區(qū)域,圖塊可以如何隨時(shí)間改變它的外觀??梢允褂貌煌瑪?shù)據(jù)結(jié)構(gòu)、諸如圖和/或圖的替代表示、諸如矩陣來(lái)表示運(yùn)動(dòng)流形。然后,可以應(yīng)用運(yùn)動(dòng)流形來(lái)量化各圖塊或者包含圖塊的更復(fù)雜圖像結(jié)構(gòu)(諸如完整圖像或者視頻段)的語(yǔ)義相似性。
[0028]雖然在圖1中描繪為視頻共享服務(wù)100的部分,但是在一些實(shí)施例中,運(yùn)動(dòng)流形模塊119可以從視頻共享服務(wù)分離。例如,運(yùn)動(dòng)流形模塊119可以位于遠(yuǎn)離視頻共享服務(wù)100的地方并且經(jīng)由網(wǎng)絡(luò)140可訪問,并且可以由與操作視頻共享服務(wù)的組織不同的組織操作。更一般而言,可以在提供存儲(chǔ)的視頻的貯存庫(kù)的任何系統(tǒng)中或者針對(duì)該系統(tǒng)實(shí)施運(yùn)動(dòng)流形模塊119。
[0029]圖3圖示根據(jù)一個(gè)實(shí)施例的運(yùn)動(dòng)流形模塊119的各種部件。在該實(shí)施例中,運(yùn)動(dòng)流形模塊119包括識(shí)別將被跟蹤的各圖塊的圖塊識(shí)別模塊305。如以上注意到的那樣,圖塊表示視頻圖像的、在語(yǔ)義上感興趣的區(qū)域。圖塊識(shí)別模塊305可以使用各種不同算法來(lái)識(shí)別與將被識(shí)別的各種類型的對(duì)象對(duì)應(yīng)的圖塊。
[0030]在一些實(shí)施例中,圖塊對(duì)應(yīng)于作為整體的邏輯對(duì)象、諸如人眼。在這樣的實(shí)施例中,使用對(duì)象分割技術(shù)、諸如自適應(yīng)背景減法、利用聚類算法的空間和時(shí)間分割或者本領(lǐng)域技術(shù)人員已知的其它算法來(lái)識(shí)別對(duì)象的圖塊。在一個(gè)實(shí)施例中,使用均值移位算法,該均值移位算法在視頻的單個(gè)幀內(nèi)運(yùn)用聚類。在基于均值移位算法的分割中,例如通過將圖像的每個(gè)像素轉(zhuǎn)換成對(duì)應(yīng)值、諸如顏色值、梯度值、紋理測(cè)量值等來(lái)將幀轉(zhuǎn)換成標(biāo)記(token)。然后將窗均勻地定位于數(shù)據(jù)周圍,并且針對(duì)每個(gè)窗計(jì)算質(zhì)心,即該窗中的數(shù)據(jù)值的均值位置,并且將每個(gè)窗重新居中于該點(diǎn)周圍。重復(fù)這一過程直至窗收斂,即找到局部中心。然后將收斂至相同點(diǎn)的窗遍歷的數(shù)據(jù)聚集在一起,從而產(chǎn)生分離圖像區(qū)域的集合。
[0031]在其它實(shí)施例中,圖塊對(duì)應(yīng)于更大對(duì)象的各點(diǎn)、諸如眼睛的內(nèi)眼角。在一些實(shí)施例中應(yīng)用諸如哈里斯興趣點(diǎn)算符這樣的技術(shù)以找到角點(diǎn)并且在視頻中跨幀跟蹤它們。
[0032]運(yùn)動(dòng)流形模塊119還包括針對(duì)每個(gè)識(shí)別的圖塊推導(dǎo)表征該圖塊的對(duì)應(yīng)特征集合的特征提取模塊310。在一個(gè)實(shí)施例中,特征被存儲(chǔ)為描述圖塊的視覺外觀的矢量值。視覺外觀特征可以例如包括使用高斯拉普拉斯(LoG)或者尺度不變特征變換(SIFT)特征提取器而采樣的特征、在HSV顏色空間中使用色調(diào)和飽和度而計(jì)算的顏色直方圖、運(yùn)動(dòng)剛性特征、紋理特征或者使用通過Canny邊緣檢測(cè)器而檢測(cè)到的邊緣的邊緣特征。其它類型的視覺特征將為本領(lǐng)域技術(shù)人員所知并且也可以被使用,諸如包括GLOH(梯度位置和定向直方圖)、LESH (基于局部能量的形狀直方圖)、HOG (定向梯度直方圖)或者SURF (加速魯棒特征)特征的特征描述符。
[0033]運(yùn)動(dòng)流形模塊119還包括跟蹤與各種感興趣的視覺區(qū)域中的每個(gè)感興趣的視覺區(qū)域?qū)?yīng)的不同圖塊的軌跡識(shí)別模塊315。(感興趣的區(qū)域下文被稱為“語(yǔ)義區(qū)域”。)例如,運(yùn)動(dòng)流形模塊119可以在視頻的整個(gè)連續(xù)部分(在該連續(xù)部分期間人存在于場(chǎng)景中)內(nèi)跟蹤視頻中對(duì)人的眼睛進(jìn)行描繪的區(qū)域,從而識(shí)別其中眼睛具有不同外觀、諸如張開、閉合或者部分地閉合等的不同幀的多個(gè)區(qū)域。通過跨連續(xù)幀跟蹤語(yǔ)義區(qū)域,軌跡識(shí)別模塊315可以確定不同視覺外觀卻表示相同語(yǔ)義區(qū)域。
[0034]如本領(lǐng)域技術(shù)人員將已知的那樣,可以在不同實(shí)施例中以不同方式實(shí)現(xiàn)跟蹤。例如,可以使用跟蹤算法、諸如經(jīng)由有條件密度傳播算法的輪廓跟蹤、基于內(nèi)核的對(duì)象跟蹤等來(lái)跟蹤復(fù)雜對(duì)象、諸如眼睛。另外,在一些實(shí)施例中,無(wú)需跨每幀執(zhí)行跟蹤,但是實(shí)際上可以(例如)按照固定間隔、諸如每五幀或者基于在給定視頻中的觀察到的移動(dòng)速率而動(dòng)態(tài)計(jì)算的可變幀長(zhǎng)度的間隔來(lái)執(zhí)行跟蹤。
[0035]軌跡識(shí)別模塊315通過構(gòu)造軌跡貯存庫(kù)350來(lái)表示識(shí)別的軌跡,該軌跡貯存庫(kù)包括元組P = <r, V, t, I, f>的集合,這些元組表示隨時(shí)間變化的具體圖塊P。在該實(shí)施例中,r表示圖塊與之對(duì)應(yīng)的圖像區(qū)域的唯一標(biāo)識(shí)符,V表示圖像區(qū)域存在于其中的視頻的唯一標(biāo)識(shí)符,t表示在視頻V內(nèi)對(duì)于對(duì)應(yīng)區(qū)域r圖塊被識(shí)別的時(shí)間的時(shí)間指示符(例如,標(biāo)識(shí)幀的編號(hào)或者其它時(shí)間單位),I表示圖塊所處的與t對(duì)應(yīng)的幀內(nèi)的區(qū)域(例如,如果區(qū)域是單個(gè)點(diǎn),則為X、y坐標(biāo),或者如果區(qū)域是表示對(duì)象的二維區(qū)域,則為定義定界矩形的兩個(gè)這樣的坐標(biāo),或者與幀中的任意形狀的區(qū)域?qū)?yīng)的像素列表(或者對(duì)列表的引用)),并且f表示特征提取模塊310從圖塊提取的特征矢量。每個(gè)軌跡具有它自己的唯一標(biāo)識(shí)符t-1d。用于特定區(qū)域A的具體軌跡然后由所有圖塊元組的集合表示,其中r = η。另外,由于每個(gè)圖塊對(duì)應(yīng)于單個(gè)軌跡,所以每個(gè)圖塊P還可以與它所對(duì)應(yīng)的軌跡t-1d關(guān)聯(lián)。如本領(lǐng)域技術(shù)人員將已知的那樣,無(wú)需用以上描述的方式,而是可以在不同實(shí)施例中以不同方式表示軌跡。
[0036]特定軌跡無(wú)需在它位于其中的視頻的整個(gè)持續(xù)時(shí)間內(nèi)存在。例如,在軌跡表示特定人的眼睛的情況下,軌跡僅對(duì)于視頻的連續(xù)部分存在,在該連續(xù)部分期間在視頻內(nèi)示出該人并且在該連續(xù)部分期間人的眼睛可見。
[0037]認(rèn)識(shí)到軌跡貯存庫(kù)350可以描述在不同視頻內(nèi)存在并且在那些視頻的相異部分期間存在的很大量(例如,數(shù)以百萬(wàn)計(jì))相異軌跡。
[0038]在一個(gè)實(shí)施例中,運(yùn)動(dòng)流形模塊119還包括圖創(chuàng)建模塊320,該圖創(chuàng)建模塊以聚類圖361的形式表示軌跡貯存庫(kù)350的數(shù)據(jù),該聚類圖更顯式地表示在給定軌跡的不同圖塊之間的視覺轉(zhuǎn)變。在圖中的每個(gè)節(jié)點(diǎn)表示相似特征矢量f的聚類,每個(gè)特征矢量與個(gè)別圖塊關(guān)聯(lián)。圖創(chuàng)建模塊320使用聚類算法、諸如k均值聚類或者基于連通的聚類,根據(jù)視覺相似性對(duì)圖塊的特征矢量f進(jìn)行聚類。每個(gè)聚類是圖中的節(jié)點(diǎn)、因此表示具有很相似外觀的圖塊而無(wú)論它們所屬的特定軌跡如何。因此,一個(gè)特定聚類可以表示來(lái)自任何數(shù)目的不同軌跡和視頻的、與張開的眼睛對(duì)應(yīng)的區(qū)域,而另一聚類可以表示同樣來(lái)自任何數(shù)目的不同軌跡和視頻的、與閉合的眼睛對(duì)應(yīng)的區(qū)域。
[0039]圖創(chuàng)建模塊320接著識(shí)別來(lái)自不同聚類節(jié)點(diǎn)的不同圖塊是否在相同軌跡上共同出現(xiàn)一即表示相同語(yǔ)義區(qū)域的不同視覺狀態(tài)一并且在圖361中形成節(jié)點(diǎn)之間的邊以反映那些視覺轉(zhuǎn)變。例如,在一個(gè)實(shí)施例中,圖創(chuàng)建模塊320與每個(gè)聚類節(jié)點(diǎn)關(guān)聯(lián)對(duì)應(yīng)于聚類中的圖塊的唯一軌跡t-1d的集合。圖創(chuàng)建模塊然后檢查每個(gè)聚類Ci并且對(duì)于每個(gè)關(guān)聯(lián)軌跡t-1di識(shí)別它的關(guān)聯(lián)軌跡集合中的、也具有t-1di的每個(gè)其它聚類Cj。因此,如果軌跡貯存庫(kù)350中的數(shù)據(jù)指示特定聚類C1 (對(duì)應(yīng)于張開的眼睛)與特定軌跡t-1di關(guān)聯(lián)并且不同聚類C2 (對(duì)應(yīng)于閉合的眼睛)也與軌跡t-1di關(guān)聯(lián),則圖創(chuàng)建模塊320可以在聚類節(jié)點(diǎn)C1與C2之間創(chuàng)建邊。在該示例中,該邊反映下述事實(shí):即,張開的眼睛和閉合的眼睛二者盡管視覺外觀不同、但是均表示相同邏輯對(duì)象:人的眼睛。備選地,圖像創(chuàng)建模塊320可以僅在已經(jīng)被觀察到與聚類節(jié)點(diǎn)對(duì)應(yīng)的圖塊以充分頻率、諸如特定閾值數(shù)目的次數(shù)或者時(shí)間的特定閾值百分比在軌跡中共同出現(xiàn)時(shí)在那些聚類節(jié)點(diǎn)之間創(chuàng)建邊。
[0040]在一個(gè)實(shí)施例中,運(yùn)動(dòng)流形模塊119還包括矩陣創(chuàng)建模塊325,該矩陣創(chuàng)建模塊將聚類圖361表示為可以在比較兩個(gè)不同圖塊的語(yǔ)義相似性時(shí)更高效地被應(yīng)用的聚類矩陣362。具體而言,聚類矩陣362是對(duì)稱N x N矩陣,其中N是圖361中的相異聚類節(jié)點(diǎn)的數(shù)目。矩陣中的每個(gè)元素具有如下值,該值表示在與該值的行和列對(duì)應(yīng)的聚類節(jié)點(diǎn)的圖塊之間的某個(gè)相似性程度(或者等效地,差異)。例如,該值可以表達(dá)在對(duì)應(yīng)節(jié)點(diǎn)之間、在圖361中的未加權(quán)最短路徑距離,該未加權(quán)最短路徑距離表示聚類節(jié)點(diǎn)的圖塊之間的差異程度。備選地,可以重新制定表示差異的值以表達(dá)相似性,而更大值表示更大相似程度。在一個(gè)實(shí)施例中,可以從聚類節(jié)點(diǎn)直接創(chuàng)建聚類矩陣362,而不創(chuàng)建聚類圖361。
[0041]作為在聚類圖361與聚類矩陣362之間的關(guān)系的一個(gè)簡(jiǎn)單示例,假設(shè)圖具有如圖3A中描繪的那樣排列的七個(gè)聚類節(jié)點(diǎn)A-G,這七個(gè)聚類節(jié)點(diǎn)表示視覺上相似的圖塊特征矢量的七個(gè)聚類。矩陣創(chuàng)建模塊325可以創(chuàng)建如圖3B中那樣的對(duì)應(yīng)聚類矩陣362,其中矩陣值表示在對(duì)應(yīng)節(jié)點(diǎn)之間的最短路徑距離(例如,邊數(shù))、諸如在聚類節(jié)點(diǎn)A與G之間的距離
3。在圖4A和圖4B的示例中,假設(shè)邊具有值或者成本I;然而可以代之以(例如)使用在連接的聚類之間的匹配軌跡的數(shù)目或者百分比來(lái)對(duì)邊進(jìn)行加權(quán)以表達(dá)相似性程度。
[0042]認(rèn)識(shí)到運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)360可以在不同實(shí)施例中以不同方式被實(shí)施,并且創(chuàng)建聚類圖361和聚類矩陣362 二者僅為一種用于這樣做的方式。例如,可以通過直接創(chuàng)建聚類矩陣362來(lái)實(shí)施運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)360而不首先預(yù)創(chuàng)建聚類圖362。另外,聚類矩陣362——如果被使用——可以用不同方式、諸如行或者列矢量來(lái)表示。
[0043]因此,運(yùn)動(dòng)流形模塊119的模塊305-325分析視頻貯存庫(kù)116的視頻117并且創(chuàng)建運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)360,該運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)捕獲相同邏輯對(duì)象可以隨時(shí)間在視覺上變化的方式。仍然應(yīng)用運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)360來(lái)量化來(lái)自圖像或者視頻的視覺元素的語(yǔ)義相似性,這些視覺元素包括尚未在視頻貯存庫(kù)116內(nèi)、因此先前未作為模塊305-325的動(dòng)作的部分而被分析的那些新視頻。
[0044]因此,運(yùn)動(dòng)流形模塊119還包括相似性確定模塊330,該相似性確定模塊量化在不同視覺元素、諸如圖像或者視頻的個(gè)別圖塊、作為整體的圖像和/或視頻或者視頻段之間的語(yǔ)義相似性。該視覺元素作為其中的一部分的圖像或者視頻無(wú)需先前已經(jīng)作為模塊305-355的動(dòng)作的部分而被分析過。
[0045]相似性確定模塊330執(zhí)行的基本比較類型是比較兩個(gè)圖塊——或者更精確地是比較它們的對(duì)應(yīng)特征矢量——以量化它們表示圖像的相同語(yǔ)義區(qū)域或者作為該語(yǔ)義區(qū)域的部分的概率。接著可以使用如以下描述的圖塊比較來(lái)實(shí)現(xiàn)更復(fù)雜的比較形式、諸如圖像的比較或者視頻段的比較。
[0046]為了繼續(xù)先前示例,在圖塊比較的情況下,應(yīng)當(dāng)在與張開的眼睛對(duì)應(yīng)的圖塊和與閉合的眼睛對(duì)應(yīng)的圖塊之間存在強(qiáng)語(yǔ)義相似性程度(如果不是視覺相似性),假設(shè)它們均對(duì)應(yīng)于相同語(yǔ)義對(duì)象(即,眼睛)。也就是說,即使圖塊可能在視覺上很不相似,但是它們?nèi)匀皇窍嗤壽E的部分,并因此表示相同語(yǔ)義區(qū)域。
[0047]具體而言,在一個(gè)實(shí)施例中,相似性確定模塊330將在它的對(duì)應(yīng)特征矢量X表示的第一圖塊與它的對(duì)應(yīng)特征矢量y表示的第二圖塊之間的相似性計(jì)算為聚類矩陣362中的值的加權(quán)和。由于圖塊可以來(lái)自未在視頻貯存庫(kù)116中的視覺元素一或者至少在運(yùn)動(dòng)流形360被創(chuàng)建的時(shí)間未在視頻貯存庫(kù)中的視覺元素——所以它們可能不與已經(jīng)在聚類圖361的圖塊聚類中存儲(chǔ)的圖塊中的任何圖塊理想地對(duì)應(yīng)。(對(duì)照而言,如果X與聚類C1理想地對(duì)應(yīng)并且Y與聚類C2理想地對(duì)應(yīng),則可以通過讀取在行C1和列C2的值來(lái)簡(jiǎn)單地計(jì)算在X與y之間的相似性程度,或者等效地讀取在行C2和列C1的值,因?yàn)榫仃?62是對(duì)稱的。)因此,取代僅讀取矩陣362的單個(gè)值,計(jì)算所有矩陣值的加權(quán)和從而反映X和y可以在某個(gè)程度上對(duì)應(yīng)于在矩陣中表示的聚類對(duì)中的每個(gè)聚類對(duì)這樣的事實(shí)。
[0048]更具體而言,在視覺上比較用于第一圖塊的特征矢量X與聚類圖361的聚類節(jié)點(diǎn)中的每個(gè)聚類節(jié)點(diǎn)以對(duì)于每個(gè)聚類節(jié)點(diǎn)Ci確定X與Ci之間的相似性程度Vi。類似地確定I與每個(gè)聚類節(jié)點(diǎn)Ci之間的相似性程度COitj然后,通過Vi和COi的乘積對(duì)矩陣362的列Ci和行&的值進(jìn)行加權(quán),從而表示下述事實(shí):即,用于特定聚類對(duì)的矩陣值僅在X和y與該對(duì)的相應(yīng)聚類相似的程度上適用于X和y的語(yǔ)義。這些運(yùn)算可以由以下等式更簡(jiǎn)潔地表達(dá):
[0049]Sim (x, y) = Σ i;j [ (Mij) * ( Ψ i ω」)]
[0050]其中SimO是相似性函數(shù),M是矩陣362,i和j是矩陣的行和列索引,Vi是x表示聚類節(jié)點(diǎn)i的程度,并且是y表示聚類節(jié)點(diǎn)j的程度。(更大的和表示更大相似性程度,因此如果聚類矩陣362的值標(biāo)識(shí)差異程度,則首先它們被轉(zhuǎn)換以表達(dá)為在相似性確定模塊330計(jì)算加權(quán)和之前的對(duì)應(yīng)相似性程度。)
[0051]作為更具體示例,回顧圖4B,假設(shè)聚類節(jié)點(diǎn)A是表示張開的眼睛的圖塊聚類并且聚類節(jié)點(diǎn)B是表示閉合的眼睛的圖塊聚類。如果X是理想地表示聚類節(jié)點(diǎn)A的張開的眼睛的特征矢量并且I是理想地表示聚類節(jié)點(diǎn)B的閉合的眼睛的特征矢量,則可以通過讀取在列A、行B (或者等效地列B、行A)的矩陣條目來(lái)簡(jiǎn)單地確定X和y的精確相似性。然而,由于用于聚類節(jié)點(diǎn)A的X表示和用于聚類節(jié)點(diǎn)B的y表示可能不太理想,所以計(jì)算X與A之間(和X與所有其它聚類節(jié)點(diǎn)之間)以及y與B之間(和y與所有其它聚類節(jié)點(diǎn)之間)的相似性,并且針對(duì)每個(gè)矩陣元素計(jì)算X相似性、y相似性和對(duì)應(yīng)矩陣元素的值的乘積,并且將結(jié)果求和。因此,例如將與圖4B的矩陣A的第一行對(duì)應(yīng)的加權(quán)和計(jì)算為:
[0052](MA,A*Sim (x, A) *Sim (y, A)) + (MA,B*Sim (x, A) *Sim (y, B)) + (MA,c*Sim (x, A) *Sim(y, C)) + (MA’D*Sim (x, A) *Sim (y, D)) + (MA’E*Sim (x, A) *Sim (y, E)) + (MA’F*Sim (x, A) *Sim (y, F)) + (Ma,G*Sim (x, A) *Sim (y, G))
[0053]其中Miij表示在行i (對(duì)應(yīng)于聚類Ci)和列j (對(duì)應(yīng)于聚類Cj)的矩陣值,并且Sim(v,Cl)表示在矢量V與聚類Cl之間的視覺相似性的程度。針對(duì)其它行的相似性將以相同方式來(lái)計(jì)算并且類似地與總相似性值相加。
[0054]在一個(gè)實(shí)施例中,特征矢量與聚類節(jié)點(diǎn)的視覺相似性的程度通過將該特征矢量與聚類中的特征矢量的質(zhì)心比較來(lái)計(jì)算。例如,為了計(jì)算相似性,可以比較聚類質(zhì)心矢量和特征矢量的點(diǎn)積并且適當(dāng)?shù)貧w一化的和。[0055]假如有如以上描述的用于計(jì)算用于圖塊的語(yǔ)義相似性程度的能力,相似性確定模塊330可以在圖塊相似性方面確定更高級(jí)別類型的語(yǔ)義相似性。一個(gè)這種類型的更高級(jí)別語(yǔ)義相似性是在兩個(gè)圖像之間的語(yǔ)義相似性。例如,在一個(gè)實(shí)施例中,靜態(tài)圖像I1和I2被認(rèn)為在它們包含相似圖塊的程度上語(yǔ)義相似。因此,如果I1具有m個(gè)圖塊并且I2具有η個(gè)圖塊,則相似性確定模塊330形成來(lái)自I1和I2的圖塊的笛卡爾乘積并且執(zhí)行在圖塊對(duì)之間的m*n個(gè)圖塊比較。如本領(lǐng)域技術(shù)人員將已知的那樣,使用圖塊相似性計(jì)算的精確圖像相似性計(jì)算可以在不同實(shí)施例中變化。例如,如果圖像包含具有至少圖塊相似性閾值程度的至少某個(gè)最小數(shù)目的圖塊,則這些圖像被認(rèn)為是相似的?;蛘?,可以通過將所有圖塊對(duì)的圖塊相似性測(cè)量求和并且通過除以圖塊對(duì)的數(shù)目進(jìn)行歸一化來(lái)計(jì)算實(shí)值相似性測(cè)量。
[0056]以相似方式,相似性確定模塊330可以在圖塊相似性方面確定在視頻段或者視頻(這些視頻實(shí)質(zhì)上是構(gòu)成整個(gè)視頻的視頻段)之間的語(yǔ)義相似性。在一個(gè)實(shí)施例中,相似性確定模塊330為兩個(gè)視頻段識(shí)別部分地或者完全地存在于視頻段內(nèi)的所有圖塊軌跡。然后比較第一視頻的每個(gè)軌跡與第二視頻的每個(gè)軌跡,并且基于軌跡之間的語(yǔ)義相似性確定視頻段之間的語(yǔ)義相似性程度??梢栽诓煌瑢?shí)施例中以不同方式定義兩個(gè)軌跡之間的語(yǔ)義相似性程度。例如,每對(duì)圖塊——一個(gè)來(lái)自第一軌跡并且一個(gè)來(lái)自第二軌跡——可以具有計(jì)算其語(yǔ)義相似性。然后,可以在匹配(即,具有至少某個(gè)閾值相似性水平)的圖塊對(duì)數(shù)目方面定義軌跡的語(yǔ)義相似性,其中第一匹配具有對(duì)軌跡相似性的最大正面影響并且每個(gè)后續(xù)匹配具有逐漸地更低的正面影響。
[0057]相似性確定模塊330可以用類似方式確定不同視頻或者圖像類型之間(諸如圖像與視頻段之間)的語(yǔ)義相似性。例如,可以通過確定圖像相對(duì)視頻段內(nèi)部分地或者完全地包含的圖塊軌跡中的每個(gè)圖塊軌跡的語(yǔ)義相似性來(lái)確定在圖像與視頻段之間的語(yǔ)義相似性。進(jìn)而,可以用與計(jì)算兩個(gè)圖塊軌跡的語(yǔ)義相似性相似的方式,根據(jù)圖像中的圖塊和圖塊軌跡中的圖塊的笛卡爾乘積、基于所有圖塊對(duì)的語(yǔ)義相似性定義圖像和圖塊軌跡的語(yǔ)義相似性。
[0058]數(shù)據(jù)流
[0059]圖4A和圖4B是表示根據(jù)一個(gè)實(shí)施例的由圖2的運(yùn)動(dòng)流形模塊119分析和/或產(chǎn)生的各種類型的數(shù)據(jù)的關(guān)系和推導(dǎo)的數(shù)據(jù)流圖。圖5A描繪在概念上表示運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)360的聚類圖361和聚類矩陣362的創(chuàng)建,并且圖5B描繪應(yīng)用運(yùn)動(dòng)流形以計(jì)算兩個(gè)圖塊的相似性測(cè)量。
[0060]具體而言,在圖5A中,如以上關(guān)于圖塊識(shí)別模塊305描述的那樣,分析視頻117并且從它們中提取與語(yǔ)義興趣區(qū)域(例如,不連續(xù)點(diǎn)或者個(gè)別對(duì)象)對(duì)應(yīng)的圖塊。如以上關(guān)于特征提取模塊310所描述的那樣,提取與識(shí)別的圖塊對(duì)應(yīng)的特征矢量??缫曨l跟蹤區(qū)域的移動(dòng)和視覺改變、由此產(chǎn)生軌跡集合,每個(gè)軌跡包括用于該區(qū)域的各種圖塊。以上關(guān)于軌跡識(shí)別模塊315更具體描述了這些動(dòng)作。然后,構(gòu)造運(yùn)動(dòng)流形數(shù)據(jù)結(jié)構(gòu)360,運(yùn)動(dòng)流形指示語(yǔ)義興趣區(qū)域可以隨時(shí)間具有的不同視覺表示、諸如與眼睛對(duì)應(yīng)的區(qū)域具有張開和閉合的視覺表示二者。在一個(gè)實(shí)施例中,可以如以上關(guān)于圖創(chuàng)建模塊320和矩陣創(chuàng)建模塊325描述的那樣,使用聚類圖361和/或聚類矩陣362來(lái)實(shí)施運(yùn)動(dòng)流形。
[0061]如圖5B中進(jìn)一步所示,如以上關(guān)于相似性確定模塊描述的那樣,然后可以應(yīng)用運(yùn)動(dòng)流形360以量化不同圖塊的語(yǔ)義相似性——而不是僅量化視覺相似性。然后,可以充分利用用于量化圖塊的語(yǔ)義相似性的能力以識(shí)別更高級(jí)別形式的語(yǔ)義相似性、諸如圖像之間或者視頻段之間的語(yǔ)義相似性。
[0062]因此,執(zhí)行圖4中描繪的操作流程的一個(gè)實(shí)施例所產(chǎn)生的運(yùn)動(dòng)流形可以用來(lái)不僅在視覺級(jí)別而且在語(yǔ)義級(jí)別上量化圖像或者視頻的不同部分的相似性。因此,例如使用運(yùn)動(dòng)流形可以允許如下認(rèn)識(shí):即,閉合的眼睛和張開的眼睛的圖像在語(yǔ)義上相似一即使它們?cè)谝曈X上很不同一因?yàn)樗鼈兺谝曨l內(nèi)隨時(shí)間相互跟隨。
[0063]應(yīng)用
[0064]可以在廣泛范圍的視頻或者圖像上下文、諸如以下境況中應(yīng)用語(yǔ)義相似性確定。
[0065]搜索:相似性確定模塊330可以在預(yù)處理階段中確定在圖像貯存庫(kù)中的圖像、來(lái)自視頻貯存庫(kù)116中的視頻117的視頻段等的語(yǔ)義相似性。然后,當(dāng)用戶錄入對(duì)于特定概念的查詢并且搜索引擎識(shí)別搜索結(jié)果集合時(shí),可以用與已經(jīng)在搜索結(jié)果集合中的那些圖像或者視頻具有充分高的語(yǔ)義相似性程度的其它圖像或者視頻來(lái)擴(kuò)充搜索結(jié)果。
[0066]此外,可以通過在搜索結(jié)果中包括與語(yǔ)義上相似的圖塊軌跡對(duì)應(yīng)的具體視頻段來(lái)使圖像或者視頻段粒度更細(xì)。例如,當(dāng)搜尋特定概念時(shí),可以識(shí)別與用于該概念的圖像搜索結(jié)果最相似的圖塊軌跡集合,并且可以相應(yīng)地在搜索結(jié)果中包括與那些軌跡對(duì)應(yīng)的視頻段、因此對(duì)具體相關(guān)視頻部分進(jìn)行定位。
[0067]已經(jīng)關(guān)于一個(gè)可能實(shí)施例用具體細(xì)節(jié)描述了本公開。本領(lǐng)域技術(shù)人員將理解可以在其它實(shí)施例中實(shí)現(xiàn)本公開。首先,部件和變量的特定命名、術(shù)語(yǔ)的大寫、屬性、數(shù)據(jù)結(jié)構(gòu)或者任何其它編程或者結(jié)構(gòu)方面并非必需或者重要的,并且實(shí)施本公開或者它的特征的機(jī)制可以具有不同名稱、格式或者協(xié)議。而且,在這里描述的各種系統(tǒng)部件之間的特定功能劃分也僅為舉例而非必需;單個(gè)系統(tǒng)部件執(zhí)行的功能可以代之以由多個(gè)部件執(zhí)行,并且多個(gè)部件執(zhí)行的功能可以代之以由單個(gè)部件執(zhí)行。
[0068]以上描述的一些部分在對(duì)信息的操作的算法和符號(hào)表示方面呈現(xiàn)本公開的特征。這些算法描述和表示是數(shù)據(jù)處理領(lǐng)域技術(shù)人員用來(lái)向本領(lǐng)域其他技術(shù)人員最有效地傳達(dá)他們的工作實(shí)質(zhì)的手段。這些操作在功能或者邏輯上被描述時(shí)被理解為由計(jì)算機(jī)程序?qū)嵤A硗?,將這些操作布置稱為模塊或者冠以功能名稱也已經(jīng)證實(shí)有時(shí)是便利的而不失一般性。
[0069]除非如從以上討論中清楚的那樣另有具體明示,應(yīng)理解貫穿說明書利用諸如“確定”這樣的術(shù)語(yǔ)的討論指計(jì)算機(jī)系統(tǒng)或者相似電子計(jì)算設(shè)備的動(dòng)作和過程,該計(jì)算機(jī)系統(tǒng)或者相似電子計(jì)算設(shè)備操控和變換在計(jì)算機(jī)系統(tǒng)存儲(chǔ)器或者寄存器或者其它這樣的信息存儲(chǔ)裝置、傳輸或者顯示設(shè)備內(nèi)表示為物理(電子)量的數(shù)據(jù)。
[0070]本公開的某些方面以算法的形式包括這里描述的過程步驟和指令。應(yīng)當(dāng)注意本公開的過程步驟和指令可以體現(xiàn)在軟件、固件或者硬件中,并且當(dāng)體現(xiàn)在軟件中時(shí)本公開的過程步驟和指令可以被下載以駐留于實(shí)時(shí)網(wǎng)絡(luò)操作系統(tǒng)所使用的不同平臺(tái)上并且從這些不同平臺(tái)來(lái)操作這些過程步驟和指令。
[0071]本公開也涉及一種用于執(zhí)行這里的操作的裝置。該裝置可以被具體構(gòu)造用于所需目的,或者它可以包括在計(jì)算機(jī)可以訪問的計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)的計(jì)算機(jī)程序有選擇地激活或者重新配置的通用計(jì)算機(jī)。這樣的計(jì)算機(jī)程序可以存儲(chǔ)于非瞬態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,諸如但不限于包括軟盤、光盤、CD-ROM、光磁盤的任何類型的盤、只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、EPROM、EEPROM、磁卡或者光卡、專用集成電路(ASIC)或者適合用于存儲(chǔ)電子指令并且各自耦合到計(jì)算機(jī)系統(tǒng)總線的任何類型的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。另外,在說明書中所指代的計(jì)算機(jī)可以包括單個(gè)處理器或者可以是運(yùn)用多處理器設(shè)計(jì)用于增加計(jì)算能力的架構(gòu)。
[0072]這里呈現(xiàn)的算法和操作并非固有地與任何特定計(jì)算機(jī)或者其它裝置有關(guān)。各種通用系統(tǒng)也可以與根據(jù)這里的教導(dǎo)的程序一起使用,或者構(gòu)造更專門化的裝置以執(zhí)行所需方法步驟可以證實(shí)是便利的。用于多種這些系統(tǒng)的所需結(jié)構(gòu)將與等效變化一起為本領(lǐng)域技術(shù)人員所清楚。此外,未參照任何特定編程語(yǔ)言描述本發(fā)明。應(yīng)理解多種編程語(yǔ)言可以用來(lái)實(shí)施如這里描述的本公開的教導(dǎo)并且提供對(duì)具體語(yǔ)言的任何引用以便公開本發(fā)明的實(shí)現(xiàn)和最佳實(shí)施方式。
[0073]本公開良好地適合于在許多拓?fù)渲系膹V泛的多種計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)。在該領(lǐng)域內(nèi),大型網(wǎng)絡(luò)的配置和管理包括通過網(wǎng)絡(luò)、諸如因特網(wǎng)通信地耦合到不相似計(jì)算機(jī)和存儲(chǔ)設(shè)備的存儲(chǔ)設(shè)備和計(jì)算機(jī)。
[0074]最后,應(yīng)當(dāng)注意在說明書中使用的語(yǔ)言已經(jīng)主要出于可讀性和教導(dǎo)的目的而加以選擇并且可能不被選擇用來(lái)界定或者限制發(fā)明主題。因而,本公開的公開內(nèi)容旨在于舉例說明而非限制在所附權(quán)利要求中闡述的本公開的范圍。
【權(quán)利要求】
1.一種用于創(chuàng)建運(yùn)動(dòng)流形以確定兩個(gè)圖像圖塊之間的相似性的計(jì)算機(jī)實(shí)施的方法,所述方法包括: 識(shí)別數(shù)字視頻集合中的視頻的語(yǔ)義區(qū)域; 通過跨所述視頻的幀跟蹤與所述語(yǔ)義區(qū)域?qū)?yīng)的圖塊來(lái)識(shí)別圖塊軌跡; 使用所述圖塊軌跡來(lái)創(chuàng)建所述運(yùn)動(dòng)流形,所述運(yùn)動(dòng)流形針對(duì)所述語(yǔ)義區(qū)域中的語(yǔ)義區(qū)域指示所述語(yǔ)義區(qū)域的不同視覺表示;以及 存儲(chǔ)所述運(yùn)動(dòng)流形。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中所述語(yǔ)義區(qū)域由個(gè)別圖像點(diǎn)構(gòu)成。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中所述語(yǔ)義區(qū)域由視覺上不連續(xù)的點(diǎn)定義的個(gè)別語(yǔ)義對(duì)象構(gòu)成,并且其中用于語(yǔ)義對(duì)象的所述圖塊包括用于所述點(diǎn)界定的區(qū)域的像素?cái)?shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中每個(gè)識(shí)別的圖塊軌跡與所述語(yǔ)義區(qū)域之一關(guān)聯(lián)并且包括用于所述語(yǔ)義區(qū)域的被跟蹤的圖塊的集合。
5.根據(jù)權(quán)利要求4所述的計(jì)算機(jī)實(shí)施的方法,還包括用表示圖塊的關(guān)聯(lián)〈r,V,t, 1>元組的集合表示識(shí)別的圖塊軌跡,r表示關(guān)聯(lián)的語(yǔ)義區(qū)域的標(biāo)識(shí)符,V表示所述關(guān)聯(lián)的語(yǔ)義區(qū)域存在于其中的視頻的標(biāo)識(shí)符,t表示與所述語(yǔ)義區(qū)域?qū)?yīng)的圖塊在所述視頻內(nèi)被識(shí)別到的時(shí)間的時(shí)間指示符,并且I表示所述語(yǔ)義區(qū)域在所述時(shí)間在所述視頻的幀內(nèi)所處的區(qū)域。
6.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中創(chuàng)建所述運(yùn)動(dòng)流形包括: 根據(jù)所述圖塊的視覺相似性將所述圖塊聚類成圖塊聚類;并且 通過響應(yīng)于聚類對(duì)的第一聚類具有來(lái)自第一軌跡的圖塊并且所述對(duì)的第二聚類具有來(lái)自相同第一軌跡的圖塊而在所述聚類對(duì)之間創(chuàng)建邊以形成聚類圖。
7.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中創(chuàng)建所述運(yùn)動(dòng)流形包括: 根據(jù)所述圖塊的視覺相似性將所述圖塊聚類成圖塊聚類; 形成聚類矩陣,其中每個(gè)矩陣元素量化所述圖塊聚類中的第一圖塊聚類與所述圖塊聚類中的第二圖塊聚類之間的語(yǔ)義相似性的程度。
8.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,還包括通過響應(yīng)于聚類對(duì)中的第一聚類具有來(lái)自第一軌跡的圖塊并且所述對(duì)中的第二聚類具有來(lái)自相同第一軌跡的圖塊而在所述聚類對(duì)之間創(chuàng)建邊以形成聚類圖,其中所述聚類矩陣是方形矩陣并且基于所述聚類圖的所述邊形成所述聚類矩陣中的值。
9.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,還包括: 使用所述運(yùn)動(dòng)流形來(lái)確定來(lái)自第一視覺元素的第一圖塊與來(lái)自第二視覺元素的第二圖塊之間的語(yǔ)義相似性的程度。
10.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)施的方法,還包括: 使用所述運(yùn)動(dòng)流形來(lái)確定所述第一視覺元素與所述第二視覺元素之間的語(yǔ)義相似性的程度,其中所述第一視覺元素是圖像和視頻段之一。
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),具有在其中體現(xiàn)的用于創(chuàng)建運(yùn)動(dòng)流形以確定兩個(gè)圖像圖塊之間的相似性的可執(zhí)行計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令的動(dòng)作包括: 識(shí)別數(shù)字視頻集合中的視頻的語(yǔ)義區(qū)域;通過跨所述視頻的幀跟蹤與所述語(yǔ)義區(qū)域?qū)?yīng)的圖塊來(lái)識(shí)別圖塊軌跡; 使用所述圖塊軌跡來(lái)創(chuàng)建所述運(yùn)動(dòng)流形,所述運(yùn)動(dòng)流形針對(duì)所述語(yǔ)義區(qū)域中的語(yǔ)義區(qū)域指示所述語(yǔ)義區(qū)域的不同視覺表示;以及存儲(chǔ)所述運(yùn)動(dòng)流形。
12.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中每個(gè)識(shí)別的圖塊軌跡與所述語(yǔ)義區(qū)域之一關(guān)聯(lián)并且包括用于所述語(yǔ)義區(qū)域的被跟蹤的圖塊的集合。
13.根據(jù)權(quán)利要求12所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述動(dòng)作還包括用表示圖塊的關(guān)聯(lián)<r, v, t, 1>元組的集合表示識(shí)別的圖塊軌跡,r表示關(guān)聯(lián)的語(yǔ)義區(qū)域的標(biāo)識(shí)符,V表示所述關(guān)聯(lián)的語(yǔ)義區(qū)域存在于其中的視頻的標(biāo)識(shí)符,t表示與所述語(yǔ)義區(qū)域?qū)?yīng)的圖塊在所述視頻內(nèi)被識(shí)別到的時(shí)間的時(shí)間指示符,并且I表示所述語(yǔ)義區(qū)域在所述時(shí)間在所述視頻的幀內(nèi)所處的區(qū)域。
14.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中創(chuàng)建所述運(yùn)動(dòng)流形包括: 根據(jù)所述圖塊的視覺相似性將所述圖塊聚類成圖塊聚類;并且 通過響應(yīng)于聚類對(duì)中的第一聚類具有來(lái)自第一軌跡的圖塊并且所述對(duì)中的第二聚類具有來(lái)自相同第一軌跡的圖塊而在所述聚類對(duì)之間創(chuàng)建邊以形成聚類圖。
15.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中創(chuàng)建所述運(yùn)動(dòng)流形包括: 根據(jù)所述圖塊的視覺相似性將所述圖塊聚類成圖塊聚類; 形成聚類矩陣,其中每個(gè)矩陣元素量化所述圖塊聚類中的第一圖塊聚類與所述圖塊聚類中的第二圖塊聚類之間的語(yǔ)義相似性的程度。
16.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述動(dòng)作還包括: 使用所述運(yùn)動(dòng)流形來(lái)確定來(lái)自第一視覺元素的第一圖塊與來(lái)自第二視覺元素的第二圖塊之間的語(yǔ)義相似性的程度。
17.一種用于創(chuàng)建運(yùn)動(dòng)流形以確定兩個(gè)圖像圖塊之間的相似性的計(jì)算機(jī)系統(tǒng),所述系統(tǒng)包括: 計(jì)算機(jī)處理器;以及 計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),具有在其中體現(xiàn)的可執(zhí)行計(jì)算機(jī)程序指令,所述可執(zhí)行計(jì)算機(jī)程序指令在由所述計(jì)算機(jī)處理器執(zhí)行時(shí)執(zhí)行動(dòng)作,所述動(dòng)作包括: 識(shí)別數(shù)字視頻集合中的視頻的語(yǔ)義區(qū)域; 通過跨所述視頻的幀跟蹤與所述語(yǔ)義區(qū)域?qū)?yīng)的圖塊來(lái)識(shí)別圖塊軌跡; 使用所述圖塊軌跡來(lái)創(chuàng)建所述運(yùn)動(dòng)流形,所述運(yùn)動(dòng)流形針對(duì)所述語(yǔ)義區(qū)域中的語(yǔ)義區(qū)域指示所述語(yǔ)義區(qū)域的不同視覺表示;以及存儲(chǔ)所述運(yùn)動(dòng)流形。
18.根據(jù)權(quán)利要求17所述的計(jì)算機(jī)系統(tǒng),其中每個(gè)識(shí)別的圖塊軌跡與所述語(yǔ)義區(qū)域之一關(guān)聯(lián)并且包括用于所述語(yǔ)義區(qū)域的被跟蹤的圖塊的集合。
19.根據(jù)權(quán)利要求18所述的計(jì)算機(jī)系統(tǒng),所述動(dòng)作還包括用表示圖塊的關(guān)聯(lián)<r, v, t, 1>元組的集合表示識(shí)別的圖塊軌跡,r表示關(guān)聯(lián)的語(yǔ)義區(qū)域的標(biāo)識(shí)符,V表示所述關(guān)聯(lián)的語(yǔ)義區(qū)域存在于其中的視頻的標(biāo)識(shí)符,t表示與所述語(yǔ)義區(qū)域?qū)?yīng)的圖塊在所述視頻內(nèi)被識(shí)別到的時(shí)間的時(shí)間指示符,并且I表示所述語(yǔ)義區(qū)域在所述時(shí)間在所述視頻的幀內(nèi)所處的區(qū)域。
20.根據(jù)權(quán)利要求17所述的計(jì)算機(jī)系統(tǒng),其中創(chuàng)建所述運(yùn)動(dòng)流形包括: 根據(jù)所述圖塊的視覺相似性將所述圖塊聚類成圖塊聚類;并且 通過響應(yīng)于聚類對(duì)中的第一聚類具有來(lái)自第一軌跡的圖塊并且所述對(duì)中的第二聚類具有來(lái)自相同第一軌跡的圖塊而在所述聚類對(duì)之間創(chuàng)建邊以形成聚類圖。
21.根據(jù)權(quán)利要求17所述的計(jì)算機(jī)系統(tǒng),其中創(chuàng)建所述運(yùn)動(dòng)流形包括: 根據(jù)所述圖塊的視覺相似性將所述圖塊聚類成圖塊聚類;并且 形成聚類矩陣,其中每個(gè)矩陣元素量化所述圖塊聚類中的第一圖塊聚類與所述圖塊聚類中的第二圖塊聚類之間的語(yǔ)義相似性的程度。
22.根據(jù)權(quán)利要求17所述的計(jì)算機(jī)系統(tǒng),所述動(dòng)作還包括: 使用所述運(yùn)動(dòng)流形來(lái)確定來(lái)自第一視覺元素的第一圖塊與來(lái)自第二視覺元素的第二圖塊之間的語(yǔ)義相似性的程度。
23.一種確定兩個(gè)圖像圖塊之 間的相似性的計(jì)算機(jī)實(shí)施的方法,所述方法包括: 訪問運(yùn)動(dòng)流形,所述運(yùn)動(dòng)流形針對(duì)包括視覺上相似的圖像圖塊的圖塊聚類對(duì)來(lái)量化從在視頻的過程期間、在所述圖塊聚類的圖塊之間的轉(zhuǎn)變的分析中推導(dǎo)的語(yǔ)義相似性的程度;以及 使用所述運(yùn)動(dòng)流形來(lái)確定來(lái)自第一視覺元素的第一圖塊與來(lái)自第二視覺元素的第二圖塊之間的語(yǔ)義相似性的程度。
24.一種計(jì)算機(jī)實(shí)施的方法,包括: 針對(duì)數(shù)字視頻集合中的每個(gè)視頻: 識(shí)別所述視頻的語(yǔ)義區(qū)域; 通過跨所述視頻的幀跟蹤與所述語(yǔ)義區(qū)域?qū)?yīng)的圖塊來(lái)識(shí)別圖塊軌跡; 將用于給定的語(yǔ)義區(qū)域的被跟蹤的圖塊與用于所述語(yǔ)義區(qū)域的唯一標(biāo)識(shí)符相關(guān)聯(lián); 跨所述數(shù)字視頻聚合識(shí)別的圖塊; 通過根據(jù)視覺外觀對(duì)所聚合的圖塊進(jìn)行聚類以形成圖塊聚類; 形成節(jié)點(diǎn)的聚類圖,每個(gè)節(jié)點(diǎn)與所述圖塊聚類之一唯一對(duì)應(yīng); 響應(yīng)于與節(jié)點(diǎn)對(duì)中的節(jié)點(diǎn)對(duì)應(yīng)的所述圖塊聚類在所述識(shí)別的圖塊軌跡中的至少一個(gè)識(shí)別的圖塊軌跡內(nèi)至少具有圖塊共同出現(xiàn)的閾值程度,而在所述節(jié)點(diǎn)對(duì)之間創(chuàng)建邊; 基于創(chuàng)建的所述邊形成聚類矩陣,所述矩陣的每個(gè)元素量化所述圖塊聚類中的第一圖塊聚類與所述圖塊聚類中的第二圖塊聚類之間的語(yǔ)義相似性的程度;以及存儲(chǔ)所述矩陣。
25.根據(jù)權(quán)利要求24所述的計(jì)算機(jī)實(shí)施的方法,還包括: 使用所述聚類矩陣來(lái)確定來(lái)自第一視覺元素的第一圖塊與來(lái)自第二視覺元素的第二圖塊之間的語(yǔ)義相似性的程度,包括: 針對(duì)所述矩陣中的每個(gè)元素計(jì)算所述第一圖塊與對(duì)應(yīng)于所述矩陣中的元素行的圖塊聚類之間的第一相似性程度和所述第二圖塊與對(duì)應(yīng)于所述矩陣中的元素列的圖塊聚類之間的第二相似性程度;以及 基于所述第一相似性程度、所述第二相似性程度和所述矩陣中的所述元素的值確定所述語(yǔ)義相似性的程度。
【文檔編號(hào)】H04N5/91GK103988232SQ201280061107
【公開日】2014年8月13日 申請(qǐng)日期:2012年10月24日 優(yōu)先權(quán)日:2011年11月1日
【發(fā)明者】R·蘇克??? J·N·雅格尼克 申請(qǐng)人:谷歌公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
偏关县| 来宾市| 黄陵县| 余干县| 永丰县| 娱乐| 乌鲁木齐市| 潍坊市| 射洪县| 海口市| 开阳县| 左权县| 监利县| 邯郸县| 纳雍县| 兴化市| 三河市| 库伦旗| 翼城县| 和政县| 丹东市| 宜春市| 凯里市| 绥江县| 桐梓县| 民和| 三门县| 汕尾市| 革吉县| 西乡县| 延长县| 吉安市| 苍溪县| 北票市| 龙山县| 沾益县| 瑞昌市| 和平区| 巴中市| 许昌市| 浮梁县|