專利名稱:媒體元數(shù)據(jù)的生成與供應(yīng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及媒體元數(shù)據(jù),尤其是媒體元數(shù)據(jù)的生成與供應(yīng)。
背景技術(shù):
通常向數(shù)字視頻和/或音頻內(nèi)容提供元數(shù)據(jù)以描述視頻和/或音頻內(nèi)容項的各個方面。例如,視頻內(nèi)容項可以具有包括諸如標題、演員表成員、制片方、導(dǎo)演、制作年份等信息的相關(guān)聯(lián)的元數(shù)據(jù)。這種元數(shù)據(jù)通常全局地應(yīng)用于視頻和/或音頻內(nèi)容項的整體。例如,超視頻可以包括與視頻內(nèi)容內(nèi)部包括的對象(諸如人)有關(guān)的媒體內(nèi)元數(shù)據(jù)。更具體地,超視頻包括嵌入到視頻項內(nèi)的用戶可選擇的元數(shù)據(jù)鏈接,該元數(shù)據(jù)鏈接允許觀看者通過與鏈接交互來導(dǎo)航至其他內(nèi)容。由于典型的數(shù)字視頻和/或音頻內(nèi)容項內(nèi)包括巨大數(shù)量的單獨圖像幀以及潛在的巨大數(shù)量的可能出現(xiàn)在單獨幀中的對象,生成元數(shù)據(jù)并將其包括在視頻和/或音頻內(nèi)容項內(nèi)希望的位置處可能是困難和耗時的。
發(fā)明內(nèi)容
描述了關(guān)于用于視頻和/或音頻媒體內(nèi)容的媒體內(nèi)和/或媒體間的元數(shù)據(jù)的生成及供應(yīng)的各種實施例。例如,一個所公開的實施例提供計算設(shè)備,該計算設(shè)備包括被配置為執(zhí)行指令的邏輯子系統(tǒng),以及包括其中存儲的可由處理器執(zhí)行以實現(xiàn)以下動作的指令的數(shù)據(jù)保持子系統(tǒng)接收視頻和/或音頻內(nèi)容項的輸入,將該視頻和/或音頻內(nèi)容項與ー個或多個對象描述符進行比較以定位該視頻和/或音頻內(nèi)容項中的ー個或多個對象的實例,每個對象描述符表示用于定位在視頻和/或音頻內(nèi)容項內(nèi)的對象。指令還可執(zhí)行以為位于視頻和/或音頻內(nèi)容項中的每個對象生成視頻元數(shù)據(jù),并且接收關(guān)于為所選對象生成的元數(shù)據(jù)是否正確的確認用戶輸入。提供本發(fā)明內(nèi)容以便以簡化的形式介紹將在以下具體實施方式
中進ー步描述的 ー些概念。本發(fā)明內(nèi)容并不旨在標識所要求保護主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護主題的范圍。此外,所要求保護的主題不限于解決在本發(fā)明的任一部分中提及的任何或所有缺點的實現(xiàn)。
圖1示出用于媒體內(nèi)和媒體間元數(shù)據(jù)的生成和消費的視頻和/或音頻使用環(huán)境的實施例。圖2示出描繪為視頻和/或音頻內(nèi)容生成元數(shù)據(jù)的方法的實施例的流程圖。圖3示出描繪為視頻和/或音頻內(nèi)容生成元數(shù)據(jù)的另一個實施例的流程圖。圖4示出被配置為允許計算機生成的元數(shù)據(jù)的高效確認的用戶界面的實施例的示意性描述。
具體實施方式
鑒于為視頻和/或音頻內(nèi)容手動生成媒體內(nèi)及媒體間元數(shù)據(jù)的耗時和困難的本質(zhì),此處公開了關(guān)于這種元數(shù)據(jù)的自動生成的實施例。此處還公開了關(guān)于人類輔助自動元數(shù)據(jù)生成和識別的實施例。如以下將更詳細地描述,這可以有助于獲得計算能力的優(yōu)勢以快速地生成元數(shù)據(jù),以及人類識別的優(yōu)勢以準確地識別并驗證這種元數(shù)據(jù)。在描述對視頻和/或音頻內(nèi)容的媒體內(nèi)及媒體間元數(shù)據(jù)的生成和供應(yīng)之前,參考圖1描述示例視頻和/或音頻使用環(huán)境100。視頻和/或音頻使用環(huán)境100包括視頻和/ 或音頻內(nèi)容服務(wù)器系統(tǒng)102,該視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102可包括ー個或多個物理計算設(shè)備103。視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102被配置為經(jīng)由網(wǎng)絡(luò)105向客戶機設(shè)備104提供視頻和/或音頻內(nèi)容,客戶機設(shè)備104被示為任意數(shù)目η個客戶機設(shè)備??蛻魴C設(shè)備104可包括任何合適類型的設(shè)備,包括但不限于電視機、機頂盒、智能電話、便攜式媒體播放器、桌面計算機、膝上型計算機、筆記本計算機等。在某些實例中,虛線框106所指示的用戶可以經(jīng)由多個不同的客戶機設(shè)備(如由框106內(nèi)的客戶機1和2所指示的)消費視頻內(nèi)容。例如,用戶可以消費電視機、膝上型計算機、筆記本計算機和移動智能電話上的視頻和/或音頻內(nèi)容,并且可以經(jīng)由存儲在視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102上的或由視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102以其他方式可以訪問的用戶帳戶信息將全部這些設(shè)備鏈接到用戶。視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102還包括或其他方式被配置為訪問包括用于供應(yīng)給客戶機設(shè)備104的視頻和/或音頻內(nèi)容項的視頻和/或音頻內(nèi)容存儲110。視頻和/ 或音頻內(nèi)容存儲110中的視頻和/或音頻內(nèi)容項可被配置為被流傳輸?shù)娇蛻魴C設(shè)備104和 /或是由客戶機設(shè)備104可下載的用于稍后的消費。在某些場景中,可以在ー個設(shè)備(例如電視里)上消費視頻和/或音頻,而在另ー個伴隨設(shè)備(例如智能電話)上接收并消費元數(shù)據(jù)。此外,可以理解的是,元數(shù)據(jù)可以被生成并被提供給經(jīng)由可移動存儲媒體消費的視頻和/或音頻內(nèi)容,諸如緊致盤(⑶)、數(shù)字多功能盤(DVD)、和其他這種可移動存儲媒體。各種元數(shù)據(jù)項可被存儲在視頻和/或音頻內(nèi)容存儲110中,包括但不限于視頻和/ 或音頻內(nèi)容的媒體間元數(shù)據(jù)及媒體內(nèi)元數(shù)據(jù)的每個視頻和/或音頻內(nèi)容項。某些元數(shù)據(jù)可以與對應(yīng)的視頻和/或音頻內(nèi)容項捆綁在一起,并且與視頻和/或音頻內(nèi)容項存儲在一起, 而其他元數(shù)據(jù)可與相關(guān)聯(lián)的視頻和/或音頻內(nèi)容項分開地存儲,使得它可與相關(guān)聯(lián)的視頻和/或音頻內(nèi)容項分開地提供給客戶機。圖1中的元數(shù)據(jù)存儲112表示該分開地存儲的元數(shù)據(jù),但是可以理解的是,分開地存儲的元數(shù)據(jù)可被存儲在與相關(guān)聯(lián)的視頻和/或音頻內(nèi)容項相同或不同的數(shù)據(jù)庫中。也可以理解的是,視頻和/或音頻內(nèi)容項和/或元數(shù)據(jù)也可被存儲在視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102經(jīng)由網(wǎng)絡(luò)105可以訪問的遠程位置,如圖1 在114所示??梢岳斫獾氖牵曨l和/或音頻內(nèi)容服務(wù)器系統(tǒng)102所服務(wù)的媒體可以可選地被加密。由此,認證/許可/解密方案可被內(nèi)置到每個客戶機以及元數(shù)據(jù)生成邏輯中。加密 /內(nèi)容保護方案也可被應(yīng)用于元數(shù)據(jù)以及媒體內(nèi)容。如以下將更詳細地描述的,視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102被配置為從被示為任意數(shù)量η個媒體源的媒體源116接收視頻和/或音頻內(nèi)容項,并且處理視頻和/或音頻內(nèi)容項以生成用于視頻和/或音頻內(nèi)容項的元數(shù)據(jù)。由此,視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102包括邏輯子系統(tǒng)120,該邏輯子系統(tǒng)120被配置為執(zhí)行存儲在數(shù)據(jù)保持子系統(tǒng)122中的指令以執(zhí)行關(guān)于生成用于視頻和/或音頻內(nèi)容項的元數(shù)據(jù)的各種功能,并且向發(fā)出請求的客戶機設(shè)備104提供視頻和/或音頻內(nèi)容項以及用于視頻和/或音頻內(nèi)容項的相關(guān)聯(lián)的元數(shù)據(jù)。視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102還被示為包括顯示器124,用以呈現(xiàn)關(guān)于對為視頻和/或音頻內(nèi)容項所生成的元數(shù)據(jù)的確認的用戶界面。如以下更詳細地描述的,元數(shù)據(jù)可以由視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102的用戶、由操作客戶機設(shè)備104的消費者、和 /或由自動服務(wù)來確認??梢岳斫獾氖牵魏魏线m的計算機體系結(jié)構(gòu)可用于視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102而不背離本公開的范圍。此外,視頻和/或音頻內(nèi)容服務(wù)器系統(tǒng)102可包括除圖1所描繪的那些以外的任何其他合適的組件,包括但不限于諸如鍵盤、鼠標、游戲控制器、相機、 話筒、和/或例如觸摸屏等用戶輸入設(shè)備。邏輯子系統(tǒng)120可包括被配置為執(zhí)行ー個或多個指令的ー個或更多個物理設(shè)備。 例如,邏輯子系統(tǒng)120可以被配置為執(zhí)行ー個或多個指令,該ー個或更多個指令是ー個或更多個應(yīng)用、服務(wù)、程序、例程、庫、對象、組件、數(shù)據(jù)結(jié)構(gòu)或其他邏輯構(gòu)造的部分??蓪崿F(xiàn)此類指令以執(zhí)行任務(wù)、實現(xiàn)數(shù)據(jù)類型、變換ー個或多個設(shè)備的狀態(tài)、或以其它方式得到希望的
η果。邏輯子系統(tǒng)120可以包括被配置為執(zhí)行軟件指令的一個或多個處理器。附加地或可替代地,邏輯子系統(tǒng)120可以包括被配置為執(zhí)行硬件或固件指令的一個或多個硬件或固件邏輯機器。邏輯子系統(tǒng)120的處理器可以是單核或多核的,且在上面執(zhí)行的程序可以被配置為供并行或分布式地處理。邏輯子系統(tǒng)120可以任選地包括分布在兩個或更多個設(shè)備上的單獨組件,這些設(shè)備可位于遠程和/或被配置為進行協(xié)同處理。邏輯子系統(tǒng)120的一個或多個方面可被虛擬化并由以云計算配置進行配置的可遠程訪問的聯(lián)網(wǎng)計算設(shè)備執(zhí)行。數(shù)據(jù)保持子系統(tǒng)122可包括ー個或更多個物理、非瞬時設(shè)備,這些設(shè)備被配置成保持數(shù)據(jù)和/或可由該邏輯子系統(tǒng)執(zhí)行的指令,以實現(xiàn)此處描述的方法和過程。在實現(xiàn)這樣的方法和過程吋,可以變換數(shù)據(jù)保持子系統(tǒng)122的狀態(tài)(例如,以保持不同數(shù)據(jù))。數(shù)據(jù)保持子系統(tǒng)122可以包括可移動介質(zhì)和/或內(nèi)置設(shè)備。數(shù)據(jù)保持子系統(tǒng)122 尤其是可以包括光學(xué)存儲器設(shè)備(例如,⑶、DVD, HD-DVD、藍光盤等)、半導(dǎo)體存儲器設(shè)備 (例如,RAM、EPR0M、EEPR0M等)和/或磁存儲器設(shè)備(例如,硬盤驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、MRAM等)。數(shù)據(jù)保持子系統(tǒng)122可以包括具有以下特性中的ー個或更多個特性的設(shè)備易失性、非易失性、動態(tài)、靜態(tài)、讀/寫、只讀、隨機存取、順序存取、位置可尋址、文件可尋址、以及內(nèi)容可尋址。在某些實施例中,可以將邏輯子系統(tǒng)120和數(shù)據(jù)保持子系統(tǒng)122 集成到一個或更多個常見設(shè)備中,如專用集成電路或片上系統(tǒng)。圖1還示出以可移動計算機可讀存儲介質(zhì)130形式的數(shù)據(jù)保持子系統(tǒng)的一方面, 該可移動計算機可讀存儲介質(zhì)可用于存儲和/或傳輸可執(zhí)行以實現(xiàn)此處所述的方法和過程的數(shù)據(jù)和/或指令??梢苿佑嬎銠C可讀存儲介質(zhì)130可以采?、恰VD、HD-DVD、藍光盤、 EEPR0M、磁存儲器設(shè)備、和/或軟盤等形式。應(yīng)當(dāng)理解,如此處所使用的“服務(wù)”可以是跨越多個用戶會話可執(zhí)行的、而且對一個或更多系統(tǒng)組件、程序和/或其他服務(wù)可用的應(yīng)用程序。在一些實現(xiàn)中,服務(wù)可以響應(yīng)于來自客戶端的請求而在服務(wù)器上運行。
顯示器IM可被用于呈現(xiàn)由數(shù)據(jù)保持子系統(tǒng)122保存的數(shù)據(jù)的可視表示。由于此處所描述的方法和過程改變了由數(shù)據(jù)保持子系統(tǒng)保存的數(shù)據(jù),并由此轉(zhuǎn)變了數(shù)據(jù)保持子系統(tǒng)的狀態(tài),因此同樣可以轉(zhuǎn)變顯示顯示器124的狀態(tài)以可視地表示底層數(shù)據(jù)中的改變。顯示器IM可以包括使用實際上任何類型的技術(shù)的ー個或多個顯示設(shè)備??蓪⒋祟愶@示設(shè)備與邏輯子系統(tǒng)120和/或數(shù)據(jù)保持子系統(tǒng)122 —起組合在共享封裝中,或此類顯示設(shè)備可以是外圍顯示設(shè)備。此外,在某些實施例中,可以包括ー個或多個音頻輸出(例如揚聲器) 以呈現(xiàn)數(shù)據(jù)保持子系統(tǒng)122所保持的數(shù)據(jù)的音頻表示,和/或可以提供ー個或多個音頻輸入以接收諸如語音命令的音頻輸入。圖2示出描繪為視頻和/或音頻內(nèi)容項生成元數(shù)據(jù)的方法200的實施例的流程圖。方法200包括,在202,接收視頻和/或音頻內(nèi)容項的輸入,并且在204,將該視頻和/ 或音頻內(nèi)容項與ー個或多個對象描述符進行比較,其中每個視頻對象描述符表示可位于視頻和/或音頻內(nèi)容項中的對象。對象描述符可包括例如視頻和/或音頻內(nèi)容項中出現(xiàn)的人的面部的表示。這可以允許使用面部識別技術(shù)以識別構(gòu)成視頻和/或音頻內(nèi)容項的各個圖像數(shù)據(jù)幀中的演員的面部。同樣,對象描述符可包括動物的表示、位于視頻和/或音頻內(nèi)容項中的無生命對象的表示、視頻和/或音頻內(nèi)容項的音軌中使用的歌曲的表示、和/或其他合適的視頻內(nèi)對象。此外,對象描述符可包括幫助識別視頻和/或音頻內(nèi)容項中諸如場景改變的視頻內(nèi)和/或音頻內(nèi)事件的功能和/或數(shù)據(jù)??梢岳斫獾氖?,視頻和/或音頻內(nèi)容項可包括完整的視頻內(nèi)容選擇,或視頻內(nèi)容選擇的任何子部分,諸如場景、截圖、或者甚至是單個幀。方法200接下來包括,在206,為位于視頻和/或音頻內(nèi)容項中的每個對象生成元數(shù)據(jù)。例如,這可以包括生成位于視頻和/或音頻內(nèi)容項中的對象的身份208的列表,并且還生成每個對象出現(xiàn)在視頻和/或音頻內(nèi)容項中的時間和/或圖像幀坐標形式的位置210 的列表。此外,在某些實施例中,為位于視頻和/或音頻內(nèi)容項中的每個對象的每個實例生成元數(shù)據(jù),如在211所示。可以理解的是,此處使用的術(shù)語“位置”可以指特定圖像數(shù)據(jù)幀 (例如,引用特定圖像幀的矩形邊界框)內(nèi)的時間位置和/或物理位置。此外,所生成的元數(shù)據(jù)可包括視頻和/或音頻內(nèi)容項中的場景中斷的列表,和/或可以列出任何其他合適的視頻內(nèi)對象。可以理解的是,生成元數(shù)據(jù)的視頻和/或音頻內(nèi)容項處理可以例如經(jīng)由分布式計算機網(wǎng)絡(luò)本地地和/或遠程地進行。接下來,方法200包括,在212,接收關(guān)于為所選對象的所選實例所生成的元數(shù)據(jù)是否正確的確認輸入。如上所述,對視頻中的對象的自動識別相比手動地實現(xiàn)可以更快地生成大量的元數(shù)據(jù),但還缺少對象的人類識別的精度和準確性。因此,方法200可以提供元數(shù)據(jù)的人類輔助確認,這可以幫助確保與視頻和/或音頻內(nèi)容項相關(guān)聯(lián)的元數(shù)據(jù)的可靠性。在其他實施例中,確認輸入可以來自服務(wù)組件,而不是用戶。從用戶接收確認輸入時,確認用戶輸入可以經(jīng)由本地用戶界面從執(zhí)行視頻和/或音頻內(nèi)容項攝取/元數(shù)據(jù)生成過程的用戶接收,如在214所指示的,和/或經(jīng)由遠程客戶機設(shè)備在消費元數(shù)據(jù)期間從消費者接收,如在216所指示的。此外,如上所述,可以從自動化服務(wù)接收確認用戶輸入,如在217所指示的。生成時對所生成的元數(shù)據(jù)的正確性的確認可以幫助預(yù)防將不正確的元數(shù)據(jù)傳輸給消費者。同樣,從元數(shù)據(jù)的消費者接收確認輸入可以幫助預(yù)防將不正確的元數(shù)據(jù)傳輸給元數(shù)據(jù)的以后的消費者。例如,在某些情況下,視頻和/或音頻內(nèi)容項具有相對低的利潤預(yù)期吋,可能期望不在攝取過程確認,而相反僅在消費階段進行確認過程。在這種實施例中,可以向消費者提供用于指出元數(shù)據(jù)中的任何錯誤信息的激勵??梢园凑杖魏魏线m的方式接收視頻和/或音頻內(nèi)容項輸入202。例如,可以按照原始格式或編碼格式接收視頻和/或音頻內(nèi)容項。此外,可以在流傳輸模式或下載以擁有 (DTO)模式中接收視頻和/或音頻內(nèi)容項。所生成的元數(shù)據(jù)可以與視頻和/或音頻內(nèi)容項捆綁在一起來存儲,或者可以分開地存儲,使得它可以被分開地提供,如上所述。此外,可以購買可移動媒體存儲設(shè)備形式的視頻和/或音頻內(nèi)容項,在此情形中,可以分開地存儲和提供元數(shù)據(jù)。圖3示出描繪為視頻和/或音頻內(nèi)容項生成元數(shù)據(jù)的方法的更詳細的實施例的流程圖。方法300包括,在302,接收視頻和/或音頻內(nèi)容項的輸入,并且在304,請求并接收表示可能在視頻和/或音頻內(nèi)容項中的對象的一組對象描述符。例如,視頻和/或音頻內(nèi)容項是電影或電視演出吋,視頻和/或音頻內(nèi)容服務(wù)器可以確定演出的身份,井隨后可以向外部服務(wù)發(fā)送對包括電影或演出的演員表中的演員列表以及一組演員圖像(或其他數(shù)字表示)的ー組對象描述符的請求同樣,視頻和/或音頻內(nèi)容項具有音樂的音軌時,視頻和 /或音頻內(nèi)容服務(wù)器可以向外部服務(wù)發(fā)送對音軌內(nèi)包括的歌曲、或來自歌曲的剪輯的請求。 可以使用類似的方法來獲得對象描述符以定位視頻和/或音頻內(nèi)容項中的無生命對象、動物等。可以理解的是,演員表、音軌歌曲列表、和視頻和/或音頻內(nèi)容項的其他這種通用元數(shù)據(jù)項可以如接收時和/或來自各種外部服務(wù)時那樣與視頻和/或音頻內(nèi)容項包括在一起。方法300接下來包括,在306,將視頻和/或音頻內(nèi)容項與對象描述符進行比較以定位視頻和/或音頻內(nèi)容項中對象描述符所表示的對象的任何實例。隨后,對于所定位的每個對象的每個實例,方法300包括,在308生成元數(shù)據(jù)。如上所述,所生成的元數(shù)據(jù)可以是媒體內(nèi)和/或媒體間元數(shù)據(jù),并且可以包括任何合適的信息,包括但不限于被分配給所定位的對象的身份以及所定位的對象出現(xiàn)在視頻和/或音頻內(nèi)容項中的(時間和/或空間) 位置。在對象的實例的定位及為實例生成元數(shù)據(jù)時或之后,方法300包括,在314,將用戶界面的表示發(fā)送到顯示設(shè)備或其他合適的輸出設(shè)備(例如,音頻輸出設(shè)備),其中用戶界面顯示從視頻和/或音頻內(nèi)容項的圖像幀獲得一組圖像316,該組圖像表示所選對象定位于視頻和/或音頻內(nèi)容項中的實例。此外,在某些實施例中,除了經(jīng)由顯示器或不經(jīng)由顯示器,將音頻輸出呈現(xiàn)給用戶。如下所述,該用戶界面隨后用于接收確認用戶輸入(或者其他確認輸入,例如來自服務(wù)),如在322所指示的,以基于該組圖像所表示的對象實例是否被正確地識別來確認元數(shù)據(jù)。另選地或另外地,可以經(jīng)由音頻輸入或以任何其他合適的方式來接收確認用戶輸入。隨后,在324,僅當(dāng)確認用戶輸入確認了對象實例被正確地識別時,可以將所生成的元數(shù)據(jù)與用于供應(yīng)給客戶機設(shè)備的所識別的已定位對象實例相關(guān)聯(lián)。用戶界面可包括任何合適的信息和/或控件來便于對用于所定位的對象實例的所生成的元數(shù)據(jù)的確認。例如,如在318所示,用戶界面可包括表示對象描述符的圖像。這種圖像可以作為用戶可以選擇以確認所識別的對象實例的正確性的用戶界面控件,并由此確認為該實例所生成的元數(shù)據(jù)。此外,用戶界面可包括可用于拒絕對象實例的任何不正確CN 102547479 A
的識別的ー個或多個非確認控件,并由此使為該實例生成的元數(shù)據(jù)無效。在某些實施例中, 這種非確認控件可被配置為全局地應(yīng)用于用戶界面上所描繪的所有對象實例。圖4示出可用于快速地確認大量所生成的元數(shù)據(jù)或使大量所生成的元數(shù)據(jù)無效的用戶界面400的示例實施例??梢岳斫獾氖牵颂幨褂玫男g(shù)語“確認用戶輸入”可以指確認所生成的元數(shù)據(jù)或使所生成的元數(shù)據(jù)無效的用戶輸入。用戶界面400包括第一字段402,該第一字段402包括如由對視頻和/或音頻內(nèi)容項的自動化捜索所識別的視頻和/或音頻內(nèi)容項中的特定對象的檢測到的外形的每個實例的表示,其中由取自圖像數(shù)據(jù)幀的所識別的對象的圖像(圖4中被示為角色頭部的輪廓)來示出每個實例。第一字段402被配置為是可滾動的,或以其他方式允許包括比一次可顯示的更多的數(shù)據(jù)。用戶界面400還包括第二字段404,第二字段404包括對用于識別對象實例的每個視頻對象描述符的表示。在所描繪的實施例中,第二字段404包括視頻和/或音頻內(nèi)容項中演員表成員的面部圖像的列表。如所示的,用戶可以例如使用光標405、觸摸輸入、或以任何其他合適的方式選擇演員表成員的面部(在所描繪的實施例中是演員幻以進行用于該組圖像所表示的全部實例的單個確認輸入。由此,經(jīng)由對第二字段404中的圖像的選擇為所選對象的全部實例接收用于所生成的元數(shù)據(jù)的單個確認輸入。在為ー組所識別的對象實例執(zhí)行該過程之后,導(dǎo)航控件406允許用戶導(dǎo)航以顯示表示另ー個所選對象定位于視頻和 /或音頻內(nèi)容項中的實例的另ー組圖像,并且隨后進行另ー個確認輸入。在某些實例中,不是第一字段402所示的全部圖像都可以識別相同的對象。例如, 所選對象描述符與演員表成員相對應(yīng)時,所示的一個或多個圖像可以識別不同的演員表成員、非演員表成員(例如額外的)、或無生命對象(例如離像、鐘面等)。由此,用戶界面400 包括允許使為這些不正確地識別的對象實例生成的元數(shù)據(jù)無效的無效控件。在所描繪的實施例中,用戶界面包括示例單項無效控件408和全局無效控件410。單項無效控件408被標記為“不在演員表中”,并且允許用戶選擇來自第一字段402的不正確地識別的對象實例的圖像,并且隨后選擇單項無效控件408以使為該項生成的元數(shù)據(jù)無效。在不正確地識別的對象實例被無效之后,剰余的對象實例可以作為一組經(jīng)由對來自第二字段404的圖像的選擇來確認,如上所述。同樣,被標記為“壞組”的全局無效控件410允許第一字段402中所顯示的一組圖像所示的全部對象實例通過接收單個確認輸入來無效。以此方式,一個明顯錯誤的對象識別組可以被快速地拒絕,而不必単獨地拒絕每個錯誤地識別的對象實例。圖4還示出其他示例用戶界面控件。例如,圖像大小調(diào)整控件412可用于放大或縮小特定圖像以輔助確認過程??梢岳斫獾氖?,用戶界面的所描繪的實施例是出于示例的目的而示出的,并且不旨在以任何方式進行限制。返回圖3,在某些實施例中,可以執(zhí)行附加的確認后處理來生成附加的元數(shù)據(jù)。例如,如在;^6所指示的,可以通過確定兩個或多個所識別的對象同時出現(xiàn)的視頻和/或音頻內(nèi)容項的片段,井隨后生成關(guān)于對象的這些重疊實例中的對象的身份和(時間和/或位置的)位置的元數(shù)據(jù)來生成關(guān)系元數(shù)據(jù)。例如,這可以通過允許視頻內(nèi)容的消費者執(zhí)行希望的視頻內(nèi)容的更細粒度的捜索來輔助內(nèi)容發(fā)現(xiàn)。作為使用關(guān)系元數(shù)據(jù)的更具體的示例,關(guān)系元數(shù)據(jù)可用于識別消費者可能記得兩個或多個喜歡的角色或其他對象出現(xiàn)的場景的之前觀看過的電影或電視演出。在發(fā)現(xiàn)所記得的場景之后,消費者隨后可以僅觀看所請求的場景,或者可以觀看整個視頻和/或包括所請求的場景的視頻和/或音頻內(nèi)容項。這還可以允許收集視頻內(nèi)觀看統(tǒng)計數(shù)據(jù),使得內(nèi)容提供方可以確定多少人觀看視頻和/或音頻內(nèi)容項中的所選場景。這可以幫助基于各個演員和/或?qū)ο蟪霈F(xiàn)在視頻和/或音頻內(nèi)容項中多長時間來分析統(tǒng)計數(shù)據(jù),并且因此可以允許基于其中提供廣告的場景的場景特征或鄰近提供該廣告的場景的場景特征來對廣告進行定價,而不是基于作為整體的視頻和/或音頻內(nèi)容項的特征。方法300接下來包括,在328,從客戶機接收對元數(shù)據(jù)的請求,并且向發(fā)出請求的客戶機提供元數(shù)據(jù)。在某些實例中,元數(shù)據(jù)可以與視頻和/或音頻內(nèi)容項捆綁在一起。由此,如在330所指示的,對元數(shù)據(jù)的請求可以采取對視頻和/或音頻內(nèi)容項的請求的形式, 并且元數(shù)據(jù)可以與視頻和/或音頻內(nèi)容項捆綁在一起被發(fā)送到客戶機。在其他實例中,如在330所指示的,元數(shù)據(jù)可以與視頻和/或音頻內(nèi)容項分開地存儲。分開存儲吋,元數(shù)據(jù)可以基于對視頻和/或音頻內(nèi)容項的請求而被發(fā)送到客戶機(即,元數(shù)據(jù)與視頻和/或音頻內(nèi)容項被推送到客戶機,流傳輸或被下載),或者基于請求與視頻和/或音頻內(nèi)容項分開地被發(fā)送(即,元數(shù)據(jù)被拉到客戶機)。作為這些場景的每ー個的更具體的示例,在拉場景中,消費者可以在時間T暫停視頻重放,并且使視頻元數(shù)據(jù)遞送服務(wù)提供關(guān)于該視頻幀中位置P處的視頻對象(角色或其他)的信息。這種交互可以以任何合適的方式進行以請求關(guān)于感興趣的對象的更多信息,包括但不限于經(jīng)由諸如光標控制設(shè)備的用戶輸入設(shè)備,經(jīng)由與諸如三維深度相機的運動傳感器的交互,經(jīng)由話筒或話筒陣列檢測到的語音命令等。視頻元數(shù)據(jù)服務(wù)隨后將被下載的姓名或其他信息發(fā)送到客戶機。相反,在推場景中,客戶機接收與視頻一同正被觀看的視頻和/或音頻內(nèi)容項的全部元數(shù)據(jù)。由此,時間T和位置P處的視頻內(nèi)和視頻間元數(shù)據(jù)對于推場景中的消費者是立刻可用的。某些實施例可以采用混合推拉元數(shù)據(jù)遞送場景。例如,在此實施例中,對象位置P 和時間T的列表可被推送到客戶機,而關(guān)于對象的諸如新聞、緋聞等的近期信息由客戶機拉取。如上所述的對元數(shù)據(jù)的供應(yīng)允許啟用并顯示與媒體項內(nèi)部的時間偏移量或視覺位置相關(guān)聯(lián)的派生元數(shù)據(jù)體驗。某些這種元數(shù)據(jù)體驗可以是入口 /出口體驗,而其他的可以是基于統(tǒng)計數(shù)據(jù)的社交體驗。作為入口事件的非限制性示例,消費者可以預(yù)訂特定的有趣的人的“頻道”,關(guān)于該特定的人的信息內(nèi)容可以以各種各樣的視覺粒度被自動地通知/ 觸發(fā)給消費者,或以其他方式被消費者訪問,從整部電影或TV劇集到特定的場景或甚至是單個幀,而不是訂閱基于內(nèi)容的頻道或與特定的廣播實體相關(guān)聯(lián)的頻道??梢岳斫獾氖?,所請求的信息可以被發(fā)送到消費者正在觀看視頻和/或音頻內(nèi)容項的設(shè)備上,或發(fā)送到諸如移動電話、遙控器、膝上型計算機、筆記本計算機等的另ー個設(shè)備。作為出口事件的非限制性示例,如上所述,消費者可以暫停重放,在視頻重放期間經(jīng)由輸入設(shè)備在時間T選擇矩形位置P,并且顯示諸如角色的姓名、扮演該角色的演員的姓名的信息和該演員出現(xiàn)的其他內(nèi)容。消費者隨后可以退出并導(dǎo)航至與該角色或演員有關(guān)的其他信息,諸如內(nèi)容內(nèi)部該角色的難忘的/受歡迎的/可引用的內(nèi)容/場景/幀。作為另 ー個出口場景,當(dāng)給定角色離開特定的內(nèi)容項的場景時,可以呈現(xiàn)可觀看該角色的演出選擇的概覽。
作為基于統(tǒng)計數(shù)據(jù)的社交體驗的非限制性示例,消費者可以接收關(guān)于第一個進入新的電視演出的場景的演員的實時潮流數(shù)據(jù)(例如,微博潮流數(shù)據(jù))。消費者還可以搜索關(guān)于演員在視頻和/或音頻內(nèi)容項中出現(xiàn)多少次的統(tǒng)計數(shù)據(jù)以獲得可被顯示并推薦給社交網(wǎng)絡(luò)上的朋友以供進一歩探索的流行性分布。由此,通過利用對視頻內(nèi)對象的自動化識別以產(chǎn)生元數(shù)據(jù),結(jié)合對這種元數(shù)據(jù)的人類輔助確認以過濾任何錯誤的結(jié)果,可能獲得高度精確的比率的正確地識別的元數(shù)據(jù), 而與手動的元數(shù)據(jù)生成方法相比,高效地生成大量的元數(shù)據(jù)。應(yīng)該理解,此處所述的配置和/或方法在本質(zhì)上是示例性的,且這些具體實施例或示例不是局限性的,因為多個變體是可能。此處所述的具體例程或方法可表示任何數(shù)量的處理策略中的一個或更多個。由此,所示出的各個動作可以按所示順序執(zhí)行、按其他順序執(zhí)行、并行地執(zhí)行、或者在某些情況下省略。同樣,可以改變上述過程的次序。本發(fā)明的主題包括各種過程、系統(tǒng)和配置的所有新穎和非顯而易見的組合和子組合、和此處所公開的其他特征、功能、動作、和/或特性、以及其任何和全部等效物。
權(quán)利要求
1.ー種計算設(shè)備(103),包括邏輯子系統(tǒng)(120),被配置為執(zhí)行指令;以及數(shù)據(jù)保持子系統(tǒng)(122),包含存儲其中的可由所述邏輯子系統(tǒng)(120)執(zhí)行的指令以接收視頻和/或音頻內(nèi)容項的輸入O02);將所述視頻和/或音頻內(nèi)容項與ー個或多個對象描述符進行比較(204)以定位所述視頻和/或音頻內(nèi)容項中的ー個或多個對象的實例,每個對象描述符表示用于定位在所述視頻和/或音頻內(nèi)容項內(nèi)的對象;為位于所述視頻和/或音頻內(nèi)容項中的每個對象生成元數(shù)據(jù)O06),對應(yīng)的對象的所述元數(shù)據(jù)包括所述對應(yīng)的對象的身份;以及接收關(guān)于為所選對象生成的所述元數(shù)據(jù)是否正確的確認輸入(212)。
2.如權(quán)利要求1所述的計算設(shè)備,其特征在于,所述指令可進ー步執(zhí)行以向顯示設(shè)備輸出用戶界面,并經(jīng)由所述用戶界面接收所述確認輸入,所述用戶界面包括表示所選對象定位于所述視頻和/或音頻內(nèi)容項中的實例的ー組圖像。
3.如權(quán)利要求2所述的計算設(shè)備,其特征在于,所述確認輸入包括用于由該組圖像所表示的全部實例的單個確認輸入。
4.如權(quán)利要求2所述的計算設(shè)備,其特征在于,還包括可執(zhí)行的指令,以在接收所述確認輸入之后,顯示表示另ー個所選對象定位于所述視頻和/或音頻內(nèi)容項中的實例的另ー 組圖像,井隨后接收另ー個確認輸入。
5.如權(quán)利要求1所述的計算設(shè)備,其特征在于,所述指令是可執(zhí)行的以將所述元數(shù)據(jù)與所述視頻和/或音頻內(nèi)容項捆綁在一起。
6.如權(quán)利要求1所述的計算設(shè)備,其特征在于,所述指令是可執(zhí)行的以將所述元數(shù)據(jù)與所述視頻和/或音頻內(nèi)容項分開地保存,并且將所述元數(shù)據(jù)與所述視頻和/或音頻內(nèi)容項分開地發(fā)送到客戶機。
7.如權(quán)利要求1所述的計算設(shè)備,其特征在干,所述對象描述符包括所述視頻和/或音頻內(nèi)容項中的演員列表。
8.如權(quán)利要求1所述的計算設(shè)備,其特征在于,還包括可執(zhí)行的指令以生成關(guān)系元數(shù)據(jù)信息,所述關(guān)系元數(shù)據(jù)信息是關(guān)于兩個或多個對象二者出現(xiàn)在所述視頻和/或音頻內(nèi)容項的幀中的所述視頻和/或音頻內(nèi)容項中的位置的。
9.ー種將視頻內(nèi)元數(shù)據(jù)與視頻內(nèi)容項中的一個或多個對象相關(guān)聯(lián)的方法(300),所述方法(300)包括接收視頻內(nèi)容項的輸入(302);將所述視頻內(nèi)容項與ー個或多個視頻對象描述符進行比較(306)以定位所述視頻內(nèi)容項中的ー個或多個對象的實例,每個視頻對象描述符表示用于定位在所述視頻內(nèi)容項內(nèi)的對象;為位于所述視頻內(nèi)容項中的每個對象的每個實例生成視頻內(nèi)元數(shù)據(jù)(308),對應(yīng)的對象的所述視頻內(nèi)元數(shù)據(jù)包括所述對應(yīng)的對象的身份以及所述對應(yīng)的對象出現(xiàn)在所述視頻內(nèi)容項內(nèi)的位置;向顯示設(shè)備輸出包括一組圖像的用戶界面(314),所述組圖像表示所選對象定位于所述視頻內(nèi)容項中的實例;接收關(guān)于所述所選對象的實例是否正確地位于所述視頻內(nèi)容項中的確認用戶輸入 (322);以及僅當(dāng)所述確認用戶輸入確認所選實例被正確地識別為包括所述所選對象時,將所述視頻內(nèi)元數(shù)據(jù)與所述所選對象的所述所選實例相關(guān)聯(lián)。
10.如權(quán)利要求9所述的方法,其特征在干,接收所述確認用戶輸入包括接收用于所述組圖像所表示的全部實例的單個確認輸入。
全文摘要
本發(fā)明涉及媒體元數(shù)據(jù)的生成與供應(yīng)。公開了關(guān)于媒體元數(shù)據(jù)的生成和供應(yīng)的各種實施例。例如,一個所公開的實施例提供計算設(shè)備(103),該計算設(shè)備包括被配置為執(zhí)行指令的邏輯子系統(tǒng)(120),以及包括其中存儲的可由邏輯子系統(tǒng)(120)執(zhí)行以實現(xiàn)以下動作的指令的數(shù)據(jù)保持子系統(tǒng)(122)接收視頻和/或音頻內(nèi)容項的輸入(202),并將該視頻和/或音頻內(nèi)容項與一個或多個對象描述符進行比較(204)以定位內(nèi)容項中的一個或多個對象的實例,每個對象描述符表示用于定位在內(nèi)容項內(nèi)的對象。指令可進一步執(zhí)行以為位于視頻內(nèi)容項中的每個對象生成視頻元數(shù)據(jù)(206),并且接收關(guān)于為所選對象生成的元數(shù)據(jù)是否正確的確認用戶輸入(212)。
文檔編號H04N21/85GK102547479SQ20111043052
公開日2012年7月4日 申請日期2011年12月8日 優(yōu)先權(quán)日2010年12月9日
發(fā)明者A·默欽, C·吉布森, C·顧, D·奧爾斯 申請人:微軟公司