專利名稱:用于檢索涉及目標主題的信息的系統(tǒng)和方法
技術領域:
本發(fā)明涉及一種從多信息源檢索涉及目標主題的信息的交互式信息檢索系統(tǒng)和方法。特別地,本發(fā)明涉及內(nèi)容分析器,該內(nèi)容分析器以通信方式連接到多個信息源,并能夠從用戶接收要求從所述信息源提取相關素材的隱式或者顯式請求。
背景技術:
由于擁有500多個可看的電視內(nèi)容頻道以及通過Internet可訪問的無數(shù)內(nèi)容流,似乎人們總能訪問想要的內(nèi)容。但是,與之相反,觀眾常常不能找到他們想尋找的內(nèi)容類型。這可導致令人灰心的經(jīng)歷。
現(xiàn)在,有線和衛(wèi)星電視服務等提供收視指南,旨在幫助觀眾找到感興趣的節(jié)目。在一種這樣的系統(tǒng)中,觀眾翻看指南頻道并觀看在特定時間段(典型地為2-3小時)內(nèi)正在播放(或者將要播放)的層疊式節(jié)目流。該節(jié)目列表僅按照頻道的次序滾動。因此,觀眾不能控制,在找到想要的節(jié)目之前通常必須坐著收看幾百個頻道。在另一種系統(tǒng)中,用戶可以在他們的電視屏幕上訪問收視指南。該收視指南在某種程度上是互動的,因為用戶可以選擇他們感興趣的特定時間,日,和頻道??墒牵@些服務不允許用戶搜索特定內(nèi)容。另外,這些收視指南不能提供一種用來檢索涉及目標主題如男女演員,特定時間或特定話題的信息的方法。
在Internet上,尋找內(nèi)容的用戶可以將搜索請求鍵入搜索引擎中??墒牵@些搜索引擎常常不管成功與否,使用起來效率很低。另外,當前的搜索引擎不能連續(xù)地訪問相關內(nèi)容,以便隨時間更新結果。也有專門的網(wǎng)站和新聞組(如體育網(wǎng)站,電影網(wǎng)站等等)供用戶訪問。可是,這些網(wǎng)站需要用戶在每次需要信息時都要登錄并查詢特定話題。
另外,沒有一種系統(tǒng)可以集成在不同媒介類型如電視和Internet中檢索信息的能力,也不能從多個頻道和網(wǎng)站提取人物或者素材。沒有這樣一種系統(tǒng),在該系統(tǒng)中具有共同興趣的用戶可以分享他們的知識,并將其和他們的電視觀看經(jīng)驗集成起來。
因此,需要一種允許用戶創(chuàng)建有目的的信息請求的系統(tǒng)和方法,該請求由有權訪問多個信息源的處理設備處理,以便檢索涉及請求主題的信息。
發(fā)明概述本發(fā)明克服了現(xiàn)有技術的缺點。概括地說,信息跟蹤器包含內(nèi)容分析器,該內(nèi)容分析器包含用來存儲從信息源接收到的內(nèi)容數(shù)據(jù)的存儲器和用來執(zhí)行一套根據(jù)查詢標準分析該內(nèi)容數(shù)據(jù)的機器可讀指令的處理器。該信息跟蹤器進一步包含以通信方式連接到該內(nèi)容分析器的輸入設備,以便允許用戶和該內(nèi)容分析器交互作用,和以通信方式連接到內(nèi)容分析器的顯示設備,以便顯示由該內(nèi)容分析器執(zhí)行的內(nèi)容數(shù)據(jù)分析的結果。根據(jù)該套機器可讀指令,該內(nèi)容分析器的處理器分析內(nèi)容數(shù)據(jù),以提取和索引涉及該查詢標準的一個或多個素材。
更具體地,在一個示例中,該內(nèi)容分析器的處理器使用該查詢標準來定位內(nèi)容數(shù)據(jù)中的主題,從該內(nèi)容數(shù)據(jù)中提取一個或多個素材,解析和推斷該提取的一個或多個素材中的姓名,并在該顯示設備上顯示該提取的一個或多個素材的鏈接。假如超過一個素材被提取,則該處理器根據(jù)不同標準索引并排序這些素材,該標準包括但不限于姓名,話題,關鍵詞,時間關系,因果關系。
該內(nèi)容分析器進一步包含用戶簡檔和知識庫,該用戶簡檔包括有關用戶興趣的信息,該知識庫具有包括已知臉和聲音與姓名之間的對應關系在內(nèi)的多個已知關系和其它相關信息。該查詢標準優(yōu)選地將用戶簡檔和知識庫中的信息加入到內(nèi)容數(shù)據(jù)的分析中。
概括地說,根據(jù)該機器可讀指令,該處理器執(zhí)行幾個步驟以進行與用戶請求或者興趣最相關的匹配,包括但不限于人物定位,素材提取,推理和姓名解析,索引,結果顯示,以及用戶簡檔管理。更具體地,根據(jù)一個示例,該機器可讀指令的人物定位函數(shù)從內(nèi)容數(shù)據(jù)中提取臉,語音和文本,進行已知臉和提取的臉的第一匹配,進行已知聲音和提取的聲音的第二匹配,掃描該提取的文本以便和已知姓名進行第三匹配,并基于該第一,第二和第三匹配計算特定人物在該內(nèi)容數(shù)據(jù)中存在的概率。另外,優(yōu)選地,素材提取函數(shù)分割該內(nèi)容數(shù)據(jù)的音頻,視頻和副本信息,進行信息結合,內(nèi)部素材分割/注解,以及推理和姓名解析,以便提取相關素材。
通過閱讀以下對本發(fā)明的詳細描述及其附圖,本發(fā)明的上述和其它特征和優(yōu)點將變得容易理解。
該附圖僅僅是說明性的,其中在幾個視圖中類似的參考數(shù)字描述類似的元件。
圖1是根據(jù)本發(fā)明的信息檢索系統(tǒng)的一個示例的概括示意圖;圖2是根據(jù)本發(fā)明的信息檢索系統(tǒng)的一個可選實施例的示意圖;圖3是根據(jù)本發(fā)明的信息檢索方法的流程圖;圖4是根據(jù)本發(fā)明的人物定位和識別方法的流程圖;圖5是素材提取方法的流程圖;圖6是索引該提取的素材的方法的流程圖;和圖7是根據(jù)本發(fā)明的存在論知識樹的示例圖。
具體實施例方式
本發(fā)明針對一種用來根據(jù)該系統(tǒng)用戶的簡檔或請求,從多個媒介源檢索信息的交互式系統(tǒng)和方法。
特別地,信息檢索和跟蹤系統(tǒng)以通信方式連接到多個信息源。優(yōu)選地,該信息檢索和跟蹤系統(tǒng)從該信息源接收媒介內(nèi)容作為恒定數(shù)據(jù)流。響應用戶的請求(或者由用戶簡檔激發(fā)),該系統(tǒng)分析該內(nèi)容數(shù)據(jù)并檢索與該請求或者簡檔最相關的數(shù)據(jù)。該檢索到的數(shù)據(jù)或者顯示在顯示設備上,或者存儲起來供以后顯示。
系統(tǒng)結構參考圖1,示出根據(jù)本發(fā)明的信息檢索系統(tǒng)10的第一實施例的概括示意圖。集中內(nèi)容分析系統(tǒng)20和多個信息源50相互連接。作為非限制的例子,信息源50可包括有線或衛(wèi)星電視,Internet或無線電。內(nèi)容分析系統(tǒng)20也以通信方式連接到多個遠程用戶站點100,以下將進一步闡述。
在圖1所示的第一實施例中,集中內(nèi)容分析系統(tǒng)20包含內(nèi)容分析器25和一個或多個數(shù)據(jù)存儲設備30。優(yōu)選地,該內(nèi)容分析器25和存儲設備30經(jīng)由局域或者廣域網(wǎng)相互連接。該內(nèi)容分析器25包含處理器27和存儲器29,其能接收和分析來自信息源50的信息。該處理器27可以是微處理器和相關運算存儲器(RAM和ROM),并包括用來預處理該數(shù)據(jù)輸入的視頻,音頻和文本內(nèi)容的第二處理器。該處理器27可以是例如IntelPentium芯片或者其它更強大的多處理器,如下所述,該處理器優(yōu)選地足夠強大,可以逐幀進行內(nèi)容分析。以下將結合圖3-5進一步詳細闡述內(nèi)容分析器25的功能。
存儲設備30可以是磁盤陣列或者可以包含分級存儲系統(tǒng),該分級存儲系統(tǒng)具有1012,1015和1018字節(jié)的存儲設備,光存儲設備,每一個優(yōu)選地擁有幾百或者幾千個千兆字節(jié)的存儲能力以存儲媒介內(nèi)容。本領域的技術人員將認識到任意數(shù)量的不同存儲設備30可以用來支持信息檢索系統(tǒng)10的集中內(nèi)容分析系統(tǒng)20的數(shù)據(jù)存儲請求,在任意給定時間,該信息檢索系統(tǒng)訪問幾個信息源50并可支持多個用戶。
如上所述,集中內(nèi)容分析系統(tǒng)20優(yōu)選地經(jīng)由網(wǎng)絡200以通信方式連接到多個遠程用戶站點100(例如,用戶家里或者辦公室)。網(wǎng)絡200是任意全球通信網(wǎng)絡,包括但不限于Internet,無線/衛(wèi)星網(wǎng)絡,有線網(wǎng)絡等。優(yōu)選地,網(wǎng)絡200能夠以相對較高的數(shù)據(jù)傳遞速度傳送數(shù)據(jù)到遠程用戶站點100,以便支持媒體豐富內(nèi)容檢索,如實況或錄像電視。
如圖1所示,每個遠程站點100包括機頂盒110或者其它信息接收設備。優(yōu)選為機頂盒,因為大多數(shù)機頂盒如TiVo,WebTB,或者UtimateTV都能夠接收幾種不同類型的內(nèi)容。例如,Microsoft的UtimateTV機頂盒可以接收來自數(shù)字電纜服務和Internet的內(nèi)容數(shù)據(jù)??蛇x地,衛(wèi)星電視接收器可以連接到一個計算設備,如家用個人計算機140,該設備可以經(jīng)由家用局域網(wǎng)接收和處理網(wǎng)絡內(nèi)容。在另一例子中,所有信息接收設備都優(yōu)選地連接到顯示設備115,如電視機或者CRT/LCD顯示器。
在遠程用戶站點100的用戶通常使用各種輸入設備120如鍵盤,多功能遠程控制器,聲音激活設備或麥克風,或者個人數(shù)字助理訪問機頂盒110或其它信息接收設備并與之通信。使用這種輸入設備120,用戶可以輸入個人簡檔或者做出要求檢索特定類型信息的特定請求,正如以下將進一步闡述的那樣。
在圖2所示的可選實施例中,內(nèi)容分析器25位于每個遠程站點100,并以通信方式連接到信息源50。在該可選實施例中,該內(nèi)容分析器25可以和高容量存儲設備集成在一起或者可以使用中央存儲設備(未示出)。在任一情況下,在該實施例中都不需要集中分析系統(tǒng)20。內(nèi)容分析器25也可集成到任何其它類型的處理設備140中,該處理設備140能接收并分析來自信息源50的信息,如作為非限制的例子,個人計算機,手持處理設備,具有加強的處理和通信能力的游戲控制臺,有線機頂盒等等。第二處理器如TriMediaTMTricodec卡可用于所述處理設備140,以便預處理視頻信號??墒牵趫D2中為避免混淆,分別描述內(nèi)容分析器25,存儲設備130,和機頂盒110。
內(nèi)容分析器的功能信息檢索系統(tǒng)10的功能對于基于電視/視頻的內(nèi)容和基于網(wǎng)絡的內(nèi)容具有相同的適用性,通過以下討論,這一點將變得明顯。優(yōu)選地使用固件和軟件包對內(nèi)容分析器25進行編程,以便提供這里所描述的功能。將該內(nèi)容分析器25連接到合適的設備如電視機,家用計算機,有線網(wǎng)絡等等之后,用戶將優(yōu)選地使用輸入設備120輸入個人簡檔,該個人簡檔將存儲在內(nèi)容分析器25的存儲器29中。該個人簡檔可包括信息如,用戶個人興趣(如運動,新聞,歷史,閑談等等),感興趣的人物(如名人,政治家等等),或者感興趣的地方(如外國城市,著名景點等等),等等。同樣,如下所述,該內(nèi)容分析器25優(yōu)選地存儲知識庫,從該知識庫可以得到已知數(shù)據(jù)關系,如G.W.Bush是美國總統(tǒng)。
參考圖3,將結合視頻信號的分析描述該內(nèi)容分析器的功能。在步驟302,內(nèi)容分析器25使用視聽和副本處理進行視頻內(nèi)容分析,以便使用用戶簡檔和/或指示基礎以及外部數(shù)據(jù)源中的名人或政治家姓名,聲音或者圖像進行人物定位和識別,如以下結合圖4描述的那樣。在實時應用中,在內(nèi)容分析階段,輸入內(nèi)容流(如實況有線電視)在中心站點20的存儲設備30或者遠程站點100的本地存儲設備130中進行緩沖。在另一非實時應用中,在接收到請求或者其它預定事件(以下所述)之后,內(nèi)容分析器25訪問存儲設備30或130,如果可適用,則進行內(nèi)容分析。
由于大多數(shù)有線和衛(wèi)星電視信號攜帶幾百個頻道,因此優(yōu)選地僅僅將那些最可能得到有關素材的頻道定為目標。因此,可以使用知識庫450或者領域數(shù)據(jù)庫來對內(nèi)容分析器25進行編程,以便幫助處理器27確定用戶請求的“領域類型”。例如,在領域數(shù)據(jù)庫中姓名Dan Marino可以對應領域“運動”。類似地,術語“恐怖主義”可以對應領域“新聞”。在另一例子中,在確定了領域類型之后,內(nèi)容分析器將只掃描那些和該領域有關的頻道(如領域“新聞”對應新聞頻道)。當對于該內(nèi)容分析程序運算來說不需要這些分類時,使用用戶請求來確定領域類型更加有效,并且將導致更快的素材提取。另外,應當注意,特定術語和領域之間的對應是設計選擇的問題,可以用多種方法實現(xiàn)。
接下來,在步驟304,進一步分析視頻信號,以便從輸入視頻中提取素材。以下再次結合圖5說明了優(yōu)選程序。應當注意,作為一種可選實施,人物定位和識別也可和素材提取并行完成。
現(xiàn)在將描述對視頻信號如電視NTSC信號進行內(nèi)容分析的示例方法,這是人物定位和素材提取功能的基礎。一旦該視頻信號被緩沖,如下所述,內(nèi)容分析器25的處理器27優(yōu)選地使用Bayesian或者結合軟件引擎來分析該視頻信號。例如,該視頻信號的每一幀都可被分析,以允許視頻數(shù)據(jù)分割。
參考圖4,將對進行人物定位和識別的優(yōu)選程序進行描述。在410層,基本上如上所述進行臉部檢測,語音檢測,和副本提取。接下來,在420層,內(nèi)容分析器25通過將提取的臉和語音與存儲在知識庫中的已知臉和聲音模型進行匹配,進行臉部模型和聲音模型的提取。對提取的副本也進行掃描,以便和存儲在知識庫中的已知姓名進行匹配。在430層,使用模型提取和姓名匹配,由該內(nèi)容分析器定位和識別人物。然后,如圖5中所示,該信息和素材提取功能一起使用。
僅通過舉例,用戶可能對中東的政治事件感興趣,但是他將在東南亞一個遙遠的島嶼上度假,因此不能接收到新聞更新。使用輸入設備120,該用戶可以輸入和該請求有關的關鍵詞。例如,該用戶可以輸入以色列,巴勒斯坦,伊拉克,伊朗,Ariel Sharon,Saddam Hussein等等。這些關鍵條款將存儲在內(nèi)容分析器25的存儲器29上的用戶簡檔中。如上所述,經(jīng)常使用的條款或者人物的數(shù)據(jù)庫存儲在內(nèi)容分析器25的知識庫中。內(nèi)容分析器25查找該輸入的關鍵條款,并將其與存儲在數(shù)據(jù)庫中的條款進行匹配。例如,姓名Ariel Sharon和以色列首相匹配,以色列和中東匹配等等。在這一步驟中,這些條款可以鏈接到新聞領域類型,在另一例子中,體育人物的姓名可返回運動領域結果。
使用該領域結果,內(nèi)容分析器25訪問信息源的最可能區(qū)域,以尋找相關內(nèi)容。例如,該信息檢索系統(tǒng)可能訪問新聞頻道或者有關新聞的網(wǎng)站,以便尋找和該請求項有關的信息。
現(xiàn)在參考圖5,將闡述并示出一種素材提取的示例方法。首先,如下所述,在步驟502,504,和506中,優(yōu)選地分析視頻/音頻源,以便將該內(nèi)容分割成視頻,音頻和文本部分。接著,在步驟508,510中,內(nèi)容分析器25進行信息融合和內(nèi)部分割及注釋。最后,在步驟512,使用人物識別結果,推理該分割的素材并使用定位的主題解析姓名。
這種視頻分割方法包括但不限于剪輯檢測,臉部檢測,文本檢測,運動估計/分割/檢測,照相機移動等等。另外,可以分析該視頻信號的音頻部分。例如,音頻分割包括但不限于語音到文本的轉(zhuǎn)換,音頻效應和事件檢測,說話者識別,節(jié)目識別,音樂分類和基于說話者識別的對話檢測。概括地說,音頻分割包含使用低級音頻特性如音頻數(shù)據(jù)輸入的帶寬,能量和音調(diào)。然后,該音頻數(shù)據(jù)輸入可進一步分成不同的部分,如音樂和語音。但是,視頻信號可伴隨著副本數(shù)據(jù)(用于閉路字幕系統(tǒng)),這也可由處理器27進行分析。如以下將進一步闡述的那樣,在操作中,接收到用戶的檢索請求之后,處理器27基于該請求的簡明語言計算視頻信號中素材出現(xiàn)的概率,并可提取該請求的素材。
在進行分割之前,當該視頻信號在內(nèi)容分析器25的存儲器29中緩沖并且該內(nèi)容分析器訪問該視頻信號時,處理器27接收該視頻信號。處理器27分解該視頻信號,以便將該信號分成視頻和音頻部分,在某種情況下還有文本部分??蛇x地,處理器27試圖檢測該音頻流是否包含語音。以下將描述檢測音頻流中語音的方法。假如檢測到語音,那么處理器27將該語音轉(zhuǎn)換成文本,以創(chuàng)建以時間為標記的該視頻信號副本。然后處理器27加入該文本副本作為額外的信息流,以便分析。
無論是否檢測到語音,處理器27都會接著試圖確定片斷邊界,即可分類事件的開始或者結束。在一個優(yōu)選實施例中,當處理器27檢測到一組圖象的連續(xù)I幀之間的顯著變化時,處理器27首先通過提取新的關鍵幀進行重大場景變化檢測。如上所述,幀抓取和關鍵幀提取也可按預定時間間隔進行。優(yōu)選地,處理器27使用累積宏模塊差別檢測實現(xiàn)基于DCT的幀辨別。使用一個字節(jié)的幀信號過濾那些與先前提取的關鍵幀看上去類似的單色關鍵幀或幀。處理器27使用連續(xù)I幀之間的差別,使該概率以閾值以上的相對量為基礎。
授予Dimitrova等人的美國專利號6,125,229中描述了幀過濾方法,該專利的全部內(nèi)容在此引作參考,并簡述如下。概括地說,處理器接收內(nèi)容并將該視頻信號格式化成表示像素數(shù)據(jù)的幀(幀抓取)。應當注意,抓取并分析幀的過程優(yōu)選地按每種錄制設備的預定時間間隔進行。例如,當該處理器開始分析該視頻信號時,可以每30秒鐘抓取關鍵幀。
一旦這些幀被抓取,對每個被選的關鍵幀進行分析。視頻分割在本領域是已知的,并在SPIE Conference on Image and Video Databases,San Jose,2000上發(fā)表的N.Dimitrova,T.McGee,L.Agnihotri,S.Dagtas,和R.Jasinschi的名為“On Selective Video ContentAnalysis and Filtering”和AAAI Fall 1995 Symposium onComputational Models for Integrating Language and Vision 1995上A.Hauptmann和M.Smith的“Text,Speech,and Vision For VideoSegmentationThe Informedia Project”出版物中進行了概述,該出版物的全部內(nèi)容在此引作參考。包括和該錄制設備捕獲的人物有關的視覺(例如臉)和/或文本信息的錄制數(shù)據(jù)的視頻部分的任意片斷將說明該數(shù)據(jù)涉及特定個人,并因此可根據(jù)該片斷來進行索引。如本領域中所熟知的,視頻分割包括,但不限于重大場景變化檢測其中比較連續(xù)視頻幀,以識別突然的場景變化(硬剪輯)或者軟過渡(漸隱,淡入和淡出)。在N.Dimitrova,T.McGee,H.Elenbaas的名為“VideoKeyframe Extraction and FilteringAKeyframe is Not a Keyframe to Everyone”,Proc.ACM Conf.onKnowledge and Information Management,pp.113-120,1997的出版物中提供了對重大場景變化檢測的描述,該出版物的全部內(nèi)容在此引作參考。
臉部檢測其中識別每一視頻幀的區(qū)域哪一個包含膚色,哪一個對應橢圓形。在該優(yōu)選實施例中,一旦臉部圖像被識別,就將該圖像和存儲在存儲器中的已知臉部圖像數(shù)據(jù)庫相比較,以便確定該視頻幀中顯示的臉部圖像是否對應用戶的觀看選擇。在Gang Wei和Ishwar K.Sethi的名為“Face Detection for Image Annotation”,PatternRecognition Letters,Vol.20,No.11,November 1999的出版物中提供了對臉部檢測的描述,該出版物的全部內(nèi)容在此引作參考。
運動估計/分割/檢測其中在視頻序列中確定運動物體并分析該運動對象的軌跡。為了確定視頻序列中物體的運動,優(yōu)選地使用已知運算如光流量估計,運動補償和運動分割。在Patrick Bouthemy和Francois Edouard的名為“Motion Segmentation and QualitativeDynamic Scene Analysis from an Image Sequence”,InternationalJournal of Computer Vision,Vol.10,No.2,pp.157-182,April 1993的出版物中提供了對運動估計/分割/檢測的描述,該出版物的全部內(nèi)容在此引作參考。
也可分析和監(jiān)控該視頻信號的音頻分量,以便發(fā)現(xiàn)和用戶請求有關的話語/聲音的存在。音頻分割包括對視頻節(jié)目的以下類型的分析語音到文本的轉(zhuǎn)換,音頻效應和事件檢測,說話者識別,節(jié)目識別,音樂分類,和基于說話者識別的對話檢測。
音頻分割和分類包括將該音頻信號分成語音和非語音部分。音頻分割的第一步驟包括使用低級音頻特征如帶寬,能量和音調(diào)的片斷分類。使用頻道分離將同時發(fā)生的音頻部分互相分開(如音樂和語音),使得每一種都可以進行單獨分析。此后,以不同的方式如語音到文本的轉(zhuǎn)換,音頻效應和事件檢測和說話者識別,處理該視頻(或音頻)輸入的音頻部分。音頻分割和分類在本領域是已知的,并且在D.Li,I.K.Sethi,N.Dimitrova和T.Mcgee的“Classification of general audio datafor content-based retrieval,”Pattern Recognition Letters,pp.533-544,Vol.22,No.5,April 2001的出版物中進行了概述,該出版物的全部內(nèi)容在此引作參考。
一旦從背景噪聲或者音樂中識別或者分離出該視頻信號音頻部分的語音部分,就可以使用語音到文本的轉(zhuǎn)換(在本領域中是已知的,參看如P.Beyerlein,X.Aubert,R.Haeb-Umbach,D.Klakow,M.Ulrich,A.Wendemuth和P.Wilcox的名為“Automatic Transcription ofEnglish Broadcast News”,DARPA Broadcast News Transcription andUnderstanding Workshop,VA,F(xiàn)eb.8-11,1998的出版物,該出版物的全部內(nèi)容在此引作參考)。該語音到文本的轉(zhuǎn)換可用于應用如關于事件檢索的關鍵詞定位。
音頻效果可用來檢測事件(在本領域中是已知的,參看如T.Blum,D.Keislar,J.Wheaton和E.Wold的名為“Audio Databases withContent-Based Retrieval”,Intelligent Multimedia InformationRetrieval,AAAI Press,Menlo Park,California,pp.113-135,1997的出版物,該出版物全部內(nèi)容在此引作參考)。通過識別可能和特定人物或者特定類型素材有關的聲音,可檢測素材。例如,可以檢測獅吼,然后可以將該片斷的特征定為有關動物的素材。
說話者識別(在本領域是已知的,參看如Nilesh V.Patel和IshwarK.Sethi的名為“Video Classification Using SpeakerIdentification”,IS & T SPIE ProceedingsStorage and Retrievalfor Image and Video Databases V,pp.218-225,San Jose,CA,F(xiàn)ebruary1997的出版物,該出版物全部內(nèi)容在此引作參考)包括分析該音頻信號中存在的語音聲音信號,以便確定說話人物的身份。說話者識別可以用來例如搜尋特定的名人或者政治家。
音樂分類包括分析該音頻信號的非語音部分,以便確定存在的音樂類型(古典,搖滾,爵士等)。這一點通過分析例如該音頻信號的非語音部分的頻率,音調(diào),音色,聲音和旋律,并將分析結果和特定音樂類型的已知特性相比較來實現(xiàn)。音樂分類在本領域中是已知的,并且在EricD.Scheirer的“Towards Music Understanding Without SeparationSegmenting Music WithCorrelogram Comodulation”,1999 IEEEWorkshop on Applications of Signal Processing to Audio andAcoustics,New Paltz,NY October 17-20,1999的出版物中進行了概述。
優(yōu)選地,使用Bayesian多模式積分或者融合方法來進行該視頻/文本/音頻的多模式處理。僅通過舉例,在一個示意性實施例中,該多模式處理的參數(shù)包括但不限于視覺特征如色彩,邊緣和形狀;音頻參數(shù)如平均能量,帶寬,音調(diào),嘜頻率cepstral系數(shù),線性預測編碼系數(shù)和零交叉。使用這些參數(shù),處理器27創(chuàng)建中級特征,該中級特征與低級參數(shù)不同,中級特征和全部幀或者幀集合有關,而低級參數(shù)和像素或者短時間間隔有關。關鍵幀(連續(xù)鏡頭的第一幀,或者被認為是重要的一幀),臉,和視頻文本是中級視覺特征的例子;無聲,噪音,語音,音樂,語音加噪音,語音加語音,和語音加音樂是中級音頻特征的例子;而副本的關鍵詞和相關類別構成了中級副本特征。高級特征描述了從不同領域的中級特征集成中獲得的語義視頻內(nèi)容。換句話說,該高級特征表示根據(jù)用戶或制造商所定義的簡檔的片斷分類,在Nevenka Dimitrova,Thomas McGee,Herman Elenbaas,Lalitha Agnihotri,RaduJasinschi,Serhan Dagtas,AaronMendelsohn于1999年11月18日提交的Serial No.09/442,960,Method and Apparatus forAudio/Data/Visual Information Selection中有所闡述,該申請的全部內(nèi)容在此引作參考。
然后根據(jù)不同素材類型已知線索的高級簡表分析該視頻,音頻和副本文本的不同內(nèi)容。每種類型的素材優(yōu)選地具有知識樹,該知識樹是關鍵詞和種類的關系表。這些提示可以由用戶在用戶簡檔中設置或者由制造商預定。例如,“Minnesota Vikings”樹可包括關鍵詞如運動,足球,NFL等等。在另一個例子中,“總統(tǒng)”素材可與圖像段如總統(tǒng)印,GeorgeW.Buch的預存臉數(shù)據(jù),音頻段如歡呼,和文本段如單詞“總統(tǒng)”和“Bush”。統(tǒng)計處理之后,處理器27使用類別投票柱狀圖進行分類,該統(tǒng)計處理將在以下作進一步描述。為了示例,假如在文本文件中的一個單詞和知識庫關鍵詞匹配,那么相應的類別得到一票。對于每種類別,概率等于關鍵詞的總票數(shù)和文本段的總票數(shù)之比。
在一種優(yōu)選實施例中,該分割的音頻,視頻和文本段的各個部分集成起來,以便從該視頻信號中提取素材或者定位臉。該分割的音頻,視頻和文本信號優(yōu)選用于復雜的提取。例如,假如用戶希望檢索前任總統(tǒng)所作的演講,則不僅僅需要臉部識別(以辨認行動者),還需要說話者識別(以保證屏幕上的行動者在說話),語音到文本的轉(zhuǎn)換(以保證行動者說適合的話)和運動估計-分割-檢測(以辨認行動者的特定運動)。因此,集成的索引方法是優(yōu)選的并可取得較好的結果。
至于Internet,可以作為主要的內(nèi)容源或者補充的次要源進行訪問,該內(nèi)容分析器25掃描網(wǎng)站尋找匹配的素材。假如找到匹配的素材,則該匹配的素材存儲在內(nèi)容分析器25的存儲器29中。該內(nèi)容分析器25也可從該請求中提取條款,并向主要的搜索引擎提出搜索查詢,以便找到額外的匹配素材。為提高正確性,可以匹配該檢索出的素材,以便找到“交集”素材。交集素材是那些檢索到的同時作為網(wǎng)站掃描和搜索查詢的結果的素材。在“UniversityIEInformation Extraction FromUniversity Web Pages”by Angel Janevski,University of Kentucky,June 28,2000,UKY-COCS-2000-D-003中提供了從網(wǎng)站中尋找指定信息以便找到交集的方法的描述,該文獻的全部內(nèi)容在此引作參考。
在從信息源50接收電視的例子中,內(nèi)容分析器25將最可能擁有相關內(nèi)容的頻道如已知新聞或者運動頻道定為目標。然后將該指定頻道的輸入視頻信號在內(nèi)容分析器25的存儲器中緩沖,以便內(nèi)容分析器25進行視頻內(nèi)容分析和副本處理,從而從該視頻信號中提取相關素材,如上面詳細描述的那樣。
再參考圖3,在步驟306中,內(nèi)容分析器25在該提取的素材上進行“推理和姓名解析”。例如,如“Toward Principles for the Design ofOnotogies Used for KnowledgeSharing”by Thomas R.Gruber,August23,1993中描述的,內(nèi)容分析器25編程可使用各種存在論以便利用已知關系,該文獻的全部內(nèi)容在此引作參考。換句話說,G.W.Bush為“美國總統(tǒng)”和“Laura Bush的丈夫”。因此,假如在一種情況下,G.W.Bush的名字出現(xiàn)在用戶簡檔中,那么該事實也得到延伸,因此當指向上述人物時,可以找到所有上述參考并可解析該姓名/角色。作為另一個例子,如圖7中所示的知識樹或者系統(tǒng)可以存儲在知識庫中。
一旦在電視的例子中提取了足夠量的相關素材,和在Internet的例子中找到足夠量的相關素材,在步驟308中,該素材優(yōu)選地根據(jù)不同關系排序。參考圖6,優(yōu)選地根據(jù)姓名,話題和關鍵詞(603)以及根據(jù)因果關系提取(604)索引該素材。因果關系的一個例子是,一個人首先被指控為兇手,然后可能有審訊的新聞項。然后,時間關系(606)如較近的素材排在較遠的素材之前,被用來排序該素材,組織和評級該素材。接下來,優(yōu)選地,根據(jù)被提取素材的各種特性,如該素材中出現(xiàn)的臉和姓名,素材的持續(xù)時間,在主要新聞頻道上該素材的重復次數(shù)(即一個素材播出多數(shù)次對應其重要性/緊迫性),得到并計算素材等級(608)。使用這些關系來區(qū)分該素材的優(yōu)先次序(610)。接下來,根據(jù)用戶簡檔的信息并通過用戶的有關反饋(612),存儲超鏈接信息的索引和結構。最后,該信息檢索系統(tǒng)進行管理和垃圾清除(614)。例如,該系統(tǒng)將刪除相同素材的多個拷貝,超過七天或者其它預定時間間隔的老素材。低等級的素材或者等級低于預定閾值的素材也可被去除。
內(nèi)容分析器25也可支持提示顯示和交互功能(步驟310),該功能允許用戶給予內(nèi)容分析器25關于該提取的關聯(lián)性和正確性的反饋。內(nèi)容分析器25的簡檔管理功能(312)利用該反饋來更新用戶簡檔并保證根據(jù)用戶進化的口味做出合適的推理。
用戶可存儲有關該信息檢索系統(tǒng)多久訪問信息源一次以便更新存儲設備30,130中索引的素材的選擇。作為示例,可以設置該系統(tǒng),以便每小時,每天,每周,甚至每月訪問并提取有關素材。
根據(jù)另一示例,信息檢索系統(tǒng)10可以用作定購服務??梢砸詢煞N優(yōu)選方式中的一種來實現(xiàn)這一點。在圖1所示的是實施例中,用戶可以通過他們的電視網(wǎng)絡提供者即他們的電纜或衛(wèi)星提供者,或者第三方提供者定購,該提供者安置并操作中央存儲系統(tǒng)30和內(nèi)容分析器25。在用戶站點100,用戶將使用輸入設備120輸入請求信息,以便和連接到他們的顯示設備115的機頂盒110通信。然后該信息將傳送到集中檢索系統(tǒng)20并由內(nèi)容分析器25進行處理。然后,如上所述,內(nèi)容分析器25將訪問中央存儲數(shù)據(jù)庫30,以便檢索和提取和用戶請求有關的素材。
一旦素材被提取并進行適當索引,有關用戶將如何訪問該提取的素材的信息就被傳送到位于用戶遠程站點的機頂盒110。然后,該用戶可以使用輸入設備120選擇他或她希望從集中內(nèi)容分析系統(tǒng)20中回放哪一些素材。該信息可以以具有超鏈接的HTML網(wǎng)頁的形式或者在當今的許多有線和衛(wèi)星電視系統(tǒng)上普遍存在的菜單系統(tǒng)的形式進行通信。一旦選擇某一特定素材,那么該素材將傳送到用戶的機頂盒110并在顯示設備115上顯示。該用戶也可選擇將該被選素材轉(zhuǎn)寄給任意數(shù)量的具有接收這種素材的類似興趣的朋友,親戚或者其他人。
可選地,本發(fā)明的信息檢索系統(tǒng)10可以包含在如數(shù)字記錄裝置的產(chǎn)品中。該數(shù)字記錄裝置可包括內(nèi)容分析器25處理以及足夠存儲必要內(nèi)容的存儲容量。當然,本領域的技術人員將認識到存儲設備30,130可位于該數(shù)字記錄設備和內(nèi)容分析器25外部。另外,也不需要將數(shù)字記錄系統(tǒng)和內(nèi)容分析器25置于一個包裝內(nèi),內(nèi)容分析器25也可單獨包裝。在該例子中,用戶將使用輸入設備120輸入請求項到內(nèi)容分析器25中。內(nèi)容分析器25將直接連接到一個或多個信息源50。在電視機的例子中,當該視頻信號在該內(nèi)容分析器的存儲器中緩沖時,如上所述,可以對該視頻信號進行內(nèi)容分析,以便提取有關素材。
在服務環(huán)境中,不同用戶簡檔可以和請求項數(shù)據(jù)集成起來,用來指定給用戶的信息。該信息可以是該服務提供者根據(jù)用戶簡檔和先前請求認為是用戶所感興趣的廣告,促銷,或者指定素材的形式。在另一市場方案中,該集成信息可賣給以用戶為目標的廣告或促銷商務中的合作方。
作為用于圖1和2的任一實施例的額外特征,為用戶提供使用信息跟蹤系統(tǒng)以便購買和該檢索的信息有關的產(chǎn)品的功能。該產(chǎn)品的可獲得性可以以指定的方式推給用戶,如前所述,或者由用戶通過系統(tǒng)10發(fā)出請求并由內(nèi)容分析器通過例如從Internet提取相關匹配進行檢索,該舉例僅為了示例。例如,用戶可請求購買和紀念性事件(如二百年紀念)有關的產(chǎn)品,該內(nèi)容分析器,如以上詳細論述的那樣,將制定搜索請求,以試圖定位有這種東西賣的匹配素材。
盡管結合優(yōu)選實施例對本發(fā)明進行了論述,但是應當理解,那些本領域的技術人員應明白在上述原理范圍內(nèi)的修改,本發(fā)明不限于該優(yōu)選實施例,而應包含該修改。
權利要求
1.一種信息跟蹤器(10),包含內(nèi)容分析器(25),該內(nèi)容分析器包含用來存儲從信息源(50)接收到的內(nèi)容數(shù)據(jù)的存儲器(29)和用來執(zhí)行一套根據(jù)查詢標準分析該內(nèi)容數(shù)據(jù)的機器可讀指令的處理器(27);輸入設備(120),該輸入設備以通信方式連接到內(nèi)容分析器(25),以便允許用戶和內(nèi)容分析器交互作用;顯示設備(115),該顯示設備以通信方式連接到內(nèi)容分析器(25),以便顯示由內(nèi)容分析器(25)執(zhí)行的內(nèi)容數(shù)據(jù)分析結果;其中,根據(jù)該套機器可讀指令,內(nèi)容分析器(25)的處理器(27)分析所述內(nèi)容數(shù)據(jù),以提取和索引涉及該查詢標準的一個或多個素材。
2.權利要求1的信息跟蹤器,其中該內(nèi)容分析器的處理器使用該查詢標準來定位該內(nèi)容數(shù)據(jù)中的主題,從該內(nèi)容數(shù)據(jù)中提取一個或多個素材,解析和推斷該提取的一個或多個素材中的姓名,并在該顯示設備上顯示該提取的一個或多個素材的鏈接。
3.權利要求2的信息跟蹤器,其中除了顯示該提取的一個或多個素材的鏈接之外,還分析有關該主題的內(nèi)容信息,以便顯示至購物網(wǎng)站的一個或多個鏈接,使得用戶可以購買有關該主題的物品。
4.權利要求2的信息跟蹤器,其中使用存在論來解析和推理該提取的素材中的姓名。
5.權利要求2的信息跟蹤器,其中,假如超過一個素材被提取,則該處理器根據(jù)姓名和/或話題和/或關鍵詞索引該素材。
6.權利要求5的信息跟蹤器,其中進一步根據(jù)因果關系排序該素材。
7.權利要求5的信息跟蹤器,其中進一步根據(jù)時間關系排序該素材。
8.權利要求1的信息跟蹤器,其中該查詢標準包括由用戶通過輸入設備輸入的請求,并且所述處理器(27)根據(jù)該請求分析該內(nèi)容數(shù)據(jù)。
9.權利要求8的信息跟蹤器,其中所述內(nèi)容分析器(25)進一步包含用戶簡檔,該用戶簡檔包括有關用戶興趣的信息,而該查詢標準包括該用戶簡檔。
10.權利要求9的信息跟蹤器,其中通過將該請求中的信息和該用戶簡檔中的已有信息相結合來更新該用戶簡檔。
11.權利要求8的信息跟蹤器,其中所述內(nèi)容分析器(25)進一步包含知識庫,該知識庫包括多種已知關系,并且該處理器根據(jù)該知識庫分析該內(nèi)容數(shù)據(jù)。
12.權利要求11的信息跟蹤器,其中一種類型的所述已知關系是已知的臉到姓名的映射。
13.權利要求11的信息跟蹤器,其中一種類型的所述已知關系是已知的聲音到姓名的映射。
14.權利要求11的信息跟蹤器,其中一種類型的所述已知關系是姓名到各種相關信息的映射。
15.權利要求1的信息跟蹤器,其中所述內(nèi)容分析器(25)以通信方式連接到第二信息源(50),以便能夠訪問額外的內(nèi)容數(shù)據(jù),對該額外的內(nèi)容數(shù)據(jù)進行分析以便得到相關素材。
16.權利要求15的信息跟蹤器,其中根據(jù)第一方法和第二方法來分析該額外內(nèi)容數(shù)據(jù),在該第一方法中,從該查詢標準中提取條款并用來構成該第二信息源的搜索請求,而在該第二方法中,對第二信息源提供的一個或多個站點進行掃描,以便匹配素材。
17.權利要求16的信息跟蹤器,其中交集素材是那些作為該第一方法和第二方法的結果檢索到的匹配素材。
18.權利要求15的信息跟蹤器,其中對在該額外內(nèi)容數(shù)據(jù)中找到的相關素材進行比較,以尋找所有交集素材。
19.一種檢索有關目標主題的信息的方法,該方法包含從信息源接收視頻源到內(nèi)容分析器的存儲器中;使用查詢標準分析該視頻,以便從該視頻源中識別人物和提取素材,該查詢標準包含存儲在該內(nèi)容分析器中的用戶簡檔和知識庫;根據(jù)時間和因果關系索引該提取的素材;和顯示該視頻源的分析結果。
20.權利要求19的方法,其中分析該視頻源以識別人物的步驟包含從該視頻源提取臉,語音和文本,進行已知臉和提取的臉的第一匹配,進行已知聲音和提取的聲音的第二匹配,掃描該提取的文本以便和已知姓名進行第三匹配,并基于該第一,第二和第三匹配計算特定人物在該內(nèi)容數(shù)據(jù)中存在的概率。
21.權利要求19的方法,其中該提取的素材的索引包含根據(jù)預定標準索引該提取的素材,提取因果關系,和提取時間關系,根據(jù)該提取的素材的一個或多個特性計算該提取的每一個素材的等級,并區(qū)分該提取的素材的優(yōu)先次序。
22.權利要求21的方法,進一步包含創(chuàng)建至該提取的素材的超鏈接索引并存儲該超鏈接索引。
23.一種信息跟蹤檢索系統(tǒng)10,包含位于中心的與存儲設備(30)通信的內(nèi)容分析器(25),通過通信網(wǎng)絡(200),該內(nèi)容分析器(25)可訪問多個用戶和信息源(50),并且使用一套機器可讀指令對該內(nèi)容分析器(25)進行編程,以便接收第一內(nèi)容數(shù)據(jù)到內(nèi)容分析器(25)中;接收來自至少一個用戶的請求;對接收請求做出響應,分析該第一內(nèi)容數(shù)據(jù)以提取與該請求相關的一個或多個素材;和能夠訪問該一個或多個素材。
全文摘要
信息跟蹤設備接收來自一個或多個信息源的內(nèi)容數(shù)據(jù),如視頻或電視信號,并根據(jù)查詢標準分析該內(nèi)容數(shù)據(jù)以提取相關素材。該查詢標準利用各種信息,例如但不限于用戶請求,用戶簡檔和已知關系的知識庫。使用該查詢標準,該信息跟蹤設備計算人物或事件在該內(nèi)容數(shù)據(jù)中發(fā)生的概率,從而定位和提取素材。該結果被索引,排序,然后顯示在顯示設備上。
文檔編號H04N7/16GK1596406SQ02823583
公開日2005年3月16日 申請日期2002年11月5日 優(yōu)先權日2001年11月28日
發(fā)明者N·迪米特羅瓦, 李東舸, L·阿格尼霍特里 申請人:皇家飛利浦電子股份有限公司