两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于使用多個(gè)傳感器來追蹤視頻會議中的音頻源的方法和裝置的制作方法

文檔序號:7885383閱讀:280來源:國知局
專利名稱:用于使用多個(gè)傳感器來追蹤視頻會議中的音頻源的方法和裝置的制作方法
技術(shù)領(lǐng)域
本申請一般涉及向顯示器提供圖像,諸如,為視頻會議終端提供圖像。
背景技術(shù)
本部分介紹對于有利于更好地理解本公開可能有幫助的各方面。因此,要鑒于此精神來閱讀本部分的敘述,而不是將其理解成承認(rèn)哪些是現(xiàn)有技術(shù),或哪些不是現(xiàn)有技術(shù)。經(jīng)由計(jì)算機(jī)網(wǎng)絡(luò)的通信通常不僅僅只涉及傳輸文本。諸如因特網(wǎng)之類的計(jì)算機(jī)網(wǎng)絡(luò)還可被用于音頻通信和可視通信。靜止的圖像和視頻是可以在這些網(wǎng)絡(luò)上傳輸?shù)目梢晹?shù)據(jù)的示例。一個(gè)或多個(gè)相機(jī)可以耦合至諸如個(gè)人計(jì)算機(jī)(PC)之類的計(jì)算設(shè)備以提供可視通信。一個(gè)或多個(gè)相機(jī)可隨后被用于在計(jì)算機(jī)網(wǎng)絡(luò)上傳輸實(shí)時(shí)可視信息,諸如,視頻。雙重傳輸可以被用于允許視頻信息與音頻一起傳輸。不管是在一對一的通信會話中還是與多個(gè)參與者進(jìn)行視頻會議中,參與者都可經(jīng)由實(shí)時(shí)的音頻和視頻在計(jì)算機(jī)網(wǎng)絡(luò)上進(jìn)行通信(即,語音視頻通信)。

發(fā)明內(nèi)容
—個(gè)方面提供了一種裝置。在一個(gè)實(shí)施例中,所述裝置包括:(1)音頻源標(biāo)識器,被配置為基于來自至少兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源;以及
(2)圖像選擇器,被配置為自動地引導(dǎo)相機(jī)來查看所述音頻源。在另一方面,公開了一種用于引導(dǎo)相機(jī)來查看音頻源的方法。在一個(gè)實(shí)施例中,該方法包括:(I)基于來自至少兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源;以及(2)自動地引導(dǎo)相機(jī)來查看所述音頻源。在又一方面,提供了一種視頻會議終端。在一個(gè)實(shí)施例中,該視頻會議終端包括:
(I)相機(jī),被配置為捕獲視角內(nèi)的圖像;以及(2)音頻源定位器和追蹤器,被配置為基于來自至少兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源并自動地引導(dǎo)所述相機(jī)來查看所述音頻源。


現(xiàn)在結(jié)合附圖參照以下對實(shí)施例的描述,這些實(shí)施例僅作為示例被提供,在附圖中:圖1是視頻會議基礎(chǔ)設(shè)施的實(shí)施例的示意性框圖,根據(jù)本公開的原理所構(gòu)造的視頻會議終端可以在該視頻會議基礎(chǔ)設(shè)施中進(jìn)行操作;圖2示出了根據(jù)本公開的原理構(gòu)造的視頻會議終端200的實(shí)施例的框圖;圖3示出了可以部署根據(jù)本公開的原理構(gòu)造的視頻會議終端的實(shí)施例的環(huán)境;圖3A示出了表示圖3中的環(huán)境的潛在音頻源(S卩,參與者)的地圖;圖4示出了表示根據(jù)本公開的原理構(gòu)造的音頻源定位器和追蹤器的操作的狀態(tài)圖;圖5示出了根據(jù)本公開的原理構(gòu)造的視頻會議終端的實(shí)施例的示圖;圖6示出了根據(jù)本公開的原理實(shí)施的用于引導(dǎo)相機(jī)查看音頻源的方法的實(shí)施例的流程圖。
具體實(shí)施例方式本公開提供了一種定位和追蹤機(jī)制,該機(jī)制采用來自多種類型的傳感器的傳感器數(shù)據(jù)(即,多模式傳感器數(shù)據(jù))來定位和追蹤音頻源。本公開提供了一種用于定位和追蹤單個(gè)或多個(gè)音頻源并引導(dǎo)相機(jī)來捕獲所定位和追蹤的音頻源的一個(gè)或多個(gè)圖像的裝置。定位音頻源使得能夠?qū)⑾鄼C(jī)指向該音頻源,即便當(dāng)附近可能存在多個(gè)音頻源時(shí)也是如此。追蹤音頻源使得能夠引導(dǎo)相機(jī)來隨著音頻源的移動而追隨該音頻源。視頻會議終端可以采用所公開的定位和追蹤功能。因此,要定位和追蹤的音頻源可以是視頻會議中正在講話的參與者。在會議室中存在多人的視頻會議情境中,檢測正在講話的參與者并使相機(jī)將該參與者作為目標(biāo)從而使得遠(yuǎn)端位置接收活動的講話者的圖像可能是個(gè)挑戰(zhàn)。具有此處所公開的定位和追蹤功能的視頻會議終端允許遠(yuǎn)端位置處的人能夠從相機(jī)看到正在講話的參與者,而無需遠(yuǎn)端處的人手動地操控相機(jī)使之保持在該講話者上。如此,此處所公開的視頻會議終端可包括講話者定位,其允許將相機(jī)指向講話者,即便當(dāng)會議桌周圍坐著多人時(shí)也是如此。另外,視頻會議終端可以包括講話者追蹤,其允許追隨非靜止的而是走來走去的講話者。該情形的示例可以是當(dāng)講話者站起來并開始朝著白板走去。此處所公開的定位和追蹤功能可以組合音頻傳感器、視頻傳感器和其他傳感器(諸如,熱傳感器和超聲傳感器)來定位和追蹤音頻源。與此不同,當(dāng)同時(shí)存在多個(gè)講話者時(shí),僅利用音頻(聲源定位)來定位講話者的講話者定位機(jī)制可能由于背景噪聲而易于出錯(cuò)并可能失敗。因此,本公開組合了傳感器數(shù)據(jù),諸如利用熱測量以及超聲測量的聲源定位,以提高調(diào)整相機(jī)指向時(shí)的準(zhǔn)確度。各種類型傳感器的組合提供了傳感器數(shù)據(jù)的融合,該融合是多模式傳感器輸入的算法組合,即,不僅組合來自多個(gè)傳感器的數(shù)據(jù),而且組合來自不同類型的傳感器的數(shù)據(jù)。即便當(dāng)某個(gè)人沒有在講話時(shí),熱傳感器和超聲傳感器的組合也使得能夠檢測到這個(gè)人。這比僅通過音頻的方法(當(dāng)人沉默時(shí)無法檢測到)和諸如臉部檢測之類的視頻方法(其中可以存在由于閉塞(occlusions)或目標(biāo)臉部旋轉(zhuǎn)而遠(yuǎn)離相機(jī)所導(dǎo)致的檢測失敗)有優(yōu)勢。所部署的傳感器可以與定位和追蹤裝置一起被安裝,諸如,視頻會議終端。另外,來自安裝在墻上、天花板上或家具上的其他傳感器的信息可被用于傳感器數(shù)據(jù)融合。圖1是視頻會議基礎(chǔ)設(shè)施100的實(shí)施例的示意性框圖,根據(jù)本公開的原理構(gòu)造的視頻會議終端可以在該基礎(chǔ)設(shè)施中進(jìn)行操作。視頻會議基礎(chǔ)設(shè)施100的該實(shí)施例以電信網(wǎng)110為中心,該電信網(wǎng)110被部屬為互連兩個(gè)或更多個(gè)視頻會議終端120、130、140、150,以用于音頻信號或信息在其之間的傳送,并且或許還有音頻信號或信息的傳送。視頻會議基礎(chǔ)設(shè)施100的備選實(shí)施例是以諸如因特網(wǎng)之類的計(jì)算機(jī)網(wǎng)絡(luò)為中心。視頻會議基礎(chǔ)設(shè)施100的另一實(shí)施例涉及兩個(gè)視頻會議終端之間的直連,例如,經(jīng)由普通老式電話(POTS)網(wǎng)絡(luò)的視頻會議終端120、130的連接。另外,經(jīng)由網(wǎng)絡(luò)連接的直連是連接的又一種選擇。如在視頻會議終端120中所示,視頻會議終端120、130、140、150可以包括通常被包括在常規(guī)視頻會議終端中的組件,諸如,麥克風(fēng)、揚(yáng)聲器和控制器。控制器可以是具有相關(guān)聯(lián)的存儲器的一類處理器,該存儲器包括一系列操作指令,當(dāng)該操作指令被控制器啟動時(shí),其引導(dǎo)控制器的操作。在某些實(shí)施例中,控制器可以包括此處所公開的音頻源定位器和追蹤器。麥克風(fēng)可被配置為基于由其接收到的聲學(xué)能量來生成音頻信號,并且,揚(yáng)聲器可被配置為基于由其接收到的音頻信號來生成聲能。視頻會議終端120、130、140、150中的至少一個(gè)例如可以是蜂窩電話、個(gè)人數(shù)字助理、膝上型計(jì)算機(jī)或臺式計(jì)算機(jī)。至少一個(gè)視頻會議終端(例如,視頻會議終端130)包括此處所公開的定位和追蹤功能。圖2提供了這種視頻會議終端的實(shí)施例。圖2示出了根據(jù)本公開的原理構(gòu)造的視頻會議終端200的實(shí)施例的框圖。視頻會議終端200包括相機(jī)210、顯示器220、定位和追蹤傳感器230以及音頻源定位器和追蹤器240。本領(lǐng)域技術(shù)人員將理解,視頻會議終端200還可包括常規(guī)視頻會議終端中可能包括的附加組件,諸如,揚(yáng)聲器。例如,視頻會議終端200可以包括控制器,該控制器被配置為引導(dǎo)其整體操作。在一個(gè)實(shí)施例中,視頻會議終端200可以被實(shí)現(xiàn)為諸如圖5所示的單個(gè)設(shè)備。在另一實(shí)施例中,視頻會議終端200可具有分布式架構(gòu),其中每個(gè)組件可不被包括在單個(gè)結(jié)構(gòu)中。例如,相機(jī)210、顯示器220或定位和追蹤傳感器230可以并非在物理上位于單個(gè)設(shè)備中,而是分散在房間中并經(jīng)由硬接線或無線連接耦合至音頻源定位器和追蹤器240。在一個(gè)實(shí)施例中,視頻會議終端200的一部分可被實(shí)現(xiàn)為蜂窩電話。例如,蜂窩電話的攝像機(jī)或蜂窩電話的處理器可被用作相機(jī)以及音頻源定位器和追蹤器。相機(jī)210被配置用于捕獲圖像。相機(jī)210可以是攝像機(jī),諸如,webcam。另外,相機(jī)210可以被用于定位和追蹤音頻源,諸如例如,在視頻會議期間正在講話的個(gè)人。因此,相機(jī)210具有搖動(pan)、傾斜和變焦能力,這允許相機(jī)210動態(tài)地捕獲所定位和追蹤的音頻源的圖像。相機(jī)210可包括搖動和傾斜伺服系統(tǒng),用于查看所定位和追蹤的音頻源。為了查看音頻源,相機(jī)210被操縱使得其視角包括音頻源。在某些實(shí)施例中,視頻會議終端200自身可移動,以允許相機(jī)210查看所定位和追蹤的首頻源。另外,視頻會議終端200可包括搖動和傾斜伺服系統(tǒng),其移動視頻會議終端200以查看音頻源。如此,搖動和傾斜伺服系統(tǒng)可位于相機(jī)210的底部或視頻會議終端200的底部。除了搖動和傾斜能力以外,相機(jī)210還可以包括放大和縮小能力。顯示器220可以是常規(guī)顯示器,諸如,平板顯示器,其基于輸入數(shù)據(jù)來呈現(xiàn)視圖。在一個(gè)實(shí)施例中,顯示器220可以是液晶顯示器(LCD)。顯示器220耦合至音頻源定位器和追蹤器240。常規(guī)音頻-視頻電纜可被用于將設(shè)備耦合在一起。還可以采用無線連接。在某些實(shí)施例中,顯示器220可以是獨(dú)立的投影儀顯示器。定位和追蹤傳感器230包括多種類型的傳感器,以用于定位和追蹤音頻源。各種類型的傳感器被用于提供多模式傳感器數(shù)據(jù),以用于音頻源定位和追蹤。定位和追蹤傳感器230可包括聲音傳感器232、熱傳感器234和距離傳感器236。定位和追蹤傳感器230可以包括由組件238所表示的附加的一個(gè)或多個(gè)傳感器。聲音傳感器232可以是一個(gè)或多個(gè)麥克風(fēng),其被配置為基于由其接收到的聲能來生成音頻信號。如此,聲音傳感器232可被用于基于音頻來定位音頻源。在某些實(shí)施例中,可使用麥克風(fēng)陣列。在一個(gè)實(shí)施例中,可以使用立體聲麥克風(fēng)。熱傳感器234被配置為基于溫度來檢測音頻源。在一個(gè)實(shí)施例中,熱傳感器234可測量在給定角度的錐體中感測到的平均溫度。該錐體可在大約10度至大約35度之間的范圍中。平均溫度可作為在沒有人的情況下、諸如房間之類的場所的背景溫度而被獲得。平均溫度隨后可被用作參考。當(dāng)人進(jìn)入熱傳感器234的范圍(即,錐體)中時(shí),諸如視頻會議期間的講話者,所測量到的溫度將高于背景溫度??梢蕾囉诎ㄈ嗽趦?nèi)的測量溫度來確定該人到熱傳感器234的距離??苫谒谕臏囟戎档膶?yīng)范圍來確定該距離。對應(yīng)的范圍可被存儲在與視頻會議終端200的控制器相關(guān)聯(lián)的存儲器中。在一個(gè)實(shí)施例中,熱傳感器234可以是常規(guī)熱傳感器。熱傳感器234可包括多個(gè)熱傳感器或熱檢測設(shè)備。在一個(gè)實(shí)施例中,熱傳感器234可包括熱感測設(shè)備陣列。多個(gè)熱感測設(shè)備可分布在視頻會議終端200的旋轉(zhuǎn)部分周圍。如此,對于視頻會議終端200,可以通過更小的角度范圍的掃描來提供房間的地圖(map)。距離傳感器236獲取并提供有關(guān)物體到距離傳感器236的距離的數(shù)據(jù)。如此,距離傳感器236可以是常規(guī)范圍查找器。因此,距離傳感器236還可以被配置為檢測朝向和遠(yuǎn)離其的運(yùn)動。在一個(gè)實(shí)施例中,距離傳感器236可以是超聲范圍查找器??梢岳每删哂兄炼酁镮英寸準(zhǔn)確度的超聲范圍查找器。除了聲學(xué)范圍查找器以外,還可使用其他類型的范圍查找器,諸如,基于光學(xué)或雷達(dá)的范圍查找器。距離傳感器236還可以包括多個(gè)距離感測設(shè)備,諸如,范圍查找器。在一個(gè)實(shí)施例中,距離傳感器236可包括距離感測設(shè)備陣列。多個(gè)距離感測設(shè)備可以分布在視頻會議終端200的旋轉(zhuǎn)部分周圍,以允許利用更小的角度掃描來對房間進(jìn)行繪圖。因此,與僅具有單個(gè)傳感器相比,視頻會議終端200并不必對房間進(jìn)行更大范圍的掃描(例如,360度)來獲得人們在房間中的地圖。附加的傳感器238還可以是又一種類型的傳感器,其被用于收集數(shù)據(jù),以定位和追蹤音頻源。附加的傳感器238可以是基于視頻的傳感器,其被用于檢測音頻源的運(yùn)動。如此,在一個(gè)實(shí)施例中,附加的傳感器238可以是運(yùn)動檢測器。在其他實(shí)施例中,附加的傳感器238可以是另一種類型的傳感器(例如,另一種類型的常規(guī)傳感器),其可被用于收集和提供數(shù)據(jù),以定位和追蹤音頻源。音頻源定位器和追蹤器240被配置為定位和追蹤音頻源并引導(dǎo)相機(jī)220來查看所定位和追蹤的音頻源。音頻源定位器和追蹤器240基于從多種類型的傳感器接收到的多模式傳感器數(shù)據(jù)來執(zhí)行定位和追蹤。音頻源定位器和追蹤器240可被體現(xiàn)為具有相關(guān)聯(lián)的存儲器的處理器,該存儲器包括一系列操作指令,這些操作指令當(dāng)被該處理器啟動時(shí)引導(dǎo)處理器的操作。在某些實(shí)施例中,音頻源定位器和追蹤器240可被實(shí)現(xiàn)為專用硬件或?qū)S糜布蛙浖慕M合。當(dāng)體現(xiàn)為處理器時(shí),音頻源定位器和追蹤器240的功能可由單個(gè)專用處理器、單個(gè)共享處理器、或多個(gè)獨(dú)立處理器來提供,其中單個(gè)專用處理器、單個(gè)共享處理器和多個(gè)獨(dú)立處理器中的一些可以被共享。另外,不應(yīng)當(dāng)將對術(shù)語“處理器”或“控制器”的明確使用理解為僅指能夠執(zhí)行軟件的硬件,而是可隱式地包括但不限于數(shù)字信號處理器(DSP)硬件、網(wǎng)絡(luò)處理器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、用于存儲軟件的只讀存儲器(ROM)、隨機(jī)訪問存儲器(RAM),以及非易失性存儲器。還可包括其他常規(guī)和/或定制的硬件。在一個(gè)實(shí)施例中,音頻源定位器和追蹤器240可以被實(shí)現(xiàn)為視頻會議終端200的控制器的一部分。音頻源定位器和追蹤器240包括音頻源標(biāo)識器244和圖像選擇器248。音頻源標(biāo)識器244被配置為基于來自定位和追蹤傳感器230的多模式傳感器數(shù)據(jù)來定位音頻源。圖像選擇器248被配置為自動地引導(dǎo)相機(jī)210來查看音頻源。在某些實(shí)施例中,音頻源標(biāo)識器244還被配置為至少基于某些多模式傳感器數(shù)據(jù)來定位潛在的音頻源。圖像選擇器248還可被配置為生成潛在音頻源的地圖。可關(guān)于相機(jī)210、定位和追蹤傳感器230、或視頻會議終端200自身來繪制潛在音頻源的位置。在一個(gè)實(shí)施例中,可在定位音頻源之前預(yù)先確定該地圖。在其他實(shí)施例中,當(dāng)定位音頻源時(shí),可動態(tài)地確定該地圖。圖3A包括可被生成的地圖的示例。圖3示出了可以采用根據(jù)本公開的原理所構(gòu)造的視頻會議終端300的實(shí)施例的環(huán)境。該代表性環(huán)境是一個(gè)會議室,參與者坐在會議桌周圍。圖3A示出了表示圖3的環(huán)境中的潛在音頻源(即,參與者)的地圖350。視頻會議終端300甚至可以在視頻會議開始之前生成地圖350。通過利用機(jī)械運(yùn)動,可執(zhí)行對會議室的初始掃描,以預(yù)先確定房間中參與者的大致位置。知曉參與者的大致位置可幫助視頻會議終端300做出有關(guān)視頻會議期間實(shí)際音頻源的位置的明智判斷。視頻會議終端300可對房間進(jìn)行初始掃描,并且從熱信息和距離信息來推斷參與者相對于視頻會議終端300的位置位于何處。在某些實(shí)施例中,掃描可以是360度的。在其他實(shí)施例中,掃描可以是小于360度的,諸如,當(dāng)視頻會議終端300具有多個(gè)相同類型的傳感器時(shí)。在另一實(shí)施例中,視頻會議終端300可隨著視頻會議的進(jìn)行通過利用所檢測到的演講者和參與者的方向(例如,相對于視頻會議終端300的“歸屬(home)”位置的徑向角度)來確定參與者的位置。這兩種方法都允許視頻會議終端300形成并保持如地圖350所示的房間內(nèi)的參與者的地圖。視頻會議終端300包括音頻源定位器和追蹤器。另外,視頻會議終端300可包括相機(jī)、各種類型的傳感器、以及顯示器。圖3中示出了視頻會議終端300的相機(jī)的視角,并且,該視角指向音頻源。在一個(gè)實(shí)施例中,視頻會議終端300可以是圖2的視頻會議終端200。在某些實(shí)施例中,地圖350可由諸如圖5所示的視頻會議終端生成。在另一實(shí)施例中,視頻會議終端300可以被用作目標(biāo)獲取設(shè)備,其在移動平臺上包括多個(gè)傳感器。在該實(shí)施例中,視頻會議終端300可以不包括顯示器。例如,投影儀370可以和屏幕一起被用于視頻會議會話。圖4示出了表示根據(jù)本公開的原理構(gòu)造的音頻源定位器和追蹤器的操作的狀態(tài)圖400。狀態(tài)圖400表示基于測量到的溫度和語音檢測而對所定位的音頻源進(jìn)行的追蹤。熱傳感器和聲傳感器(諸如,圖2中的熱傳感器220和聲傳感器210)可被用于檢測溫度和語音。音頻源定位器和追蹤器(諸如,圖2的音頻源定位器和追蹤器240)可被配置為根據(jù)狀態(tài)圖400來執(zhí)行追蹤。狀態(tài)圖400示出了四個(gè)不同的狀態(tài),追蹤狀態(tài)410、等待狀態(tài)420、空閑狀態(tài)430和搜索狀態(tài)440。這些狀態(tài)中的每一個(gè)都是基于角度91、溫度1'和1'[)、以及語音的存在來確定的。角度0 sa可以通過利用來自聲音傳感器的輸入的聲源定位算法來確定。溫度T和Tp可以由熱傳感器來確定,并且,語音可以由聲音傳感器來檢測。溫度T表示測量到的溫度,而溫度Tp表示用于對人進(jìn)行檢測的閾值溫度。溫度Tp可以作為背景溫度而被建立。當(dāng)角度0 SSL為零并且溫度T等于閾值溫度Tp時(shí),追蹤狀態(tài)410被保持。因此,可在不檢測語音的情況下執(zhí)行對所定位的音頻源的追蹤。如果角度大于零,或無聲(即,沒有檢測到語音)、或測量到的溫度T小于閾值溫度TP,則進(jìn)入等待狀態(tài)420。在等待狀態(tài)420處,啟動計(jì)時(shí)器??梢曰诮?jīng)驗(yàn)來設(shè)置計(jì)時(shí)器??梢曰谒M拿舾卸鹊燃壔蚧诓煌奈恢脕磲槍τ?jì)時(shí)器建立不同的時(shí)間??梢栽谥圃炱陂g設(shè)置計(jì)時(shí)器,或由終端用戶使用用戶界面來設(shè)置計(jì)時(shí)器。顯示器可以提供用于設(shè)置計(jì)時(shí)器的用戶界面。只要角度0 I大于零、測量到的溫度T小于閾值溫度TP、并且計(jì)時(shí)器大于零,就一直保持等待狀態(tài)420。另外,當(dāng)無聲、計(jì)時(shí)器大于零、并且測量到的溫度T等于閾值溫度Tp時(shí),保持等待狀態(tài)。從等待狀態(tài)420開始,取決于各種條件的狀態(tài),可進(jìn)入所有其他狀態(tài)。如果無聲、計(jì)時(shí)器等于零、并且測量到的溫度T小于閾值溫度TP,則從等待狀態(tài)420進(jìn)入空閑狀態(tài)430。一旦達(dá)到空閑狀態(tài)430,則取決于角度0 I和測量到得溫度T,視頻會議終端可移至搜索狀態(tài)440或追蹤狀態(tài)410。如果角度0 sa大于零并且測量到的溫度T小于閾值溫度TP,則進(jìn)入搜索狀態(tài)440。如果角度0 sa等于零并且測量到的溫度T等于閾值溫度TP,則進(jìn)入追蹤狀態(tài)410。因此,即使未檢測到語音,視頻會議終端也可從空閑狀態(tài)430移開。如果計(jì)時(shí)器等于零并且角度e SSL等于零,則視頻會議終端從等待狀態(tài)420移至追蹤狀態(tài)410。另外,如果計(jì)時(shí)器等于零并且角度0 I大于零,則視頻會議終端從等待狀態(tài)420移至搜索狀態(tài)440。當(dāng)角度9 I大于零并且測量到的溫度T小于閾值溫度Tp時(shí),保持搜索狀態(tài)440。當(dāng)角度9 sa等于零并且測量到的溫度T等于閾值溫度Tp時(shí),則從搜索狀態(tài)440進(jìn)入追蹤狀態(tài)410。在搜索狀態(tài)440處,伺服系統(tǒng)被激活,以移動傳感器,從而定位音頻源。圖5示出了根據(jù)本公開的原理構(gòu)造的視頻會議終端500的實(shí)施例的視圖。視頻會議終端500可以被用在用于視頻會議的房間中。在一個(gè)實(shí)施例中,可以改變視頻會議終端500的大小,以將其放置在用于視頻會議的桌子上。如此,各種傳感器可被定位在視頻會議終端500上,以與在桌子處的視頻會議參與者的頭部近似一致。視頻會議終端500包括顯示器510、麥克風(fēng)520、熱傳感器530、范圍查找器540、相機(jī)550、揚(yáng)聲器560和底座570。如關(guān)于圖2所注意到的,在某些實(shí)施例中,每種類型的多個(gè)傳感器可以跨視頻會議終端500來分布,以允許利用更小的掃描角度來對房間進(jìn)行繪圖。視頻會議終端500還包括耦合接口(未示出),其被配置為提供各種線纜、導(dǎo)體、電源線等的封端。耦合接口可被配置為允許耦合至通信網(wǎng)絡(luò)和電源。在一個(gè)實(shí)施例中,耦合接口可以允許無線連接。接口可以是常規(guī)接□。顯示器510可以是常規(guī)顯示器,其被配置為提供用于觀看的圖像。顯示器510可以為視頻會議提供來自遠(yuǎn)端位置的圖像。顯示器510還可被配置為提供用戶界面。用戶界面可以包括通過觸摸或經(jīng)由耦合接口耦合的鍵盤、鼠標(biāo)等激活的菜單。用戶界面可允許用戶編制用于視頻會議終端500的各種設(shè)置,或調(diào)整顯示器510的圖片。聲傳感器520被配置為檢測聲音。聲傳感器520包括立體聲麥克風(fēng)。熱傳感器530被用于檢測熱量,并且,范圍查找器540被用于確定距離。這些傳感器中的每一個(gè)都可以是常規(guī)設(shè)備。在一個(gè)實(shí)施例中,范圍查找器540可以是超聲傳感器。這些傳感器提供視頻會議終端500的音頻源定位器和追蹤器(未示出)所使用的多模式傳感器數(shù)據(jù),以定位和追蹤首頻源。相機(jī)550被配置為捕獲圖像,而揚(yáng)聲器560被配置為提供音頻。相機(jī)550和揚(yáng)聲器560可以是與視頻會議系統(tǒng)一起使用的常規(guī)設(shè)備。底座570被配置為支持視頻會議終端500的組件。底座570被配置為設(shè)置在桌子上,以用于視頻會議。底座570包括用以旋轉(zhuǎn)和傾斜視頻會議終端500的伺服系統(tǒng)。如所示,底座570可360度地旋轉(zhuǎn)視頻會議終端500,并且可使視頻會議終端500傾斜45度。圖6示出了根據(jù)本公開的原理實(shí)施的用于引導(dǎo)相機(jī)查看音頻源的方法600的流程圖。音頻源定位器和追蹤器可以實(shí)施方法600的至少一部分。在一個(gè)實(shí)施例中,視頻會議終端可以被用以執(zhí)行方法600。方法600開始于步驟605。在步驟610中,潛在音頻源的地圖基于多模式傳感器數(shù)據(jù)而被生成。該數(shù)據(jù)可以由多個(gè)傳感器或不同類型的傳感器來提供。例如,熱傳感器和范圍查找器可以被用于提供多模式傳感器數(shù)據(jù)。該地圖可以被生成為具有相對于視頻會議終端或視頻會議終端的相機(jī)而定位的潛在音頻源。在步驟620中,基于至少來自兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源。地圖可以被用于幫助定位音頻源。除了熱傳感器和范圍查找器以外,聲音傳感器還可以被用于提供多模式傳感器數(shù)據(jù)。在某些實(shí)施例中,還可利用其他類型的傳感器來提供多模式傳感器數(shù)據(jù)。在步驟630中,相機(jī)被自動地引導(dǎo)來查看音頻源。相機(jī)被移動,從而使得音頻源在相機(jī)的視角內(nèi)。相機(jī)還可以被引導(dǎo)以放大或縮小。在步驟640中,音頻源被追蹤。多模式傳感器數(shù)據(jù)可被用于追蹤音頻源。可根據(jù)圖4中所不的狀態(tài)圖來執(zhí)彳丁追S示。在步驟650中,相機(jī)被自動丨呆控,以在追S示期間查看首頻源。如此,相機(jī)可被旋轉(zhuǎn)、傾斜、放大或縮小。相機(jī)可捕獲所定位和追蹤的音頻源的圖像。這些被捕獲的圖像可被提供至遠(yuǎn)端位置,以用于查看。在步驟660中,方法600結(jié)束。本領(lǐng)域技術(shù)人員將很容易意識到,各種上述方法(包括方法600)的步驟可由被編程的計(jì)算機(jī)執(zhí)行。例如,音頻源定位器和追蹤器可被用于與視頻遠(yuǎn)程會議終端的其他組件一起工作,以執(zhí)行方法600的步驟。此處,某些實(shí)施例還意欲覆蓋程序存儲設(shè)備,例如,數(shù)字?jǐn)?shù)據(jù)存儲介質(zhì),其為機(jī)器可讀或計(jì)算機(jī)可讀的,并且編碼有機(jī)器可執(zhí)行或計(jì)算機(jī)可執(zhí)行的指令程序,其中,所述指令執(zhí)行所述上述方法中的某些或全部步驟。程序存儲設(shè)備例如可以是數(shù)字存儲器、諸如磁盤和磁帶之類的磁存儲介質(zhì)、硬驅(qū)、或光可讀數(shù)字?jǐn)?shù)據(jù)存儲介質(zhì)。實(shí)施例還意欲覆蓋被編程以執(zhí)行上述方法的所述步驟的計(jì)算機(jī)。
與本申請有關(guān)的本領(lǐng)域技術(shù)人員將理解,可對所描述的實(shí)施例做出其他和另外的添加、刪除、替代和修改。附加的實(shí)施例可包括其他具體的裝置和/或方法。所描述的實(shí)施例在所有方面都將僅被看作是闡釋性的,而非限制性的。具體地,發(fā)明的范圍是由所附權(quán)利要求所指示的,而非由此處的描述和附圖所指示。來自權(quán)利要求等同物的含義和范圍內(nèi)的所有改變都將被包括在其范圍內(nèi)。
權(quán)利要求
1.一種裝置,包括: 音頻源標(biāo)識器,被配置為基于來自至少兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源;以及 圖像選擇器,被配置為自動地引導(dǎo)相機(jī)來查看所述音頻源。
2.根據(jù)權(quán)利要求1所述的裝置,還包括所述相機(jī)和所述至少兩種不同類型的傳感器。
3.根據(jù)權(quán)利要求1所述的裝置,其中所述至少兩種不同類型的傳感器是從包括下述各項(xiàng)的分組中選出的: 音頻傳感器, 熱傳感器,以及 范圍查找器。
4.根據(jù)權(quán)利要求1所述的裝置,其中所述音頻源標(biāo)識器還被配置為基于所述多模式傳感器數(shù)據(jù)來定位潛在音頻源。
5.根據(jù)權(quán)利要求4所述的裝置,其中所述圖像選擇器還被配置為生成所述潛在音頻源的地圖。
6.根據(jù)權(quán)利要求4所述的裝置,其中所述音頻源標(biāo)識器被配置為在定位所述音頻源之前,定位所述潛在音頻源。
7.根據(jù)權(quán)利要求1所述的裝置,其中所述音頻源標(biāo)識器還被配置為基于至少來自所述至少兩種不同類型的傳感器之一的數(shù)據(jù)來檢測所述音頻源的運(yùn)動。
8.根據(jù)權(quán)利要求7所述的裝置,其中所述圖像選擇器還被配置為響應(yīng)于所檢測到的運(yùn)動來自動地操控所述相機(jī),以追蹤所述音頻源。
9.一種用于引導(dǎo)相機(jī)來查看音頻源的方法,包括: 基于來自至少兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源;以及 自動地弓I導(dǎo)相機(jī)來查看所述音頻源。
10.一種視頻會議終端,包括: 相機(jī),被配置為捕獲視角內(nèi)的圖像;以及 音頻源定位器和追蹤器,被配置為基于來自至少兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源并且自動地弓I導(dǎo)所述相機(jī)來查看所述音頻源。
全文摘要
此處公開了一種音頻定位和追蹤裝置、一種用于引導(dǎo)相機(jī)來查看音頻源的方法,以及一種視頻會議終端。在一個(gè)實(shí)施例中,所述裝置包括(1)音頻源標(biāo)識器,被配置為基于來自至少兩種不同類型的傳感器的多模式傳感器數(shù)據(jù)來定位音頻源;以及(2)圖像選擇器,被配置為自動地引導(dǎo)相機(jī)來查看所述音頻源。
文檔編號H04N7/14GK103210643SQ201180047571
公開日2013年7月17日 申請日期2011年9月15日 優(yōu)先權(quán)日2010年9月30日
發(fā)明者H·M·吳, E·L·薩特, R·M·阿博特 申請人:阿爾卡特朗訊
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
冷水江市| 微博| 冀州市| 秀山| 玉林市| 壶关县| 独山县| 山阳县| 福泉市| 长沙县| 宜丰县| 铁岭县| 札达县| 隆昌县| 台中市| 开江县| 高台县| 乌恰县| 宁南县| 乌海市| 绥芬河市| 西充县| 隆回县| 满城县| 禄劝| 唐河县| 昌图县| 东安县| 封开县| 舒兰市| 昌宁县| 长宁县| 涿鹿县| 合江县| 北宁市| 武平县| 云霄县| 寻乌县| 东丽区| 正安县| 呼玛县|