一種移動(dòng)終端的工具及智能整合音視頻的服務(wù)器的制造方法
【專利摘要】本發(fā)明公開了一種安裝于移動(dòng)終端的工具和一種智能整合實(shí)時(shí)音視頻的服務(wù)器,其中,安裝于移動(dòng)終端的工具包括:發(fā)送單元,被配置為響應(yīng)于第一觸發(fā),發(fā)送對(duì)多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求;接收單元,被配置為接收所述多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻,其中,發(fā)送單元基于在移動(dòng)終端的顯示器上顯示的視頻對(duì)應(yīng)的、所述多個(gè)通信終端中的第一通信終端集合,發(fā)送對(duì)第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,接收單元接收第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻。本發(fā)明在被監(jiān)視的場(chǎng)景超出了一個(gè)攝像頭的拍攝范圍的情況下能夠讓監(jiān)視的人看到整個(gè)被監(jiān)視場(chǎng)景,而不是被監(jiān)視場(chǎng)景的一部分。
【專利說明】一種移動(dòng)終端的工具及智能整合音視頻的服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信和圖像處理技術(shù),尤其涉及一種移動(dòng)終端的工具及智能整合音視頻的服務(wù)器。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,例如長桌會(huì)議等環(huán)境下,由于會(huì)議場(chǎng)景狹長,超出了一個(gè)攝像頭的拍攝范圍,因此在利用遠(yuǎn)程攝像頭等進(jìn)行監(jiān)控或使用視頻終端進(jìn)行遠(yuǎn)程雙向視頻通話的應(yīng)用中,監(jiān)控或通話的人只能通過該一個(gè)攝像頭采集的視頻,觀看到會(huì)議場(chǎng)景的一部分。
【發(fā)明內(nèi)容】
[0003]本發(fā)明解決的技術(shù)問題之一是在被監(jiān)視的場(chǎng)景超出了一個(gè)攝像頭的拍攝范圍的情況下能夠讓監(jiān)視的人看到整個(gè)被監(jiān)視場(chǎng)景,而不是被監(jiān)視場(chǎng)景的一部分。
[0004]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種安裝于移動(dòng)終端的工具,包括:發(fā)送單元,被配置為響應(yīng)于第一觸發(fā),發(fā)送對(duì)多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求,其中所述多個(gè)通信終端分別采集特定場(chǎng)景的一部分的實(shí)時(shí)視頻,所述多個(gè)通信終端分別采集的實(shí)時(shí)視頻整合后構(gòu)成所述特定場(chǎng)景的實(shí)時(shí)視頻;接收單元,被配置為接收所述多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻,其中,發(fā)送單元基于在移動(dòng)終端的顯示器上顯示的視頻對(duì)應(yīng)的、所述多個(gè)通信終端中的第一通信終端集合,發(fā)送對(duì)第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,接收單元接收第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻,其中在移動(dòng)終端的顯示器上顯示的視頻是所述多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻的一部分。
[0005]可選地,該工具還包括:配置單元,用于接收用戶對(duì)所述多個(gè)通信終端采集的視音頻進(jìn)行整合的配置。
[0006]可選地,發(fā)送單元還向第一通信終端集合中的通信終端發(fā)起連接請(qǐng)求,并響應(yīng)于第一通信終端集合中的通信終端的自動(dòng)應(yīng)答,與第一通信終端集合中的通信終端建立雙向通信。
[0007]可選地,該工具還包括:縮放單元,被配置為響應(yīng)于用戶對(duì)移動(dòng)終端的顯示器上顯示的視頻的縮放操作,對(duì)移動(dòng)終端的顯示器上顯示的視頻進(jìn)行縮放,從而顯示器上顯示的視頻對(duì)應(yīng)的第一通信終端集合改變。
[0008]可選地,該工具還包括:滑動(dòng)單元,被配置為響應(yīng)于用戶對(duì)移動(dòng)終端的顯示器上顯示的視頻的滑動(dòng)操作,對(duì)移動(dòng)終端的顯示器上顯示的視頻進(jìn)行滑動(dòng),從而顯示器上顯示的視頻對(duì)應(yīng)的第一通信終端集合改變。
[0009]可選地,所述第一觸發(fā)包括以下中的任一種:所述移動(dòng)終端的開機(jī);所述移動(dòng)終端開機(jī)狀態(tài)下所述工具的激活;所述移動(dòng)終端開機(jī)狀態(tài)下用戶界面上的特定動(dòng)作;所述移動(dòng)終端開機(jī)狀態(tài)下接收到的特定語音;所述移動(dòng)終端開機(jī)狀態(tài)下感測(cè)到的光線變強(qiáng)。
[0010]可選地,發(fā)送單元響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,發(fā)送對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻的請(qǐng)求,接收單元接收所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻。
[0011]可選地,發(fā)送單元響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端發(fā)起連接請(qǐng)求,并響應(yīng)于采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端的自動(dòng)應(yīng)答,與采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端建立雙向通信。
[0012]可選地,針對(duì)所述特定場(chǎng)景中特定人的選擇是對(duì)在移動(dòng)終端的顯示器上顯示的視頻中特定人的點(diǎn)擊或說出特定人的名字。
[0013]根據(jù)本發(fā)明的一個(gè)實(shí)施例,還提供了一種智能整合實(shí)時(shí)音視頻的服務(wù)器,包括:視、音頻接收裝置,被配置為接收來自多個(gè)通信終端的實(shí)時(shí)視、音頻、來自移動(dòng)終端的對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求、來自移動(dòng)終端的對(duì)所述多個(gè)通信終端中第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求;視、音頻整合裝置,被配置為響應(yīng)于來自移動(dòng)終端的對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求,對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視頻進(jìn)行整合,并響應(yīng)于來自移動(dòng)終端的對(duì)所述多個(gè)通信終端中第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,對(duì)所述多個(gè)通信終端中第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻進(jìn)行整合;視、音頻發(fā)送裝置,被配置為將整合的視頻或/和整合的音頻發(fā)送到移動(dòng)終端。
[0014]可選地,服務(wù)器還包括:通信建立單元,被配置為響應(yīng)于接收到來自移動(dòng)終端的向所述第一通信終端集合中的通信終端的連接請(qǐng)求,向所述第一通信終端集合中的通信終端轉(zhuǎn)發(fā)該連接請(qǐng)求,并響應(yīng)于第一通信終端集合中的通信終端的自動(dòng)應(yīng)答,在移動(dòng)終端和第一通信終端集合中的通信終端間建立雙向通信。
[0015]可選地,視、音頻整合裝置包括:視頻畫面比對(duì)模塊,被配置為將所述多個(gè)通信終端采集的實(shí)時(shí)視頻進(jìn)行實(shí)時(shí)對(duì)比,確定所述多個(gè)通信終端采集的實(shí)時(shí)視頻之間的重疊部分;重疊部分消除模塊,被配置為消除所述多個(gè)通信終端采集的實(shí)時(shí)視頻之間的重疊部分,從而對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視頻進(jìn)行整合。
[0016]可選地,服務(wù)器還包括:識(shí)別裝置,響應(yīng)于接收到來自移動(dòng)終端的對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻的請(qǐng)求,識(shí)別所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻,并且所述視、音頻整合裝置整合所述涉及所述特定人的實(shí)時(shí)視、音頻,所述視、音頻發(fā)送裝置向移動(dòng)終端發(fā)送整合的所述涉及所述特定人的實(shí)時(shí)視、音頻。
[0017]可選地,服務(wù)器還包括:識(shí)別裝置,響應(yīng)于接收到來自移動(dòng)終端的向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端的連接請(qǐng)求,識(shí)別所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻,從而識(shí)別采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端,并且所述通信建立單元向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端轉(zhuǎn)發(fā)連接請(qǐng)求,并響應(yīng)于采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端的自動(dòng)應(yīng)答,在移動(dòng)終端和采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端之間建立雙向通信。
[0018]由于本發(fā)明的一個(gè)實(shí)施例中,多個(gè)通信終端分別采集特定場(chǎng)景的一部分的實(shí)時(shí)視頻,所述多個(gè)通信終端分別采集的實(shí)時(shí)視頻整合后構(gòu)成所述特定場(chǎng)景的實(shí)時(shí)視頻,這樣,移動(dòng)終端發(fā)送對(duì)該整合視頻的請(qǐng)求后,該整合視頻就能顯示在移動(dòng)終端,達(dá)到了在被監(jiān)視的場(chǎng)景超出了一個(gè)攝像頭的拍攝范圍的情況下能夠讓監(jiān)視的人看到整個(gè)被監(jiān)視場(chǎng)景的效果。
[0019]另外,由于被監(jiān)視場(chǎng)景是例如狹長的,監(jiān)視用戶可能在某一時(shí)間點(diǎn)只要監(jiān)視一部分場(chǎng)景,即看到這一部分場(chǎng)景的視頻,聽到這一部分場(chǎng)景的音頻,因此本發(fā)明的實(shí)施例可以基于在移動(dòng)終端的顯示器上顯示的視頻對(duì)應(yīng)的、所述多個(gè)通信終端中的第一通信終端集合,發(fā)送對(duì)第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,并只接收第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合的音頻。如此,當(dāng)移動(dòng)終端收到來自多個(gè)通信終端采集的實(shí)時(shí)視頻的整合視頻時(shí),根據(jù)顯示器的尺寸和視頻畫面在顯示器當(dāng)前可顯示的畫面大小自動(dòng)知道顯示器顯示的視頻對(duì)應(yīng)于整合視頻的哪一部分、以及其對(duì)應(yīng)的第一通信終端集合,,并獲取對(duì)該第一通信終端集合中的通信終端采集的實(shí)時(shí)音頻的整合音頻,也即,本實(shí)施例確保在顯示器上顯示的視頻和用戶聽到的音頻是對(duì)應(yīng)的,達(dá)到了有效避免因接收所有音頻而造成其它部分音頻對(duì)顯示器顯示的部分視頻的干擾的有益效果。一旦音頻與視頻不對(duì)應(yīng),監(jiān)視用戶會(huì)難以分清聲音是否來自于當(dāng)前顯示的畫面中的人,造成困惑。能夠只聽顯示器畫面中的人說話,同時(shí)抑制其他通信終端所采集到的音頻,而不是聽整個(gè)場(chǎng)景中所有的人說話,目前是監(jiān)視系統(tǒng)尤其是會(huì)議監(jiān)視系統(tǒng)的一個(gè)創(chuàng)舉。
[0020]由于本發(fā)明的一個(gè)實(shí)施例的工具還包括配置單元,用于接收用戶對(duì)所述多個(gè)通信終端采集的視音頻進(jìn)行整合的配置,也就是說,所述多個(gè)通信終端是由用戶指定與用戶的移動(dòng)終端綁定的,這樣,下次響應(yīng)于第一觸發(fā),才能知道請(qǐng)求哪些移動(dòng)終端的整合的視頻。這樣,可以實(shí)現(xiàn)由用戶來指定與其移動(dòng)終端綁定的用戶希望整合其視音頻的多個(gè)通信終端,達(dá)到了用戶可以根據(jù)需要靈活指定與其終端綁定、并整合其視音頻的通信終端的有益效果。
[0021]由于本發(fā)明的一個(gè)實(shí)施例提供的安裝于移動(dòng)終端的工具可以向第一通信終端集合中的通信終端發(fā)起連接請(qǐng)求,并響應(yīng)于第一通信終端集合中的通信終端的自動(dòng)應(yīng)答,與第一通信終端集合中的通信終端建立雙向通信,這樣,本實(shí)施例可以根據(jù)識(shí)別出的特定的通信終端集合,向該集合中的通信終端自動(dòng)發(fā)起連接請(qǐng)求,從而與識(shí)別出的通信終端建立通信,達(dá)到監(jiān)視用戶在顯示器上看見誰、就能跟誰象打電話一樣無障礙雙向交流的有益效果,這是目前的會(huì)議監(jiān)視系統(tǒng)做不到的,是監(jiān)視系統(tǒng)目前的一個(gè)創(chuàng)舉。另外,第一通信終端集合中的通信終端自動(dòng)應(yīng)答,確保了例如被監(jiān)視會(huì)議場(chǎng)景的人感覺不到這種切換,實(shí)現(xiàn)了無縫會(huì)議監(jiān)視,使開會(huì)和通話的流暢性不被打斷。
[0022]由于本發(fā)明的一個(gè)實(shí)施例提供的安裝于移動(dòng)終端的工具還可以包括縮放單元和/或滑動(dòng)單元,通過響應(yīng)于用戶的縮放操作和/或滑動(dòng)操作,改變顯示器上顯示的視頻所對(duì)應(yīng)的第一通信終端集合。根據(jù)該實(shí)施例,用戶可以根據(jù)觀看視頻的需要,任意地縮放和移動(dòng)視頻畫面,這樣,監(jiān)視用戶如果象跟被監(jiān)視場(chǎng)景中的另一個(gè)人說話,就滑動(dòng)視頻畫面,使顯示器顯示的畫面變成含有那個(gè)人的畫面;如果當(dāng)前顯示器的畫面中含有多個(gè)人,但監(jiān)視用戶只想跟一個(gè)人說話,可以縮放顯示器顯示的畫面變成只含有該人,這樣,達(dá)到了監(jiān)視用戶隨心所欲選擇和被監(jiān)視場(chǎng)景中的任何人說話的目的。這也是會(huì)議監(jiān)視系統(tǒng)中的創(chuàng)舉。
[0023]由于本發(fā)明的一個(gè)實(shí)施例提供的安裝于移動(dòng)終端的工具可以響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,發(fā)送對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻的請(qǐng)求并接收所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻,從而使得移動(dòng)終端旁的用戶非常清楚需要與特定場(chǎng)景中的哪些人實(shí)時(shí)對(duì)話時(shí),僅說出或輸入這些人的名字就不用再縮放或滑動(dòng)顯示器上的畫面就能快速鎖定并觀看其中涉及這些人的整合的視音頻,有效節(jié)省人工篩選的時(shí)間和精力。這也是會(huì)議監(jiān)視系統(tǒng)的創(chuàng)舉。
[0024]由于本發(fā)明的一個(gè)實(shí)施例提供的安裝于移動(dòng)終端的工具可以響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端發(fā)起連接請(qǐng)求,并響應(yīng)于采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端的自動(dòng)應(yīng)答,與采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端建立雙向通信,從而使得移動(dòng)終端旁的用戶非常清楚需要與特定場(chǎng)景中的哪些人實(shí)時(shí)對(duì)話時(shí),僅說出或輸入這些人的名字就不用再縮放或滑動(dòng)顯示器上的畫面就能快速鎖定并進(jìn)一步直接與這些人旁邊的通信終端建立雙向通信,有效節(jié)省人工篩選的時(shí)間和精力。這也是會(huì)議監(jiān)視系統(tǒng)的創(chuàng)舉。
[0025]根據(jù)本發(fā)明的一個(gè)實(shí)施例,針對(duì)所述特定場(chǎng)景中特定人的選擇是對(duì)在移動(dòng)終端的顯示器上顯示的視頻中特定人的點(diǎn)擊或說出特定人的名字,如此,用戶可以通過說話或者手動(dòng)操作地方式方便地選擇特定場(chǎng)景中出現(xiàn)的特定人,并可以進(jìn)一步觸發(fā)發(fā)送對(duì)多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻的請(qǐng)求,或進(jìn)一步觸發(fā)向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端發(fā)起連接請(qǐng)求,也即,根據(jù)本發(fā)明的實(shí)施例,可以響應(yīng)于用戶的說話或手動(dòng)選擇,觸發(fā)一系列后續(xù)步驟的自動(dòng)完成,對(duì)于用戶而言,這種簡單的觸發(fā)方式節(jié)省了大量時(shí)間和精力。
[0026]由于根據(jù)本發(fā)明的另一個(gè)方面的一個(gè)實(shí)施例,提供了一種智能整合實(shí)時(shí)音視頻的服務(wù)器,其可以根據(jù)來自移動(dòng)終端的整合相應(yīng)視音頻的請(qǐng)求,對(duì)多個(gè)通信終端拍攝的視音頻進(jìn)行整合并將整合后的視音頻發(fā)送給移動(dòng)終端,從而實(shí)現(xiàn)了在被監(jiān)視的場(chǎng)景超出了一個(gè)攝像頭的拍攝范圍的情況下能夠讓監(jiān)視的人看到整個(gè)被監(jiān)視場(chǎng)景,而不是被監(jiān)視場(chǎng)景的一部分。
[0027]在本發(fā)明的一個(gè)實(shí)施例中,服務(wù)器既可以根據(jù)移動(dòng)終端的請(qǐng)求來整合所有多個(gè)通信終端中的部分通信終端采集的音頻并將整合的音頻發(fā)送給移動(dòng)終端,也可以整合所有多個(gè)通信終端采集的音頻。無論如何,本實(shí)施例提供的服務(wù)器可以根據(jù)移動(dòng)終端的具體請(qǐng)求自適應(yīng)調(diào)整返回給移動(dòng)終端的音頻,從而使得移動(dòng)終端的用戶可以非常靈活地從服務(wù)器接收特定部分的整合的音頻。例如,當(dāng)一段終端的顯示器上僅顯示被監(jiān)視場(chǎng)景中的一部分時(shí),可以只向移動(dòng)終端的用戶發(fā)送這一部分場(chǎng)景相對(duì)應(yīng)的音頻,這樣,監(jiān)視用戶看到的視頻和音頻是對(duì)應(yīng)的,不受其它部分音頻干擾。
[0028]由于根據(jù)本發(fā)明的一個(gè)實(shí)施例提供的服務(wù)器還可以響應(yīng)于接收到來自移動(dòng)終端的向第一通信終端集合中的通信終端的連接請(qǐng)求,向所述第一通信終端集合中的通信終端轉(zhuǎn)發(fā)連接請(qǐng)求,并響應(yīng)于第一通信終端集合中的通信終端的自動(dòng)應(yīng)答,在移動(dòng)終端和第一通信終端集合中的通信終端間建立雙向通信,由此,通過該服務(wù)器,可以自動(dòng)建立移動(dòng)終端與顯示器上顯示畫面中的特定通信終端的連接,達(dá)到顯示誰、就能和誰之間雙向交流的效果。
[0029]由于根據(jù)本發(fā)明的一個(gè)實(shí)施例提供的服務(wù)器還可以對(duì)多個(gè)通信終端采集的實(shí)時(shí)視頻進(jìn)行實(shí)時(shí)對(duì)比,并消除實(shí)時(shí)視頻之間的重疊部分,從而使得處理后的視頻看上去的整體感更強(qiáng)。例如,在一個(gè)大型的會(huì)議場(chǎng)所,為了拍攝整個(gè)會(huì)議場(chǎng)所的所有視角,放置了多臺(tái)通信終端,每臺(tái)通信終端分別采集該會(huì)議場(chǎng)所的一部分實(shí)時(shí)音視頻,由于通信終端的音視頻采集鏡頭通常是廣角的,因而相鄰或鄰近的通信終端所采集的視頻畫面必然存在重疊畫面,本實(shí)施例通過對(duì)視頻畫面進(jìn)行比對(duì)并對(duì)其中的重疊部分予以消除,使得最后整合的來自多個(gè)通信終端所采集的視頻畫面形成一個(gè)整體的、完整的視頻畫面,最后給用戶呈現(xiàn)的整體畫面使用戶感覺不到是由多個(gè)通信終端分別采集而得的,而是感覺由一個(gè)獨(dú)立的具有很長很寬的鏡頭的拍攝設(shè)備單獨(dú)拍攝完成,畫面的整體感很強(qiáng)。
[0030]由于本發(fā)明的一個(gè)實(shí)施例提供的服務(wù)器可以響應(yīng)于接收到來自移動(dòng)終端的對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻的請(qǐng)求,識(shí)別所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻,并且整合所述涉及特定人的實(shí)時(shí)視音頻,并向移動(dòng)終端發(fā)送整合的所述涉及所述特定人的實(shí)時(shí)視音頻,從而使得移動(dòng)終端旁的用戶非常清楚需要與特定場(chǎng)景中的哪些人實(shí)時(shí)對(duì)話時(shí),僅發(fā)送對(duì)這些人的視、音頻的請(qǐng)求不用再進(jìn)一步地瀏覽整個(gè)被監(jiān)視場(chǎng)景并選擇,就能快速鎖定并觀看其中涉及這些人的整合的視音頻,有效節(jié)省人工篩選的時(shí)間和精力。
[0031]由于本發(fā)明的一個(gè)實(shí)施例提供的服務(wù)器還可以包括識(shí)別裝置,響應(yīng)于接收到來自移動(dòng)終端的向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端的連接請(qǐng)求,識(shí)別所述多個(gè)通信終端采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻,從而識(shí)別采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端,并且,所述通信建立單元向采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端轉(zhuǎn)發(fā)連接請(qǐng)求,并響應(yīng)于采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端的自動(dòng)應(yīng)答,在移動(dòng)終端和采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端之間建立雙向通信,從而使得移動(dòng)終端旁的用戶非常清楚需要與特定場(chǎng)景中的哪些人實(shí)時(shí)對(duì)話時(shí),僅發(fā)送向這些人相關(guān)的通信終端的連接請(qǐng)求,從而與這些人相關(guān)的通信終端建立連接,就能快速與需要的人建立直接通信,有效節(jié)省人工篩選的時(shí)間和精力。
[0032]本領(lǐng)域普通技術(shù)人員將了解,雖然下面的詳細(xì)說明將參考圖示實(shí)施例、附圖進(jìn)行,但本發(fā)明并不僅限于這些實(shí)施例。而是,本發(fā)明的范圍是廣泛的,且意在僅通過后附的權(quán)利要求限定本發(fā)明的范圍。
【專利附圖】
【附圖說明】
[0033]通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0034]圖1示出根據(jù)本發(fā)明一個(gè)實(shí)施例的安裝于移動(dòng)終端I的工具11的示意性框圖;
[0035]圖2示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的多個(gè)通信終端進(jìn)行實(shí)時(shí)視音頻采集的示意圖;
[0036]圖3(a)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的由服務(wù)器整合后的六個(gè)通信終端拍攝的視頻;
[0037]圖3(b)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的安裝于移動(dòng)終端I的工具11激活后移動(dòng)終端的顯示器上顯示的初始畫面;
[0038]圖3 (C)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的縮放圖3(b)中顯示器上顯示的畫面后的結(jié)果;
[0039]圖3(d)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的滑動(dòng)圖3(b)中顯示器上顯示的畫面后的結(jié)果;
[0040]圖3(e)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的當(dāng)用戶選擇特定人時(shí)顯示器上顯示整合后的特定人所在的視頻的情形;
[0041]圖4示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的移動(dòng)終端與第一通信集合中的通信終端直接建立連接的示意圖;
[0042]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的智能整合實(shí)時(shí)音視頻的服務(wù)器的示意性框圖;
[0043]圖6示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的基于服務(wù)器在移動(dòng)終端和通信終端之間建立通信的示意圖;
[0044]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的視音頻整合裝置的示意性框圖;
[0045]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實(shí)施方式】
[0046]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0047]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的安裝于移動(dòng)終端I的工具11的示意性框圖。根據(jù)圖1,所述安裝于移動(dòng)終端I的工具11,包括:
[0048]發(fā)送單元101,被配置為響應(yīng)于第一觸發(fā),發(fā)送對(duì)多個(gè)通信終端2采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求,其中所述多個(gè)通信終端2分別采集特定場(chǎng)景的一部分的實(shí)時(shí)視頻,所述多個(gè)通信終端2分別采集的實(shí)時(shí)視頻整合后構(gòu)成所述特定場(chǎng)景的實(shí)時(shí)視頻;
[0049]接收單元102,被配置為接收所述多個(gè)通信終端2采集的實(shí)時(shí)視頻的整合的視頻;
[0050]其中,發(fā)送單元101基于在移動(dòng)終端I的顯示器上顯示的視頻對(duì)應(yīng)的、所述多個(gè)通信終端2中的第一通信終端集合,發(fā)送對(duì)第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,接收單元102接收第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻的整合的音頻,其中在移動(dòng)終端I的顯示器上顯示的視頻是所述多個(gè)通信終端2采集的實(shí)時(shí)視頻的整合的視頻的一部分。
[0051]需要說明的是,上述視音頻的整合包括但不限于多個(gè)視頻畫面的去重和拼接,多個(gè)音頻的去重和降噪等。現(xiàn)有技術(shù)存在多種對(duì)圖像進(jìn)行整合的技術(shù),例如申請(qǐng)?zhí)枮椤?01410117927.3”、發(fā)明名稱為“一種多路視頻監(jiān)控圖像數(shù)據(jù)處理方法及系統(tǒng)”的專利公開了將多路圖像拼接成一幅圖像的技術(shù)方案。
[0052]上文中,所述安裝于移動(dòng)終端I的工具11以諸如應(yīng)用程序(app)的方式安裝于移動(dòng)終端上,并以相應(yīng)的應(yīng)用圖標(biāo)的形式予以展示,或者app固化在一個(gè)芯片內(nèi)插入移動(dòng)終端,安裝于移動(dòng)終端I的工具11體現(xiàn)為該芯片。
[0053]第一觸發(fā)指某種動(dòng)作,該動(dòng)作使發(fā)送單元發(fā)送對(duì)多個(gè)通信終端2采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求。例如,它可以包括以下中的任一種:所述移動(dòng)終端的開機(jī);所述移動(dòng)終端開機(jī)狀態(tài)下所述工具的激活;所述移動(dòng)終端開機(jī)狀態(tài)下用戶界面上的特定動(dòng)作;所述移動(dòng)終端開機(jī)狀態(tài)下感測(cè)到的光線變強(qiáng)。其中,開機(jī)作為觸發(fā),就可以使得一開機(jī)就接收到整合的視頻,用戶不用激活工具,避免復(fù)雜操作。所述移動(dòng)終端開機(jī)狀態(tài)下所述工具的激活作為觸發(fā),好處是用戶可以在開機(jī)之后再次決定是否要接收整合的視頻,避免開機(jī)后自動(dòng)激活但用戶并不需要的情況。也可以通過所述移動(dòng)終端開機(jī)狀態(tài)下用戶界面上的特定動(dòng)作諸如點(diǎn)擊、雙擊、長按等來進(jìn)行第一觸發(fā),它的好處也是用戶可以在開機(jī)之后再次決定是否要接收整合的視頻,避免開機(jī)后自動(dòng)激活但用戶并不需要的情況。另外,還可以通過所述移動(dòng)終端開機(jī)狀態(tài)下感測(cè)到的光線變強(qiáng)進(jìn)行第一觸發(fā),這樣,實(shí)現(xiàn)例如用戶從口袋里掏出移動(dòng)終端使得移動(dòng)終端感測(cè)到的光線變強(qiáng)而自動(dòng)觸發(fā)的有益效果,它不是開機(jī)作為觸發(fā),因?yàn)榧词归_機(jī)由于移動(dòng)終端在用戶的口袋里用戶也不可能需要整合的視、音頻,只要用戶從口袋里掏出移動(dòng)終端,它就自動(dòng)開啟整合視、音頻的功能,避免了用戶再開啟整合功能的復(fù)雜操作。
[0054]所述第一觸發(fā)還可以是其它方式,在此,對(duì)于所述工具的觸發(fā)方式不作限定。
[0055]所述移動(dòng)終端I包括但不限于任何一種可與用戶進(jìn)行人機(jī)交互的通信設(shè)備,在此不作限定。所述通信終端2包括但不限于任何一種可與用戶通過觸摸板、遙控設(shè)備、聲控設(shè)備或鍵盤等進(jìn)行人機(jī)交互的電子產(chǎn)品,例如計(jì)算機(jī)、平板電腦(PAD)等,本領(lǐng)域技術(shù)人員應(yīng)能理解,其他設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi)。
[0056]其中,通信終端2可以通過任何具有視頻采集功能的裝置(諸如攝像頭)進(jìn)行實(shí)時(shí)視頻的采集,通信終端2可以通過任何具有音頻采集功能的裝置(諸如錄音單元)進(jìn)行實(shí)時(shí)音頻的采集。所述通信終端2可以基于諸如傳輸控制協(xié)議(TCP)或用戶數(shù)據(jù)報(bào)協(xié)議(UDP)等將實(shí)時(shí)采集的視音頻實(shí)時(shí)或定時(shí)上傳到相應(yīng)的服務(wù)器,由服務(wù)器對(duì)多個(gè)通信終端2上傳的視音頻進(jìn)行統(tǒng)一地整合處理。
[0057]實(shí)踐中,所述多個(gè)通信終端2通常位于特定的場(chǎng)景,各個(gè)通信終端2通常負(fù)責(zé)采集特定場(chǎng)景的一部分實(shí)時(shí)視頻,當(dāng)各個(gè)通信終端2實(shí)時(shí)將所采集的各部分視音頻信息上傳到相應(yīng)的服務(wù)器,由服務(wù)器對(duì)這些視音頻進(jìn)行整合,得到該特定場(chǎng)景的完整的實(shí)時(shí)視音頻。當(dāng)然,服務(wù)器可以對(duì)所述多個(gè)通信終端2中的一部分通信終端上傳的視音頻進(jìn)行整合,也可以對(duì)全部所述多個(gè)通信終端上傳的視音頻進(jìn)行整合。典型地,請(qǐng)參考圖2,圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的多個(gè)通信終端進(jìn)行實(shí)時(shí)視音頻采集的示意圖。如圖2所示,在一個(gè)長型場(chǎng)所,放置六臺(tái)通信終端2,每個(gè)通信終端2負(fù)責(zé)采集該宴會(huì)場(chǎng)所的一定區(qū)域的視音頻信息(由對(duì)應(yīng)的視場(chǎng)決定),位置相鄰或相近的通信終端2通常所采集的視音頻存在交叉或重疊,例如,相鄰的兩個(gè)通信終端2同時(shí)拍攝到同一個(gè)人,或同時(shí)捕捉到多個(gè)人的發(fā)言,則月艮務(wù)器經(jīng)過對(duì)相鄰的兩個(gè)通信終端2上傳的包含同一個(gè)人的多個(gè)視頻或同時(shí)捕捉到多個(gè)人的發(fā)言的多個(gè)音頻進(jìn)行整合處理,在該整合的視頻畫面中,僅包含這個(gè)人的整合之后的整體畫面,而不是包含這個(gè)人的具有畫面重疊部分的兩個(gè)獨(dú)立的畫面;在該整合的音頻中,僅包含捕捉到的多個(gè)人的整合之后的一份音頻,而不是包含捕捉到的多個(gè)人的重疊的兩份獨(dú)立音頻的疊加音頻。在圖2中,6個(gè)通信終端2分別捕捉到6個(gè)人pl_p6的視音頻,每個(gè)通信終端捕捉到一個(gè)人的視音頻。
[0058]特定的場(chǎng)景可以是大型會(huì)議場(chǎng)所、宴會(huì)場(chǎng)所等,還可以是其他需要多個(gè)通信終端進(jìn)行現(xiàn)場(chǎng)的實(shí)時(shí)視音頻采集的場(chǎng)所。
[0059]圖3(a)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的由服務(wù)器整合后的六個(gè)通信終端拍攝的視頻。假設(shè)被監(jiān)視場(chǎng)景中的六個(gè)人P1-P6分別位于六個(gè)通信終端采集的視頻6-1、6-2……6-6中,其中每個(gè)通信終端采集的視頻部分在整合視頻中稱為“窗口”。如果將圖3(a)中整個(gè)的整合視頻顯示在移動(dòng)終端I的顯示器上,會(huì)導(dǎo)致每個(gè)窗口太小,看不清人。因此,本發(fā)明的一個(gè)實(shí)施例允許在移動(dòng)終端I的顯示器180上只顯示部分窗口。如圖3(b)所示,在安裝于移動(dòng)終端I的工具11激活后移動(dòng)終端I的顯示器180上顯示的初始畫面中只包括窗口 6-2和6-3,即人p2、p3所在窗口。
[0060]由于顯示器180上顯示的是兩個(gè)窗口,如果移動(dòng)終端的揚(yáng)聲器輸出所有窗口中(即所有通信終端采集的聲音)的話,持有移動(dòng)終端I的用戶就會(huì)發(fā)生困惑,因?yàn)橛行┞曇魜碜源翱?6-2和6-3這兩個(gè)窗口以外的窗口,用戶會(huì)不知道是否是這兩個(gè)窗口中的人發(fā)出的聲音。因此,有必要此時(shí)讓用戶僅聽到這兩個(gè)窗口中的人相關(guān)的聲音。發(fā)送單元101此時(shí)知道在移動(dòng)終端I的顯示器上顯示的視頻對(duì)應(yīng)著哪些通信終端(在本例中第2、3個(gè)通信終端),因此,它可以基于在移動(dòng)終端I的顯示器上顯示的視頻對(duì)應(yīng)的、所述多個(gè)通信終端2中的第一通信終端集合(即第2、3個(gè)通信終端),發(fā)送對(duì)第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,接收單元102接收第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻的整合的音頻,從而移動(dòng)終端I的揚(yáng)聲器只輸出所述來自第一通信終端集合的通信終端2 (在本例中即第2、3個(gè)通信終端)采集的實(shí)時(shí)音頻的整合的音頻,而不是來自所有6個(gè)通信終端2采集的實(shí)時(shí)音頻的整合的音頻。
[0061]應(yīng)當(dāng)理解,圖1所示的框圖僅僅是為了示例的目的,而不是對(duì)本發(fā)明范圍的限制。在某些情況下,可以根據(jù)具體情況增加或減少某些單元或裝置。
[0062]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的工具11,發(fā)送單元101還向第一通信終端集合中的通信終端2發(fā)起連接請(qǐng)求,并響應(yīng)于第一通信終端集合中的通信終端2的自動(dòng)應(yīng)答,與第一通信終端集合中的通信終端2建立雙向通信。對(duì)此可參考圖4,圖4示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的移動(dòng)終端與第一通信集合中的通信終端直接建立連接的示意圖。由此,無需移動(dòng)終端旁的用戶進(jìn)行手動(dòng)地選擇待發(fā)起連接請(qǐng)求的對(duì)象,也無需在選定通信對(duì)象后手動(dòng)啟動(dòng)通信連接請(qǐng)求。這樣,移動(dòng)終端旁的用戶無需將當(dāng)前播放的視頻頁面進(jìn)行切換至向通信終端2發(fā)起連接請(qǐng)求的頁面,因而使得移動(dòng)終端旁用戶可以在本移動(dòng)終端與通信終端2建立通信的過程中無打擾地觀看當(dāng)前視頻頁面。例如,在圖3(b)所示的顯示器中顯示窗口 6-2、6-3,因此,發(fā)起向與窗口 6-2、6-3相關(guān)(即拍攝了窗口 6_2、6_3的視頻)的第2、3個(gè)通信終端建立通信的連接請(qǐng)求。
[0063]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的工具11,還包括:縮放單元104,被配置為響應(yīng)于用戶對(duì)移動(dòng)終端I的顯示器上顯示的視頻的縮放操作,對(duì)移動(dòng)終端I的顯示器上顯示的視頻進(jìn)行縮放,從而顯示器上顯示的視頻對(duì)應(yīng)的第一通信終端集合改變。如圖3 (C)所示,當(dāng)用戶看到圖3(b)所示的窗口 6-2、6-3的視頻后僅想看窗口 6-2的視頻、聽人p2的聲音時(shí),可以放大顯示器上的畫面,使顯示器上只顯示有人P2的窗口 6-2,此時(shí)移動(dòng)終端的揚(yáng)聲器只輸出該窗口對(duì)應(yīng)的通信終端采集的聲音,因此,用戶可以與人P2進(jìn)行單獨(dú)監(jiān)視,可以只獲得與P2有關(guān)的視、音頻而不受其他人的干擾。
[0064]具體而言,縮放單元104可以響應(yīng)于用戶諸如雙指移動(dòng)或滑動(dòng)的操作,對(duì)移動(dòng)終端I當(dāng)前顯示的視頻畫面進(jìn)行縮小或放大,當(dāng)滿足諸如視頻畫面的大小位于諸如根據(jù)該工具默認(rèn)的或用戶預(yù)先設(shè)定的視頻畫面大小的范圍內(nèi)等條件時(shí),縮放后的視頻對(duì)應(yīng)的第一通信終端集合改變。
[0065]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的工具11,還包括:
[0066]滑動(dòng)單元105,被配置為響應(yīng)于用戶對(duì)移動(dòng)終端I的顯示器上顯示的視頻的滑動(dòng)操作,對(duì)移動(dòng)終端I的顯示器上顯示的視頻進(jìn)行滑動(dòng),從而顯示器上顯示的視頻對(duì)應(yīng)的第一通信終端集合改變。如圖3(d)所示,當(dāng)用戶看到圖3(b)所示的窗口 6-2、6-3的視頻后想看p3的右邊還有誰,可以向右滑動(dòng)窗口,此時(shí)取代窗口 6-2、6-3,窗口 6-3、6-4顯示在顯不器上。此時(shí),用戶可以獲得與人p3、p4有關(guān)的視、首頻,取代與人p2、p3有關(guān)的視、首頻。
[0067]具體而言,滑動(dòng)單元105可以響應(yīng)于用戶諸如拖動(dòng)、長按滑動(dòng)、僅滑動(dòng)等操作,對(duì)移動(dòng)終端I的顯示器上當(dāng)前顯示的視頻進(jìn)行滑動(dòng),當(dāng)滿足諸如滑動(dòng)的距離超過一定的閾值等條件時(shí),滑動(dòng)后的視頻對(duì)應(yīng)的第一通信終端集合改變。
[0068]當(dāng)然,在上文中,用戶可以同時(shí)縮放和滑動(dòng)當(dāng)前顯示的視頻畫面,也可以先縮放后滑動(dòng)當(dāng)前顯示的視頻畫面,還可以先滑動(dòng)后縮放當(dāng)前顯示的視頻畫面,則第一通信終端集合進(jìn)行相應(yīng)的改變。
[0069]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的工具11,發(fā)送單元101響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,發(fā)送對(duì)所述多個(gè)通信終端2采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視音頻的請(qǐng)求,接收單元102接收第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻的整合的音頻。
[0070]具體地,所述接收到對(duì)所述特定場(chǎng)景中特定人的選擇可以通過諸如以下的方式進(jìn)行:例如,工具11識(shí)別出當(dāng)前播放視頻或接收到的視頻中包含特定人的畫面,將所識(shí)別出的特定人頭像圈出以菜單的形式提供給用戶進(jìn)行選擇;又如,通過響應(yīng)于用戶對(duì)在移動(dòng)終端I的顯示器上顯示的視頻中特定人的點(diǎn)擊、雙擊等操作或接收到用戶說出特定人的名字的音頻等。如圖3(e)所示,用戶僅想知道人p2和p5在干什么,聽到p2和p5在說什么,就直接說出P2和p5的名字,工具11通過語音識(shí)別從而識(shí)別出p2和p5,向服務(wù)器發(fā)送對(duì)P2和p5的視、音頻的整合的視音頻的請(qǐng)求。服務(wù)器識(shí)別出與窗口 6-2、6-5相關(guān)聯(lián)的第二通信終端、第五通信終端分別采集了 P2、p5的視音頻,將第二通信終端、第五通信終端采集的視頻及音頻分別整合,發(fā)送給工具11的接收單元102。這樣,在移動(dòng)終端的顯示器上出現(xiàn)了圖3(e)所示的整合后的窗口 p2、p5,并且移動(dòng)終端的揚(yáng)聲器輸出的也是與窗口 p2、p5對(duì)應(yīng)的音頻,達(dá)到了用戶僅看到自己感興趣的人的視頻、聽到自己感興趣的人的音頻的效果。
[0071]其中,所述工具11在識(shí)別當(dāng)前播放視頻或接收到的視頻中包含特定人的畫面的情況下,可以預(yù)先將特定人的人臉的模式和/或聲音頻率存儲(chǔ)在存儲(chǔ)器中,當(dāng)接收到的視音頻或當(dāng)前播放的視音頻中存在特定人的人臉的模式匹配或/和存在特定人的聲音頻率的匹配,則將特定人的頭像從視頻畫面中截取并圈出,提供給用戶進(jìn)行選擇。當(dāng)然,所述工具也可以采用自學(xué)習(xí)的方法來識(shí)別包含特定人的畫面的視頻或/和音頻。例如,如果接收到的視音頻中頻繁出現(xiàn)某個(gè)人的畫面或/和某個(gè)人的聲音頻率,則可以在移動(dòng)終端I的顯示器上顯示提示,提示的內(nèi)容為識(shí)別出特定人,請(qǐng)移動(dòng)終端I旁的用戶判斷并命名,如果移動(dòng)終端旁的用戶發(fā)現(xiàn)識(shí)別錯(cuò)誤,則在顯示器上輸入反饋信息返回至該工具,在下一次識(shí)別中該工具根據(jù)歷史反饋信息進(jìn)行相應(yīng)地糾正。在自學(xué)習(xí)的方式下,可以不預(yù)先將特定人的人臉的模式或/和聲音頻率存儲(chǔ)在存儲(chǔ)器中。
[0072]當(dāng)用戶做出選擇后,發(fā)送單元101響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,發(fā)送對(duì)所述多個(gè)通信終端2采集的實(shí)時(shí)視音頻中涉及所述特定人的實(shí)時(shí)視音頻的整合的視音頻的請(qǐng)求并由接收單元102接收相應(yīng)的整合的音頻。其中,通信終端2可以基于人臉識(shí)別、身高識(shí)別、聲音識(shí)別中的一個(gè)或多個(gè)來識(shí)別特定人。
[0073]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的工具11,發(fā)送單元101響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,向采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端2發(fā)起連接請(qǐng)求,并響應(yīng)于采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端2的自動(dòng)應(yīng)答,與采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端2建立通信。這樣,攜帶移動(dòng)終端I的用戶就不只是按照自己的意愿看到希望的人的視頻、聽到希望的人的音頻而已,希望的人也看到了自己的視頻,聽到了自己的音頻,即實(shí)現(xiàn)了與希望的人的雙向通信。
[0074]具體地,發(fā)送單元101還可以向采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端2發(fā)起連接請(qǐng)求,由此直接在移動(dòng)終端I和通信終端2之間建立通信,以便于移動(dòng)終端I直接與特定的一個(gè)或多個(gè)通信終端2進(jìn)行實(shí)時(shí)通信,互相獲取對(duì)方的實(shí)時(shí)視音頻。
[0075]當(dāng)然,上述移動(dòng)終端I可以為一個(gè)或多個(gè),當(dāng)移動(dòng)終端I為多個(gè)時(shí),各移動(dòng)終端I之間可以是相互關(guān)聯(lián)的,也可以是相互獨(dú)立的。
[0076]根據(jù)本發(fā)明的另一個(gè)方面的一個(gè)實(shí)施例,提供了一種智能整合實(shí)時(shí)音視頻的服務(wù)器3。請(qǐng)參考圖5,圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的智能整合實(shí)時(shí)音視頻的服務(wù)器的示意性框圖。根據(jù)圖5,所述服務(wù)器包括:
[0077]視、音頻接收裝置301,被配置為接收來自多個(gè)通信終端2的實(shí)時(shí)視音頻、來自移動(dòng)終端I的對(duì)所述多個(gè)通信終端采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求、來自移動(dòng)終端I的對(duì)所述多個(gè)通信終端2中第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求;
[0078]視音頻整合裝置302,被配置為響應(yīng)于來自移動(dòng)終端I的對(duì)所述多個(gè)通信終端2采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求,對(duì)所述多個(gè)通信終端2采集的實(shí)時(shí)視頻進(jìn)行整合,并響應(yīng)于來自移動(dòng)終端I的對(duì)所述多個(gè)通信終端2中第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,對(duì)所述多個(gè)通信終端2中第一通信終端集合中的通信終端2采集的實(shí)時(shí)音頻進(jìn)行整合;
[0079]視音頻發(fā)送裝置303,被配置為將整合的視頻或/和整合的音頻發(fā)送到移動(dòng)終端
1
[0080]其中,所述服務(wù)器3可以包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集或多個(gè)服務(wù)器構(gòu)成的云。該服務(wù)器3 —方面接收來自多個(gè)通信終端2實(shí)時(shí)或及時(shí)上傳的視音頻,一方面還可以接收來自移動(dòng)終端I的對(duì)所述多個(gè)通信終端2采集的實(shí)時(shí)視頻或/和實(shí)時(shí)音頻的整合后的視頻或/和音頻,根據(jù)所接收到的對(duì)實(shí)時(shí)視頻或/和實(shí)時(shí)音頻的整合的請(qǐng)求,對(duì)相應(yīng)的視頻或/和音頻進(jìn)行整合并將整合后的視頻或/和音頻發(fā)送至移動(dòng)終端I。
[0081]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述服務(wù)器3還包括:通信建立單元305,被配置為響應(yīng)于接收到來自移動(dòng)終端I的向所述第一通信終端集合中的通信終端2的連接請(qǐng)求,向所述第一通信終端集合中的通信終端2轉(zhuǎn)發(fā)該連接請(qǐng)求,并響應(yīng)于第一通信終端集合中的通信終端2的自動(dòng)應(yīng)答,在移動(dòng)終端I和第一通信終端集合中的通信終端2間建立雙向通信。
[0082]在該實(shí)施例中,所述服務(wù)器還可以作為通信中轉(zhuǎn)站,在移動(dòng)終端I和通信終端2之間建立通信。請(qǐng)參考圖6,圖6示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的基于服務(wù)器在移動(dòng)終端和通信終端之間建立通信的示意圖。具體而言,服務(wù)器3接收到移動(dòng)終端I的向第一通信終端集合中的通信終端或向特定的一個(gè)或多個(gè)通信終端發(fā)出的連接請(qǐng)求,則根據(jù)接收到的連接請(qǐng)求,向目標(biāo)通信終端轉(zhuǎn)發(fā)該連接請(qǐng)求,收到目標(biāo)通信終端的自動(dòng)應(yīng)答后,與移動(dòng)終端I和目標(biāo)通信終端2建立雙向通信連接。
[0083]請(qǐng)參考圖7,圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的視音頻整合裝置的示意性框圖。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述視、音頻整合裝置302包括:
[0084]視頻畫面比對(duì)模塊3021,被配置為將所述多個(gè)通信終端2采集的實(shí)時(shí)視頻進(jìn)行實(shí)時(shí)比對(duì),確定所述多個(gè)通信終端2采集的實(shí)時(shí)視頻之間的重疊部分;
[0085]重疊部分消除模塊3022,被配置為消除所述多個(gè)通信終端2采集的實(shí)時(shí)視頻之間的重疊部分,從而對(duì)所述多個(gè)通信終端2采集的實(shí)時(shí)視頻進(jìn)行整合。
[0086]具體而言,由于多個(gè)通信終端2中的每個(gè)通信終端通常負(fù)責(zé)采集特定場(chǎng)景的一部分音視頻,由于采集的視頻通常都是廣角拍攝的,而為了采集特定場(chǎng)景的所有視角的視頻,相鄰或相近位置的通信終端采集的音視頻通常存在重疊部分,而為了將多個(gè)通信終端采集的視頻整合成一整幅完整的、無整合痕跡的、看上去由一個(gè)具有無限視場(chǎng)的通信終端采集的視頻,需要對(duì)多個(gè)通信終端采集的視音頻中重疊的部分予以消除,僅保留一份對(duì)相同場(chǎng)景采集的視音頻。而為了將整合的視頻實(shí)時(shí)發(fā)送至移動(dòng)終端,需要對(duì)多個(gè)通信終端2采集的實(shí)時(shí)視頻進(jìn)行實(shí)時(shí)比對(duì),以確定并消除其中重疊的視頻畫面。
[0087]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述服務(wù)器3還包括:識(shí)別裝置304,響應(yīng)于接收到來自移動(dòng)終端I的對(duì)所述多個(gè)通信終端2采集的實(shí)時(shí)視音頻中涉及所述特定人的實(shí)時(shí)視音頻的整合的視音頻的請(qǐng)求,識(shí)別所述多個(gè)通信終端2采集的視音頻中涉及所述特定人的實(shí)時(shí)視音頻,并且
[0088]所述視音頻整合裝置302整合所述涉及所述特定人的實(shí)時(shí)視、音頻,
[0089]所述視音頻發(fā)送裝置303向移動(dòng)終端I發(fā)送整合的所述涉及所述特定人的實(shí)時(shí)視、音頻。
[0090]其中,服務(wù)器3也可以通過預(yù)先將特定人的人臉模式和/或聲音頻率存儲(chǔ)在存儲(chǔ)器或自學(xué)習(xí)等方式來識(shí)別所接收的來自多個(gè)通信終端2采集的視音頻中涉及特定人的實(shí)時(shí)視音頻,并對(duì)所識(shí)別出的實(shí)時(shí)視音頻從所接收的所有視音頻中篩選并進(jìn)行整合,并發(fā)送給移動(dòng)終端I。
[0091]根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述服務(wù)器3還包括:識(shí)別裝置304,響應(yīng)于接收到來自移動(dòng)終端I的向采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端2的連接請(qǐng)求,識(shí)別所述多個(gè)通信終端2采集的實(shí)時(shí)視音頻中涉及所述特定人的實(shí)時(shí)視音頻,從而識(shí)別采集了涉及所述特定人的實(shí)時(shí)視音頻的通信終端2,并且
[0092]所述通信建立單元305向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端2轉(zhuǎn)發(fā)連接請(qǐng)求,并響應(yīng)于采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端2的自動(dòng)應(yīng)答,在移動(dòng)終端I和采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端2之間建立雙向通信。
[0093]在該實(shí)施例中,所述服務(wù)器3同樣作為通信中轉(zhuǎn)站,接收到來自移動(dòng)終端I的向采集了涉及特定人的實(shí)時(shí)視音頻的通信終端2的連接請(qǐng)求,在所述移動(dòng)終端I和所述涉及特定人的實(shí)時(shí)視音頻的通信終端2之間建立雙向通信連接。
[0094]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實(shí)現(xiàn)為設(shè)備、裝置、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本公開可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件,也可以是完全的軟件,還可以是硬件和軟件結(jié)合的形式。
[0095]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0096]對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。
【權(quán)利要求】
1.一種安裝于移動(dòng)終端(I)的工具(11),包括: 發(fā)送單元(101),被配置為響應(yīng)于第一觸發(fā),發(fā)送對(duì)多個(gè)通信終端(2)采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求,其中所述多個(gè)通信終端(2)分別采集特定場(chǎng)景的一部分的實(shí)時(shí)視頻,所述多個(gè)通信終端(2)分別采集的實(shí)時(shí)視頻整合后構(gòu)成所述特定場(chǎng)景的實(shí)時(shí)視頻; 接收單元(102),被配置為接收所述多個(gè)通信終端(2)采集的實(shí)時(shí)視頻的整合的視頻, 其中,發(fā)送單元(101)基于在移動(dòng)終端(I)的顯示器上顯示的視頻對(duì)應(yīng)的、所述多個(gè)通信終端(2)中的第一通信終端集合,發(fā)送對(duì)第一通信終端集合中的通信終端(2)采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,接收單元(102)接收第一通信終端集合中的通信終端(2)采集的實(shí)時(shí)音頻的整合的音頻,其中在移動(dòng)終端(I)的顯示器上顯示的視頻是所述多個(gè)通信終端(2)采集的實(shí)時(shí)視頻的整合的視頻的一部分。
2.根據(jù)權(quán)利要求1所述的工具(11),還包括:配置單元(103),用于接收用戶對(duì)所述多個(gè)通信終端(2)采集的視音頻進(jìn)行整合的配置。
3.根據(jù)權(quán)利要求1所述的工具(11),其中發(fā)送單元(101)還向第一通信終端集合中的通信終端(2)發(fā)起連接請(qǐng)求,并響應(yīng)于第一通信終端集合中的通信終端(2)的自動(dòng)應(yīng)答,與第一通信終端集合中的通信終端(2)建立雙向通信。
4.根據(jù)權(quán)利要求1所述的工具(11),還包括: 縮放單元(104),被配置為響應(yīng)于用戶對(duì)移動(dòng)終端(I)的顯示器上顯示的視頻的縮放操作,對(duì)移動(dòng)終端(I)的顯示器上顯示的視頻進(jìn)行縮放,從而顯示器上顯示的視頻對(duì)應(yīng)的第一通信終端集合改變。
5.根據(jù)權(quán)利要求1所述的工具(11),還包括: 滑動(dòng)單元(105),被配置為響應(yīng)于用戶對(duì)移動(dòng)終端(I)的顯示器上顯示的視頻的滑動(dòng)操作,對(duì)移動(dòng)終端(I)的顯示器上顯示的視頻進(jìn)行滑動(dòng),從而顯示器上顯示的視頻對(duì)應(yīng)的第一通信終端集合改變。
6.根據(jù)權(quán)利要求1所述的工具(11),其中所述第一觸發(fā)包括以下中的任一種: 所述移動(dòng)終端的開機(jī); 所述移動(dòng)終端開機(jī)狀態(tài)下所述工具的激活; 所述移動(dòng)終端開機(jī)狀態(tài)下用戶界面上的特定動(dòng)作; 所述移動(dòng)終端開機(jī)狀態(tài)下接收到的特定語音; 所述移動(dòng)終端開機(jī)狀態(tài)下感測(cè)到的光線變強(qiáng)。
7.根據(jù)權(quán)利要求1所述的工具(11),其中發(fā)送單元(101)響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,發(fā)送對(duì)所述多個(gè)通信終端(2)采集的實(shí)時(shí)視、音頻中涉及所述特定人的實(shí)時(shí)視、音頻的整合的視、音頻的請(qǐng)求,接收單元(102)接收所述多個(gè)通信終端(2)采集的實(shí)時(shí)視、首頻中涉及所述特定人的實(shí)時(shí)視、首頻的整合的視、首頻。
8.根據(jù)權(quán)利要求1所述的工具(11),其中發(fā)送單元(101)響應(yīng)于接收到針對(duì)所述特定場(chǎng)景中特定人的選擇,向采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端(2)發(fā)起連接請(qǐng)求,并響應(yīng)于采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端(2)的自動(dòng)應(yīng)答,與采集了涉及所述特定人的實(shí)時(shí)視、音頻的通信終端(2)建立雙向通信。
9.根據(jù)權(quán)利要求1所述的工具(11),其中針對(duì)所述特定場(chǎng)景中特定人的選擇是對(duì)在移動(dòng)終端(I)的顯示器上顯示的視頻中特定人的點(diǎn)擊或說出特定人的名字。
10.一種智能整合實(shí)時(shí)音視頻的服務(wù)器(3),包括: 視、音頻接收裝置(301),被配置為接收來自多個(gè)通信終端(2)的實(shí)時(shí)視、音頻、來自移動(dòng)終端(I)的對(duì)所述多個(gè)通信終端(2)采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求、來自移動(dòng)終端(I)的對(duì)所述多個(gè)通信終端(2)中第一通信終端集合中的通信終端(2)采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求; 視、音頻整合裝置(302),被配置為響應(yīng)于來自移動(dòng)終端(I)的對(duì)所述多個(gè)通信終端(2)采集的實(shí)時(shí)視頻的整合的視頻的請(qǐng)求,對(duì)所述多個(gè)通信終端(2)采集的實(shí)時(shí)視頻進(jìn)行整合,并響應(yīng)于來自移動(dòng)終端(I)的對(duì)所述多個(gè)通信終端(2)中第一通信終端集合中的通信終端(2)采集的實(shí)時(shí)音頻的整合的音頻的請(qǐng)求,對(duì)所述多個(gè)通信終端(2)中第一通信終端集合中的通信終端(2)采集的實(shí)時(shí)音頻進(jìn)行整合; 視、音頻發(fā)送裝置(303),被配置為將整合的視頻或/和整合的音頻發(fā)送到移動(dòng)終端⑴。
【文檔編號(hào)】H04N7/15GK104135641SQ201410337180
【公開日】2014年11月5日 申請(qǐng)日期:2014年7月15日 優(yōu)先權(quán)日:2014年7月15日
【發(fā)明者】宋晨楓 申請(qǐng)人:北京小魚兒科技有限公司