在啟用網(wǎng)絡的會議中對發(fā)言者分類的制作方法

文檔序號：6618697閱讀：237來源：國知局

專利名稱：在啟用網(wǎng)絡的會議中對發(fā)言者分類的制作方法
第1/11頁
在啟用網(wǎng)絡的會議中對發(fā)言者分類
些旦冃眾
當前，許多人通過啟用網(wǎng)絡的會議來遠程通信。啟用網(wǎng)絡的會議允許人們不必旅行就可在群組中交互。但是這些遠程會議可能會混亂，因為它們提供的背景比親自參加的會議少。例如，一個在倫敦的會議參與者可能不知道誰正在發(fā)言——是該公司在波士頓的首席技術官還是紐約的廠商。而且當多個參與者同時發(fā)言時會更加混亂。
概述
描述了在啟用網(wǎng)絡的會議中對發(fā)言者分類的系統(tǒng)、方法、和/或技術("工具")。在一些場合下，這個發(fā)言者的分類列表指示哪個發(fā)言者是主導者。通過這個分類列表，一個參與者的通信設備可以提供關于該發(fā)言者的背景。在一些場合下，一個參與者的通信設備具有呈現(xiàn)發(fā)言者的實時視頻或者其他視覺標記，例如每個或最具主導地位的發(fā)言者的名字、圖片、頭銜、或位置的顯示器。這些和其他關于發(fā)言者的背景可以幫助參與者更好地理解啟用網(wǎng)絡的會議中
的討論。
提供本概述用來以簡化形式介紹將要在下面的詳細描述中進一步描述的概念的選集。本概述既不旨在表示所要求保護的主題的關鍵或實質特征，也不旨在用來幫助確定所要求保護的主題的范圍。
附圖簡述

圖1示出該工具的不同示例性可在其中操作的一個示例性操作環(huán)境。
圖2示出一個示例性中央通信拓撲。
圖3示出一個示例性分布式通信拓撲。
圖4示出音頻流的示例性流程圖，其模塊在圖l中描述。
圖5示出第一示例性語音/時間圖。圖6示出第二示例性語音/時間圖。
圖7是描述該工具可在啟用網(wǎng)絡的會議中分類和/或選擇下主導發(fā)言者的不同方式的一個示例進程。
圖8闡明在啟用網(wǎng)絡的會議中確定主導發(fā)言者的一個示例性算法。在整個公開和附圖中使用相同的數(shù)字以引用相同的組件和特征。
詳細描述概觀
下面的文獻描述能夠在啟用網(wǎng)絡的會議中分類發(fā)言者的工具。當一個以上參與者正在或者最近一直發(fā)言，該工具可以基于參與者的發(fā)言歷史和其他因素在參與者之間分類。該工具可以向參與者提供這個分類列表以便該參與者可以獲得正在或者最近一直發(fā)言的參與者的背景。在一些場合下，所述工具也可指示哪位參與者是主導發(fā)言者。
該工具可在其中啟用這些和其他技術的環(huán)境，在下面的一個題為示例性操作環(huán)境的章節(jié)被首先闡明。該章節(jié)之后是題為示例性主導發(fā)言者確定的描述示例性操作環(huán)境中的元素可能操作的示例性方式另一章節(jié)。隨后是題為分類進程的描述該工具在啟用網(wǎng)絡的會議中可分類發(fā)言參與者的方式的另一章節(jié)。題為示例性算法的最后一章闡明分類發(fā)言者模塊可選擇主導發(fā)言者的示例性算法。
示例性操作環(huán)境
在詳細描述該工具前，提供下面關于示例性操作環(huán)境的討論以便幫助讀者理解可采用該工具的各個發(fā)明性方面的一些方式。下面描述的環(huán)境僅構成一個例子并且不旨在將該工具的應用限于任何一個特定的操作環(huán)境。可使用其他環(huán) 境，而不背離所要求保護的主題的精神和范圍。
圖1在100大體示出了一個這樣的具有五個與會者的操作環(huán)境，參與者A 被示為用通信設備102通信，參與者B被示為用通信設備104通信，參與者C
被示為用通信設備106通信，參與者D被示為用連接到電話至網(wǎng)絡通信設備 110的電話108通信，參與者E被示為用通信設備112通信。在某些場合下，一個參與者可以包括多人——例如在兩個人正在電話108上經(jīng)由揚聲器電話或啟用電話網(wǎng)絡的會議呼叫發(fā)言。
該環(huán)境也具有通信網(wǎng)絡114，例如一個企業(yè)內(nèi)聯(lián)網(wǎng)或者一個全球互聯(lián)網(wǎng) (例如，因特網(wǎng))。參與者的設備可以能夠直接地(例如，啟用無線因特網(wǎng)的膝上型計算機、PDA或圖形輸入板PC，或者有線或無線連接到因特網(wǎng)的臺式計算設備或啟用VoIP的電話或蜂窩電話)或者間接地(例如，連接到電話至網(wǎng)絡設備的電話)與網(wǎng)絡通信。該會議可以通過分布式或者中央網(wǎng)絡拓撲(或這些的組合)來啟用。示例性的分布式和中央網(wǎng)絡拓撲作為下面描述的一個例子的一部分被示出。
通信網(wǎng)絡和/或任何這類設備，包括電話和電話至網(wǎng)絡設備，可以是具有一個或多個處理器116和計算機可讀媒體118的一個計算設備(每個設備用"O" 標記以指示這個可能性)。計算機可讀媒體包括媒體處理器120，它具有話音活動模塊122、優(yōu)先級模塊124、能訪問歷史模塊128的分類發(fā)言者模塊126 以及配置模塊130中的一個或多個。處理器能夠訪問和/或執(zhí)行計算機可讀媒體。媒體處理器能夠從參與者處接收一個或多個音頻流并且輸出參與者之一是主導發(fā)言者的指示。所述媒體處理器被示為一個內(nèi)聚的單元，盡管它的各部分可不同放置，例如一些模塊駐留在網(wǎng)絡114中而另一些模塊駐留在其他設備之一中。
每個參與者可以提供和接收音頻流和在某些場合下的視頻流。話音活動模塊能夠確定所提供的音頻是否可能是參與者的言語。因此，如果參與者A咳嗽 (這將音頻提供給會議)，那么話音活動模塊可以確定這個咳嗽不是言語。例如，它可以通過測量流中音頻的強度和持續(xù)時間來這樣做。
優(yōu)先級模塊能夠為不同的音頻流設置加權因子，例如將一個主持人的音頻流設為比某個其他參與者的音頻流重要。優(yōu)先級模塊也能夠基于將要在下面詳細討論的靜態(tài)或動態(tài)性質來向參與者指派優(yōu)先級。
分類發(fā)言者模塊能夠分類發(fā)言者和/或確定啟用網(wǎng)絡的會議中某一特定發(fā) 言者為主導發(fā)言者。例如，在某一特定時間點，所述分類發(fā)言者模塊可以基于含有言語的發(fā)言者音頻流的移動平均數(shù)來確定一個發(fā)言的參與者比其他兩個發(fā)言的參與者更具主導地位。為此，分類發(fā)言者模塊可以使用歷史模塊。歷史模塊能夠維護音頻流的歷史。在一些場合下，歷史模塊也可以基于移動平均值來向音頻分組指派更高的權重或重要性(分組是流的不連續(xù)的部分)，例如通過相比其他包，向更新近接收的包指派更高的權重。歷史模塊也可以動態(tài)地改變分類發(fā)言者模塊每隔多久確定哪個參與者是主導發(fā)言者。
配置模塊包括設置，例如分類發(fā)言者或確定主導發(fā)言者的間隔和使用言語歷史的時間周期。這些設置可以被默認設置或者在會議前或會議期間被接收。
示例主導發(fā)言者確定
下面的討論描述該工具確定啟用因特網(wǎng)的會議中哪個參與者是主導發(fā)言者的示例性方式。該討論使用圖1中的操作環(huán)境100的元素，盡管其他元素或其他環(huán)境也可以被使用。
媒體處理器120在因特網(wǎng)會議呼叫中從參與者處接收音頻流并且輸出這些發(fā)言者中哪個是主導發(fā)言者的指示。會議呼叫可以用中央、分布式、或組合中央分布式通信拓撲來啟用。示例的中央和分布式拓撲將在下面描述。
圖2示出了一個示例性中央通信拓撲200。在這里，媒體流從由A到F 的每個參與者傳遞到音頻視頻或僅音頻MCU (多點控制單元)VoIP (因特網(wǎng) 協(xié)議上的語音)服務器202。這個服務器將一個或多個媒體流傳遞到每個參與者。這個服務器可以選擇性地僅發(fā)送由服務器接收的一個或一些媒體流的組合的單個媒體流。在這個示例性中央通信拓撲中，媒體處理器120由服務器202 執(zhí)行。
圖3示出了一個示例性分布式通信拓撲300。在這里，媒體流從由A到D 的每個參與者通過因特網(wǎng)或者直接或者通過網(wǎng)絡地址翻譯(NAT)或媒體中繼或其組合傳遞到每個其他參與者。例如，參與者A到D可能正在線上聊天。例如，參與者B將他或她的媒體流(音頻和某些場合下的視頻)傳遞給每個參與者A， C， D。在這個分布式拓撲中，媒體處理器120由參與者的計算設備 (例如，參與者的膝上型計算機)執(zhí)行。
在這些拓撲或者組合拓撲中，媒體處理器120從會議參與者處接收音頻流
并且指示哪個是主導發(fā)言者。在中央通信拓撲中，MCU VoIP服務器202的媒體棧用傳播給會議參與者的會議信息文檔生成指示參與者的主導發(fā)言者狀態(tài) 的一個事件。在分布式通信拓撲中，每個參與者的通信設備(如果能夠)生成指示參與者的主導發(fā)言者狀態(tài)的一個事件。為了易于說明，下面的例子含有三個參與者，盡管可處理更多的參與者。
假設有分別使用圖1中的設備102、 104、 106的三個會議參與者A、 B、 C。媒體處理器接收(以上面的拓撲中的任一個)來自參與者A的音頻流"AA"、來自參與者B的音頻流"BA"以及來自參與者C的音頻流"CA"。這在圖4 中示出，圖4示出了圖1的模塊122、 124和126的流程圖。這些模塊是媒體處理器120 (以虛線示出)的一部分，盡管它們可能是分立的或者僅僅表示執(zhí) 行特定動作的媒體處理器的一部分。
話音活動模塊122以分組形式接收音頻流；每個分組以特定周期接收，此處為每20毫秒或者在每個分組被接收時。話音活動模塊確定來自A和B來的音頻流是話音而來自C的音頻流不是(例如，它是背景噪聲、咳嗽或噴嚏)。話音活動模塊輸出兩個活動發(fā)言者——被確定包含參與者A和B言語的兩個媒體流。這些在圖4中顯示為"Av" "Bv"，并且也顯示為圖5中從T=0s到 T=2s的時間內(nèi)介于示例性言語/時間圖500中T=0s和T=2s時的垂直線之間的來自"A"和"B"的水平線。注意到B從T=0s到T=ls以及T=ls與T=2s之間的大約200毫秒內(nèi)沒有說話。
基本上，A和B在最后兩秒鐘的至少一部分說話而C卻沒有。話音活動模塊可以傳遞所有的音頻流并且指示哪些表示言語或者僅僅傳遞它確定是言語的那些音頻流。此處我們假設后者(圖5中僅顯示言語流)。話音活動模塊也可以平衡音頻流上的強度和增益，例如當一個參與者相比另一個參與者離自己的麥克風較近。
優(yōu)先級模塊124接收活動發(fā)言者流(或其指示)并且可以改變它們的相對重要性。在一些場合下，默認或在接收關于一個參與者的信息時，一些參與者被認為比其他參與者重要。例如，如果A的加權因子為2，那么他的言語將是其他參與者言語重要性的兩倍。加權可以作為使用應用程序編程接口 (API) 配置的參數(shù)來被接收。此處所述參與者沒有加權因子。
優(yōu)先級模塊也可以用來設置參與者的優(yōu)先級以達到打破平局的目的。分類發(fā)言者模塊126接收此時沒有加權信息也沒有優(yōu)先級的活動發(fā)言者音頻流。分類發(fā)言者模塊基于其活動言語的歷史來確定哪個發(fā)言者是主導者。這個歷史可以是某一段周期，甚至小到一個分組，或大到許多秒。歷史被存儲
在歷史模塊128中。此處所用的言語周期是兩秒。因為僅有A在最近兩秒周期內(nèi)一直說話，分類發(fā)言者模塊確定A是T=ls的主導者(此時僅有一秒的歷史)。
也以一定時間間隔，此處為每一秒(從T-ls開始)確定哪個是主導者。選擇一秒作為時間間隔是因為人類言語通常持續(xù)一秒或更長。通常與會者會插
入持續(xù)大約一秒或更長的有意義的言語一一例如針對另一個參與者的問題回答"是"或"不是"。流^持續(xù)少于一秒的音頻在會議中通常沒有意義。大約兩秒或更多秒的歷史有助于使主導發(fā)言者不要被過于頻繁地切換。比兩秒鐘長得多的歷史(例如，30秒)將導致所述切換過于稀少以至于對參與者無益。如果主導發(fā)言者切換過于頻繁，例如大約半秒鐘或更少，則會議參與者可能難以跟蹤哪個參與者正在發(fā)言或者難以使該背景與聽到的言語相關。在一些場合下主導地位是哪個發(fā)言者在某一時期更加活躍的量度。在其他一些場合下主導地位基于這個或其他因素，例如發(fā)言者的重要性。
基于參與者A在最近兩秒內(nèi)發(fā)言多于參與者B，分類發(fā)言者模塊在T=2s 確定參與者A是主導發(fā)言者。然而，如果B有一個為2的加權因子，則A的發(fā)言需要至少是B的兩倍。該模塊表明A是主導發(fā)言者，在圖4中示為"AD"，圖5中在T-2s (兩秒)上方一條垂直線上顯示"A"。
注意到在3秒時，參與者B在前2秒將比參與者A發(fā)言更多并且將被指示為主導發(fā)言者，且在4秒時也被指示為主導發(fā)言者。在T:3s， B將在幾乎全部最后兩秒內(nèi)發(fā)言。在T二4s， B的發(fā)音將會比參與者C的發(fā)言多。在T-5s， C的發(fā)音將會比B的發(fā)言多得多。注意到C在T:5s將成為主導發(fā)言者，盡管 C當前不在發(fā)言。在一些場合下，主導發(fā)言者在確定主導發(fā)言者的時間間隔處不在發(fā)言。即使其他參與者在所述時間間隔正在發(fā)言這樣，也可以是這樣。在 T=6s，分類發(fā)言者模塊可指示沒有發(fā)言者是主導者，因為沒有人在最近一秒發(fā) 言。分類發(fā)言模塊也可不作出指示，因此允許C在T^6s仍然為主導發(fā)言者。
為了幫助讀者理解該工具可以確定一個發(fā)言者為主導者的許多方式中的
一些，以下給出示出不同發(fā)言者場景的其他例子。
例如，圖6闡明另一個示例性言語/時間圖600。此處假定沒有給出加權因子并且當對尚未被指示為主導發(fā)言者的參與者有平局時給出優(yōu)先級。
在T=0s到ls，話音活動模塊每20毫秒(從T=0到T=l間50次)確定參與者A正在發(fā)言。這用從參與者A直到T-ls的實線示出。此時，優(yōu)先級模塊沒有指示優(yōu)先級。分類發(fā)言者模塊在它的歷史模塊中保留這個歷史，確定僅有 A發(fā)言(用T二ls上方垂直線上方的"A"示出)，并且指示A是主導發(fā)言者。
從T4s到T-2s，話音活動模塊確定所有三個參與者都在發(fā)言。這用介于丁="和丁=23之間的來自A、 B、 C的三根實線示出。分類發(fā)言者模塊確定A 仍是主導發(fā)言者(如果先前指示的接收者仍是前面的主導發(fā)言者就不需要由分類發(fā)言者模塊積極地指示)。
從T二2s到T-3s，話音活動模塊確定所有三個參與者都在發(fā)言。這用介于 T=2s和T=3s之間的三根來自A、 B、 C的三根實線示出。分類發(fā)言者模塊確定所有三個參與者在同樣的時間量內(nèi)例如，全部最近兩秒都積極地發(fā)言。在這個平局下，分類發(fā)言者模塊可以任意選擇一個主導發(fā)言者，基于哪個發(fā)言者首先加入會議來選擇，或基于哪個發(fā)言者在平局存在前發(fā)言來選擇。此處分類發(fā) 言者模塊基于哪個發(fā)言者在平局存在前發(fā)言來選擇，因此選擇A作為主導發(fā)言者。分類發(fā)言者模塊向優(yōu)先級模塊指示A已經(jīng)被選擇。因此，分類發(fā)言者模塊可首先基于某人是否為前一主導發(fā)言者在平局發(fā)言者之間選擇。如果發(fā)言者中沒有前一主導發(fā)言者并且之前都不曾是主導發(fā)言者，那么分類發(fā)言者模塊可以選擇第一個加入會議的人。之后，它可以清除主導發(fā)言者標志并再次經(jīng)歷上述步驟。
從T=3s到T=4s，話音活動模塊確定參與者B和C在最近一秒鐘內(nèi)一直發(fā)言。基于此以及B和C在T:2s和T-3s發(fā)言的歷史，分類發(fā)言者模塊確定這是個平局并且基于B在C之前加入會議而選擇B，并向優(yōu)先級模塊指示這個對B的選擇。分類發(fā)言者模塊指示B是主導發(fā)言者。
從T=4s到T=5s，話音活動模塊確定參與者A和C在最近一秒內(nèi)一直發(fā) 言?；诖艘约癈在T:3s到T:4s發(fā)言而A沒有發(fā)言的歷史，分類發(fā)言者模塊確定并且指示C是主導發(fā)言者。
從T=5s到T=6s，話音活動模塊確定參與者A和C在最近一秒內(nèi)一直發(fā) 言?；诖艘约癆與C在T:4s到T-5s發(fā)言的歷史，分類發(fā)言者模塊確定這是一個平局。分類發(fā)言者模塊確定C是主導發(fā)言者因為C在T=4s時是主導者。
在每個這些情況中，媒體處理器可以使用API用事件輸出哪個參與者是主導發(fā)言者的指示。這個指示可以被參與者使用的設備接收?；谶@個指示，設備可以提供有關主導發(fā)言者的背景，例如該參與者提供的實況視頻，設備可以對其突出顯示、擴展或示為主導者，或者可對主導發(fā)言者的圖片、頭銜以及位置突出顯示、擴展或示為主導者。
分類進程
下面的討論描述在啟用網(wǎng)絡的會議中工具分類發(fā)言參與者的不同方式。圖7是一個如此的示例性進程700。它被示出為一系列表示由例如媒體處理器120和分類發(fā)言者模塊126的圖1的操作環(huán)境100的元素執(zhí)行的各個操作或動作的框。此處公開的這個和其他進程可以用任何合適的硬件、軟件、固件或其組合來實現(xiàn)；在軟件和固件的情況下，這些進程表示了實現(xiàn)為存儲于計算機可讀媒體中并且可由一個或多個處理器執(zhí)行的計算機可執(zhí)行指令的一組操作。
框702接收來自啟用網(wǎng)絡的會議中的三個或更多個參與者的音頻流或者有關這些音頻流的信息。這些音頻流可以包括實時接收的分組，例如一個具有十個分組的兩秒鐘的音頻流，每個分組表示從一個會議參與者處接收的20毫秒的音頻。關于音頻流的信息可以同樣或者代替被接收，例如用或包括CSRC (貢獻源)或帶外信令機制。這些音頻流或信息可由集中式通信拓撲中的中央服務器或分布式通信拓撲中的參與者通信設備執(zhí)行的媒體處理器120接收。這些場景的例子在上面被描述。
框704或者通過分析音頻流本身或通過分析關于音頻流的信息來確定哪些音頻流包含言語。在上面的一個例子中，話音活動?？?22確定哪些音頻流或其中的部分是言語以及哪些不是。話音活動?？蚩梢源_定參與者的音頻流的
某一部分不是言語而其他部分是。這可以有效地排除將一個參與者的音頻流的一些分組確定為言語，因此減少了那個參與者將是最高類(即，主導)發(fā)言者
的可能性。
框706可以將加權因子構建到確定包含言語的音頻流或有關它們的信息中。這個加權因子可以表示由一個或多個參與者或默認設置作出的選擇，例如使得對作為會議主持人或第一加入者的參與者賦予比另一參與者更大的權重。
框706可以在框702和/或框704之前、之后或同時活動。在上面描述的例子中，優(yōu)先級模塊124含有或者接收加權因子并且應用這些到確定包含言語的音頻流。
框708可以向音頻流或者與那些音頻流相關聯(lián)的參與者添加優(yōu)先級，優(yōu)先級可用于在否則將平局的參與者之間針對主導發(fā)言者或在分類列表中較后位置作出決定。正如上面例子所闡明的，優(yōu)先級模塊124可以基于不同的因素打破參與者之間的平局。
框710保留音頻流的歷史。這個歷史可以如上面所闡明地被保留在歷史模塊128中，并且可以基于接收音頻流中的一個或多個言語分組(例如，兩秒鐘內(nèi)接收100個分組)或者有關音頻流的信息。此外，歷史模塊可以包含足夠的關于音頻流(例如，音頻流被確定為包含某個數(shù)量的言語)和與他們相關聯(lián)的參與者的歷史，以使分類發(fā)言者模塊126能夠動態(tài)改變?nèi)绾畏诸惡痛_定主導地位。
框712基于己經(jīng)被確定包含言語的音頻流或有關音頻流的信息的歷史來分類音頻流?？?12也可以基于剛接收到的信息或針對每個音頻流的單個分組來這樣做?？?12也可以確定哪個音頻流和/或與它相關聯(lián)的參與者是主導者。框712可以按特定時間間隔并基于來自配置模塊130的歷史的特定周期分類，盡管這些時間間隔和周期可能隨時間改變。
例如，分類發(fā)言者模塊126可以基于在先前兩秒(即，以兩秒為周期)的發(fā)言活動按一秒的時間間隔分類發(fā)言的參與者，正如上面在描述確定主導發(fā)言者的例子中所述。這些時間間隔和周期可能接收自配置模塊130并且可以由默認或以其他方式設置。分類發(fā)言者模塊可以接收其他時間間隔和周期，包括那些基于較長的、正在進行的言語歷史。例如，如果一個參與者不間斷發(fā)言超過指定或預先確定的周期(例如，八分鐘)，那么配置模塊可以將時間間隔增加到三秒鐘?；蛘呙襟w處理器可基于它的性能或媒體處理器或分類發(fā)言者模塊執(zhí)
行于上的計算機設備的性能，來確定減少或增加時間間隔并因此改變配置模塊中的設置。例如，媒體處理器可以將具有有限計算資源的蜂窩電話上的時間間隔增至四秒鐘并將周期增至四秒、六秒或八秒。
在一個場合中，框712執(zhí)行一個算法來分類有效發(fā)言參與者以確定主導地位。這個在稍后描述并在圖8示出。
框714將發(fā)言參與者的分類列表提供給一個或多個啟用網(wǎng)絡的會議的參與者。這個分類列表可隨事件并使用API提供。在分布式通信拓撲中，可本地使用事件來指示背景。在中央通信拓撲中，服務器可以將事件的通知分發(fā)給遠程參與者而不必依賴于CSRC。例如，MCU VoIP服務器202可以將分類列表提供給電話108 (電話可能不能接收CSRC)。然后電話可以向參與者D指示在這個分類列表中有什么(例如，哪個參與者是主導者)。
響應于這個指示，參與者的通信設備可能按上述不同的方式顯示發(fā)言者狀態(tài)(例如，主導者、第二人、第三人)。提供給參與者的背景可以幫助參與者更好地理解啟用網(wǎng)絡的會議中的討論。
示例性算法
圖8是用于確定啟用網(wǎng)絡的會議中的主導發(fā)言者的一個示例性算法800。它被示出為表示由例如話音模塊122、分類發(fā)言者模塊126、和歷史模塊128 的圖1的操作環(huán)境100中的元素執(zhí)行的單個操作或動作的一系列框。這個進程可以與此處描述的其他進程一起或者分開進行。
按一個特定的時間間隔，框802確定會議中哪些參與者的音頻流包含言語?？?04基于隨時間每一音頻流包含言語的量為會議中每個參與者更新發(fā)言活動的移動平均數(shù)。
框806確定哪個音頻流有最高的言語移動平均數(shù)。移動平均數(shù)可以基于一個特定周期內(nèi)參與者的言語歷史以及賦予那個言語的權重。例如，參與者的移動平均數(shù)可以用(例如，包含言語的分組的)運行的總和(mning sum)、一段時期內(nèi)的平均數(shù)或其他可用來計算言語量的值的其他統(tǒng)計加權來計算。如果單個流有最高移動平均數(shù)，則框808將這個流標記為主導發(fā)言者。如果兩個或多個流具有相同的言語最高移動平均數(shù)，則框810維持當前主導發(fā)言者。
如果兩個或多個發(fā)言者平局并且沒有一個是當前主導發(fā)言者，則框812 將最不新近標記的流和/或更加新近包含言語的流標記為主導發(fā)言者。在第一種
情況下，如果兩個或多個流都不曾被標記為主導發(fā)言者，則框812將先加入會議的流標記為主導者。在第二種情況下，如果言語流中的兩個具有相同的最高移動平均數(shù)并且其中僅有一個言語流在該時間間隔當前包含言語，則框812將當前包含言語的言語流標記為主導發(fā)言者。
在任何這些情況下，算法保留哪個流被指示為主導發(fā)言者以及可任選地它何時被選擇的歷史。這允許基于上面的算法處理將來的流間平局。
結論
上述系統(tǒng)、方法、和/或技術允許在啟用網(wǎng)絡的會議中分類發(fā)言者，包括哪個發(fā)言者是主導者。用這個分類列表，參與者的通信設備可以提供關于發(fā)言者的背景。這個背景可以幫助參與者更好地理解啟用網(wǎng)絡的會議中的討論。盡管這些系統(tǒng)、方法、和技術用結構化特征和/或方法活動專用的語言被描述，但可以理解，所附權利要求書中定義的這些并不必限于所描述的具體特征或動作。相反，具體特征和動作作為實現(xiàn)所要求保護的系統(tǒng)、方法、和技術的示例
性形式被公開。
權利要求
1.一種至少部分由計算設備執(zhí)行的方法，包括接收被確定包含來自啟用網(wǎng)絡的會議中的參與者的言語的音頻流或者關于被確定包含言語的所述音頻流的信息；以及基于已被確定包含言語的所述音頻流或關于所述音頻流的信息的歷史來對所述音頻流分類。
2. 如權利要求1所述的方法，其特征在于，所述接收的動作接收被確定包含言語的音頻流，且所述分類的動作基于已被確定包含言語的音頻流的歷史。
3. 如權利要求1所述的方法，其特征在于，所述接收的動作接收關于被確定包含言語的所述音頻流的信息的歷史，且所述分類的動作基于關于已被確定包含言語的所述音頻流的信息的歷史。
4. 如權利要求3所述的方法，其特征在于，所述有關被確定包含言語的所述音頻流的信息包括CSRC (貢獻源)。
5. 如權利要求1所述的方法，還包括接收尚未被確定包含言語的音頻流以及確定所述音頻流包含言語。
6. 如權利要求1所述的方法，還包括基于所述分類的動作確定所述參與者中的一個是主導發(fā)言者。
7. 如權利要求6所述的方法，還包括指示哪個參與者是主導發(fā)言者。
8. 如權利要求7所述的方法，其特征在于，所述指示的動作包括通知有效參與者使用的通信設備以使所述通信設備能夠提供哪個參與者是主導發(fā)言者的視覺標記。
9. 如權利要求8所述的方法，其特征在于，所述接收的動作包括接收含有被確定包含言語的音頻流的一部分的分組，所述歷史包括大約兩秒或更多秒的所接收的分組，且所述確定的動作每半秒至一秒半被重復執(zhí)行。
10. 如權利要求l所述的方法，其特征在于，所述確定的動作還基于從中接收被確定包含言語的音頻流的參與者的重要性。
11. 一個或多個其中含有計算機可讀指令的計算可讀媒體，所述指令當由計算機設備執(zhí)行時，使所述計算設備執(zhí)行以下動作，包括確定含有三個或更多個參與者的啟用網(wǎng)絡的會議中的一個或多個音頻流中哪些包含言語以提供言語流；更新所述言語流的移動平均數(shù)，所述移動平均數(shù)至少部分基于一段時期內(nèi) 每一言語流中的言語量；確定哪個言語流具有最高移動平均數(shù)；如果僅有一個言語流具有最高移動平均數(shù)，則將那個言語流標記為主導發(fā)言者；或如果言語流中有兩個具有相同的最高移動平均數(shù)并且所述言語流中僅有一個當前包含言語，則將當前包含言語的所述言語流標記為主導發(fā)言者；以及向所述啟用網(wǎng)絡的會議中的參與者指示所標記的言語流是有效的主導發(fā) 言者，以使與所述主導發(fā)言者相關聯(lián)的背景能夠被提供給所述參與者。
12. 如權利要求11所述的媒體，其特征在于，所述指示的動作大約每秒鐘執(zhí)行一次。
13. 如權利要求11所述的媒體，還包括，如果所述言語流中的兩個有相同的最高移動平均數(shù)并且所述言語流中的一個以上最新近包含言語，則將最新近包含言語的所述一個以上的言語流中最不新近標記的言語流標記為主導發(fā)百者。
14. 一種至少部分由計算設備執(zhí)行的方法，包括在有三個或更多個參與者的啟用因特網(wǎng)的會議中從一個或多個參與者接收音頻流；確定哪些音頻流包含言語以提供一個或多個言語流；維護這些言語流的歷史；按一個時間間隔并基于這些言語流的歷史的一個周期，確定所述參與者中的一個是主導發(fā)言者；以及向所述三個或更多個參與者中的至少一個指示哪個參與者被確定為主導發(fā)言者。
15. 如權利要求14所述的方法，還包括為所述言語流中的至少一個分配加權因子，且其中所述確定的動作還至少部分基于這個加權因子。
16. 如權利要求14所述的方法，還包括將優(yōu)先級添加到至少一個言語流，當兩個或多個音頻流的歷史在其他方面相當時，所述優(yōu)先級用來確定一個參與者是主導發(fā)言者，并且其中所述確定的動作基于這個優(yōu)先級。
17. 如權利要求14所述的方法，還包括基于這些言語流中至少一個的歷史來改變時間間隔和用這個改變的時間間隔再次執(zhí)行如權利要求14所述的方法。
18. 如權利要求14所述的方法，還包括基于所述言語流中至少一個的先前歷史改變所述周期，所述先前歷史在所述周期的開始的歷史之前，以及再次執(zhí)行如權利要求14所述的方法，其中所述確定的動作基于這個改變的周期。
19. 如權利要求14所述的方法，還包括基于被確定為主導發(fā)言者的所述參與者的言語流含有大于所述周期的言語而改變所述時間間隔和周期，以及使用這個改變的時間間隔并基于這個改變的周期再次執(zhí)行如權利要求14所述的方法。
20.如權利要求14所述的方法，還包括基于所述計算設備的性能改變所述時間間隔和周期并且使用這個改變的時間間隔并基于這個改變的周期再次執(zhí)行如權利要求14所述的方法。
全文摘要
描述了在啟用網(wǎng)絡的會議中對發(fā)言者分類的系統(tǒng)、方法、和/或技術(“工具”)。在一些場合下，這個發(fā)言者的分類列表指示哪個發(fā)言者是主導者。通過這個分類列表，一個參與者的通信設備可以提供關于發(fā)言者的背景。在一些場合下，一個參與者的通信設備具有呈現(xiàn)發(fā)言者的實時視頻或其他視覺標記，例如每個或最具主導地位的發(fā)言者的名字、圖片、頭銜、或位置。這些和其他關于發(fā)言者的背景可以幫助參與者更好地理解啟用網(wǎng)絡的會議中的討論。
文檔編號G06F15/16GK101371244SQ200780003044
公開日2009年2月18日申請日期2007年1月3日優(yōu)先權日2006年1月13日
發(fā)明者A·W·克蘭茨, D·利維恩, D·庫克利卡, G-W·沈, M·R·范巴斯克爾克, T·M·摩爾, W·鐘, Z·Z·袁申請人:微軟公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：A.W.克蘭茨;D.庫克利卡;W.鐘;G-W.沈;Z.Z.袁;T.M.摩爾;D.利維恩;M.R.范巴斯克爾克
技術所有人：微軟公司
我是此專利的發(fā)明人

上一篇：基于計算機網(wǎng)絡的3d繪制系統(tǒng)的制作方法
上一篇：向網(wǎng)絡報告信息的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

在啟用網(wǎng)絡的會議中對發(fā)言者分類的制作方法