两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于識別通過雙向語言介質(zhì)進(jìn)行交談的雙方的方法和設(shè)備的制作方法

文檔序號:7660954閱讀:225來源:國知局
專利名稱:用于識別通過雙向語言介質(zhì)進(jìn)行交談的雙方的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及語音通信,具體來說,涉及識別雙向語音介質(zhì)的用戶。
背景技術(shù)
因特網(wǎng)協(xié)議語音(VoIP)是通過任何基于IP的網(wǎng)絡(luò)(如公共因 特網(wǎng))進(jìn)行語音通信的路由的技術(shù)。在VoIP中,語音數(shù)據(jù)通過通用 分組交換網(wǎng)絡(luò)流動,而不是通過傳統(tǒng)的電路交換的公用交換電話網(wǎng) (PSTN)。
盡管遷移到VoIP系統(tǒng)已經(jīng)穩(wěn)定地增長,但是,與該技術(shù)關(guān)聯(lián) 的安全風(fēng)險仍然存在。例如,保持VoIP通信的保密性是非常重要的, 并通常通過使用呼叫身份驗證和加密機(jī)制來取得。保持VoIP用戶的 匿名性也是同樣重要的,這包含用戶的身份以及它們的呼叫者/被呼叫 者之間的關(guān)系(語音流對)。匿名性常常使用隱藏了交談各方的IP地 址的覆蓋網(wǎng)絡(luò)來保持。然而,在一些情況下(例如,在安全應(yīng)用的情 況下),可能需要識別至少正在交談的VoIP用戶對,或任何雙向語 音通信介質(zhì)的一般用戶。
如此,需要用于識別通過雙向語言介質(zhì)進(jìn)行交談的雙方的方法和設(shè)備。

發(fā)明內(nèi)容
用于標(biāo)識雙向語言介質(zhì)的正在交談的用戶對的方法和設(shè)備的一 個實施例包括接收多個二進(jìn)制語音活動流,其中,所述多個語音活動 流包括與第一用戶關(guān)聯(lián)的第一語音活動流,以及,根據(jù)第一語音活動 流和第二語音活動流之間的互補(bǔ)相似性,將第一語音活動流與和第二 用戶關(guān)聯(lián)的第二語音活動流配對。


通過參考附圖中所顯示的實施例,可以獲得實現(xiàn)本發(fā)明的上文列 舉的特征、優(yōu)點和目的并可以對它們進(jìn)行詳細(xì)理解的方式,上文簡要 概括的本發(fā)明的比較具體的說明。然而,值得注意的是,所附的附圖 只顯示了本發(fā)明的典型的實施例,因此,不視為對其范圍進(jìn)行限制, 對于本發(fā)明,可以允許其他同樣有效的實施例。
圖1是說明了根據(jù)本發(fā)明的因特網(wǎng)協(xié)議語音(VoIP)框架的一 個實施例的示意圖2是根據(jù)本發(fā)明的用于識別VoIP網(wǎng)絡(luò)中的VoIP客戶的 交談雙方的方法的一個實施例的流程圖3是示范性線圖,對于包括選定語音活動流的每一對語音活 動流,繪制了互補(bǔ)相似性與時間的對應(yīng);以及
圖4是使用通用計算設(shè)備實現(xiàn)的配對方法的高級別方框圖。
為便于理解,在可能的地方,使用了相同的附圖標(biāo)記,表示附圖 中所共有的相同元素。
具體實施例方式
在一個實施例中,本發(fā)明是用于識別雙向語音通信介質(zhì)的正在交 談的用戶對的方法和設(shè)備。雖然是在通過IP的語音(Voice over IP ) 網(wǎng)絡(luò)的上下文內(nèi)描述本發(fā)明的,但是,應(yīng)該理解,本發(fā)明的概念也適 用于其中可以進(jìn)行雙向通信的任何種類的語音介質(zhì)(例如,VoIP、陸 上線路等等)。本發(fā)明的實施例利用互補(bǔ)相似性度量的能力,以便檢
測正在交談的說話者之間的協(xié)調(diào)的和互補(bǔ)語音模式。具體來說,本發(fā) 明的實施例依賴于交談各方傾向于遵循互補(bǔ)語音模式(即,當(dāng)一方說 話,對方傾聽)的關(guān)鍵直覺。這種輪流說話的做法代表了通信的基本 規(guī)則,雖然并不預(yù)期所有會話都將嚴(yán)格地遵循此規(guī)則。本發(fā)明不一定 暴露交談各方的身份,但是,可以實現(xiàn)為匹配代表參與共同的會話 (即,彼此交談的)的各方的語音流。
圖1是說明了根據(jù)本發(fā)明的因特網(wǎng)協(xié)議語音(VoIP)框架的一 個實施例的示意圖。VoIP框架100包括通過相應(yīng)的因特網(wǎng)服務(wù)提供 商(ISP)108「108n(下面統(tǒng)稱為"ISP108")或通過傳統(tǒng)的PSTN上 的VoIP網(wǎng)關(guān)106i-106n (下面統(tǒng)稱為"網(wǎng)關(guān)106)連接到IP網(wǎng)絡(luò) 102的多個VoIP客戶104廣104n(下面統(tǒng)稱為"客戶104")。此外, VoIP框架100包括多個IP路由器110,-llOn (下面統(tǒng)稱為"路由 器110")和隱藏了交談各方的IP地址的覆蓋節(jié)點112「112n (下 面統(tǒng)稱為"覆蓋節(jié)點112")的匿名網(wǎng)絡(luò)。
在操作中,在客戶站點104以數(shù)字形式連續(xù)地捕獲語音信號 (例如,通過通信設(shè)備中集成的麥克風(fēng))。然后,對語音信號進(jìn)行分 段過濾,以便檢測與給定語音信號關(guān)聯(lián)的客戶是否正在說話。例如, 當(dāng)語音活動落在預(yù)先定義的閾值以下時,可以丟棄語音信號的當(dāng)前 段。在其中雙向語音通信介質(zhì)不是VoIP網(wǎng)絡(luò)的實施例中,使用語音 活動檢測(VAD)單元來執(zhí)行語音活動檢測/過濾。然后,語音信號的 經(jīng)過過濾的段經(jīng)過語音編解碼器單元,該單元將段壓縮、加密和分組 為實時傳輸協(xié)議(RTP)數(shù)據(jù)包。然后,將每一個RTP數(shù)據(jù)包寫入 到網(wǎng)絡(luò)套接字中。
根據(jù)本發(fā)明,VoIP框架100中的路由器110的子集(即,圖 1中的帶陰影的路由器1105和110n)是VoIP嗅探器,它們識別 和分離不同的語音流,并根據(jù)RTP數(shù)據(jù)包的一個或多個標(biāo)頭,將語 音流轉(zhuǎn)換為表示活動或沉默的時間段的二進(jìn)制語音活動流。具體來 說,路由器/嗅探器110將VoIP數(shù)據(jù)包與不同的數(shù)據(jù)業(yè)務(wù)分離(例 如,使用PayloadType標(biāo)頭字段),跟蹤不同的語音流(例如,使
用不同的同步源標(biāo)頭字段),產(chǎn)生二進(jìn)制流,該二進(jìn)制流當(dāng)關(guān)聯(lián)的客
戶說話時,呈現(xiàn)1,當(dāng)關(guān)聯(lián)的客戶沉默時,呈現(xiàn)o(例如,通過識別
給定同步源值的連續(xù)的RTP時間戳值)。即,路由器/嗅探器110測 量屬于給定語音流的數(shù)據(jù)包的相互的偏離時間(兩個連續(xù)的時間戳值 的差值),如果差值等于分段時間間隔(例如,20毫秒),則產(chǎn)生1, 如果差值大于分段時間間隔,則產(chǎn)生0。如此,每一個二進(jìn)制流都是 從由在客戶的通信設(shè)備內(nèi)執(zhí)行的VAD產(chǎn)生的VoIP數(shù)據(jù)包的非周 期的相互的偏離時間產(chǎn)生的。
一旦產(chǎn)生了二進(jìn)制流,嗅探器/路由器110就將二進(jìn)制流轉(zhuǎn)發(fā)到 中央處理單元(CPU) 114。正如下面比較具體地描述的,中央處理單 元對這些二進(jìn)制流進(jìn)行處理,以便識別雙向的正在交談的VoIP客戶 104對(即,關(guān)系Si - Sj)。在任何時間點由CPU 114接收到的 二進(jìn)制流的集合這里簡稱為S,其中,S的基數(shù)隨著時間而變化(即, 叫做"來去,,)。在特定時間間隔內(nèi)接收到的二進(jìn)制流的子集{Sl, S2,.., Sn}被稱為n。
圖2是根據(jù)本發(fā)明的用于識別VoIP網(wǎng)絡(luò)中的VoIP客戶的 交談雙方的方法200的一個實施例的流程圖。方法200可以(例如) 通過從VoIP網(wǎng)絡(luò)中的一個或多個路由器/嗅探器接收二進(jìn)制語音活 動流的中央處理單元(例如,圖1的CPU 114)來實現(xiàn)。
方法200在步驟202中初始化,并進(jìn)入步驟204,在該步驟中, 方法200接收一個或多個二進(jìn)制語音活動流(例如,從路由器/嗅探 器)。然后,方法200進(jìn)入步驟206,并選擇還沒有與第二語音活 動^充配對的語音活動: 充。
在步驟208中,方法200繪制選定語音活動流的互補(bǔ)相似性在 某個時間內(nèi)針對所有其他接收到的語音活動流的進(jìn)行情況。兩個語音 活動流Si和Sj之間的互補(bǔ)相似性被定義為i兌話者i和j之間的 協(xié)調(diào)度,以便時間序列Sj的二進(jìn)制互補(bǔ)可以解釋為說話者j沉默 (即,在聽著)。例如,圖3是示范性線圖300,對于包括選定語 音活動流的每一對語音活動流,繪制了互補(bǔ)相似性(Y軸)與時間(X
軸)的對應(yīng)。如圖3所顯示的,在會話的初始階段(例如,在時間t 之前),語音配對相對來說是模棱兩可的,但是,隨著會話的進(jìn)行(例 如,在時間t之后),不確定性降低。如此,與選定語音活動流最互 補(bǔ)類似的語音活動流是在時間t之后表現(xiàn)出最高互補(bǔ)相似性的那一 個。
在一個實施例中,根據(jù)下列度量中的至少一個來計算選定語音活 動流和第二語音活動流之間的互補(bǔ)相似性,即非對稱度量、對稱度
量或交互信息度量。
通過計算Si和Sj的二進(jìn)制互集之間的交集,來確定語音流Si 和Sj之間的互補(bǔ)相似性的非對稱度量,其中Sj的二進(jìn)制互集通過語 音流Si和Sj的并集歸一化。如此,可以根據(jù)下列公式,不對稱地測 量在T個時間單位內(nèi)語音流Si和Sj之間的互補(bǔ)相似性, Cim誦asym (i, j, T):
OVw — ^w>vw(/, y', 7"):
(公式i)
其中,Sk(t)S{0,l}是說話者k在時間t的二進(jìn)制值,而符號 A, V和"分別表示二進(jìn)制AND、 OR和NOT運算符。如此, 一般而言,Cim-asym(i,j,T)^Cim國asym(j,i, T)。隨著T的增大, 此度量也易于逐漸地更新。例如,如果Va(U)和Vv(i,J)分別表示公 式1的分子和分母的運行值,那么,由V"U)與Vv(i,J)的比率給出 任何消逝時間T的Ch^asymG,j,"。如此,給出n個二進(jìn)制流,逐漸
地計算互補(bǔ)相似性需要將兩倍的n(n-l)值保存在存儲器中。
可以才艮據(jù)下列7>式,計算在T個時間單位內(nèi)語音流Si和Sj 之間的互補(bǔ)相似性Cim-sym (i, j, T)的對稱度量
<formula>formula see original document page 11</formula> (公式2)
其中,給出n個二進(jìn)制流,逐漸地計算Cim-sym (i, j, T)由于
公式2的對稱特性只需要將②值保存在存儲器中。
語音流Si和Sj之間的互補(bǔ)相似性的交互信息度量是通過觀察 Sj可以獲得有關(guān)Si的多少信息的度量。在此情況下,具有x,y EO,l 的Pi,j(x,y), pi(x)和pj(y)表示在T個時間單位之后說話者i和 j的聯(lián)合的和邊緣性運行平均值。例如,
如此,可以才艮據(jù)下列公式來計算語音流Sj和Sj之間的交互 信息MI:
M" 2 p,如)log2 ~"力
(公式3)
給定n個二進(jìn)制流,逐漸地計算交互信息由于公式3的對
稱特性而需要將三倍的0值保存在存儲器中。
請回頭參看圖2, 一旦繪制了互補(bǔ)相似性的圖形,方法200進(jìn) 入步驟210,并在某個時間T之后,對于接收到的語音活動流,計 算成對相似性矩陣M,其中,矩陣M中的每一項都提供了兩個流 之間的互補(bǔ)相似性
M(i,j) = Cim(i,j,T) (公式4)
其中,Cim是互補(bǔ)相似性度量,如上文所討論的互補(bǔ)相似性度 量之一 (例如,Cim國asym, Cim-sym或MI)。
在一個實施例中,如果下列公式成立,那么,說話者i和j可 以配對
(公式5)

(公式6)
其中,I是通過其應(yīng)用運算符max的索引。如此,公式5指 示收集矩陣M的行i的所有元素(即,包括行i的所有列),然 后,選擇最大值,并存儲在M(i,j)中。此方法可以簡稱為硬群集化, 因為在每一時間實例,它提供配對的硬評估,無需提供有關(guān)匹配的置 信度或模糊性的任何提示。
然而,在進(jìn)一步的實施例中, 一旦計算了成對相似性矩陣,方法 200進(jìn)入步驟212,從所述圖中去除最互補(bǔ)類似于選定的語音活動流 的k個流和最不互補(bǔ)類似于選定語音活動流的k個流。在一個實施 例中,k是2和5之間的整數(shù)。
在步驟214中,方法200對于其余的語音活動流,計算平均質(zhì) 心cMass。質(zhì)心只不過是加權(quán)平均值。如此,例如,如果所有權(quán)重都 等于1,則質(zhì)心平凡化到樣本平均值。
一旦計算出了平均質(zhì)心,方法200進(jìn)入步驟216,并識別最互 補(bǔ)類似于選定語音活動流的兩個語音活動流,分別表示為maxi和 max2。在步驟218中,方法200判斷最互補(bǔ)類似的語音活動流 maxl與語音活動流的其余語音活動流是否足夠遠(yuǎn)。在一個實施例中, 如果下列公式成立,則最互補(bǔ)類似的語音活動流與其余語音活動流足 夠遠(yuǎn)
maxi - max2 > f (max2 - cMass) (公式7 )
其中,f是捕獲了有關(guān)選定語音活動流與最互補(bǔ)類似語音活動流 的匹配的質(zhì)量的保證(置信度)的常數(shù)。
如果方法200在步驟218中得出的結(jié)論是,最互補(bǔ)類似的語音 活動流maxi與語音活動流的其余語音活動流足夠遠(yuǎn),那么,方法 200進(jìn)入步驟220,并將選定語音活動流與最互補(bǔ)類似的語音活動流 maXl匹配。在一個實施例中,將選定語音活動流與最互補(bǔ)類似的語 音活動流maXl的配對包括去除成對相似性矩陣中的對應(yīng)于選定語 音活動流和最互補(bǔ)類似的語音活動流maXl的行和列。
或者,如果方法200在步驟218中得出的結(jié)論是,最互補(bǔ)類似 的語音活動流maxl不與語音活動流的其余語音活動流足夠遠(yuǎn),則方 法200進(jìn)入步驟222,并將選定語音活動流表示為單獨個體 (singleton),意味著,方法200不能就選定語音活動流作出判斷。
一旦方法200將選定語音活動流與第二語音活動流配對(即, 根據(jù)步驟220 )或者將選定語音活動流標(biāo)記為單獨個體(即,根據(jù)步 驟222 ),則方法200進(jìn)入步驟224,并判斷任何語音活動流是否 仍待匹配。
如果方法200在步驟224中得出的結(jié)論是,至少有一個語音活 動流仍待匹配,則方法200返回到步驟206,并選擇下一個語音活 動流,以便根據(jù)上文所描述的方法進(jìn)行處理?;蛘?,如果方法200在 步驟226中判斷沒有語音活動流仍待匹配,則方法200在步驟226 中結(jié)束。
如此,方法200基本上充當(dāng)檢查與選定語音活動流的最近的匹 配與大部分其他語音活動流是否足夠遠(yuǎn)的外部的檢測方案。如此,當(dāng) 將語音活動流(例如,流A)與所有其他的語音活動流進(jìn)行比較時, 最有可能的匹配候選應(yīng)該不僅持有最大的互補(bǔ)相似度,而且應(yīng)該與其 余語音活動流的互補(bǔ)相似性足夠遠(yuǎn)。從而,對于代表第一 VoIP用戶 的語音活動的給定語音活動流,方法200識別最有可能代表第一 VoIP用戶正在與其進(jìn)行交談的第二 VoIP用戶的語音活動的語音 活動流。如此,方法200有效地識別了正在交談的VoIP用戶對。
可以被視為漸進(jìn)的群集化技術(shù)的方法200與前面所描述的硬群 集化方法相比具有一些優(yōu)點。例如,方法200通過從成對相似性矩 陣中漸進(jìn)地去除已經(jīng)配對的語音活動流,避免了連續(xù)的成對距離計 算。此外,方法200通過降低配對協(xié)議的攻擊性,產(chǎn)生較少的不正 確的配對,在實踐中,與硬群集化方法相比,對收斂速率具有比較小 的影響,因為公式7中的常數(shù)f基本上調(diào)整收斂速率。即,f的較 小的值使得配對協(xié)議在其配對判斷中更加有彈性(因此,收斂速率更 快,但是可能會帶來更多的不正確地配對的流),而f的較大的值將 配對協(xié)議限制為進(jìn)行更加保守的判斷(導(dǎo)致錯誤變得較少,但是,收 斂時間更長)。
圖4是使用通用計算設(shè)備400實現(xiàn)的配對方法的高級別方框 圖。在一個實施例中,通用計算設(shè)備400包括處理器402、存儲器 404、配對模塊405和各種輸入/輸出(I/O)設(shè)備406,諸如顯示器、 鍵盤、鼠標(biāo)、調(diào)制解調(diào)器等等。在一個實施例中,至少一個I/O設(shè) 備是存儲設(shè)備(例如,磁盤驅(qū)動器、光盤驅(qū)動器、軟盤驅(qū)動器)。應(yīng) 該理解,配對模塊405可以作為通過通信信道連接到處理器的物理 設(shè)備或子系統(tǒng)來實現(xiàn)。
或者,配對模塊405可以通過一個或多個軟件應(yīng)用程序(甚至 軟件和硬件的組合,例如,通過使用專用集成電路(ASIC))來表示, 其中,軟件是從存儲介質(zhì)(例如,I/O設(shè)備406)加栽的,并通過通 用計算設(shè)備400的存儲器404中的處理器402來操作。如此,在 一個實施例中,用于識別這里參考前面的附圖所描述的VoIP網(wǎng)絡(luò)中 的正在交談的用戶對的配對模塊405可以存儲在計算機(jī)可讀介質(zhì)或 載體中(例如,RAM、磁性或光驅(qū)動器或磁盤等等)。
如那些本領(lǐng)域技術(shù)人員所理解的,本發(fā)明的方法在對語音通信介 質(zhì)的正在交談的用戶配對的任務(wù)之外有用處。例如,在給出大的語音 數(shù)據(jù)的數(shù)據(jù)集的情況下,轉(zhuǎn)換為二進(jìn)制流的技術(shù),與漸進(jìn)的群集化一 起,可以用于語音會話的一般性的自動配對?;蛘?,在給出一組系統(tǒng) 測量值的情況下,漸進(jìn)的群集化技術(shù)也可以用于有效的資源平衡/管 理。在此情況下,本發(fā)明可以用于識別在具有互補(bǔ)系統(tǒng)應(yīng)用的計算機(jī) 系統(tǒng)中執(zhí)行的進(jìn)程。在給出各種流之間的不同的相互的到達(dá)率的情況 下,這樣的技術(shù)也可以被擴(kuò)展到諸如多媒體(例如,視頻)應(yīng)用之類 的應(yīng)用中,可以平衡從多個服務(wù)器到達(dá)的介質(zhì)流。
如此,本發(fā)明代表了語音通信領(lǐng)域的顯著進(jìn)步。本發(fā)明的實施例 利用互補(bǔ)相似性度量的能力,以便檢測正在交談的說話者之間的協(xié)調(diào) 的和互補(bǔ)語音模式。本發(fā)明不一定暴露交談各方的身份,但是,可以 匹配代表參與共同的會話(即,彼此交談的)的各方的語音流。
盡管前述的內(nèi)容是針對本發(fā)明的優(yōu)選實施例進(jìn)行說明的,但是, 在不偏離本發(fā)明的基本范圍的情況下,可以研究出本發(fā)明的其他實施
例,其范圍由隨后的權(quán)利要求來確定。
權(quán)利要求
1.一種用于識別雙向語言介質(zhì)的正在交談的用戶對的方法,該方法包括接收多個二進(jìn)制語音活動流,其中,所述多個語音活動流包括與第一用戶關(guān)聯(lián)的第一語音活動流;以及根據(jù)第一語音活動流和第二語音活動流之間的互補(bǔ)相似性,將第一語音活動流與和第二用戶關(guān)聯(lián)的第二語音活動流配對。
2. 根據(jù)權(quán)利要求1所述的方法,其中,配對包括生成第 一語音活動流在時間上針對多個語音活動流中的全部的 互補(bǔ)相似性圖;以及#>據(jù)所述圖,將第二語音活動流標(biāo)識為相對于多個語音活動流的 其余語音活動流表現(xiàn)出與第一語音活動流的最高互補(bǔ)相似度的語音 活動流。
3. 根據(jù)權(quán)利要求2所述的方法,其中,識別過程包括 對于多個語音活動流的所有流在 一段時間之后計算成對相似性矩陣,矩陣中的每一項表示兩個對應(yīng)的語音活動流之間的互補(bǔ)相似 性;以及根據(jù)矩陣執(zhí)行硬群集化,以將第一語音活動流與第二語音活動流配對。
4. 根據(jù)權(quán)利要求2所述的方法,其中,識別過程進(jìn)一步包括 根據(jù)所述圖確認(rèn)第二語音活動流與多個語音活動流的其余語音活動流足夠遠(yuǎn)。
5. 根據(jù)權(quán)利要求4所述的方法,其中,確認(rèn)過程包括 從所述圖中刪除相對于多個語音活動流的其余語音活動流表現(xiàn)出與第 一語音活動流的最高互補(bǔ)相似度的第 一數(shù)量的語音活動流; 從所述圖中刪除相對于多個語音活動流的其余語音活動流表現(xiàn)出與第一語音活動流的最低互補(bǔ)相似度的第二數(shù)量的語音活動流; 計算語音活動流的其余語音活動流的平均質(zhì)心;以及 根據(jù)平均質(zhì)心,計算第二語音活動流與多個語音活動流的其余語 音活動流的距離。
6. 根據(jù)權(quán)利要求5所述的方法,其中,計算過程包括 # 據(jù)所述圖識別相對于多個語音活動流的其余語音活動流表現(xiàn)出與第一語音活動流的第二高互補(bǔ)相似度的第三語音活動流;從第二語音活動流的第二互補(bǔ)相似性度量中去掉第三語音活動流的第一互補(bǔ)相似性度量,以產(chǎn)生第一值;從平均質(zhì)心中去掉第一互補(bǔ)相似性度量,以產(chǎn)生第二值;如果第一值大于第二值乘以一個常數(shù),則將第二語音活動流與第 一語音活動流配對;以及如果第一值不大于第二值乘以一個常數(shù),則將第一語音活動流指 定為單獨個體。
7. 根據(jù)權(quán)利要求6所述的方法,其中,常數(shù)反映有關(guān)第一語 音活動流和第二語音活動流的對的質(zhì)量的置信度。
8. 根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括 從矩陣中去除與第一語音活動流和第二語音活動流關(guān)聯(lián)的行和列,其中,矩陣是對于多個語音活動流的所有流在一段時間之后成對 相似性矩陣,矩陣中的每一項表示兩個對應(yīng)的語音活動流之間的互補(bǔ) 相似性。
9. 根據(jù)權(quán)利要求1所述的方法,其中,互補(bǔ)相似性是通過計 算第一語音活動流和第二語音活動流之間的交集而獲得的非對稱度 量,第二語音活動流由第一語音活動流和第二語音活動流的并集歸一 化。
10. 根據(jù)權(quán)利要求1所述的方法,其中,互補(bǔ)相似性是對稱度量。
11. 根據(jù)權(quán)利要求1所述的方法,其中,互補(bǔ)相似性是可以通 過觀察第二語音活動流而能夠獲得有關(guān)第一語音活動流的多少信息 的度量。
12. —種計算機(jī)可讀介質(zhì),包含用于識別雙向語言介質(zhì)的正在 交談的用戶對的可執(zhí)行程序,其中,該程序執(zhí)行前面的權(quán)利要求的任 何一種方法的步驟。
13. —種用于識別雙向語言介質(zhì)的正在交談的用戶對的系統(tǒng), 所述系統(tǒng)包括用于接收多個二進(jìn)制語音活動流的裝置,其中,所述多個語音活 動流包括與第一用戶關(guān)聯(lián)的第一語音活動流;以及用于根據(jù)第一語音活動流和第二語音活動流之間的互補(bǔ)相似性, 將第一語音活動流與和第二用戶關(guān)聯(lián)的第二語音活動流配對的裝置。
14. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,用于接收的裝置和 用于配對的裝置包括連接到因特網(wǎng)協(xié)議語音網(wǎng)絡(luò)的中央處理單元。
15. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,從因特網(wǎng)協(xié)議語音 網(wǎng)絡(luò)中的一個或多個路由器接收多個語音活動流,該一個或多個路由器具有嗅探器功能。
16. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,用于配對的裝置包括用于生成第一語音活動流在時間上針對多個語音活動流中的全 部的互補(bǔ)相似性圖的裝置;以及用于根據(jù)所述圖,將第二語音活動流標(biāo)識為相對于多個語音活動 流的其余語音活動流表現(xiàn)出與第一語音活動流的最高互補(bǔ)相似度的 語音活動流的裝置。
17. 根據(jù)權(quán)利要求16所述的系統(tǒng),其中,用于識別的裝置包括用于對于多個語音活動流的所有流在一段時間之后計算成對相 似性矩陣的裝置,矩陣中的每一項表示兩個對應(yīng)的語音活動流之間的互補(bǔ)相似性;以及用于根據(jù)矩陣執(zhí)行硬群集化以將第 一語音活動流與第二語音活 動流配對的裝置。
18. 根據(jù)權(quán)利要求16所述的系統(tǒng),其中,識別裝置進(jìn)一步包括 用于根據(jù)所述圖確認(rèn)第二語音活動流與多個語音活動流的其余 語音活動流足夠遠(yuǎn)的裝置。
19. 根據(jù)權(quán)利要求18所述的系統(tǒng),其中,用于確認(rèn)的裝置包括用于從所述圖中刪除相對于多個語音活動流的其余語音活動流 表現(xiàn)出與第一語音活動流的最高互補(bǔ)相似度的第一數(shù)量的語音活動 流的裝置;用于從所述圖中刪除相對于多個語音活動流的其余語音活動流 表現(xiàn)出與第一語音活動流的最低互補(bǔ)相似度的第二數(shù)量的語音活動 流的裝置;用于計算語音活動流的其余語音活動流的平均質(zhì)心的裝置;以及 用于根據(jù)平均質(zhì)心,計算第二語音活動流與多個語音活動流的其 余語音活動流的距離的裝置。
20. 根據(jù)權(quán)利要求19所述的系統(tǒng),其中,用于計算的裝置包括用于根據(jù)所述圖識別相對于多個語音活動流的其余語音活動流 表現(xiàn)出與第一語音活動流的第二高互補(bǔ)相似度的第三語音活動流的 裝置;用于從第二語音活動流的第二互補(bǔ)相似性度量中去掉第三語音 活動流的第一互補(bǔ)相似性度量以產(chǎn)生第一值的裝置;用于從平均質(zhì)心中去掉第一互補(bǔ)相似性度量以產(chǎn)生第二值的裝置;如果第一值大于第二值乘以一個常數(shù),則用于將第二語音活動流 與第一語音活動流配對的裝置;以及如果第一值不大于第二值乘以一個常數(shù),則用于將第一語音活動 流指定為單獨個體的裝置。
21. 根據(jù)權(quán)利要求20所述的系統(tǒng),其中,常數(shù)反映有關(guān)第一語音活動流和第二語音活動流的對的質(zhì)量的置信度。
22. 根據(jù)權(quán)利要求13所述的系統(tǒng),進(jìn)一步包括用于從矩陣中去除與第一語音活動流和第二語音活動流關(guān)聯(lián)的 行和列的裝置,其中,矩陣是對于多個語音活動流的所有流在一段時 間之后成對相似性矩陣,矩陣中的每一項表示兩個對應(yīng)的語音活動流 之間的互補(bǔ)相似性。
23. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,互補(bǔ)相似性是通過 計算第一語音活動流和第二語音活動流之間的交集而獲得的非對稱 度量,第二語音活動流由第一語音活動流和笫二語音活動流的并集歸 一化。
24. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,互補(bǔ)相似性是對稱度量。
25. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,互補(bǔ)相似性是可以 通過觀察第二語音活動流而能夠獲得有關(guān)第一語音活動流的多少信 息的度量。
全文摘要
公開了用于識別通過雙向語言介質(zhì)進(jìn)行交談的雙方的方法和設(shè)備。用于標(biāo)識雙向語言介質(zhì)的正在交談的用戶對的方法和設(shè)備的一個實施例包括接收多個二進(jìn)制語音活動流,其中,所述多個語音活動流包括與第一用戶關(guān)聯(lián)的第一語音活動流,以及,根據(jù)第一語音活動流和第二語音活動流之間的互補(bǔ)相似性,將第一語音活動流與和第二用戶關(guān)聯(lián)的第二語音活動流配對。
文檔編號H04M7/00GK101175120SQ200710148328
公開日2008年5月7日 申請日期2007年8月31日 優(yōu)先權(quán)日2006年10月31日
發(fā)明者麗薩·阿米尼, 埃里克·布伊萊特, 奧利維爾·沃斯徹烏雷, 米查爾·弗拉喬斯 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
驻马店市| 璧山县| 汝城县| 温泉县| 大丰市| 辽阳市| 全椒县| 方山县| 射阳县| 湘阴县| 方山县| 横山县| 黄梅县| 肃宁县| 榕江县| 景宁| 陆河县| 特克斯县| 汪清县| 沁阳市| 五常市| 杭州市| 秭归县| 手机| 贵南县| 苏尼特左旗| 称多县| 漳浦县| 乌兰察布市| 甘谷县| 松桃| 尚义县| 凤阳县| 通辽市| 彭水| 秀山| 九龙县| 古蔺县| 宁明县| 环江| 都昌县|