一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法及系統(tǒng)與流程

文檔序號(hào)：40612918發(fā)布日期：2025-01-07 20:58閱讀：13來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法及系統(tǒng)與流程

本發(fā)明涉及人工智能，尤其涉及一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法及系統(tǒng)。

背景技術(shù)：

1、一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法適用于處理包含多個(gè)情緒變化的長(zhǎng)時(shí)間語(yǔ)音片段，這在情感計(jì)算、智能客服、心理健康監(jiān)測(cè)等領(lǐng)域具有廣泛的應(yīng)用價(jià)值。例如，在智能客服系統(tǒng)中，客戶(hù)的情緒可能隨著對(duì)話(huà)內(nèi)容的變化而波動(dòng)，使用這種方法可以實(shí)時(shí)定位出客戶(hù)在對(duì)話(huà)過(guò)程中的不同情緒狀態(tài)，從而幫助系統(tǒng)做出更加個(gè)性化和情感化的響應(yīng)。此外，在心理健康監(jiān)測(cè)中，該方法能夠識(shí)別并跟蹤個(gè)體在長(zhǎng)時(shí)間對(duì)話(huà)或獨(dú)白中的情緒變化，為臨床診斷和心理干預(yù)提供數(shù)據(jù)支持。

2、隨著現(xiàn)代人工智能技術(shù)和音頻處理能力的不斷增強(qiáng)，基于深度學(xué)習(xí)的一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法遇到了如下阻礙：

3、一、在語(yǔ)音領(lǐng)域，尚未有完善的長(zhǎng)時(shí)語(yǔ)音多情緒定位方法被提出，針對(duì)于單一情感標(biāo)簽的語(yǔ)音情感定位，僅存王穎志等人在2023年自動(dòng)語(yǔ)音識(shí)別與理解研討會(huì)上發(fā)表的《語(yǔ)音情感分段：情感何時(shí)出現(xiàn)？》提出的語(yǔ)音情感定位(sed)方法，雖然能夠識(shí)別語(yǔ)音中的情感變化并確定其邊界，但其在處理長(zhǎng)時(shí)語(yǔ)音時(shí)存在局限性。sed方法主要依賴(lài)幀級(jí)分類(lèi)和后處理技術(shù)來(lái)定位情感邊界，這種方法難以有效捕捉長(zhǎng)時(shí)依賴(lài)關(guān)系，因?yàn)閹?jí)處理的時(shí)間上下文有限，尤其是在處理包含多個(gè)情緒變化的長(zhǎng)時(shí)間對(duì)話(huà)時(shí)，其定位精度和穩(wěn)定性會(huì)受到影響。

4、二、在長(zhǎng)時(shí)語(yǔ)音多情緒標(biāo)簽定位方法的背景下，還有一篇較為接近的工作是王冰等人發(fā)表的《speechee:用于語(yǔ)音事件抽取的新基準(zhǔn)》，文中提出speechee任務(wù)，旨在從語(yǔ)音中提取事件信息，填補(bǔ)語(yǔ)音事件提取領(lǐng)域的空白。但speechee任務(wù)的主要劣處在于其無(wú)法同時(shí)識(shí)別和定位語(yǔ)音中的情緒變化。盡管speechee關(guān)注從語(yǔ)音中提取事件信息，并解決了事件觸發(fā)詞和論元識(shí)別的問(wèn)題，但它忽視了情緒信息的提取，而情緒是語(yǔ)音理解中不可忽視的重要維度。此外，speechee任務(wù)在處理長(zhǎng)時(shí)間語(yǔ)音時(shí)，缺乏對(duì)情緒動(dòng)態(tài)變化的精確定位能力，尤其是在多個(gè)情緒交替出現(xiàn)的場(chǎng)景下，其模型難以捕捉到情緒隨時(shí)間的細(xì)微波動(dòng)。這使得speechee在需要多情緒標(biāo)簽定位的復(fù)雜語(yǔ)音情感分析任務(wù)中表現(xiàn)出明顯的局限性。

技術(shù)實(shí)現(xiàn)思路

1、基于背景技術(shù)存在的技術(shù)問(wèn)題，本發(fā)明提出了一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法及系統(tǒng)，增強(qiáng)了多情緒識(shí)別的準(zhǔn)確性和魯棒性。

2、本發(fā)明提出的一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法，將待識(shí)別的長(zhǎng)時(shí)語(yǔ)音輸入到已訓(xùn)練完成的時(shí)序多尺度空間對(duì)偶模型中，輸出所述長(zhǎng)時(shí)語(yǔ)音中的多個(gè)情緒狀態(tài)；

3、時(shí)序多尺度空間對(duì)偶模型的訓(xùn)練過(guò)程如下：

4、步驟一、獲取多種情緒的長(zhǎng)時(shí)語(yǔ)音，并通過(guò)通用語(yǔ)音預(yù)訓(xùn)練模型分別提取為初始長(zhǎng)時(shí)語(yǔ)音特征向量，以構(gòu)成訓(xùn)練數(shù)據(jù)集；

5、步驟二、將初始長(zhǎng)時(shí)語(yǔ)音特征向量歸一化后輸入到低維時(shí)序ssd架構(gòu)模塊中，以得到低維狀態(tài)空間對(duì)偶輸出；

6、步驟三、將低維狀態(tài)空間對(duì)偶輸出沿時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作，將在時(shí)間維度上縮小一半的特征輸入到中維時(shí)序ssd架構(gòu)模塊，得到中維狀態(tài)空間對(duì)偶輸出；

7、步驟四、將中維狀態(tài)空間對(duì)偶輸出沿其時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作，將在時(shí)間維度上縮小一半的特征輸入到高維時(shí)序ssd架構(gòu)模塊，得到高維狀態(tài)空間對(duì)偶輸出；

8、步驟五、將低維狀態(tài)空間對(duì)偶輸出、中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出進(jìn)行特征融合操作，將融合得到的復(fù)雜長(zhǎng)時(shí)多情感語(yǔ)音時(shí)序特征輸入到情緒解析模塊，以預(yù)測(cè)最終的多情緒標(biāo)簽及時(shí)間定位信息；

9、步驟六、基于步驟五輸出的多情緒標(biāo)簽及時(shí)間定位信息構(gòu)建總損失函數(shù)，反向傳播調(diào)整時(shí)序多尺度空間對(duì)偶模型中的可訓(xùn)練參數(shù)，從而訓(xùn)練時(shí)序多尺度空間對(duì)偶模型。

10、進(jìn)一步地，在步驟二至五中，低維時(shí)序ssd架構(gòu)模塊、中維時(shí)序ssd架構(gòu)模以及高維時(shí)序ssd架構(gòu)模塊的結(jié)構(gòu)一致，均包括門(mén)控機(jī)制、一維卷積層、激活層和狀態(tài)空間對(duì)偶模型，時(shí)序ssd架構(gòu)模塊對(duì)輸入特征的處理過(guò)程如下：

11、輸入特征通過(guò)全連接層后作為狀態(tài)空間對(duì)偶模型的輸入；

12、輸入特征依次通過(guò)全連接層、一維卷積層、激活層后作為狀態(tài)空間對(duì)偶模型的輸入；

13、將輸入特征經(jīng)過(guò)門(mén)控機(jī)制的輸出與狀態(tài)空間對(duì)偶模型的輸出作積得到狀態(tài)空間對(duì)偶輸出。

14、進(jìn)一步地，狀態(tài)空間對(duì)偶模型對(duì)于輸入特征的計(jì)算公式如下：

15、st＝atst-1+btxt

16、yt＝ctst

17、其中，st，st-1分別表示時(shí)間t、t-1時(shí)的隱藏狀態(tài)向量，at，bt，ct分別為隨著時(shí)間t變化的矩陣參數(shù)，xt，yt分別為時(shí)間t時(shí)的狀態(tài)空間對(duì)偶模型的輸入特征和輸出特征；

18、其中，狀態(tài)空間對(duì)偶模型對(duì)at設(shè)置：將所有對(duì)角元素設(shè)置為相同值，并將所有非對(duì)角元素設(shè)置為零。

19、進(jìn)一步地，所述門(mén)控機(jī)制對(duì)輸入特征的處理過(guò)程為：輸入特征依次經(jīng)過(guò)全連接層、激活層后的輸出作為門(mén)控機(jī)制的輸出。

20、進(jìn)一步地，在步驟五中，將低維狀態(tài)空間對(duì)偶輸出、中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出進(jìn)行特征融合操作，得到復(fù)雜長(zhǎng)時(shí)多情感語(yǔ)音時(shí)序特征，具體為：

21、將中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出分別進(jìn)行線(xiàn)性插值，以在時(shí)間維度上恢復(fù)至于低維狀態(tài)空間對(duì)偶輸出相同維度；

22、將低維狀態(tài)空間對(duì)偶輸出、線(xiàn)性插值后的中維狀態(tài)空間對(duì)偶輸出、線(xiàn)性插值后的高維狀態(tài)空間對(duì)偶輸出拼接后經(jīng)過(guò)線(xiàn)性層降維操作，輸出復(fù)雜長(zhǎng)時(shí)多情感語(yǔ)音時(shí)序特征。

23、進(jìn)一步地，在步驟五中，情緒解析模塊包括多情緒分類(lèi)模塊和時(shí)間定位模塊，情緒解析模塊的處理過(guò)程具體為：

24、將復(fù)雜長(zhǎng)時(shí)多情感語(yǔ)音時(shí)序特征輸入到多情緒分類(lèi)模塊，經(jīng)過(guò)平均池化和多層感知機(jī)操作以輸出多情緒標(biāo)簽；

25、將復(fù)雜長(zhǎng)時(shí)多情感語(yǔ)音時(shí)序特征輸入到時(shí)間定位模塊，經(jīng)過(guò)全連接層、激活層操作以輸出時(shí)間定位信息。

26、進(jìn)一步地，在步驟六中，總損失函數(shù)的構(gòu)建為：

27、基于預(yù)測(cè)輸出的多情緒標(biāo)簽以及真實(shí)情感標(biāo)簽構(gòu)建交叉熵?fù)p失函數(shù)；

28、基于預(yù)測(cè)輸出的時(shí)間定位信息以及真實(shí)的時(shí)間定位信息構(gòu)建均方誤差損失函數(shù)；

29、基于交叉熵?fù)p失函數(shù)和均方誤差損失函數(shù)之和構(gòu)建總損失函數(shù)。

30、一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位系統(tǒng)，將待識(shí)別的長(zhǎng)時(shí)語(yǔ)音輸入到已訓(xùn)練完成的時(shí)序多尺度空間對(duì)偶模型中，輸出所述長(zhǎng)時(shí)語(yǔ)音中的多個(gè)情緒狀態(tài)；

31、時(shí)序多尺度空間對(duì)偶模型的訓(xùn)練過(guò)程如下：

32、步驟一、獲取多種情緒的長(zhǎng)時(shí)語(yǔ)音，并通過(guò)通用語(yǔ)音預(yù)訓(xùn)練模型分別提取為初始長(zhǎng)時(shí)語(yǔ)音特征向量，以構(gòu)成訓(xùn)練數(shù)據(jù)集；

33、步驟二、將初始長(zhǎng)時(shí)語(yǔ)音特征向量歸一化后輸入到低維時(shí)序ssd架構(gòu)模塊中，以得到低維狀態(tài)空間對(duì)偶輸出；

34、步驟三、將低維狀態(tài)空間對(duì)偶輸出沿時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作，將在時(shí)間維度上縮小一半的特征輸入到中維時(shí)序ssd架構(gòu)模塊，得到中維狀態(tài)空間對(duì)偶輸出；

35、步驟四、將中維狀態(tài)空間對(duì)偶輸出沿其時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作，將在時(shí)間維度上縮小一半的特征輸入到高維時(shí)序ssd架構(gòu)模塊，得到高維狀態(tài)空間對(duì)偶輸出；

36、步驟五、將低維狀態(tài)空間對(duì)偶輸出、中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出進(jìn)行特征融合操作，得到復(fù)雜長(zhǎng)時(shí)多情感語(yǔ)音時(shí)序特征，并將復(fù)雜長(zhǎng)時(shí)多情感語(yǔ)音時(shí)序特征輸入情緒解析模塊，以預(yù)測(cè)最終的多情緒標(biāo)簽及時(shí)間定位信息；

37、步驟六、基于步驟五輸出的多情緒標(biāo)簽及時(shí)間定位信息構(gòu)建總損失函數(shù)，反向傳播調(diào)整時(shí)序多尺度空間對(duì)偶模型中的可訓(xùn)練參數(shù)，從而訓(xùn)練時(shí)序多尺度空間對(duì)偶模型。

38、本發(fā)明提供的一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法及系統(tǒng)的優(yōu)點(diǎn)在于：結(jié)合了低維時(shí)序ssd架構(gòu)模塊、中維時(shí)序ssd架構(gòu)模塊、高維時(shí)序ssd架構(gòu)模塊和情緒解析模塊實(shí)現(xiàn)了在時(shí)序多尺度視角下，對(duì)于長(zhǎng)時(shí)語(yǔ)音序列的多情緒感知定位。這種獨(dú)特的架構(gòu)設(shè)計(jì)使得時(shí)序多尺度空間對(duì)偶模型能從多個(gè)尺度中汲取豐富的長(zhǎng)時(shí)語(yǔ)音情感信息，有效捕捉長(zhǎng)期和短期時(shí)間信息，增強(qiáng)了多情緒識(shí)別的準(zhǔn)確性和魯棒性，創(chuàng)新性地提出了長(zhǎng)時(shí)語(yǔ)音多情緒感知定位這一新任務(wù)。另外，引入的狀態(tài)空間對(duì)偶模型通過(guò)其在長(zhǎng)時(shí)序多尺度的選擇性遺忘以保留關(guān)鍵信息的特性，有效解決了傳統(tǒng)深度學(xué)習(xí)模型在處理長(zhǎng)時(shí)序語(yǔ)音時(shí)的性能瓶頸，提高了模型的計(jì)算效率，為實(shí)現(xiàn)長(zhǎng)時(shí)語(yǔ)音序列的多情緒感知定位應(yīng)用提供了可能性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王飛,周愿恩,趙佳琪,曹佳鈺,劉昊天,汪萌
技術(shù)所有人：合肥中聚源智能科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種手術(shù)室護(hù)理用廢物密封收集設(shè)備的制作方法
上一篇：一種負(fù)極匯流盤(pán)及電池的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種長(zhǎng)時(shí)語(yǔ)音的多情緒感知定位方法及系統(tǒng)與流程