本公開涉及音頻處理,尤其涉及一種音頻信號的處理方法、裝置、電子設備及存儲介質(zhì)。
背景技術(shù):
1、隨著人工智能和音頻處理技術(shù)的不斷發(fā)展,音頻處理技術(shù)的應用范圍也越來越大。目前,音頻處理技術(shù)已經(jīng)廣泛應用于語音識別、語音合成、音頻編解碼、音頻增強、音頻分析等領(lǐng)域,其中,語音識別技術(shù)已經(jīng)在智能語音助手、智能客服、智能家居等方面。
技術(shù)實現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問題,本公開提供一種音頻信號的處理方法、裝置、電子設備及存儲介質(zhì)。
2、根據(jù)本公開實施例的第一方面,提供一種音頻信號的處理方法,所述方法包括:
3、獲取多個第一環(huán)境音頻信號,每個所述第一環(huán)境音頻信號包括至少一個聲源發(fā)出的聲音,所述多個第一環(huán)境音頻信號由不同麥克風采集;
4、基于所述多個第一環(huán)境音頻信號,確定每個所述聲源的方向;
5、基于所述聲源的方向?qū)λ龆鄠€第一環(huán)境音頻信號進行識別,得到與每個所述聲源對應的聲源音頻信號,其中,每個聲源音頻信號包括與所述聲源的方向?qū)穆曉窗l(fā)出的聲音;
6、識別與每個所述聲源音頻信號所對應的聲源的類別;
7、根據(jù)所述聲源的方向和所述聲源的類別在顯示界面中顯示所述聲源的提示信息,所述提示信息用于表征每個所述聲源的方向和所述聲源發(fā)出的聲音所屬的類別。
8、在一些實施例中,所述基于所述多個第一環(huán)境音頻信號,確定每個所述聲源的方向,包括:
9、獲取所述多個第一環(huán)境音頻信號的信號特征,所述信號特征用于表征每個所述第一環(huán)境音頻信號的多個時頻點和相位信息,所述多個第一環(huán)境音頻信號中的多個時頻點相同;
10、基于所述信號特征進行聲源方向預測,確定方向信息,所述方向信息包括多個預設方向中每個所述預設方向在所述多個時頻點的概率,所述預設方向在所述時頻點的概率表示所述預設方向為所述時頻點的方向的可能性;
11、基于所述方向信息,確定每個所述聲源的方向。
12、在一些實施例中,所述獲取所述多個第一環(huán)境音頻信號的信號特征,包括:
13、基于任一所述第一環(huán)境音頻信號的時間幀數(shù)和頻點數(shù),確定所述多個時頻點;
14、從所述多個第一環(huán)境音頻信號中,選取任一所述第一環(huán)境音頻信號作為第二環(huán)境音頻信號;
15、根據(jù)每個所述第一環(huán)境音頻信號與所述第二環(huán)境音頻信號在每個所述時頻點的關(guān)系,確定每個所述第一環(huán)境音頻信號在每個所述時頻點的所述相位信息。
16、在一些實施例中,所述根據(jù)每個所述第一環(huán)境音頻信號與第二環(huán)境音頻信號在每個所述時頻點的關(guān)系,確定每個所述第一環(huán)境音頻信號在每個時頻點的所述相位信息,包括:
17、對于每個所述第一環(huán)境音頻信號,確定所述第一環(huán)境音頻信號與所述第二環(huán)境音頻信號在每個所述時頻點的比值,所述時頻點的比值用于表征所述第一環(huán)境音頻信號在所述時頻點的相位;
18、確定每個所述時頻點的比值對應的相位,將所述多個時頻點的相位作為所述相位信息。
19、在一些實施例中,所述基于所述信號特征進行聲源方向預測,確定方向信息,包括:
20、調(diào)用聲源定位模型,對所述信號特征進行聲源方向預測,得到所述方向信息,所述聲源定位模型用于預測任一聲源的方向。
21、在一些實施例中,所述基于所述方向信息,確定每個所述聲源的方向,包括:
22、基于所述多個第一環(huán)境音頻信號,確定第三環(huán)境音頻信號,所述第三環(huán)境音頻信號用于表征所述多個第一環(huán)境音頻信號;
23、針對每個所述預設方向,基于所述預設方向在所述多個時頻點的概率和所述第三環(huán)境音頻信號,確定所述預設方向?qū)哪芰?,所述預設方向?qū)哪芰坑糜诒碚魉鲱A設方向為任一聲源的方向的可能性;
24、基于所述多個預設方向?qū)哪芰?,確定每個所述聲源的方向,每個所述聲源的方向?qū)哪芰看笥谄渌A設方向?qū)哪芰俊?/p>
25、在一些實施例中,所述基于所述聲源的方向?qū)λ龆鄠€第一環(huán)境音頻信號進行識別,得到與每個所述聲源對應的聲源音頻信號,包括:
26、基于所述多個第一環(huán)境音頻信號,確定第四環(huán)境音頻信號,所述第四環(huán)境音頻信號用于表征所述多個第一環(huán)境音頻信號;
27、基于所述方向信息和所述聲源的方向,從所述第四環(huán)境音頻信號中識別出與每個所述聲源對應的聲源音頻信號。
28、在一些實施例中,所述基于所述方向信息和所述聲源的方向,從所述第四環(huán)境音頻信號中識別出與每個所述聲源對應的聲源音頻信號,包括:
29、對于每個聲源,將所述聲源的方向在每個所述時頻點的概率與所述第四環(huán)境音頻信號中每個所述時頻點的幅度相乘,得到所述聲源發(fā)出的聲音的幅值;
30、將所述第四環(huán)境音頻信號中每個所述時頻點的相位作為所述聲源發(fā)出的聲音的相位;
31、基于所述幅值和所述相位,確定與所述聲源對應的聲源音頻信號。
32、在一些實施例中,所述識別與每個所述聲源音頻信號所對應的聲源的類別,包括:
33、調(diào)用類別識別模型,對每個所述聲源音頻信號進行識別,得到與每個所述聲源音頻信號所對應的聲源的類別,其中,所述類別識別模型基于訓練數(shù)據(jù)集訓練,所述訓練數(shù)據(jù)集中包括多種類別的樣本聲源音頻信號以及每個所述樣本聲源音頻信號對應的樣本類別,所述類別的樣本聲源音頻信號為從樣本音頻信號中切分出的屬于所述類別的聲源音頻信號,且不同類別的樣本聲源音頻信號的數(shù)量之間的差值小于預設數(shù)值。
34、在一些實施例中,所述提示信息為聲源類別圖標,所述在顯示界面中顯示所述聲源的提示信息,包括:
35、在所述顯示界面中顯示所述聲源對應的聲源類別圖標,其中,不同類別的聲源對應的聲源類別圖標不同,且所述聲源類別圖標在所述顯示界面中的位置表示所述聲源的方向。
36、在一些實施例中,所述顯示界面包含坐標圖,所述提示信息包括聲源類別圖標;所述在顯示界面中顯示所述聲源的提示信息,包括:
37、根據(jù)所述聲源的類別確定與搜索聲源的類別對應的聲源類別圖標;
38、根據(jù)所述聲源的方向確定目標坐標位置;
39、在所述坐標圖上所述目標坐標位置顯示所述聲源類別圖標。
40、根據(jù)本公開實施例的第二方面,提供一種音頻信號的處理裝置,所述裝置包括:
41、信號獲取模塊,被配置為獲取多個第一環(huán)境音頻信號,每個所述第一環(huán)境音頻信號包括至少一個聲源發(fā)出的聲音,所述多個第一環(huán)境音頻信號由不同麥克風采集;
42、方向確定模塊,被配置為基于所述多個第一環(huán)境音頻信號,確定每個所述聲源的方向;
43、信號識別模塊,被配置為基于所述聲源的方向?qū)λ龆鄠€第一環(huán)境音頻信號進行識別,得到與每個所述聲源對應的聲源音頻信號,其中,每個聲源音頻信號包括與所述聲源的方向?qū)穆曉窗l(fā)出的聲音;
44、類別識別模塊,被配置為識別與每個所述聲源音頻信號所對應的聲源的類別;
45、顯示模塊,被配置為根據(jù)所述聲源的方向和所述聲源的類別在顯示界面中顯示所述聲源的提示信息,所述提示信息用于表征每個所述聲源的方向和所述聲源發(fā)出的聲音所屬的類別。
46、在一些實施例中,所述方向確定模塊,被配置為:
47、獲取所述多個第一環(huán)境音頻信號的信號特征,所述信號特征用于表征每個所述第一環(huán)境音頻信號的多個時頻點和相位信息,所述多個第一環(huán)境音頻信號中的多個時頻點相同;
48、基于所述信號特征進行聲源方向預測,確定方向信息,所述方向信息包括多個預設方向中每個所述預設方向在所述多個時頻點的概率,所述預設方向在所述時頻點的概率表示所述預設方向為所述時頻點的方向的可能性;
49、基于所述方向信息,確定每個所述聲源的方向。
50、在一些實施例中,所述方向確定模塊,被配置為:
51、基于任一所述第一環(huán)境音頻信號的時間幀數(shù)和頻點數(shù),確定所述多個時頻點;
52、從所述多個第一環(huán)境音頻信號中,選取任一所述第一環(huán)境音頻信號作為第二環(huán)境音頻信號;
53、根據(jù)每個所述第一環(huán)境音頻信號與所述第二環(huán)境音頻信號在每個所述時頻點的關(guān)系,確定每個所述第一環(huán)境音頻信號在每個所述時頻點的所述相位信息。
54、在一些實施例中,所述方向確定模塊,被配置為:
55、對于每個所述第一環(huán)境音頻信號,確定所述第一環(huán)境音頻信號與所述第二環(huán)境音頻信號在每個所述時頻點的比值,所述時頻點的比值用于表征所述第一環(huán)境音頻信號在所述時頻點的相位;
56、確定每個所述時頻點的比值對應的相位,將所述多個時頻點的相位作為所述相位信息。
57、在一些實施例中,所述方向確定模塊,被配置為:
58、調(diào)用聲源定位模型,對所述信號特征進行聲源方向預測,得到所述方向信息,所述聲源定位模型用于預測任一聲源的方向。
59、在一些實施例中,所述方向確定模塊,被配置為:
60、基于所述多個第一環(huán)境音頻信號,確定第三環(huán)境音頻信號,所述第三環(huán)境音頻信號用于表征所述多個第一環(huán)境音頻信號;
61、針對每個所述預設方向,基于所述預設方向在所述多個時頻點的概率和所述第三環(huán)境音頻信號,確定所述預設方向?qū)哪芰?,所述預設方向?qū)哪芰坑糜诒碚魉鲱A設方向為任一聲源的方向的可能性;
62、基于所述多個預設方向?qū)哪芰?,確定每個所述聲源的方向,每個所述聲源的方向?qū)哪芰看笥谄渌A設方向?qū)哪芰俊?/p>
63、在一些實施例中,所述方向確定模塊,被配置為:
64、基于所述多個第一環(huán)境音頻信號,確定第四環(huán)境音頻信號,所述第四環(huán)境音頻信號用于表征所述多個第一環(huán)境音頻信號;
65、基于所述方向信息和所述聲源的方向,從所述第四環(huán)境音頻信號中識別出與每個所述聲源對應的聲源音頻信號。
66、在一些實施例中,所述方向確定模塊,被配置為:
67、對于每個聲源,將所述聲源的方向在每個所述時頻點的概率與所述第四環(huán)境音頻信號中每個所述時頻點的幅度相乘,得到所述聲源發(fā)出的聲音的幅值;
68、將所述第四環(huán)境音頻信號中每個所述時頻點的相位作為所述聲源發(fā)出的聲音的相位;
69、基于所述幅值和所述相位,確定與所述聲源對應的聲源音頻信號。
70、在一些實施例中,所述類別識別模塊,被配置為:
71、調(diào)用類別識別模型,對每個所述聲源音頻信號進行識別,得到與每個所述聲源音頻信號所對應的聲源的類別,其中,所述類別識別模型基于訓練數(shù)據(jù)集訓練,所述訓練數(shù)據(jù)集中包括多種類別的樣本聲源音頻信號以及每個所述樣本聲源音頻信號對應的樣本類別,所述類別的樣本聲源音頻信號為從樣本音頻信號中切分出的屬于所述類別的聲源音頻信號,且不同類別的樣本聲源音頻信號的數(shù)量之間的差值小于預設數(shù)值。
72、在一些實施例中,所述提示信息為聲源類別圖標,所述顯示模塊,被配置為:
73、在所述顯示界面中顯示所述聲源對應的聲源類別圖標,其中,不同類別的聲源對應的聲源類別圖標不同,且所述聲源類別圖標在所述顯示界面中的位置表示所述聲源的方向。
74、在一些實施例中,所述顯示界面包含坐標圖,所述提示信息包括聲源類別圖標;所述顯示模塊,被配置為:
75、根據(jù)所述聲源的類別確定與搜索聲源的類別對應的聲源類別圖標;
76、根據(jù)所述聲源的方向確定目標坐標位置;
77、在所述坐標圖上所述目標坐標位置顯示所述聲源類別圖標。
78、根據(jù)本公開實施例的第三方面,提供一種電子設備,包括:
79、處理器;
80、用于存儲處理器可執(zhí)行指令的存儲器;
81、其中,所述處理器被配置為執(zhí)行如本公開實施例的第一方面中所述的方法。
82、根據(jù)本公開實施例的第四方面,提供一種非臨時性計算機可讀存儲介質(zhì),當所述存儲介質(zhì)中的指令由電子設備的處理器執(zhí)行時,使得電子設備能夠執(zhí)行如本公開實施例的第一方面中所述的方法。
83、采用本公開的上述方法,具有以下有益效果:
84、本公開實施例提供的方法,基于采集到的環(huán)境音頻信號,可以確定環(huán)境音頻信號中聲源的方向,并從環(huán)境音頻信號中識別出與該聲源對應的聲源音頻信號,然后識別出聲源的類別,在顯示界面中顯示聲源的提示信息,該提示信息用于表征聲源的方向和類別,這種方式,確定環(huán)境音頻信號中聲源的方向及類別,并通過顯示界面直觀地向用戶展示聲源的方向及類別,使用戶在聽不到聲音的情況下也可以了解到周圍環(huán)境中的聲音情況,提高了用戶體驗。
85、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。