本發(fā)明涉及人工智能,尤其涉及一種基于融合特征的自動(dòng)音量調(diào)節(jié)方法和系統(tǒng)。
背景技術(shù):
1、隨著科技的不斷發(fā)展,智能家居系統(tǒng)已經(jīng)成為提升居住環(huán)境舒適度、便利性和安全性的重要手段。從簡(jiǎn)單的照明控制到復(fù)雜的安防系統(tǒng),都體現(xiàn)了智能家居帶來(lái)的便捷與舒適。然而,隨著用戶(hù)對(duì)智能家居體驗(yàn)要求的不斷提高,如何實(shí)現(xiàn)更加人性化的智能家居控制成為了一個(gè)重要的研究方向。
2、當(dāng)前,智能家居中的音頻設(shè)備,如音箱、電視等,其音量調(diào)節(jié)往往依賴(lài)于用戶(hù)的手動(dòng)操作或語(yǔ)音指令。但在實(shí)際使用中,隨著室內(nèi)環(huán)境的實(shí)時(shí)變化,如人們交談、閱讀等,用戶(hù)往往通過(guò)手動(dòng)或者語(yǔ)音命令調(diào)節(jié)設(shè)備的音量,重復(fù)多次調(diào)節(jié),這不僅操作麻煩,而且用戶(hù)體驗(yàn)感差。此外,現(xiàn)有的音量調(diào)節(jié)系統(tǒng)通常缺乏對(duì)用戶(hù)行為和情緒狀態(tài)的深入理解,不能根據(jù)用戶(hù)是否在進(jìn)行需要專(zhuān)注的活動(dòng)(如閱讀或工作)來(lái)自動(dòng)調(diào)整音量。此外,許多智能家居設(shè)備不能有效識(shí)別環(huán)境噪音水平的變化,導(dǎo)致在嘈雜或安靜的環(huán)境中音量調(diào)節(jié)不夠智能。當(dāng)前智能家居中的不同設(shè)備往往獨(dú)立運(yùn)作,音量調(diào)節(jié)僅靠用戶(hù)指令,與其他的智能設(shè)備(比如攝像頭等)缺少有效的信息交流和協(xié)同工作,沒(méi)有形成一個(gè)統(tǒng)一協(xié)調(diào)的智能管理,無(wú)法更個(gè)性化的為用戶(hù)自動(dòng)調(diào)節(jié)音量。
3、因此,本發(fā)明提出了一種基于融合特征的自動(dòng)音量調(diào)節(jié)方法,以解決上述技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明意在提供一種基于融合特征的自動(dòng)音量調(diào)節(jié)方法和系統(tǒng),以解決現(xiàn)有技術(shù)中因通過(guò)重復(fù)多次手動(dòng)或者語(yǔ)音命令調(diào)節(jié)設(shè)備的音量而導(dǎo)致用戶(hù)操作繁瑣且用戶(hù)體驗(yàn)感差,現(xiàn)有方法缺乏對(duì)用戶(hù)行為、情緒狀狀態(tài)等有效信息交流和協(xié)調(diào)、無(wú)法為用戶(hù)更有效自動(dòng)調(diào)節(jié)音量等的技術(shù)問(wèn)題,本發(fā)明要解決的技術(shù)問(wèn)題通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)。
2、本發(fā)明第一方面提出一種基于融合特征的自動(dòng)音量調(diào)節(jié)方法,包括:獲取歷史時(shí)間特征、距離特征、光線特征、噪聲特征,形成數(shù)值特征;從監(jiān)控視頻數(shù)據(jù)中按指定方式抽取關(guān)鍵幀圖像,輸入人體檢測(cè)模型,以獲得視覺(jué)特征,所述視覺(jué)特征包括人體面部、坐姿情況、學(xué)習(xí)狀態(tài);基于所述視覺(jué)特征和數(shù)值特征進(jìn)行融合處理,構(gòu)建音量調(diào)整模型,并通過(guò)優(yōu)化模型參數(shù)來(lái)優(yōu)化所述音量調(diào)整模型,所述融合處理包括形成深度融合特征;將當(dāng)前時(shí)間的數(shù)值特征和基于當(dāng)前關(guān)鍵幀圖像所得到的視覺(jué)特征,輸入所述音量調(diào)整模型,得到預(yù)測(cè)音量值。
3、本發(fā)明第二方面提出一種基于融合特征的自動(dòng)音量調(diào)節(jié)系統(tǒng),采用本發(fā)明第一方面所述的基于融合特征的自動(dòng)音量調(diào)節(jié)方法,所述基于融合特征的自動(dòng)音量調(diào)節(jié)系統(tǒng)包括:獲取歷史時(shí)間特征、距離特征、光線特征、噪聲特征,形成數(shù)值特征;從監(jiān)控視頻數(shù)據(jù)中按指定方式抽取關(guān)鍵幀圖像,輸入人體檢測(cè)模型,以獲得視覺(jué)特征,所述視覺(jué)特征包括人體面部、坐姿情況、學(xué)習(xí)狀態(tài);基于所述視覺(jué)特征和數(shù)值特征進(jìn)行融合處理,構(gòu)建音量調(diào)整模型,并通過(guò)優(yōu)化模型參數(shù)來(lái)優(yōu)化所述音量調(diào)整模型,所述融合處理包括形成深度融合特征;將當(dāng)前時(shí)間的數(shù)值特征和基于當(dāng)前關(guān)鍵幀圖像所得到的視覺(jué)特征,輸入所述音量調(diào)整模型,得到預(yù)測(cè)音量值。
4、根據(jù)可選實(shí)施方式,所述基于所述視覺(jué)特征和數(shù)值特征進(jìn)行融合處理,構(gòu)建音量調(diào)整模型,包括:
5、具體將數(shù)值特征和視覺(jué)特征執(zhí)行以下融合步驟以形成深度融合特征:
6、將人體檢測(cè)模型輸出的視覺(jué)特征與數(shù)值特征進(jìn)行深度融合,具體包括:
7、步驟s301:先進(jìn)行特征歸并,將當(dāng)前時(shí)刻t的視覺(jué)特征[yt1,yt2,yt3]與數(shù)值特征[xt1,xt2,xt3,…,xtm]形成n個(gè)歸并特征[yt1,yt2,yt3,xt1,xt2,xt3,…,xtm];
8、步驟s302:進(jìn)行歸并特征變換,具體將歸并特征[yt1,yt2,yt3,xt1,xt2,xt3,…,xtm]的每一個(gè)特征,依次進(jìn)行特征變換,形成n×k維變換特征矩陣同時(shí)引入3*m個(gè)交叉特征向量m=[yt1*xt1,…,yt1*xtm,yt2*xt1,…,y2*xtm,…,yt3*xtm],以得到深度融合特征向量、即形成深度融合特征的深度融合特征。
9、根據(jù)可選實(shí)施方式,所述基于所述融合特征和音量調(diào)整量,構(gòu)建音量調(diào)整模型,包括:在訓(xùn)練音量調(diào)整模型過(guò)程中,所述關(guān)鍵幀圖像和數(shù)值特征每經(jīng)過(guò)一層網(wǎng)絡(luò)層融合一次,經(jīng)過(guò)多層多次融合,得到深度融合特征,將深度融合特征輸入全連接層,以輸出音量調(diào)整值,其中,所述關(guān)鍵幀圖像每經(jīng)過(guò)一層網(wǎng)絡(luò)層,提取一次圖片特征,數(shù)值特征每經(jīng)過(guò)一層網(wǎng)絡(luò)層進(jìn)行一次變換,具體將同一網(wǎng)絡(luò)層所提取的特片特征和所變換后的數(shù)值特征融合。
10、根據(jù)可選實(shí)施方式,對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),得到人體檢測(cè)模型;根據(jù)音量調(diào)節(jié)時(shí)間t,在時(shí)間t之前和在時(shí)間t之后各抽取n/2個(gè)幀,作為關(guān)鍵幀圖像,將所述關(guān)鍵幀圖像輸入所述人體檢測(cè)模型,輸出面部表情、坐姿情況、學(xué)習(xí)狀態(tài)的類(lèi)別評(píng)估值,以表征視覺(jué)特征。
11、根據(jù)可選實(shí)施方式,進(jìn)一步包括:通過(guò)收集和分析音頻設(shè)備調(diào)節(jié)后的用戶(hù)反饋數(shù)據(jù),進(jìn)一步優(yōu)化自動(dòng)音量調(diào)節(jié)策略,具體評(píng)估指標(biāo)來(lái)衡量音量調(diào)節(jié)策略的效果和用戶(hù)滿意度,采用以下表達(dá)式計(jì)算用戶(hù)滿意度:
12、
13、其中,sat?i?sfact?i?on?score表示用戶(hù)對(duì)音量調(diào)整后的滿意程度的評(píng)分;α,β,γ是權(quán)重系數(shù),代表不同維度對(duì)用戶(hù)滿意度的貢獻(xiàn)程度,可通過(guò)專(zhuān)家打分或a/b測(cè)試不同的權(quán)重來(lái)確定,系數(shù)應(yīng)滿足α+β+γ=1;volumesatisfactioni是第i個(gè)用戶(hù)對(duì)音量調(diào)節(jié)的滿意度的評(píng)分,可通過(guò)五分制或十分制問(wèn)卷獲取,數(shù)值越高表示越滿意;maxvolumechangepenaltyi表示第i個(gè)用戶(hù)的最大音量變化懲罰,avgvolumechangepenaltyi表示第i個(gè)用戶(hù)的平均音量變化懲罰,n是用戶(hù)總數(shù),i為正整數(shù),具體為1、2、3、...、n。通過(guò)利用所有用戶(hù)的最大音量變化懲罰與平均音量變化懲罰的綜合求平均值作為音量突變懲罰,以量化音量突變對(duì)用戶(hù)體驗(yàn)造成的負(fù)面影響。進(jìn)一步根據(jù)所計(jì)算的音量突變懲罰調(diào)整后續(xù)策略,能夠減少不必要的音量波動(dòng)。
14、根據(jù)可選實(shí)施方式,采用長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm),建立音量調(diào)節(jié)模型;輸入當(dāng)前時(shí)間的數(shù)值特征和當(dāng)前監(jiān)控圖像,輸出音量級(jí)別。
15、根據(jù)可選實(shí)施方式,通過(guò)調(diào)整長(zhǎng)短期記憶網(wǎng)絡(luò)的以下超參數(shù):網(wǎng)絡(luò)權(quán)重、層數(shù)、神經(jīng)元數(shù)量、學(xué)習(xí)率,來(lái)最小化均方誤差mse損失函數(shù),不停迭代,直至驗(yàn)證集上兩次訓(xùn)練的準(zhǔn)確率差值小于等于1‰時(shí),結(jié)束模型訓(xùn)練。
16、本發(fā)明第三方面提供一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明第一方面所述的基于融合特征的自動(dòng)音量調(diào)節(jié)方法。
17、本發(fā)明第四方面提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明第一方面所述的基于融合特征的自動(dòng)音量調(diào)節(jié)方法。
18、本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
19、與現(xiàn)有技術(shù)相比,本發(fā)明獲取歷史時(shí)間特征、距離特征、光線特征、噪聲特征,形成數(shù)值特征,從監(jiān)控視頻數(shù)據(jù)中按指定方式抽取關(guān)鍵幀圖像,輸入人體檢測(cè)模型,以獲得視覺(jué)特征,進(jìn)一步基于所述視覺(jué)特征和數(shù)值特征進(jìn)行融合處理,能夠充分提取視頻信息和數(shù)值信息,能夠得到更精確的深度融合特征,構(gòu)建音量調(diào)整模型,并通過(guò)優(yōu)化模型參數(shù)來(lái)優(yōu)化所述音量調(diào)整模型;將當(dāng)前時(shí)間的數(shù)值特征和基于當(dāng)前關(guān)鍵幀圖像所得到的視覺(jué)特征,輸入所述音量調(diào)整模型,能夠得到更精確的預(yù)測(cè)音量值。
20、此外,通過(guò)利用所有用戶(hù)的最大音量變化懲罰與平均音量變化懲罰的綜合求平均值作為音量突變懲罰,以量化音量突變對(duì)用戶(hù)體驗(yàn)造成的負(fù)面影響。進(jìn)一步根據(jù)所計(jì)算的音量突變懲罰調(diào)整后續(xù)策略,能夠減少不必要的音量波動(dòng)。