本發(fā)明涉及行為識別,特別是涉及一種基于不確定性估計的第一視角行為識別方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、隨著智能眼鏡等可穿戴技術(shù)的廣泛應用,以自我為中心(即第一視角)的視頻行為識別(video?action?recognition,var)正逐漸成為視頻行為識別領(lǐng)域的一個重大轉(zhuǎn)折點。這些設備從根本上改變了數(shù)據(jù)收集的方式,提供了第一人稱視角,這在增強現(xiàn)實和機器人技術(shù)等領(lǐng)域尤為重要。通過這種視角,系統(tǒng)可以更深入地了解用戶的交互行為,從而提升用戶體驗,覆蓋從個人助理到醫(yī)療監(jiān)控以及互動游戲等廣泛的應用場景。
3、然而,第一視角視頻行為識別面臨著獨特的挑戰(zhàn),特別是在開放集識別的背景下。開放集識別要求系統(tǒng)不僅能夠識別已知的動作類別,還能檢測并標記出從未見過的新動作,將其歸為“未知”類別。這一要求源于封閉集環(huán)境的局限性,封閉集環(huán)境下的分類器通常僅在預定義的類別上進行訓練和測試,缺乏應對新出現(xiàn)的、未曾見過的類別的能力。而在現(xiàn)實世界中,隨著技術(shù)的不斷發(fā)展和應用的變化,新操作層出不窮,這對行為識別系統(tǒng)的適應性提出了更高的要求。
4、當前的自我視角視頻行為識別研究大多集中在封閉集場景上,因此常常無法有效處理開放集環(huán)境中的復雜性。這一缺陷進一步強調(diào)了開發(fā)新的識別方法的必要性,使其能夠在識別范圍廣泛的操作時保持高精度和高可靠性,尤其是在遇到新穎且未見過的操作時。
5、將第三視角的視頻動作識別方法直接應用到第一視角行為識別上存在明顯的局限性。雖然第三視角的視頻動作識別在大量研究、復雜模型和數(shù)據(jù)集開發(fā)的推動下取得了顯著進展,但這些方法難以直接應用于第一視角視頻動作識別。主要挑戰(zhàn)在于兩者在數(shù)據(jù)特征上的差異以及視角不同導致的對動作上下文理解的不同。第一視角的視頻通常未經(jīng)預處理,并且由于視角的局限和運動模糊等原因,要求同時進行動作和物體的識別。例如,在處理“切菜”這一行為時,系統(tǒng)不僅需要識別動詞“切”,還需識別名詞“蔬菜”,而這在第三視角的視頻動作識別中通常并不需要如此細致的處理。因此,第一視角行為識別的方法需要進一步發(fā)展,以克服這些獨特的挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了一種基于不確定性估計的第一視角行為識別方法及系統(tǒng),不僅可以識別視頻中的動作和對象,還能夠評估這些識別結(jié)果的確定性,在應對不確定性和未知動作時更具優(yōu)勢,顯著提高了開放集第一視角行為識別任務的準確度,使得在開放環(huán)境中的應用更加可靠。
2、為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、第一方面,本發(fā)明提供一種基于不確定性估計的第一視角行為識別方法,包括以下步驟:
4、獲取第一視角視頻,對第一視角視頻進行預處理,獲得訓練樣本;
5、對訓練樣本進行多階段不同尺度的特征提取,對不同階段的特征進行整合,獲得第一特征;
6、對第一特征進行分類預測,量化分類結(jié)果的不確定性,獲得分類的證據(jù)向量,定義第一損失函數(shù),最小化模型預測的證據(jù)參數(shù)和真實情況的差異,獲得預測標簽,定義第二損失函數(shù),最小化預測標簽與真實標簽之間的差異;
7、匯總損失函數(shù),優(yōu)化模型參數(shù),獲得訓練好的行為識別模型。
8、作為可選擇的實施方式,對第一視角視頻進行預處理,包括對獲取的第一視角視頻進行真實標簽的標注。
9、作為可選擇的實施方式,對訓練樣本進行多階段不同尺度的特征提取,具體為:
10、在每個特征提取階段,利用動態(tài)位置嵌入捕獲視頻中的空間和時間位置信息,利用多頭關(guān)系聚合器聚合不同時間幀的關(guān)系信息,利用前饋網(wǎng)絡進一步提取和強化特征。
11、作為可選擇的實施方式,共有四個特征提取階段,每個特征提取階段的特征提取尺度不同,通過整合不同階段的特征,獲得層次化的特征表示。
12、作為可選擇的實施方式,所述第一損失函數(shù)定義為:
13、
14、其中,表示狄利克雷集中參數(shù)在k個類別中的總和,代表證據(jù)的整體強度,是一個常數(shù),log(αj)是對模型預測的證據(jù)參數(shù)αj的對數(shù)變換,tj是與動作標簽y相對應的獨熱編碼向量中的二進制指示器,j為分類類別,k代表類別數(shù)量。
15、作為可選擇的實施方式,所述第二損失函數(shù)定義為:
16、
17、其中,tj是與動作標簽y相對應的獨熱編碼向量中的二進制指示器,j為分類類別,k代表類別數(shù)量,是模型對于第j個類別的原始預測值。
18、第二方面,本發(fā)明提供一種基于不確定性估計的第一視角行為識別系統(tǒng),包括:
19、數(shù)據(jù)獲取和預處理模塊,被配置為:獲取第一視角視頻,對第一視角視頻進行預處理,獲得訓練樣本;
20、特征提取模塊,被配置為:對訓練樣本進行多階段不同尺度的特征提取,對不同階段的特征進行整合,獲得第一特征;
21、分類模塊,被配置為:對第一特征進行分類預測,量化分類結(jié)果的不確定性,獲得分類的證據(jù)向量,定義第一損失函數(shù),最小化模型預測的證據(jù)參數(shù)和真實情況的差異,獲得預測標簽,定義第二損失函數(shù),最小化預測標簽與真實標簽之間的差異;
22、模型訓練模塊,被配置為:匯總損失函數(shù),優(yōu)化模型參數(shù),獲得訓練好的行為識別模型。
23、第三方面,本發(fā)明提供一種電子設備,包括存儲器和處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成第一方面所述的方法。
24、第四方面,本發(fā)明提供一種計算機可讀存儲介質(zhì),用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,完成第一方面所述的方法。
25、第五方面,本發(fā)明提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)完成第一方面所述的方法。
26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
27、本公開提出一種基于不確定性估計的第一視角行為識別方法及系統(tǒng),基于openear框架,能夠有效處理第一人稱視角下常見的多樣化且未經(jīng)策劃的內(nèi)容。通過多尺度的特征提取,能夠理解第一視角視頻中的復雜動作,通過四個階段的特征提取過程,有效地捕捉到視頻中的局部細節(jié)和全局上下文信息。通過與雙頭證據(jù)深度網(wǎng)絡分類器相結(jié)合,達到對開放集的第一視角視頻動作進行可信的、具有動名詞區(qū)分的識別的良好性能。不僅可以識別視頻中的動作和對象,還能夠評估這些識別結(jié)果的確定性。這種能力使得模型在應對不確定性和未知動作時更具優(yōu)勢,在復雜多變的環(huán)境中能夠保持較高的識別準確性。顯著提高了開放集第一視角行為識別任務的準確度,使得在開放環(huán)境中的應用更加可靠。
28、本發(fā)明附加方面的優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
1.基于不確定性估計的第一視角行為識別方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于不確定性估計的第一視角行為識別方法,其特征在于,對第一視角視頻進行預處理,包括對獲取的第一視角視頻進行真實標簽的標注。
3.如權(quán)利要求1所述的基于不確定性估計的第一視角行為識別方法,其特征在于,對訓練樣本進行多階段不同尺度的特征提取,具體為:
4.如權(quán)利要求3所述的基于不確定性估計的第一視角行為識別方法,其特征在于,共有四個特征提取階段,每個特征提取階段的特征提取尺度不同,通過整合不同階段的特征,獲得層次化的特征表示。
5.如權(quán)利要求1所述的基于不確定性估計的第一視角行為識別方法,其特征在于,所述第一損失函數(shù)定義為:
6.如權(quán)利要求1所述的基于不確定性估計的第一視角行為識別方法,其特征在于,所述第二損失函數(shù)定義為:
7.基于不確定性估計的第一視角行為識別系統(tǒng),其特征在于,包括:
8.一種電子設備,其特征在于,包括存儲器和處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成權(quán)利要求1-6任一項所述的方法。
9.一種計算機可讀存儲介質(zhì),其特征在于,用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,完成權(quán)利要求1-6任一項所述的方法。
10.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)完成權(quán)利要求1-6任一項所述的方法。