本發(fā)明涉及人工智能,具體為一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng)。
背景技術(shù):
1、無人便利店是一種新型的零售模式,它在沒有傳統(tǒng)店員值守的情況下,通過先進(jìn)的技術(shù)手段實(shí)現(xiàn)自助購物和運(yùn)營管理。無人便利店通常通過攝像監(jiān)控模塊進(jìn)行實(shí)時(shí)監(jiān)控,利用先進(jìn)的行為識別模塊和算法,對顧客的行為進(jìn)行分析,確保店鋪的安全以及正常的購物秩序,通過門禁控制模塊控制人員的進(jìn)出,顧客可以通過掃碼、刷臉等方式進(jìn)入店鋪?,F(xiàn)有無人便利店的中控系統(tǒng)在行為識別準(zhǔn)確率、交互方式和系統(tǒng)響應(yīng)速度上存在技術(shù)瓶頸,具體表現(xiàn)為:一是行為識別準(zhǔn)確率較低,無法有效應(yīng)對復(fù)雜環(huán)境下的異常行為檢測,如光照變化、遮擋等情況,導(dǎo)致誤報(bào)率較高,影響了店鋪的正常運(yùn)營;二是交互方式較為單一,無法滿足顧客多樣化的需求;三是系統(tǒng)響應(yīng)速度較慢,影響顧客體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),以解決上述背景技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),包括中控主機(jī)模塊、門禁控制模塊、數(shù)據(jù)采集模塊、收銀管理模塊、語音交互模塊、ai交互模塊、行為識別模塊和人工客服介入模塊,所述中控主機(jī)模塊分別與門禁控制模塊、數(shù)據(jù)采集模塊、收銀管理模塊、語音交互模塊、ai交互模塊、行為識別模塊和人工客服介入模塊建立數(shù)據(jù)連接,語音交互模塊與ai交互模塊建立數(shù)據(jù)連接,數(shù)據(jù)采集模塊與行為識別模塊建立數(shù)據(jù)連接。
3、優(yōu)選的,所述門禁控制模塊數(shù)據(jù)連接有電子門鎖和身份識別設(shè)備,身份識別設(shè)備包括人臉識別攝像頭和rfid讀卡器,數(shù)據(jù)采集模塊包括視頻采集攝像頭、深度傳感器和加速度計(jì)。
4、優(yōu)選的,所述收銀管理模塊包括自助收銀設(shè)備、掃碼器和重量傳感器。
5、優(yōu)選的,所述語音交互模塊包括麥克風(fēng)陣列和揚(yáng)聲器。
6、優(yōu)選的,所述ai交互模塊包括語音識別單元、自然語言理解單元和語音合成單元。
7、優(yōu)選的,所述語音識別單元采用基于transformer的端到端語音識別,公式如下:
8、
9、其中,x為語音特征序列,y為識別的文本序列;
10、自然語言理解單元使用預(yù)訓(xùn)練的bert模型進(jìn)行意圖識別和槽位填充,公式如下:
11、intent,slots=bert(y)
12、語音合成單元使用基于tacotron2的神經(jīng)網(wǎng)絡(luò)生成語音頻譜圖,經(jīng)過waveglow生成語音波形,公式如下:
13、mel-spectrogram=tacotron2(text)
14、audio=waveglow(mel-spectrogram)。
15、優(yōu)選的,所述語音識別單元包括特征提取子單元、transformer模型,自然語言理解單元包括意圖識別子單元和槽位填充子單元,語音合成單元包括tacotron2模型和waveglow模型。
16、優(yōu)選的,所述特征提取子單元用于提取梅爾頻譜倒譜系數(shù)mfcc,公式如下:
17、mfcc=dct(log(mel(stft(x))))
18、transformer模型包括編碼器和解碼器,公式如下:
19、編碼器輸出=encoder(mfcc)
20、解碼器輸出=decoder(編碼器輸出,歷史輸出)
21、意圖識別子單元使用bert進(jìn)行文本分類,公式如下:
22、intent=softmax(wintent·bert(text)+bintent)
23、槽位填充子單元用于識別文本的關(guān)鍵信息,公式如下:
24、slots=crf(bert(text))
25、tacotron2模型用于將文本轉(zhuǎn)為語音頻譜圖,公式如下:
26、mel-spectrogram=decoderrnn(encoderrnn(text))
27、waveglow模型用于將頻譜圖轉(zhuǎn)為音頻,公式如下:
28、audio=waveglow(mel-spectrogram)。
29、優(yōu)選的,所述行為識別模塊包括數(shù)據(jù)預(yù)處理單元、時(shí)空特征提取單元、圖卷積網(wǎng)絡(luò)模型、多頭自注意力機(jī)制單元和特征融合與分類單元。
30、優(yōu)選的,所述數(shù)據(jù)預(yù)處理單元用于收集視覺、深度和傳感器數(shù)據(jù),進(jìn)行同步處理,公式如下:
31、x={x視覺,x深度,x傳感器}
32、時(shí)空特征提取單元在3d-cnn模型上引入殘差連接和批量歸一化,公式如下:
33、f時(shí)空=batchnorm(relu(conv3d(x)+x))
34、圖卷積網(wǎng)絡(luò)模型基于人體關(guān)鍵點(diǎn)構(gòu)建時(shí)空圖,使用圖卷積網(wǎng)絡(luò)提取拓?fù)浣Y(jié)構(gòu)特征,構(gòu)建時(shí)空圖是用節(jié)點(diǎn)表示人體關(guān)系,邊表示骨骼連接和時(shí)間序列關(guān)系,卷積計(jì)算公式如下:
35、
36、其中,ak為鄰接矩陣,λk為度矩陣,wk為權(quán)重矩陣,σ為激活函數(shù);
37、多頭自注意力機(jī)制單元的公式如下:
38、
39、其中,q,k,v為查詢、鍵、值矩陣,dk為鍵的維度;
40、特征融合與分類單元的公式如下:
41、f融合=concat(f時(shí)空,fgcn,f注意力)
42、y=softmax(wf融合+b)
43、其中,w和b為權(quán)重和偏置參數(shù)。
44、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明的行為識別模塊采用多模態(tài)數(shù)據(jù)融合和改進(jìn)的深度學(xué)習(xí)算法,實(shí)現(xiàn)在復(fù)雜環(huán)境下對異常行為的高精度識別,引入多頭自注意力機(jī)制有效減少了誤報(bào);ai交互模塊采用基于深度學(xué)習(xí)的語音識別、自然語言處理和語音合成,提供了流暢的語音交互支持,滿足顧客多樣化的需求;通過采用邊緣計(jì)算架構(gòu)實(shí)現(xiàn)了毫秒級的系統(tǒng)響應(yīng),提升了顧客體驗(yàn)。
1.一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),包括中控主機(jī)模塊(1)、門禁控制模塊(2)、數(shù)據(jù)采集模塊(3)、收銀管理模塊(4)、語音交互模塊(5)、ai交互模塊(6)、行為識別模塊(7)和人工客服介入模塊(8),其特征在于:所述中控主機(jī)模塊(1)分別與門禁控制模塊(2)、數(shù)據(jù)采集模塊(3)、收銀管理模塊(4)、語音交互模塊(5)、ai交互模塊(6)、行為識別模塊(7)和人工客服介入模塊(8)建立數(shù)據(jù)連接,語音交互模塊(5)與ai交互模塊(6)建立數(shù)據(jù)連接,數(shù)據(jù)采集模塊(3)與行為識別模塊(7)建立數(shù)據(jù)連接。
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述門禁控制模塊(2)數(shù)據(jù)連接有電子門鎖(21)和身份識別設(shè)備(22),身份識別設(shè)備(22)包括人臉識別攝像頭(221)和rfid讀卡器(222),數(shù)據(jù)采集模塊(3)包括視頻采集攝像頭(31)、深度傳感器(32)和加速度計(jì)(33)。
3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述收銀管理模塊(4)包括自助收銀設(shè)備(41)、掃碼器(42)和重量傳感器(43)。
4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述語音交互模塊(5)包括麥克風(fēng)陣列(51)和揚(yáng)聲器(52)。
5.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述ai交互模塊(6)包括語音識別單元(61)、自然語言理解單元(62)和語音合成單元(63)。
6.根據(jù)權(quán)利要求5所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述語音識別單元(61)采用基于transformer的端到端語音識別,公式如下:
7.根據(jù)權(quán)利要求6所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述語音識別單元(61)包括特征提取子單元(611)、transformer模型(612),自然語言理解單元(62)包括意圖識別子單元(621)和槽位填充子單元(622),語音合成單元(63)包括tacotron2模型(631)和waveglow模型(632)。
8.根據(jù)權(quán)利要求7所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述特征提取子單元(611)用于提取梅爾頻譜倒譜系數(shù)mfcc,公式如下:
9.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述行為識別模塊(7)包括數(shù)據(jù)預(yù)處理單元(71)、時(shí)空特征提取單元(72)、圖卷積網(wǎng)絡(luò)模型(73)、多頭自注意力機(jī)制單元(74)和特征融合與分類單元(75)。
10.根據(jù)權(quán)利要求9所述的一種基于多模態(tài)深度學(xué)習(xí)的云值守便利店智能中控系統(tǒng),其特征在于:所述數(shù)據(jù)預(yù)處理單元(71)用于收集視覺、深度和傳感器數(shù)據(jù),進(jìn)行同步處理,公式如下: