所屬的技術(shù)人員能夠理解,本技術(shù)的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本技術(shù)的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。與上述方法實(shí)施例基于同一發(fā)明構(gòu)思,本技術(shù)實(shí)施例中還提供了一種電子設(shè)備。在一種實(shí)施例中,該電子設(shè)備可以是服務(wù)器,如圖1所示的服務(wù)器120。在該實(shí)施例中,電子設(shè)備的結(jié)構(gòu)可以如圖13所示,包括存儲(chǔ)器1301,通訊模塊1303以及一個(gè)或多個(gè)處理器1302。存儲(chǔ)器1301,用于存儲(chǔ)處理器1302執(zhí)行的計(jì)算機(jī)程序。存儲(chǔ)器1301可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng),以及運(yùn)行即時(shí)通訊功能所需的程序等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)各種即時(shí)通訊信息和操作指令集等。存儲(chǔ)器1301可以是易失性存儲(chǔ)器(volatile?memory),例如隨機(jī)存取存儲(chǔ)器(random-access?memory,ram);存儲(chǔ)器1301也可以是非易失性存儲(chǔ)器(non-volatilememory),例如只讀存儲(chǔ)器,快閃存儲(chǔ)器(flash?memory),硬盤(hard?disk?drive,hdd)或固態(tài)硬盤(solid-state?drive,ssd);或者存儲(chǔ)器1301是能夠用于攜帶或存儲(chǔ)具有指令或數(shù)據(jù)結(jié)構(gòu)形式的期望的計(jì)算機(jī)程序并能夠由計(jì)算機(jī)存取的任何其他介質(zhì),但不限于此。存儲(chǔ)器1301可以是上述存儲(chǔ)器的組合。處理器1302,可以包括一個(gè)或多個(gè)中央處理單元(central?processing?unit,cpu)或者為數(shù)字處理單元等等。處理器1302,用于調(diào)用存儲(chǔ)器1301中存儲(chǔ)的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述語音識(shí)別方法。通訊模塊1303用于與終端設(shè)備和其他服務(wù)器進(jìn)行通信。本技術(shù)實(shí)施例中不限定上述存儲(chǔ)器1301、通訊模塊1303和處理器1302之間的具體連接介質(zhì)。本技術(shù)實(shí)施例在圖13中以存儲(chǔ)器1301和處理器1302之間通過總線1304連接,總線1304在圖13中以粗線描述,其它部件之間的連接方式,僅是進(jìn)行示意性說明,并不引以為限??偩€1304可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于描述,圖13中僅用一條粗線描述,但并不描述僅有一根總線或一種類型的總線。存儲(chǔ)器1301中存儲(chǔ)有計(jì)算機(jī)存儲(chǔ)介質(zhì),計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,計(jì)算機(jī)可執(zhí)行指令用于實(shí)現(xiàn)本技術(shù)實(shí)施例的語音識(shí)別方法。處理器1302用于執(zhí)行上述的語音識(shí)別方法,如圖2所示。在另一種實(shí)施例中,電子設(shè)備也可以是其他電子設(shè)備,如圖1所示的終端設(shè)備110。在該實(shí)施例中,電子設(shè)備的結(jié)構(gòu)可以如圖14所示,包括:通信組件1410、存儲(chǔ)器1420、顯示單元1430、攝像頭1440、傳感器1450、音頻電路1460、藍(lán)牙模塊1470、處理器1480等部件。通信組件1410用于與服務(wù)器進(jìn)行通信。在一些實(shí)施例中,可以包括電路無線保真(wireless?fidelity,wifi)模塊,wifi模塊屬于短距離無線傳輸技術(shù),電子設(shè)備通過wifi模塊可以幫助用戶收發(fā)信息。存儲(chǔ)器1420可用于存儲(chǔ)軟件程序及數(shù)據(jù)。處理器1480通過運(yùn)行存儲(chǔ)在存儲(chǔ)器1420的軟件程序或數(shù)據(jù),從而執(zhí)行終端設(shè)備110的各種功能以及數(shù)據(jù)處理。存儲(chǔ)器1420可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。存儲(chǔ)器1420存儲(chǔ)有使得終端設(shè)備110能運(yùn)行的操作系統(tǒng)。本技術(shù)中存儲(chǔ)器1420可以存儲(chǔ)操作系統(tǒng)及各種應(yīng)用程序,還可以存儲(chǔ)執(zhí)行本技術(shù)實(shí)施例語音識(shí)別方法的計(jì)算機(jī)程序。顯示單元1430還可用于顯示由用戶輸入的信息或提供給用戶的信息以及終端設(shè)備110的各種菜單的圖形用戶界面(graphical?user?interface,gui)。具體地,顯示單元1430可以包括設(shè)置在終端設(shè)備110正面的顯示屏1432。其中,顯示屏1432可以采用液晶顯示器、發(fā)光二極管等形式來配置。顯示單元1430可以用于顯示本技術(shù)實(shí)施例中的用戶界面、文本識(shí)別結(jié)果等。顯示單元1430還可用于接收輸入的數(shù)字或字符信息,產(chǎn)生與終端設(shè)備110的用戶設(shè)置以及功能控制有關(guān)的信號(hào)輸入,具體地,顯示單元1430可以包括設(shè)置在終端設(shè)備110正面的觸控屏1431,可收集用戶在其上或附近的觸摸操作,例如點(diǎn)擊按鈕,拖動(dòng)滾動(dòng)框等。其中,觸控屏1431可以覆蓋在顯示屏1432之上,也可以將觸控屏1431與顯示屏1432集成而實(shí)現(xiàn)終端設(shè)備110的輸入和輸出功能,集成后可以簡稱觸摸顯示屏。本技術(shù)中顯示單元1430可以顯示應(yīng)用程序以及對(duì)應(yīng)的操作步驟。攝像頭1440可用于捕獲靜態(tài)圖像,用戶可以將攝像頭1440拍攝的圖像通過應(yīng)用發(fā)布。攝像頭1440可以是一個(gè),也可以是多個(gè)。物體通過鏡頭生成光學(xué)圖像投射到感光元件。感光元件可以是電荷耦合器件(charge?coupled?device,ccd)或互補(bǔ)金屬氧化物半導(dǎo)體(complementary?metal-oxide-semiconductor,cmos)光電晶體管。感光元件把光信號(hào)轉(zhuǎn)換成電信號(hào),之后將電信號(hào)傳遞給處理器1480轉(zhuǎn)換成數(shù)字圖像信號(hào)。終端設(shè)備還可以包括至少一種傳感器1450,比如加速度傳感器1451、距離傳感器1452、指紋傳感器1453、溫度傳感器1454。終端設(shè)備還可配置有陀螺儀、氣壓計(jì)、濕度計(jì)、溫度計(jì)、紅外線傳感器、光傳感器、運(yùn)動(dòng)傳感器等其他傳感器。音頻電路1460、揚(yáng)聲器1461、傳聲器1462可提供用戶與終端設(shè)備110之間的音頻接口。音頻電路1460可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號(hào),傳輸?shù)綋P(yáng)聲器1461,由揚(yáng)聲器1461轉(zhuǎn)換為聲音信號(hào)輸出。終端設(shè)備110還可配置音量按鈕,用于調(diào)節(jié)聲音信號(hào)的音量。另一方面,傳聲器1462將收集的聲音信號(hào)轉(zhuǎn)換為電信號(hào),由音頻電路1460接收后轉(zhuǎn)換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出至通信組件1410以發(fā)送給比如另一終端設(shè)備110,或者將音頻數(shù)據(jù)輸出至存儲(chǔ)器1420以便進(jìn)一步處理。藍(lán)牙模塊1470用于通過藍(lán)牙協(xié)議來與其他具有藍(lán)牙模塊的藍(lán)牙設(shè)備進(jìn)行信息交互。例如,終端設(shè)備可以通過藍(lán)牙模塊1470與同樣具備藍(lán)牙模塊的可穿戴電子設(shè)備(例如智能手表)建立藍(lán)牙連接,從而進(jìn)行數(shù)據(jù)交互。處理器1480是終端設(shè)備的控制中心,利用各種接口和線路連接整個(gè)終端的各個(gè)部分,通過運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器1420內(nèi)的軟件程序,以及調(diào)用存儲(chǔ)在存儲(chǔ)器1420內(nèi)的數(shù)據(jù),執(zhí)行終端設(shè)備的各種功能和處理數(shù)據(jù)。在一些實(shí)施例中,處理器1480可包括一個(gè)或多個(gè)處理單元;處理器1480還可以集成應(yīng)用處理器和基帶處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,基帶處理器主要處理無線通信??梢岳斫獾氖?,上述基帶處理器也可以不集成到處理器1480中。本技術(shù)中處理器1480可以運(yùn)行操作系統(tǒng)、應(yīng)用程序、用戶界面顯示及觸控響應(yīng),以及本技術(shù)實(shí)施例的語音識(shí)別方法。另外,處理器1480與顯示單元1430耦接。在一些可能的實(shí)施方式中,本技術(shù)提供的語音識(shí)別方法的各個(gè)方面還可以實(shí)現(xiàn)為一種程序產(chǎn)品的形式,其包括計(jì)算機(jī)程序,當(dāng)程序產(chǎn)品在電子設(shè)備上運(yùn)行時(shí),計(jì)算機(jī)程序用于使電子設(shè)備執(zhí)行本說明書上述描述的根據(jù)本技術(shù)各種示例性實(shí)施方式的語音識(shí)別方法中的步驟,例如,電子設(shè)備可以執(zhí)行如圖2中所示的步驟。程序產(chǎn)品可以采用一個(gè)或多個(gè)可讀介質(zhì)的任意組合??勺x介質(zhì)可以是可讀信號(hào)介質(zhì)或者可讀存儲(chǔ)介質(zhì)??勺x存儲(chǔ)介質(zhì)例如可以是但不限于電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合??勺x存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。本技術(shù)的實(shí)施方式的程序產(chǎn)品可以采用便攜式緊湊盤只讀存儲(chǔ)器(cd-rom)并包括計(jì)算機(jī)程序,并可以在電子設(shè)備上運(yùn)行。然而,本技術(shù)的程序產(chǎn)品不限于此,在本文件中,可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被命令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用??勺x信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了可讀計(jì)算機(jī)程序。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合??勺x信號(hào)介質(zhì)還可以是可讀存儲(chǔ)介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由命令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序??勺x介質(zhì)上包含的計(jì)算機(jī)程序可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、rf等等,或者上述的任意合適的組合。可以以一種或多種程序設(shè)計(jì)語言的任意組合來編寫用于執(zhí)行本技術(shù)操作的計(jì)算機(jī)程序,程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、c++等,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如“c”語言或類似的程序設(shè)計(jì)語言。計(jì)算機(jī)程序可以完全地在用戶電子設(shè)備上執(zhí)行、部分地在用戶電子設(shè)備上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶電子設(shè)備上部分在遠(yuǎn)程電子設(shè)備上執(zhí)行、或者完全在遠(yuǎn)程電子設(shè)備或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程電子設(shè)備的情形中,遠(yuǎn)程電子設(shè)備可以通過任意種類的網(wǎng)絡(luò)包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)連接到用戶電子設(shè)備,或者,可以連接到外部電子設(shè)備(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。應(yīng)當(dāng)注意,盡管在上文詳細(xì)描述中提及了裝置的若干單元或子單元,但是這種劃分僅僅是示例性的并非強(qiáng)制性的。實(shí)際上,根據(jù)本技術(shù)的實(shí)施方式,上文描述的兩個(gè)或更多單元的特征和功能可以在一個(gè)單元中具體化。反之,上文描述的一個(gè)單元的特征和功能可以進(jìn)一步劃分為由多個(gè)單元來具體化。此外,盡管在附圖中以特定順序描述了本技術(shù)方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實(shí)現(xiàn)期望的結(jié)果。附加地或備選地,可以省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,和/或?qū)⒁粋€(gè)步驟分解為多個(gè)步驟執(zhí)行。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本技術(shù)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本技術(shù)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本技術(shù)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用計(jì)算機(jī)程序的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本技術(shù)是參照根據(jù)本技術(shù)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序命令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序命令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的命令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序命令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的命令產(chǎn)生包括命令裝置的制造品,該命令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序命令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的命令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本技術(shù)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本技術(shù)范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本技術(shù)進(jìn)行各種改動(dòng)和變型而不脫離本技術(shù)的精神和范圍。這樣,倘若本技術(shù)的這些修改和變型屬于本技術(shù)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本技術(shù)也意圖包含這些改動(dòng)和變型在內(nèi)。
背景技術(shù):
1、語音識(shí)別技術(shù)指的是通過對(duì)語音信號(hào)進(jìn)行識(shí)別,將語音信號(hào)轉(zhuǎn)變成對(duì)應(yīng)的文本的技術(shù)。實(shí)時(shí)語音識(shí)別則是指結(jié)合語音識(shí)別技術(shù),在對(duì)象說話的同時(shí),同步給出文本識(shí)別結(jié)果。
2、相關(guān)技術(shù)中的語音識(shí)別系統(tǒng),常采用端到端模型將語音信號(hào)轉(zhuǎn)換為文本,但是,在高并發(fā)情況下,會(huì)導(dǎo)致極短單位時(shí)間內(nèi),多個(gè)請(qǐng)求同時(shí)發(fā)起到語音識(shí)別系統(tǒng),導(dǎo)致該模型的解碼效率較低。
3、因而,如何提高語音識(shí)別效率是亟待解決的。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種語音識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),用以提高語音識(shí)別效率。
2、本技術(shù)實(shí)施例提供的一種語音識(shí)別方法,包括:
3、獲取待識(shí)別語音,并通過目標(biāo)編碼器對(duì)所述待識(shí)別語音進(jìn)行編碼,獲取所述待識(shí)別語音對(duì)應(yīng)的候選編碼特征;
4、根據(jù)所述待識(shí)別語音的幀分布信息,獲得所述待識(shí)別語音中的每一語音幀各自對(duì)應(yīng)的空白幀概率,并基于獲得的空白幀概率,從所述待識(shí)別語音中篩選出至少一個(gè)目標(biāo)幀;所述幀分布信息表示所述待識(shí)別語音中的每一語音幀在字典空間的概率分布;所述空白幀概率表示語音幀為空白幀的概率;
5、從所述候選編碼特征中,篩選出所述至少一個(gè)目標(biāo)幀對(duì)應(yīng)的目標(biāo)候選編碼特征;
6、基于所述目標(biāo)候選編碼特征進(jìn)行解碼,得到所述待識(shí)別語音對(duì)應(yīng)的文本識(shí)別結(jié)果。
7、本技術(shù)實(shí)施例提供的一種語音識(shí)別裝置,包括:
8、編碼單元,用于獲取待識(shí)別語音,并通過目標(biāo)編碼器對(duì)所述待識(shí)別語音進(jìn)行編碼,獲取所述待識(shí)別語音對(duì)應(yīng)的候選編碼特征;
9、篩選單元,用于根據(jù)所述待識(shí)別語音的幀分布信息,獲得所述待識(shí)別語音中的每一語音幀各自對(duì)應(yīng)的空白幀概率,并基于獲得的空白幀概率,從所述待識(shí)別語音中篩選出至少一個(gè)目標(biāo)幀;所述幀分布信息表示所述待識(shí)別語音中的每一語音幀在字典空間的概率分布;所述空白幀概率表示語音幀為空白幀的概率;從所述候選編碼特征中,篩選出所述至少一個(gè)目標(biāo)幀對(duì)應(yīng)的目標(biāo)候選編碼特征;
10、解碼單元,用于基于所述目標(biāo)候選編碼特征進(jìn)行解碼,得到所述待識(shí)別語音對(duì)應(yīng)的文本識(shí)別結(jié)果。
11、可選的,所述篩選單元具體用于:
12、根據(jù)獲得的空白幀概率,確定所述待識(shí)別語音中的空白幀與非空白幀;
13、將非空白幀、位于內(nèi)容重復(fù)的候選幀之間的空白幀,以及空白幀概率小于預(yù)設(shè)閾值的空白幀,作為目標(biāo)幀;其中,所述內(nèi)容重復(fù)的候選幀為:所述待識(shí)別語音包含的各個(gè)非空白幀中,位置相鄰且內(nèi)容重復(fù)的非空白幀。
14、可選的,所述篩選單元具體用于:
15、將位于內(nèi)容重復(fù)的候選幀之間的空白幀,作為目標(biāo)幀;
16、將除所述位于內(nèi)容重復(fù)的候選幀之間的空白幀外,對(duì)應(yīng)的空白幀概率小于預(yù)設(shè)閾值的空白幀,作為目標(biāo)幀。
17、可選的,若所述內(nèi)容重復(fù)的候選幀之間包含連續(xù)的至少兩個(gè)空白幀;
18、則所述篩選單元具體用于:
19、將所述連續(xù)的至少兩個(gè)空白幀中的部分或全部,作為所述目標(biāo)幀。
20、可選的,在實(shí)時(shí)語音識(shí)別場(chǎng)景下,所述目標(biāo)編碼器為已訓(xùn)練的第一實(shí)時(shí)語音模型中的流式編碼器;
21、則所述編碼單元具體用于:
22、獲取的所述待識(shí)別語音的長度達(dá)到第一預(yù)設(shè)時(shí)長時(shí),則基于所述第一實(shí)時(shí)語音識(shí)別模型對(duì)所述待識(shí)別語音進(jìn)行特征提取,得到語音特征序列;
23、通過所述流式編碼器對(duì)所述語音特征序列進(jìn)行編碼,得到所述候選編碼特征并緩存;
24、以及,所述解碼單元還用于:
25、基于所述第一實(shí)時(shí)語音識(shí)別模型,對(duì)所述候選編碼特征進(jìn)行解碼,并將解碼得到的實(shí)時(shí)識(shí)別文本作為所述待識(shí)別語音對(duì)應(yīng)的文本識(shí)別結(jié)果。
26、可選的,所述編碼單元還用于:
27、在所述篩選單元根據(jù)所述待識(shí)別語音的幀分布信息,獲得所述待識(shí)別語音中的每一語音幀各自對(duì)應(yīng)的空白幀概率之前,執(zhí)行以下操作:
28、獲取的所述待識(shí)別語音的長度達(dá)到第二預(yù)設(shè)時(shí)長時(shí),將所述第二預(yù)設(shè)時(shí)長內(nèi)編碼得到的多個(gè)候選編碼特征,經(jīng)過所述第一實(shí)時(shí)語音識(shí)別模型中的分類線性層與激活函數(shù)進(jìn)行特征提取,得到所述幀分布信息;所述第二預(yù)設(shè)時(shí)長大于所述第一預(yù)設(shè)時(shí)長。
29、可選的,所述第一實(shí)時(shí)語音識(shí)別模型還包括級(jí)聯(lián)編碼器;
30、則所述篩選單元具體用于:
31、從所述多個(gè)候選編碼特征中,篩選出所述至少一個(gè)目標(biāo)幀對(duì)應(yīng)的目標(biāo)候選編碼特征;
32、則所述解碼單元具體用于:
33、基于所述級(jí)聯(lián)編碼器,對(duì)所述目標(biāo)候選編碼特征進(jìn)行編碼,得到目標(biāo)編碼特征;
34、基于所述第一實(shí)時(shí)語音識(shí)別模型,對(duì)所述目標(biāo)編碼特征進(jìn)行解碼,并將解碼得到的目標(biāo)識(shí)別文本作為所述待識(shí)別語音對(duì)應(yīng)的文本識(shí)別結(jié)果。
35、可選的,在實(shí)時(shí)語音識(shí)別場(chǎng)景下,所述目標(biāo)編碼器為已訓(xùn)練的第二實(shí)時(shí)語音模型中的流式編碼器;
36、則所述編碼單元具體用于:
37、獲取的所述待識(shí)別語音的長度達(dá)到第一預(yù)設(shè)時(shí)長時(shí),則基于第二實(shí)時(shí)語音識(shí)別模型對(duì)所述待識(shí)別語音進(jìn)行特征提取,得到語音特征序列;
38、通過所述流式編碼器對(duì)所述語音特征序列進(jìn)行編碼,得到所述流式編碼器的中間層輸出的幀分布信息和最終輸出的候選編碼特征,并緩存所述候選編碼特征;
39、以及,所述解碼單元還用于:
40、基于所述第二實(shí)時(shí)語音識(shí)別模型,對(duì)所述候選編碼特征進(jìn)行解碼,并將解碼得到的實(shí)時(shí)識(shí)別文本作為所述待識(shí)別語音對(duì)應(yīng)的文本識(shí)別結(jié)果。
41、可選的,所述第二實(shí)時(shí)語音識(shí)別模型還包括級(jí)聯(lián)編碼器;
42、則所述篩選單元具體用于:
43、獲取的所述待識(shí)別語音的長度達(dá)到第二預(yù)設(shè)時(shí)長時(shí),從所述第二預(yù)設(shè)時(shí)長內(nèi)編碼得到的多個(gè)候選編碼特征中,篩選出所述至少一個(gè)目標(biāo)幀對(duì)應(yīng)的目標(biāo)候選編碼特征;所述第二預(yù)設(shè)時(shí)長大于所述第一預(yù)設(shè)時(shí)長;
44、則所述解碼單元具體用于:
45、基于所述級(jí)聯(lián)編碼器,對(duì)所述目標(biāo)候選編碼特征進(jìn)行編碼,得到目標(biāo)編碼特征;
46、基于所述第二實(shí)時(shí)語音識(shí)別模型,對(duì)所述目標(biāo)編碼特征進(jìn)行解碼,并將解碼得到的目標(biāo)識(shí)別文本作為所述待識(shí)別語音對(duì)應(yīng)的文本識(shí)別結(jié)果。
47、可選的,在非實(shí)時(shí)語音識(shí)別場(chǎng)景下,所述目標(biāo)編碼器為已訓(xùn)練的非實(shí)時(shí)語音模型中的非實(shí)時(shí)編碼器;
48、則所述編碼單元具體用于:
49、基于非實(shí)時(shí)語音識(shí)別模型對(duì)所述待識(shí)別語音進(jìn)行特征提取,得到語音特征序列;
50、通過所述非實(shí)時(shí)編碼器對(duì)所述待識(shí)別語音進(jìn)行編碼,得到所述非實(shí)時(shí)編碼器的中間層輸出的幀分布信息和候選編碼特征;
51、以及,所述解碼單元具體用于:
52、獲取所述非實(shí)時(shí)編碼器最終對(duì)目標(biāo)候選編碼特征進(jìn)行編碼得到的目標(biāo)編碼特征;
53、通過所述非實(shí)時(shí)語音識(shí)別模型,對(duì)所述目標(biāo)編碼特征進(jìn)行解碼,得到所述待識(shí)別語音對(duì)應(yīng)的文本識(shí)別結(jié)果。
54、可選的,在訓(xùn)練所述第一實(shí)時(shí)語音識(shí)別模型時(shí),相應(yīng)的損失函數(shù)包括:
55、基于所述第一實(shí)時(shí)語音識(shí)別模型輸出的文本識(shí)別結(jié)果,與標(biāo)注的文本識(shí)別結(jié)果之間的差異,構(gòu)建的聯(lián)結(jié)時(shí)序分類(connectionist?temporal?classification,ctc)損失和交叉熵?fù)p失;
56、基于經(jīng)過所述第一實(shí)時(shí)語音識(shí)別模型中的分類線性層與激活函數(shù)進(jìn)行特征提取,得到的幀分布信息,與標(biāo)注的幀分布信息之間的差異,構(gòu)建的ctc損失。
57、可選的,在訓(xùn)練所述第二實(shí)時(shí)語音識(shí)別模型時(shí),相應(yīng)的損失函數(shù)包括:
58、基于所述第二實(shí)時(shí)語音識(shí)別模型輸出的文本識(shí)別結(jié)果,與標(biāo)注的文本識(shí)別結(jié)果之間的差異,構(gòu)建的ctc損失和交叉熵?fù)p失;
59、基于所述流式編碼器的中間層輸出的幀分布信息,與標(biāo)注的幀分布信息之間的差異,構(gòu)建的ctc損失。
60、可選的,在訓(xùn)練所述非實(shí)時(shí)語音識(shí)別模型時(shí),相應(yīng)的損失函數(shù)包括:
61、基于所述非實(shí)時(shí)語音識(shí)別模型獲取的文本識(shí)別結(jié)果,與標(biāo)注的文本識(shí)別結(jié)果之間的差異,構(gòu)建的交叉熵?fù)p失;
62、基于所述非實(shí)時(shí)編碼器的中間層輸出的幀分布信息,與標(biāo)注的幀分布信息之間的差異,構(gòu)建的ctc損失。
63、本技術(shù)實(shí)施例提供的一種電子設(shè)備,包括處理器和存儲(chǔ)器,其中,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行上述任意一種語音識(shí)別方法的步驟。
64、本技術(shù)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在電子設(shè)備上運(yùn)行時(shí),所述計(jì)算機(jī)程序用于使所述電子設(shè)備執(zhí)行上述任意一種語音識(shí)別方法的步驟。
65、本技術(shù)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中;當(dāng)電子設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取所述計(jì)算機(jī)程序時(shí),所述處理器執(zhí)行所述計(jì)算機(jī)程序,使得所述電子設(shè)備執(zhí)行上述任意一種語音識(shí)別方法的步驟。
66、本技術(shù)有益效果如下:
67、本技術(shù)實(shí)施例提供了一種語音識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。由于本技術(shù)中的語音識(shí)別方法,在對(duì)待識(shí)別語音進(jìn)行編碼后,并非直接進(jìn)行解碼,而是根據(jù)待識(shí)別語音的幀分布信息,確定各語音幀各自對(duì)應(yīng)的空白幀概率,并基于此概率,刪除掉一些重要度較低的空白幀,以從待識(shí)別語音中篩選出至少一個(gè)目標(biāo)幀保留,從而實(shí)現(xiàn)輸出幀的壓縮;在解碼時(shí),僅僅基于篩選后的目標(biāo)幀對(duì)應(yīng)的目標(biāo)候選編碼特征進(jìn)行解碼即可,該方式下,可在性能損失很小的前提下,提升解碼效率,以有效提高語音識(shí)別效率。并且,在高并發(fā)的情況下,每個(gè)請(qǐng)求都可基于上述方式提高該請(qǐng)求的語音識(shí)別效率。
68、本技術(shù)的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本技術(shù)而了解。本技術(shù)的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。