两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于人工智能的跨語種語音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì)與流程

文檔序號:11252371閱讀:1023來源:國知局
基于人工智能的跨語種語音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì)與流程

【技術(shù)領(lǐng)域】

本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的跨語種語音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì)。



背景技術(shù):

人工智能(artificialintelligence;ai),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。

隨著語音技術(shù)的發(fā)展,從語音到對應(yīng)文本的語音轉(zhuǎn)錄在日常生活中逐步的普及。然而,當(dāng)前的語音轉(zhuǎn)錄技術(shù)只能識別轉(zhuǎn)錄當(dāng)前語種的語音,例如一段普通話的語音,對應(yīng)的轉(zhuǎn)錄結(jié)果會為其對應(yīng)的漢字文本,而并不能滿足跨語種語音轉(zhuǎn)錄的需求,例如無法將輸入的一段普通話語音,直接輸出跨語種語音轉(zhuǎn)錄的對應(yīng)的英文翻譯文本。為了實(shí)現(xiàn)跨語種的語音轉(zhuǎn)錄,現(xiàn)有技術(shù)中多采用兩步走的方案:首先,通過語音識別工具對輸入的語音進(jìn)行轉(zhuǎn)錄生成文本;然后,通過機(jī)器翻譯的方法,對前面生成的文本進(jìn)行翻譯,最后得到跨語種的語音轉(zhuǎn)錄文本結(jié)果。

但是現(xiàn)有的跨語種語音轉(zhuǎn)錄時,若第一步的語音識別工具識別錯誤,那么機(jī)器翻譯得到的最終的語音轉(zhuǎn)錄文本便無可避免地發(fā)生錯誤,即現(xiàn)有技術(shù)的跨語種語音轉(zhuǎn)錄不可避免地會發(fā)生錯誤累積的問題,導(dǎo)致現(xiàn)有技術(shù)的跨語種語音轉(zhuǎn)錄準(zhǔn)確性較差、轉(zhuǎn)錄效率較低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一種基于人工智能的跨語種語音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì),用于提高跨語種語音轉(zhuǎn)錄準(zhǔn)確性和轉(zhuǎn)錄效率。

本發(fā)明提供一種基于人工智能的跨語種語音轉(zhuǎn)錄方法,所述方法包括:

將待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個聲學(xué)特征;所述待轉(zhuǎn)錄的語音數(shù)據(jù)采用第一語種表示;

根據(jù)多個所述聲學(xué)特征以及預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測所述語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,所述翻譯文本采用第二語種表示,所述第二語種不同于所述第一語種。

進(jìn)一步可選地,如上所述的方法中,將待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個聲學(xué)特征,具體包括:

對所述待轉(zhuǎn)錄的語音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個語音數(shù)據(jù)采樣點(diǎn);

對所述多個語音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制文件;

從所述脈沖編碼調(diào)制文件中提取多個所述聲學(xué)特征。

進(jìn)一步可選地,如上所述的方法中,從所述脈沖編碼調(diào)制文件中提取多個所述聲學(xué)特征,具體包括:

從所述脈沖編碼調(diào)制文件的開頭選取預(yù)設(shè)幀長的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取所述預(yù)設(shè)幀長的數(shù)據(jù)幀,共得到多個所述數(shù)據(jù)幀;

分別從多個所述數(shù)據(jù)幀中提取每個所述數(shù)據(jù)幀的聲學(xué)特征,得到多個所述聲學(xué)特征。

進(jìn)一步可選地,如上所述的方法中,根據(jù)多個所述聲學(xué)特征以及預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測所述語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本之前,所述方法還包括:

采集數(shù)條所述第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條所述訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為所述第二語種表示的真實(shí)翻譯文本;

采用各條所述訓(xùn)練語音數(shù)據(jù)和對應(yīng)的所述真實(shí)翻譯文本,訓(xùn)練所述跨語種轉(zhuǎn)錄模型。

進(jìn)一步可選地,如上所述的方法中,采用各條所述訓(xùn)練語音數(shù)據(jù)和對應(yīng)的所述真實(shí)翻譯文本,訓(xùn)練所述跨語種轉(zhuǎn)錄模型,具體包括:

將當(dāng)前的所述訓(xùn)練語音數(shù)據(jù)代入所述跨語種轉(zhuǎn)錄模型,使得所述跨語種轉(zhuǎn)錄模型預(yù)測所述訓(xùn)練語音數(shù)據(jù)對應(yīng)的預(yù)測翻譯文本;

判斷所述訓(xùn)練語音數(shù)據(jù)的所述預(yù)測翻譯文本與所述真實(shí)翻譯文本是否一致;

若不一致時,修改所述跨語種轉(zhuǎn)錄模型的模型參數(shù),使得所述跨語種轉(zhuǎn)錄模型預(yù)測的所述訓(xùn)練語音數(shù)據(jù)的所述預(yù)測翻譯文本與對應(yīng)的所述真實(shí)翻譯文本趨于一致;并繼續(xù)選擇下一條所述訓(xùn)練語音數(shù)據(jù)進(jìn)行訓(xùn)練;

利用各條所述訓(xùn)練語音數(shù)據(jù),按照執(zhí)行上述步驟,重復(fù)對所述跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至所述跨語種轉(zhuǎn)錄模型預(yù)測的所述訓(xùn)練語音數(shù)據(jù)的所述預(yù)測翻譯文本與對應(yīng)的所述真實(shí)翻譯文本一致,確定所述跨語種轉(zhuǎn)錄模型的模型參數(shù),從而確定所述跨語種轉(zhuǎn)錄模型。

本發(fā)明提供一種基于人工智能的跨語種語音轉(zhuǎn)錄裝置,所述裝置包括:

獲取模塊,用于將待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個聲學(xué)特征;所述待轉(zhuǎn)錄的語音數(shù)據(jù)采用第一語種表示;

預(yù)測模塊,用于根據(jù)多個所述聲學(xué)特征以及預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測所述語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,所述翻譯文本采用第二語種表示,所述第二語種不同于所述第一語種。

進(jìn)一步可選地,如上所述的裝置中,所述獲取模塊,具體用于:

對所述待轉(zhuǎn)錄的語音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個語音數(shù)據(jù)采樣點(diǎn);

對所述多個語音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制文件;

從所述脈沖編碼調(diào)制文件中提取多個所述聲學(xué)特征。

進(jìn)一步可選地,如上所述的裝置中,所述獲取模塊,具體用于:從所述脈沖編碼調(diào)制文件的開頭選取預(yù)設(shè)幀長的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取所述預(yù)設(shè)幀長的數(shù)據(jù)幀,共得到多個所述數(shù)據(jù)幀;

分別從多個所述數(shù)據(jù)幀中提取每個所述數(shù)據(jù)幀的聲學(xué)特征,得到多個所述聲學(xué)特征。

進(jìn)一步可選地,如上所述的裝置中,所述裝置還包括:

采集模塊,用于采集數(shù)條所述第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條所述訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為所述第二語種表示的真實(shí)翻譯文本;

訓(xùn)練模塊,用于采用各條所述訓(xùn)練語音數(shù)據(jù)和對應(yīng)的所述真實(shí)翻譯文本,訓(xùn)練所述跨語種轉(zhuǎn)錄模型。

進(jìn)一步可選地,如上所述的裝置中,所述訓(xùn)練模塊,具體用于:

將當(dāng)前的所述訓(xùn)練語音數(shù)據(jù)代入所述跨語種轉(zhuǎn)錄模型,使得所述跨語種轉(zhuǎn)錄模型預(yù)測所述訓(xùn)練語音數(shù)據(jù)對應(yīng)的預(yù)測翻譯文本;

判斷所述訓(xùn)練語音數(shù)據(jù)的所述預(yù)測翻譯文本與所述真實(shí)翻譯文本是否一致;

若不一致時,修改所述跨語種轉(zhuǎn)錄模型的模型參數(shù),使得所述跨語種轉(zhuǎn)錄模型預(yù)測的所述訓(xùn)練語音數(shù)據(jù)的所述預(yù)測翻譯文本與對應(yīng)的所述真實(shí)翻譯文本趨于一致;并繼續(xù)選擇下一條所述訓(xùn)練語音數(shù)據(jù)進(jìn)行訓(xùn)練;

利用各條所述訓(xùn)練語音數(shù)據(jù),按照執(zhí)行上述步驟,重復(fù)對所述跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至所述跨語種轉(zhuǎn)錄模型預(yù)測的所述訓(xùn)練語音數(shù)據(jù)的所述預(yù)測翻譯文本與對應(yīng)的所述真實(shí)翻譯文本一致,確定所述跨語種轉(zhuǎn)錄模型的模型參數(shù),從而確定所述跨語種轉(zhuǎn)錄模型。

本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,所述設(shè)備包括:

一個或多個處理器;

存儲器,用于存儲一個或多個程序,

當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實(shí)現(xiàn)如上所述的基于人工智能的跨語種語音轉(zhuǎn)錄方法。

本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時實(shí)現(xiàn)如上所述的基于人工智能的跨語種語音轉(zhuǎn)錄方法。

本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì),通過將待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個聲學(xué)特征;待轉(zhuǎn)錄的語音數(shù)據(jù)采用第一語種表示;根據(jù)多個聲學(xué)特征以及預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。采用本發(fā)明的技術(shù)方案,跨語種語音轉(zhuǎn)錄時不用先進(jìn)行語音識別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型便可以進(jìn)行跨語種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語種轉(zhuǎn)錄方式中的錯誤累積的問題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語種語音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。

【附圖說明】

圖1為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄方法實(shí)施例一的流程圖。

圖2為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄方法實(shí)施例二的流程圖。

圖3為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄方法實(shí)施例三的流程圖。

圖4為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄裝置實(shí)施例一的結(jié)構(gòu)圖。

圖5為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄裝置實(shí)施例二的結(jié)構(gòu)圖。

圖6為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。

圖7為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。

【具體實(shí)施方式】

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。

圖1為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄方法實(shí)施例一的流程圖。如圖1所示,本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,具體可以包括如下步驟:

100、將待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個聲學(xué)特征;待轉(zhuǎn)錄的語音數(shù)據(jù)采用第一語種表示;

101、根據(jù)多個聲學(xué)特征以及預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法的執(zhí)行主體為一基于人工智能的跨語種語音轉(zhuǎn)錄裝置,該基于人工智能的跨語種語音轉(zhuǎn)錄裝置能夠?qū)ΥD(zhuǎn)錄的語音數(shù)據(jù)直接進(jìn)行跨語種的轉(zhuǎn)錄。本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,主要用于實(shí)現(xiàn)將第一語種表示的待轉(zhuǎn)錄的語音數(shù)據(jù),轉(zhuǎn)錄為第二語種表示的翻譯文本。其中的第一語種可以為中文、英文、日文、韓文、藏文、彝文等等。由于第一語種采用語音形式,因此,本實(shí)施例的第一語種可以為任一國家的語種,也可以為任一具有自己民族語言的少數(shù)民族的語種。第二語種采用文本形式展現(xiàn),因此第二語種需要具有其文本形式的語種。而每一個國家對應(yīng)的國家內(nèi)的標(biāo)準(zhǔn)語種都具有其文本形式,因此第二語種也可以為任一國家的語種。另外,有些少數(shù)民族,如藏族、彝族、傣族、壯族等等少數(shù)民族不僅具有自己獨(dú)立的語種,還有自己語種對應(yīng)的文字。因此,第二語種也可以為任一具有自己語種的文字的少數(shù)民族的語種。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法中,預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型可以為預(yù)先經(jīng)過深度學(xué)習(xí)訓(xùn)練得到的網(wǎng)絡(luò)模型。如,本實(shí)施例的跨語種轉(zhuǎn)錄模型可以是基于attention的序列到序列的深度學(xué)習(xí)模型,例如可以為一種采用encoder-decoder方式的深度學(xué)習(xí)模型。本實(shí)施例的跨語種轉(zhuǎn)錄模型輸入的是待轉(zhuǎn)錄的語音數(shù)據(jù)的多個聲學(xué)特征,因此,本實(shí)施例中,首先,將第一語種表示的待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取待轉(zhuǎn)錄的語音數(shù)據(jù)多個聲學(xué)特征;然后將待轉(zhuǎn)錄的語音數(shù)據(jù)多個聲學(xué)特征,輸入至預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型中。由于該跨語種轉(zhuǎn)錄模型預(yù)先訓(xùn)練中采用深度學(xué)習(xí)的方式進(jìn)行訓(xùn)練,此時該訓(xùn)練好的跨語種轉(zhuǎn)錄模型可以根據(jù)輸入的待轉(zhuǎn)錄的語音數(shù)據(jù)的多個聲學(xué)特征,預(yù)測該語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的第二語種表示的翻譯文本。本實(shí)施例中,雖然該跨語種轉(zhuǎn)錄模型預(yù)測的翻譯文本為預(yù)測的結(jié)果,但是由于該跨語種轉(zhuǎn)錄模型是經(jīng)過深度學(xué)習(xí)訓(xùn)練得到的,此時可以認(rèn)為該跨語種轉(zhuǎn)錄模型預(yù)測的翻譯文本與真實(shí)的翻譯文本一致。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,通過將待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個聲學(xué)特征;待轉(zhuǎn)錄的語音數(shù)據(jù)采用第一語種表示;根據(jù)多個聲學(xué)特征以及預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。采用本實(shí)施例的技術(shù)方案,跨語種語音轉(zhuǎn)錄時不用先進(jìn)行語音識別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型便可以進(jìn)行跨語種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語種轉(zhuǎn)錄方式中的錯誤累積的問題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語種語音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。

圖2為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄方法實(shí)施例二的流程圖。本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,在上述圖1所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。如圖2所示,本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,在上述圖1所示實(shí)施例的步驟101之前,具體還可以包括如下步驟:

200、采集數(shù)條第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為第二語種表示的真實(shí)翻譯文本;

本實(shí)施例中在對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練時,需要采集數(shù)條第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為第二語種表示的真實(shí)翻譯文本。例如,具體可以從網(wǎng)絡(luò)上,或者已經(jīng)成功轉(zhuǎn)錄的數(shù)據(jù)庫中采集數(shù)條第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為第二語種表示的真實(shí)翻譯文本。其中每一條訓(xùn)練語音數(shù)據(jù)與對應(yīng)的真實(shí)翻譯文本作為一條訓(xùn)練數(shù)據(jù),本實(shí)施例中,為了保證訓(xùn)練的跨語種轉(zhuǎn)錄模型的準(zhǔn)確性,采集的訓(xùn)練數(shù)據(jù)的條數(shù)可以達(dá)到數(shù)以萬條,例如可以包括20萬條或者30萬條甚至更多條數(shù)。其中采集的訓(xùn)練數(shù)據(jù)的條數(shù)越多,訓(xùn)練得到的跨語種轉(zhuǎn)錄模型越準(zhǔn)確,后續(xù)步驟101對第一語種表示的待轉(zhuǎn)錄的語音數(shù)據(jù)轉(zhuǎn)錄的第二語種表示的翻譯文本越準(zhǔn)確。

201、采用各條訓(xùn)練語音數(shù)據(jù)和對應(yīng)的真實(shí)翻譯文本,訓(xùn)練跨語種轉(zhuǎn)錄模型。

本實(shí)施例中,采集到數(shù)條第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為第二語種表示的真實(shí)翻譯文本之后,可以將采集的數(shù)條第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為第二語種表示的真實(shí)翻譯文本存儲在一個數(shù)據(jù)庫中,生成訓(xùn)練數(shù)據(jù)庫。然后訓(xùn)練時,采用訓(xùn)練數(shù)據(jù)庫中的每一條訓(xùn)練語音數(shù)據(jù)和對應(yīng)的真實(shí)翻譯文本,對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練。

例如,本實(shí)施例的步驟201“采用各條訓(xùn)練語音數(shù)據(jù)和對應(yīng)的真實(shí)翻譯文本,訓(xùn)練跨語種轉(zhuǎn)錄模型”,具體可以包括如下步驟:

(a1)將當(dāng)前的訓(xùn)練語音數(shù)據(jù)代入跨語種轉(zhuǎn)錄模型,使得跨語種轉(zhuǎn)錄模型預(yù)測訓(xùn)練語音數(shù)據(jù)對應(yīng)的預(yù)測翻譯文本;

(a2)判斷訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與真實(shí)翻譯文本是否一致;若不一致時,執(zhí)行步驟(a3);否則,執(zhí)行步驟(a4);

(a3)修改跨語種轉(zhuǎn)錄模型的模型參數(shù),使得跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本趨于一致;執(zhí)行步驟(a4);

(a4)繼續(xù)選擇下一條訓(xùn)練語音數(shù)據(jù)作為當(dāng)前的訓(xùn)練數(shù)據(jù),以準(zhǔn)備采用上述步驟(a1-(a3)進(jìn)行訓(xùn)練;

利用各條訓(xùn)練語音數(shù)據(jù),按照執(zhí)行上述步驟(a1)-(a4),重復(fù)對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本一致,確定跨語種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語種轉(zhuǎn)錄模型。

例如,訓(xùn)練時,為了便于采用每條訓(xùn)練語音數(shù)據(jù)和對應(yīng)的真實(shí)翻譯文本,對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,避免重復(fù)采用同一條訓(xùn)練語音數(shù)據(jù)和對應(yīng)的真實(shí)翻譯文本,重復(fù)對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,可以將各條訓(xùn)練語音數(shù)據(jù)排序,每次訓(xùn)練時選取一條訓(xùn)練語音數(shù)據(jù)作為當(dāng)前的訓(xùn)練語音數(shù)據(jù),該條訓(xùn)練語音數(shù)據(jù)訓(xùn)練完畢,可以繼續(xù)選擇下一條訓(xùn)練語音數(shù)據(jù)作為當(dāng)前的訓(xùn)練語音數(shù)據(jù),繼續(xù)對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練。

需要說明的時,訓(xùn)練之前,本實(shí)施例的跨語種轉(zhuǎn)錄模型的模型參數(shù)具有初始值。若采用第一條訓(xùn)練語音數(shù)據(jù)對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練時,將第一條訓(xùn)練語音數(shù)據(jù)作為當(dāng)前的訓(xùn)練語音數(shù)據(jù),輸入至跨語種轉(zhuǎn)錄模型中,此時,跨語種轉(zhuǎn)錄模型根據(jù)當(dāng)前的模型參數(shù)的初始值,輸出一個該訓(xùn)練語音數(shù)據(jù)對應(yīng)的預(yù)測翻譯文本。然后判斷訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與真實(shí)翻譯文本是否一致;若不一致時,修改跨語種轉(zhuǎn)錄模型的模型參數(shù),使得跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本趨于一致;否則若一致,繼續(xù)選擇下一條訓(xùn)練語音數(shù)據(jù)作為當(dāng)前的訓(xùn)練數(shù)據(jù),繼續(xù)進(jìn)行訓(xùn)練。

訓(xùn)練時,至少要利用訓(xùn)練數(shù)據(jù)庫中的各條訓(xùn)練數(shù)據(jù)進(jìn)行一輪訓(xùn)練,若一輪訓(xùn)練完畢后,可以確定跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本一致,此時確定跨語種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語種轉(zhuǎn)錄模型。

若一輪訓(xùn)練完畢,跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本仍然不一致,此時可以使用訓(xùn)練數(shù)據(jù)庫中的各條訓(xùn)練數(shù)據(jù)進(jìn)行再一輪、兩輪或者多輪訓(xùn)練,直至跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本一致,確定跨語種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語種轉(zhuǎn)錄模型。

本實(shí)施例訓(xùn)練得到的跨語種轉(zhuǎn)錄模型,可以對一種第一語種表示的待轉(zhuǎn)錄的語音數(shù)據(jù),跨語種轉(zhuǎn)錄為一種第二語種表示的翻譯文本。如果一個跨語種轉(zhuǎn)錄模型若能夠支持英語到中文的跨語種轉(zhuǎn)錄,而不能實(shí)現(xiàn)意大利語到中文的跨語種轉(zhuǎn)錄,也就是說本實(shí)施例的跨語種轉(zhuǎn)錄模型為一對一的形式,不支持一對多或者多對一的形式。另外,需要說明的是,本實(shí)施例中,若第二語種表示的翻譯文本為中文時,為了便于與其它語種對應(yīng),優(yōu)選地,選擇以文字的漢語拼音來表示翻譯文本。而且本實(shí)施例的漢語拼音的表示方式可以為每個漢字的拼音作為最小的建模單元來表示,如“zhongguoren”;也可以使用聲韻母為最小的建模單元,如將“zhongguoren”切分為“zhongguoren”。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,通過采用上述技術(shù)方案訓(xùn)練得到的跨語種轉(zhuǎn)錄模型,可以準(zhǔn)確地對待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行跨語種轉(zhuǎn)錄,與現(xiàn)有技術(shù)相比,跨語種語音轉(zhuǎn)錄時不用先進(jìn)行語音識別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型便可以進(jìn)行跨語種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語種轉(zhuǎn)錄方式中的錯誤累積的問題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語種語音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。

圖3為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄方法實(shí)施例三的流程圖。本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,在上述圖1或者圖2所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。如圖3所示,本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,具體可以包括如下步驟:

300、對第一語種表示的待轉(zhuǎn)錄的語音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個語音數(shù)據(jù)采樣點(diǎn);

例如,本實(shí)施例中的預(yù)設(shè)的采樣率可以為16k,即每1/16000秒選擇一個采樣點(diǎn),這樣,1秒時長的語音有16000個采樣點(diǎn)。實(shí)際應(yīng)用中預(yù)測的采樣率也可以為8k-20k的任意采樣率。

301、對多個語音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制(pulsecodemodulation;pcm)文件;

本實(shí)施例的預(yù)設(shè)的量化位數(shù)優(yōu)選地可以為16,位,實(shí)際應(yīng)用中也可以選擇16位。其中量化位數(shù)越多,表示質(zhì)量越高。量化處理后可以得到pcm文件。而且該pcm文件為單通道的pcm文件。

302、從pcm文件中提取多個聲學(xué)特征;

最后從pcm文件中提取多個聲學(xué)特征,例如可以提取fbank40格式的聲學(xué)特征,其中fbank40格式的聲學(xué)特征采用一個40維的向量表示。實(shí)際應(yīng)用中也可以采用其他格式的其它維度的向量來表示各聲學(xué)特征。

例如該步驟302,具體可以包括如下步驟:

(b1)從pcm文件的開頭選取預(yù)設(shè)幀長的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取預(yù)設(shè)幀長的數(shù)據(jù)幀,共得到多個數(shù)據(jù)幀;

(b2)分別從多個數(shù)據(jù)幀中提取每個數(shù)據(jù)幀的聲學(xué)特征,得到多個聲學(xué)特征。

本實(shí)施例在從pcm文件時,由于pcm文件也采用幀表示,可以先從pcm文件的開頭選取預(yù)設(shè)幀長的數(shù)據(jù)幀,例如預(yù)設(shè)幀長可以為25ms。然后按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取預(yù)設(shè)幀長的數(shù)據(jù)幀,例如同一個pcm文件,開頭取了25ms的數(shù)據(jù)幀之后,幀移10ms,再取25ms的數(shù)據(jù)幀,然后再幀移10ms,再取25ms的數(shù)據(jù)幀,直到pcm文件取完,但是pcm文件的長度不一定是預(yù)設(shè)幀長的整數(shù)倍,此時最后剩下不足25ms長的數(shù)據(jù)幀可以丟棄,或者可以通過填零補(bǔ)位至25ms的幀長。這樣,得到的每個數(shù)據(jù)幀的長度時一樣,這樣,從待轉(zhuǎn)錄的語音數(shù)據(jù)對應(yīng)的每個數(shù)據(jù)幀中提取的聲學(xué)特征的方式,以及得到的聲學(xué)特征的維度也是一樣的。而實(shí)際應(yīng)用中,每段待轉(zhuǎn)錄的語音的長度可以不相同,但根據(jù)待轉(zhuǎn)錄的語音獲取的每個數(shù)據(jù)幀的長度是相同的。因此,在根據(jù)本實(shí)施例的跨語種轉(zhuǎn)錄模型跨語種轉(zhuǎn)錄時,可跨語種轉(zhuǎn)錄的待轉(zhuǎn)錄的語音數(shù)據(jù)的長短可以不做限制,理論上,可以對不超過可處理的最大時長的任意時長的待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行跨語種轉(zhuǎn)錄,當(dāng)然得到的跨語種轉(zhuǎn)錄后的翻譯文本的長度也不一。

上述步驟300-302為上述圖1所示實(shí)施例的步驟100的一種具體實(shí)現(xiàn)方式,實(shí)際應(yīng)用中,也可以采用相關(guān)現(xiàn)有技術(shù)中的從語音數(shù)據(jù)中提取聲學(xué)特征的方式來實(shí)現(xiàn),在此不再一一舉例贅述。

303、將待轉(zhuǎn)錄的語音數(shù)據(jù)對應(yīng)的多個聲學(xué)特征輸入至預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型中,該跨語種轉(zhuǎn)錄模型預(yù)測并輸出對應(yīng)的轉(zhuǎn)錄后的第二語種表示的翻譯文本。

本實(shí)施例的預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型采用上述圖2所示實(shí)施例的方式獲取到,詳細(xì)可以參考上述圖2所示實(shí)施例的記載,在此不再贅述。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法,通過采用上述技術(shù)方案,跨語種語音轉(zhuǎn)錄時不用先進(jìn)行語音識別,再進(jìn)行機(jī)器翻譯,而是直接根據(jù)預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型便可以進(jìn)行跨語種轉(zhuǎn)錄,能夠克服現(xiàn)有技術(shù)中的兩步走的跨語種轉(zhuǎn)錄方式中的錯誤累積的問題,與現(xiàn)有技術(shù)相比,能夠有效地提高跨語種語音轉(zhuǎn)錄的準(zhǔn)確性和轉(zhuǎn)錄效率。

圖4為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄裝置實(shí)施例一的結(jié)構(gòu)圖。如圖4所示,本實(shí)施例的發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄裝置,具體可以包括:獲取模塊10和預(yù)測模塊11。

其中,獲取模塊10用于將待轉(zhuǎn)錄的語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取多個聲學(xué)特征;待轉(zhuǎn)錄的語音數(shù)據(jù)采用第一語種表示;

預(yù)測模塊11用于根據(jù)獲取模塊10獲取的多個聲學(xué)特征以及預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄裝置,通過采用上述模塊實(shí)現(xiàn)基于人工智能的跨語種語音轉(zhuǎn)錄的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

圖5為本發(fā)明的基于人工智能的跨語種語音轉(zhuǎn)錄裝置實(shí)施例二的結(jié)構(gòu)圖。如圖5所示,本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄裝置,在上述圖4所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,進(jìn)一步更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄裝置中,獲取模塊10具體用于:

對待轉(zhuǎn)錄的語音數(shù)據(jù)采用預(yù)設(shè)的采樣率進(jìn)行采樣,得到多個語音數(shù)據(jù)采樣點(diǎn);

對多個語音數(shù)據(jù)采樣點(diǎn)按照預(yù)設(shè)的量化位數(shù)進(jìn)行量化處理,得到脈沖編碼調(diào)制文件;

從脈沖編碼調(diào)制文件中提取多個聲學(xué)特征。

進(jìn)一步可選地,本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄裝置中,獲取模塊10具體用于:從脈沖編碼調(diào)制文件的開頭選取預(yù)設(shè)幀長的數(shù)據(jù)幀;并按照從前至后依次調(diào)整預(yù)設(shè)幀移后選取預(yù)設(shè)幀長的數(shù)據(jù)幀,共得到多個數(shù)據(jù)幀;

分別從多個數(shù)據(jù)幀中提取每個數(shù)據(jù)幀的聲學(xué)特征,得到多個聲學(xué)特征。

進(jìn)一步可選地,如圖5所示,本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄裝置,還包括:

采集模塊12用于采集數(shù)條第一語種表示的訓(xùn)練語音數(shù)據(jù)以及各條訓(xùn)練語音數(shù)據(jù)轉(zhuǎn)錄為第二語種表示的真實(shí)翻譯文本;

訓(xùn)練模塊13用于采用采集模塊12采集的各條訓(xùn)練語音數(shù)據(jù)和對應(yīng)的真實(shí)翻譯文本,訓(xùn)練跨語種轉(zhuǎn)錄模型。

此時對應(yīng)地,預(yù)測模塊11用于根據(jù)獲取模塊10獲取的多個聲學(xué)特征以及訓(xùn)練模塊13預(yù)先訓(xùn)練的跨語種轉(zhuǎn)錄模型,預(yù)測語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)錄后的翻譯文本;

進(jìn)一步可選地,本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄裝置中,訓(xùn)練模塊13具體用于:

將當(dāng)前的訓(xùn)練語音數(shù)據(jù)代入跨語種轉(zhuǎn)錄模型,使得跨語種轉(zhuǎn)錄模型預(yù)測訓(xùn)練語音數(shù)據(jù)對應(yīng)的預(yù)測翻譯文本;

判斷訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與真實(shí)翻譯文本是否一致;

若不一致時,修改跨語種轉(zhuǎn)錄模型的模型參數(shù),使得跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本趨于一致;并繼續(xù)選擇下一條訓(xùn)練語音數(shù)據(jù)進(jìn)行訓(xùn)練;

利用各條訓(xùn)練語音數(shù)據(jù),按照執(zhí)行上述步驟,重復(fù)對跨語種轉(zhuǎn)錄模型進(jìn)行訓(xùn)練,直至跨語種轉(zhuǎn)錄模型預(yù)測的訓(xùn)練語音數(shù)據(jù)的預(yù)測翻譯文本與對應(yīng)的真實(shí)翻譯文本一致,確定跨語種轉(zhuǎn)錄模型的模型參數(shù),從而確定跨語種轉(zhuǎn)錄模型。

本實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄裝置,通過采用上述模塊實(shí)現(xiàn)基于人工智能的跨語種語音轉(zhuǎn)錄的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

圖6為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。如圖6所示,本實(shí)施例的計(jì)算機(jī)設(shè)備,包括:一個或多個處理器30,以及存儲器40,存儲器40用于存儲一個或多個程序,當(dāng)存儲器40中存儲的一個或多個程序被一個或多個處理器30執(zhí)行,使得一個或多個處理器30實(shí)現(xiàn)如上圖1-圖3所示實(shí)施例的基于人工智能的跨語種語音轉(zhuǎn)錄方法。圖6所示實(shí)施例中以包括多個處理器30為例。

例如,圖7為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。圖7示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12a的框圖。圖7顯示的計(jì)算機(jī)設(shè)備12a僅僅是一個示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。

如圖7所示,計(jì)算機(jī)設(shè)備12a以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12a的組件可以包括但不限于:一個或者多個處理器16a,系統(tǒng)存儲器28a,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28a和處理器16a)的總線18a。

總線18a表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。

計(jì)算機(jī)設(shè)備12a典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12a訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。

系統(tǒng)存儲器28a可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(ram)30a和/或高速緩存存儲器32a。計(jì)算機(jī)設(shè)備12a可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34a可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖7未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖7中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18a相連。系統(tǒng)存儲器28a可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明上述圖1-圖5各實(shí)施例的功能。

具有一組(至少一個)程序模塊42a的程序/實(shí)用工具40a,可以存儲在例如系統(tǒng)存儲器28a中,這樣的程序模塊42a包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42a通常執(zhí)行本發(fā)明所描述的上述圖1-圖5各實(shí)施例中的功能和/或方法。

計(jì)算機(jī)設(shè)備12a也可以與一個或多個外部設(shè)備14a(例如鍵盤、指向設(shè)備、顯示器24a等)通信,還可與一個或者多個使得用戶能與該計(jì)算機(jī)設(shè)備12a交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12a能與一個或多個其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22a進(jìn)行。并且,計(jì)算機(jī)設(shè)備12a還可以通過網(wǎng)絡(luò)適配器20a與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20a通過總線18a與計(jì)算機(jī)設(shè)備12a的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12a使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理器、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。

處理器16a通過運(yùn)行存儲在系統(tǒng)存儲器28a中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)上述實(shí)施例所示的基于人工智能的跨語種語音轉(zhuǎn)錄方法。

本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時實(shí)現(xiàn)如上述實(shí)施例所示的基于人工智能的跨語種語音轉(zhuǎn)錄方法。

本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以包括上述圖7所示實(shí)施例中的系統(tǒng)存儲器28a中的ram30a、和/或高速緩存存儲器32a、和/或存儲系統(tǒng)34a。

隨著科技的發(fā)展,計(jì)算機(jī)程序的傳播途徑不再受限于有形介質(zhì),還可以直接從網(wǎng)絡(luò)下載,或者采用其他方式獲取。因此,本實(shí)施例中的計(jì)算機(jī)可讀介質(zhì)不僅可以包括有形的介質(zhì),還可以包括無形的介質(zhì)。

本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以采用一個或多個計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如”c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。

在本發(fā)明所提供的幾個實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。

上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲在一個計(jì)算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個實(shí)施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,rom)、隨機(jī)存取存儲器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
泉州市| 朝阳县| 祥云县| 巴南区| 三明市| 含山县| 兴城市| 通海县| 嵊泗县| 永德县| 凯里市| 宜良县| 巩义市| 延津县| 高要市| 鹿泉市| 葵青区| 浮梁县| 涡阳县| 凯里市| 焉耆| 横峰县| 舒兰市| 黔西县| 三门峡市| 上高县| 鄂托克前旗| 老河口市| 扶沟县| 绥棱县| 牡丹江市| 德安县| 壶关县| 同仁县| 岐山县| 讷河市| 安仁县| 吉隆县| 元阳县| 太谷县| 永春县|