两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法與流程

文檔序號:40613787發(fā)布日期:2025-01-07 21:00閱讀:12來源:國知局
一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法與流程

本發(fā)明屬于語音識別領(lǐng)域,涉及一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法。


背景技術(shù):

1、執(zhí)法機關(guān)或檢察機關(guān)處理案件的過程中,通常使用執(zhí)法記錄儀或者監(jiān)控器對執(zhí)法過程進行記錄,同時會有執(zhí)法人員對該過程中的對話進行記錄,最終形成筆錄并存檔。這些執(zhí)法過程中的視頻以及筆錄的執(zhí)法信息數(shù)據(jù)對日后進一步的使用有著重要的作用,其中包含的案件事實對案情起著佐證作用,提高辦案人員的辦案效率。此外,兩類信息也相互補充,避免執(zhí)法信息數(shù)據(jù)的遺漏。

2、為了使筆錄中的信息更加規(guī)范,通常需要記錄人員在記錄的同時,也需要對對話的內(nèi)容進行整理,對記錄人員的要求較高,需要有長時間的該類工作經(jīng)驗才能夠勝任。除此之外,對執(zhí)法過程進行記錄會影響整體的執(zhí)法信息數(shù)據(jù)存儲的進度,所以需要對該過程的生成、存儲速度進行優(yōu)化。

3、整體的語音識別不能具有文本分區(qū)以及說話人的區(qū)分,導(dǎo)致轉(zhuǎn)錄文本不具有可讀性,通常本領(lǐng)域采用分段文本轉(zhuǎn)錄,如申請公布號us20230154468a1的美國專利申請文件中公開了一種用于長格式音頻的語音識別裝置,并具體公開了將音頻流分段成多個音頻段;識別所述多個音頻片段中的每一個音頻片段內(nèi)的多個說話者;對所述多個音頻片段中的每一個執(zhí)行自動語音識別(asr),以產(chǎn)生多個短片段假設(shè);將所述短節(jié)假設(shè)的至少一部分合并到第一合并假設(shè)集合中;將縫合符號插入到所述第一合并假設(shè)集合中,所述縫合符號包括窗口改變(wc)符號;以及用基于網(wǎng)絡(luò)的假設(shè)拼接器將所述第一合并假設(shè)集合合并為第一合并假設(shè)。其采用分段成多個音頻段識別形成轉(zhuǎn)錄文本,而該種方式存在的缺陷是分段識別相較于整體識別,對時間較短的音頻無法獲取準確或者獲取到對應(yīng)的音頻文本。


技術(shù)實現(xiàn)思路

1、為了解決現(xiàn)有分段語音文本識別中較短時間音頻文本處理不準確,導(dǎo)致轉(zhuǎn)錄文本不完整的問題,在本發(fā)明的一種實施例中的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法,包括

2、s10.提取視頻文件中的音頻文件;

3、s20.識別所述音頻文件中的音頻對應(yīng)的第一文本,所述第一文本是所述音頻文件中的音頻的對應(yīng)文本的集合,所述第一文本包括音頻時間標記;

4、s30.通過聲紋識別對所述音頻文件中的音頻中的不同聲音特征分類;

5、s40.根據(jù)所述特征分類確定不同說話對象以及不同說話對象的音頻區(qū)間;

6、s50.識別音頻區(qū)間的音頻對應(yīng)的第二文本,所述第二文本是各所述音頻區(qū)間的音頻對應(yīng)文本的集合,且所述第二文本包括各音頻區(qū)間對應(yīng)的文本區(qū)間的文本區(qū)間標記以及文本區(qū)間對應(yīng)的說話對象標記,所述第二文本還包括音頻時間標記;

7、s60.根據(jù)所述音頻時間標記,將所述第二文本與所述第一文本匹配,對所述第二文本中各音頻區(qū)間的音頻對應(yīng)的文本對應(yīng)在所述第一文本的相應(yīng)的文本位置,根據(jù)第二文本的所述文本區(qū)間標記對所述第一文本的對應(yīng)文本的區(qū)間標記說話對象,所述標記文本區(qū)間的說話對象的第一文本是所述語音轉(zhuǎn)錄所得文件,其中,所述音頻區(qū)間、文本區(qū)間是所述音頻時間的時間區(qū)間的對應(yīng)表示。

8、在本發(fā)明的一種實施例中的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法,在所述步驟s50中,音頻區(qū)間未識別有效文本內(nèi)容,識別得到音頻區(qū)間的聲音特征以及特征分類,使第二文本中這類文本的文本區(qū)間無對應(yīng)文本內(nèi)容,但文本區(qū)間對應(yīng)說話對象標記,這類文本是第二文本中的特別文本;

9、在所述步驟s60中,根據(jù)所述音頻時間標記,將所述第二文本與所述第一文本匹配,其中,對所述第二文本中的特別文本根據(jù)音頻時間標記對應(yīng)在所述第一文本的相應(yīng)的文本位置,根據(jù)第二文本中的特別文本的所述文本區(qū)間標記對所述第一文本的對應(yīng)文本的區(qū)間標記說話對象。

10、在本發(fā)明的一種實施例中的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法,所述步驟s10中提取視頻文件中的音頻文件的方法,包括:對于執(zhí)法記錄儀或者監(jiān)控器中的視頻文件,使用自動化剪輯工具將視頻中的音頻抽取出來,并固定格式,抽取出的音頻格式固定為16khz,16位的單聲道音頻。

11、在本發(fā)明的一種實施例中的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法,所述步驟s30中通過聲紋識別對所述音頻文件中的音頻中的不同聲音特征分類的方法包括:

12、對于音頻區(qū)間的音頻的音頻信號進行預(yù)處理;

13、對于預(yù)處理后的音頻區(qū)間的音頻的音頻信號進行mfcc特征提取,把每一幀波形變成一個包含聲音信息的多維向量,得到音頻區(qū)間的音頻中的特征向量;

14、聲學(xué)模型將特征向量根據(jù)語音的聲學(xué)特征分類,得到所述音頻文件中的音頻中的聲音特征分類。

15、在本發(fā)明的一種實施例中的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法,步驟s50的識別音頻區(qū)間的音頻對應(yīng)的第二文本,包括

16、聲學(xué)模型將所述聲學(xué)特征分類對應(yīng)到音素和/或字詞單元;

17、通過語言模型將所得到的音素和/或字詞單元解碼成完整的句子,所述完整的句子是音頻區(qū)間的音頻對應(yīng)的文本區(qū)間的第二文本。

18、在本發(fā)明的一種實施例中的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法,所述預(yù)處理包括幀切割、對語音的高頻部分進行預(yù)加重、增加語音的高頻分辨率的操作中的任一種或者其組合。

19、本技術(shù)實施例還提供一種電子設(shè)備,所述電子設(shè)備包括:一個或多個處理器,存儲器,以及,一個或多個程序;其中,所述一個或多個程序被存儲在所述存儲器中,所述一個或多個程序包括指令,當所述指令被所述電子設(shè)備執(zhí)行時,使得所述電子設(shè)備執(zhí)行本技術(shù)實施例第一方面任一可能設(shè)計的技術(shù)方案。

20、本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括計算機程序,當計算機程序在電子設(shè)備上運行時,使得所述電子設(shè)備執(zhí)行本技術(shù)實施例第一方面任一可能設(shè)計的技術(shù)方案。

21、本發(fā)明的有益效果:

22、在第一方面上,本發(fā)明基于對人力以及時間的兩點要求,提出能夠?qū)?zhí)法記錄儀或監(jiān)控器中的視頻的對話內(nèi)容進行提取的方法,并將對話的文本進行保存,從而減緩對人力的需求,并提高執(zhí)法信息數(shù)據(jù)存儲的速度。

23、在第二方面上,本發(fā)明為了能夠識別視頻中的文本,使用語音信號處理與識別實現(xiàn)對音頻的提取和初步識別。本發(fā)明還為能夠?qū)⒁纛l中不同的說話人進行區(qū)分,使用聲紋識別對不同的聲音特征進行分類。

24、在第三方面上,本發(fā)明通過根據(jù)所述音頻時間標記,將所述第二文本與所述第一文本匹配,對所述第二文本中各音頻區(qū)間的音頻對應(yīng)的文本對應(yīng)在所述第一文本的相應(yīng)的文本位置,根據(jù)第二文本的所述文本區(qū)間標記對所述第一文本的對應(yīng)文本的區(qū)間標記說話對象,所述標記文本區(qū)間的說話對象的第一文本是所述語音轉(zhuǎn)錄所得文件,其中,所述音頻區(qū)間、文本區(qū)間是所述音頻時間的時間區(qū)間的對應(yīng)表示。從而將的不同說話人的第二文本與整體識別得到的第一文本進行匹配,一方面使得第一文本能夠具有文本分區(qū)和說話人的對應(yīng)標記,并將具有文本分區(qū)和說話人對應(yīng)標記的第一文本作為最終轉(zhuǎn)錄文本。另一方面對因音頻時間短等原因在分段識別的第二文本中無法識別的語音,借由整體識別的第一文本所彌補,避免了分段識別因音頻時間短等原因具有部分無法識別語音的現(xiàn)象。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
亳州市| 汉川市| 宜宾县| 大同市| 富宁县| 陇川县| 海安县| 齐齐哈尔市| 汨罗市| 岳池县| 关岭| 阿克| 赫章县| 禄丰县| 苏尼特右旗| 宿迁市| 兴安县| 宁国市| 安丘市| 虹口区| 红安县| 揭东县| 常山县| 淄博市| 米林县| 锡林浩特市| 郯城县| 赣榆县| 三明市| 南宫市| 弥勒县| 敖汉旗| 郯城县| 正宁县| 武威市| 大宁县| 赣榆县| 阳原县| 澄江县| 涡阳县| 信宜市|