一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法與流程

文檔序號：40613787發(fā)布日期：2025-01-07 21:00閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法與流程

技術(shù)特征：

1.一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法，其特征在于，包括

2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法，其特征在于，在所述步驟s50中，音頻區(qū)間未識別有效文本內(nèi)容，識別得到音頻區(qū)間的聲音特征以及特征分類，使第二文本中這類文本的文本區(qū)間無對應(yīng)文本內(nèi)容，但文本區(qū)間對應(yīng)說話對象標記，這類文本是第二文本中的特別文本；

3.根據(jù)權(quán)利要求1或2所述的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法，其特征在于，所述步驟s10中提取視頻文件中的音頻文件的方法，包括

4.根據(jù)權(quán)利要求1或2所述的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法，其特征在于，所述步驟s30中通過聲紋識別對所述音頻文件中的音頻中的不同聲音特征分類的方法包括

5.根據(jù)權(quán)利要求4所述的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法，其特征在于，步驟s50的識別音頻區(qū)間的音頻對應(yīng)的第二文本，包括

6.根據(jù)權(quán)利要求4所述的基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法，其特征在于，所述預(yù)處理包括幀切割、對語音的高頻部分進行預(yù)加重、增加語音的高頻分辨率的操作中的任一種或者其組合。

7.一種電子設(shè)備，所述電子設(shè)備包括：一個或多個處理器，存儲器，以及，一個或多個程序；其中，所述一個或多個程序被存儲在所述存儲器中，所述一個或多個程序包括指令，當所述指令被所述電子設(shè)備執(zhí)行時，使得所述電子設(shè)備執(zhí)行權(quán)利要求1～6任一所述方法。

8.一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)包括計算機程序，當計算機程序在電子設(shè)備上運行時，使得所述電子設(shè)備執(zhí)行權(quán)利要求1～6任一所述方法。

技術(shù)總結(jié)
一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法，屬于語音識別領(lǐng)域，為了解決現(xiàn)有分段語音文本識別中較短時間音頻文本處理不準確，導(dǎo)致轉(zhuǎn)錄文本不完整的問題，要點是根據(jù)所述音頻時間標記，將所述第二文本與所述第一文本匹配，對所述第二文本中各音頻區(qū)間的音頻對應(yīng)的文本對應(yīng)在所述第一文本的相應(yīng)的文本位置，根據(jù)第二文本的所述文本區(qū)間標記對所述第一文本的對應(yīng)文本的區(qū)間標記說話對象，所述標記文本區(qū)間的說話對象的第一文本是所述語音轉(zhuǎn)錄所得。

技術(shù)研發(fā)人員：林國凱,王志永,劉詩慧,王勇
受保護的技術(shù)使用者：中檢美亞（廈門）科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于深度學(xué)習(xí)的語音轉(zhuǎn)錄方法與流程