两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法與流程

文檔序號(hào):40579830發(fā)布日期:2025-01-07 20:19閱讀:11來(lái)源:國(guó)知局
一種針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法與流程

本發(fā)明屬于計(jì)算機(jī),涉及自然語(yǔ)言處理,特別是自然語(yǔ)言處理技術(shù)中文本糾錯(cuò)方法和文本后處理方法。


背景技術(shù):

1、語(yǔ)音識(shí)別技術(shù)在現(xiàn)代社會(huì)中得到了廣泛應(yīng)用,能夠?qū)⒄Z(yǔ)音輸入轉(zhuǎn)換為文本形式。然而,由于語(yǔ)音識(shí)別過(guò)程中的噪音、口音、發(fā)音錯(cuò)誤等因素,識(shí)別結(jié)果往往存在一定的錯(cuò)誤。這些錯(cuò)誤會(huì)導(dǎo)致轉(zhuǎn)錄的文本質(zhì)量下降,給后續(xù)處理和應(yīng)用帶來(lái)困擾。

2、

3、目前,雖然已經(jīng)存在一些中文文本糾錯(cuò)技術(shù),但針對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行準(zhǔn)確糾錯(cuò)仍然面臨一些挑戰(zhàn)。首先,語(yǔ)音識(shí)別錯(cuò)誤的特點(diǎn)復(fù)雜多樣,涉及到拼寫、語(yǔ)法、標(biāo)點(diǎn)等多個(gè)方面。其次,語(yǔ)音識(shí)別錯(cuò)誤與正常的打字錯(cuò)誤不完全相同,因?yàn)樗鼈兺ǔEc語(yǔ)音輸入的特點(diǎn)相關(guān)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在提供高效、準(zhǔn)確的文本糾錯(cuò)解決方案,改善語(yǔ)音識(shí)別后文本結(jié)果的質(zhì)量和可靠性。在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,包括

2、s10.獲取語(yǔ)音識(shí)別結(jié)果的文本;

3、s20.對(duì)所述文本的錯(cuò)誤進(jìn)行糾錯(cuò)。

4、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,所述步驟s20中對(duì)所述文本的錯(cuò)誤進(jìn)行更正,由文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)所實(shí)施。

5、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,所述步驟s20中的所述文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)包括bert層、全連接層、detection和correction層,其中,全連接層用于錯(cuò)誤檢測(cè),detection層和correction層的loss加權(quán)得到最終的loss用于訓(xùn)練模型。

6、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,所述步驟s20中所述糾錯(cuò)方法包括

7、s21.對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行分析;

8、s22.根據(jù)所述分析將對(duì)文本中的錯(cuò)誤進(jìn)行檢測(cè)和定位;

9、s23.根據(jù)所述錯(cuò)誤的定位生成糾錯(cuò)候選集合;

10、s24.利用基于機(jī)器學(xué)習(xí)算法和語(yǔ)言模型的評(píng)估方法,通過(guò)文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)對(duì)候選進(jìn)行權(quán)衡和判斷,使用所述所述文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)correction層的正確詞對(duì)原始文本中的錯(cuò)誤進(jìn)行糾錯(cuò)。

11、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,所述步驟s21中的對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行分析,包括詞法分析、句法分析和上下文理解;

12、所述步驟s22中的根據(jù)所述分析將對(duì)文本中的錯(cuò)誤進(jìn)行檢測(cè)和定位,包括利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)算法,結(jié)合領(lǐng)域知識(shí)和語(yǔ)料庫(kù)資源,識(shí)別拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤等問(wèn)題;

13、所述步驟s23中的根據(jù)所述錯(cuò)誤的定位生成糾錯(cuò)候選集合,包括可能的替換詞語(yǔ)、短語(yǔ)或句子,在生成糾錯(cuò)候選時(shí),綜合考慮上下文信息、語(yǔ)言模型和領(lǐng)域知識(shí),確保糾錯(cuò)候選的準(zhǔn)確性和合法性,考慮語(yǔ)音識(shí)別引擎的特點(diǎn)和常見(jiàn)誤差,為生成糾錯(cuò)候選提供選擇;

14、所述步驟s24中的利用基于機(jī)器學(xué)習(xí)算法和語(yǔ)言模型的評(píng)估方法,對(duì)候選進(jìn)行權(quán)衡和判斷,綜合考慮候選的語(yǔ)言流暢度、上下文連貫性、語(yǔ)義一致性以及語(yǔ)音識(shí)別引擎的誤差因素,以選擇最有可能是正確糾正的候選作為最終的輸出。

15、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,所述模型的損失函數(shù):

16、loss=w·lossdet+(1-w)·losscor。

17、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,所述步驟s10中獲取語(yǔ)音識(shí)別結(jié)果的文本,包括

18、提取視頻文件中的音頻文件;

19、識(shí)別所述音頻文件中的音頻對(duì)應(yīng)的第一文本,所述第一文本是所述音頻文件中的音頻的對(duì)應(yīng)文本的集合,所述第一文本包括音頻時(shí)間標(biāo)記;

20、通過(guò)聲紋識(shí)別對(duì)所述音頻文件中的音頻中的不同聲音特征分類;

21、根據(jù)所述特征分類確定不同說(shuō)話對(duì)象以及不同說(shuō)話對(duì)象的音頻區(qū)間;

22、識(shí)別音頻區(qū)間的音頻對(duì)應(yīng)的第二文本,所述第二文本是各所述音頻區(qū)間的音頻對(duì)應(yīng)文本的集合,且所述第二文本包括各音頻區(qū)間對(duì)應(yīng)的文本區(qū)間的文本區(qū)間標(biāo)記以及文本區(qū)間對(duì)應(yīng)的說(shuō)話對(duì)象標(biāo)記,所述第二文本還包括音頻時(shí)間標(biāo)記;

23、根據(jù)所述音頻時(shí)間標(biāo)記,將所述第二文本與所述第一文本匹配,對(duì)所述第二文本中各音頻區(qū)間的音頻對(duì)應(yīng)的文本對(duì)應(yīng)在所述第一文本的相應(yīng)的文本位置,根據(jù)第二文本的所述文本區(qū)間標(biāo)記對(duì)所述第一文本的對(duì)應(yīng)文本的區(qū)間標(biāo)記說(shuō)話對(duì)象,所述標(biāo)記文本區(qū)間的說(shuō)話對(duì)象的第一文本是所述語(yǔ)音轉(zhuǎn)錄所得文件,其中,所述音頻區(qū)間、文本區(qū)間是所述音頻時(shí)間的時(shí)間區(qū)間的對(duì)應(yīng)表示。

24、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,在音頻區(qū)間未識(shí)別有效文本內(nèi)容,識(shí)別得到音頻區(qū)間的聲音特征以及特征分類,使第二文本中這類文本的文本區(qū)間無(wú)對(duì)應(yīng)文本內(nèi)容,但文本區(qū)間對(duì)應(yīng)說(shuō)話對(duì)象標(biāo)記,這類文本是第二文本中的特別文本;

25、根據(jù)所述音頻時(shí)間標(biāo)記,將所述第二文本與所述第一文本匹配,其中,對(duì)所述第二文本中的特別文本根據(jù)音頻時(shí)間標(biāo)記對(duì)應(yīng)在所述第一文本的相應(yīng)的文本位置,根據(jù)第二文本中的特別文本的所述文本區(qū)間標(biāo)記對(duì)所述第一文本的對(duì)應(yīng)文本的區(qū)間標(biāo)記說(shuō)話對(duì)象。

26、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,包括

27、對(duì)于執(zhí)法記錄儀或者監(jiān)控器中的視頻文件,使用自動(dòng)化剪輯工具將視頻中的音頻抽取出來(lái),并固定格式,抽取出的音頻格式固定為16khz,16位的單聲道音頻;

28、所述通過(guò)聲紋識(shí)別對(duì)所述音頻文件中的音頻中的不同聲音特征分類的方法包括

29、對(duì)于音頻區(qū)間的音頻的音頻信號(hào)進(jìn)行預(yù)處理;

30、對(duì)于預(yù)處理后的音頻區(qū)間的音頻的音頻信號(hào)進(jìn)行mfcc特征提取,把每一幀波形變成一個(gè)包含聲音信息的多維向量,得到音頻區(qū)間的音頻中的特征向量;

31、聲學(xué)模型將特征向量根據(jù)語(yǔ)音的聲學(xué)特征分類,得到所述音頻文件中的音頻中的聲音特征分類;

32、識(shí)別音頻區(qū)間的音頻對(duì)應(yīng)的第二文本,包括

33、聲學(xué)模型將所述聲學(xué)特征分類對(duì)應(yīng)到音素和/或字詞單元;

34、通過(guò)語(yǔ)言模型將所得到的音素和/或字詞單元解碼成完整的句子,所述完整的句子是音頻區(qū)間的音頻對(duì)應(yīng)的文本區(qū)間的第二文本。

35、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法,所述預(yù)處理包括幀切割、對(duì)語(yǔ)音的高頻部分進(jìn)行預(yù)加重、增加語(yǔ)音的高頻分辨率的操作中的任一種或者其組合。

36、本技術(shù)實(shí)施例還提供一種電子設(shè)備,所述電子設(shè)備包括:一個(gè)或多個(gè)處理器,存儲(chǔ)器,以及,一個(gè)或多個(gè)程序;其中,所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中,所述一個(gè)或多個(gè)程序包括指令,當(dāng)所述指令被所述電子設(shè)備執(zhí)行時(shí),使得所述電子設(shè)備執(zhí)行本技術(shù)實(shí)施例第一方面任一可能設(shè)計(jì)的技術(shù)方案。

37、本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括計(jì)算機(jī)程序,當(dāng)計(jì)算機(jī)程序在電子設(shè)備上運(yùn)行時(shí),使得所述電子設(shè)備執(zhí)行本技術(shù)實(shí)施例第一方面任一可能設(shè)計(jì)的技術(shù)方案。

38、本發(fā)明的有益效果:

39、針對(duì)于本發(fā)明的糾錯(cuò)方法,本發(fā)明旨能夠提高糾錯(cuò)的準(zhǔn)確性和可靠性。該技術(shù)利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)算法,結(jié)合語(yǔ)音識(shí)別領(lǐng)域的專業(yè)知識(shí)和語(yǔ)料庫(kù)資源,針對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行錯(cuò)誤檢測(cè)和糾正,提供更準(zhǔn)確的文本輸出。

40、本發(fā)明可以有效處理語(yǔ)音識(shí)別文本中的拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤、標(biāo)點(diǎn)缺失等問(wèn)題。通過(guò)分析文本的上下文信息、語(yǔ)言模型和領(lǐng)域規(guī)則,識(shí)別并糾正錯(cuò)誤,最終提供準(zhǔn)確的文本結(jié)果。

41、在司法領(lǐng)域,該專利技術(shù)可應(yīng)用于自動(dòng)化的語(yǔ)音識(shí)別文書處理系統(tǒng)中,為法律工作者提供高效、準(zhǔn)確的文本糾錯(cuò)工具,改善法律文件的質(zhì)量和可靠性。

42、針對(duì)于本發(fā)明的語(yǔ)音識(shí)別方法,本發(fā)明基于對(duì)人力以及時(shí)間的兩點(diǎn)要求,提出能夠?qū)?zhí)法記錄儀或監(jiān)控器中的視頻的對(duì)話內(nèi)容進(jìn)行提取的方法,并將對(duì)話的文本進(jìn)行保存,從而減緩對(duì)人力的需求,并提高執(zhí)法信息數(shù)據(jù)存儲(chǔ)的速度。

43、本發(fā)明為了能夠識(shí)別視頻中的文本,使用語(yǔ)音信號(hào)處理與識(shí)別實(shí)現(xiàn)對(duì)音頻的提取和初步識(shí)別。本發(fā)明還為能夠?qū)⒁纛l中不同的說(shuō)話人進(jìn)行區(qū)分,使用聲紋識(shí)別對(duì)不同的聲音特征進(jìn)行分類。

44、本發(fā)明將的不同說(shuō)話人的第二文本與整體識(shí)別得到的第一文本進(jìn)行匹配,一方面使得第一文本能夠具有文本分區(qū)和說(shuō)話人的對(duì)應(yīng)標(biāo)記,并將具有文本分區(qū)和說(shuō)話人對(duì)應(yīng)標(biāo)記的第一文本作為最終轉(zhuǎn)錄文本。另一方面對(duì)因音頻時(shí)間短等原因在分段識(shí)別的第二文本中無(wú)法識(shí)別的語(yǔ)音,借由整體識(shí)別的第一文本所彌補(bǔ),避免了分段識(shí)別因音頻時(shí)間短等原因具有部分無(wú)法識(shí)別語(yǔ)音的現(xiàn)象。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
滦平县| 牡丹江市| 铜鼓县| 封丘县| 田阳县| 茌平县| 鄂伦春自治旗| 龙井市| 宁陕县| 杨浦区| 综艺| 宜宾市| 华宁县| 涞水县| 锡林郭勒盟| 稷山县| 白河县| 富平县| 阿巴嘎旗| 香格里拉县| 中超| 盱眙县| 葵青区| 宜兰县| 海城市| 忻城县| 元氏县| 林芝县| 芒康县| 宁强县| 申扎县| 嘉鱼县| 芷江| 嘉荫县| 牡丹江市| 木里| 北京市| 萝北县| 武安市| 宝山区| 雷波县|