一種針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法與流程

文檔序號(hào)：40579830發(fā)布日期：2025-01-07 20:19閱讀：11來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法與流程

本發(fā)明屬于計(jì)算機(jī)，涉及自然語(yǔ)言處理，特別是自然語(yǔ)言處理技術(shù)中文本糾錯(cuò)方法和文本后處理方法。

背景技術(shù)：

1、語(yǔ)音識(shí)別技術(shù)在現(xiàn)代社會(huì)中得到了廣泛應(yīng)用，能夠?qū)⒄Z(yǔ)音輸入轉(zhuǎn)換為文本形式。然而，由于語(yǔ)音識(shí)別過(guò)程中的噪音、口音、發(fā)音錯(cuò)誤等因素，識(shí)別結(jié)果往往存在一定的錯(cuò)誤。這些錯(cuò)誤會(huì)導(dǎo)致轉(zhuǎn)錄的文本質(zhì)量下降，給后續(xù)處理和應(yīng)用帶來(lái)困擾。

2、

3、目前，雖然已經(jīng)存在一些中文文本糾錯(cuò)技術(shù)，但針對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行準(zhǔn)確糾錯(cuò)仍然面臨一些挑戰(zhàn)。首先，語(yǔ)音識(shí)別錯(cuò)誤的特點(diǎn)復(fù)雜多樣，涉及到拼寫、語(yǔ)法、標(biāo)點(diǎn)等多個(gè)方面。其次，語(yǔ)音識(shí)別錯(cuò)誤與正常的打字錯(cuò)誤不完全相同，因?yàn)樗鼈兺ǔＥc語(yǔ)音輸入的特點(diǎn)相關(guān)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在提供高效、準(zhǔn)確的文本糾錯(cuò)解決方案，改善語(yǔ)音識(shí)別后文本結(jié)果的質(zhì)量和可靠性。在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，包括

2、s10.獲取語(yǔ)音識(shí)別結(jié)果的文本；

3、s20.對(duì)所述文本的錯(cuò)誤進(jìn)行糾錯(cuò)。

4、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，所述步驟s20中對(duì)所述文本的錯(cuò)誤進(jìn)行更正，由文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)所實(shí)施。

5、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，所述步驟s20中的所述文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)包括bert層、全連接層、detection和correction層，其中，全連接層用于錯(cuò)誤檢測(cè)，detection層和correction層的loss加權(quán)得到最終的loss用于訓(xùn)練模型。

6、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，所述步驟s20中所述糾錯(cuò)方法包括

7、s21.對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行分析；

8、s22.根據(jù)所述分析將對(duì)文本中的錯(cuò)誤進(jìn)行檢測(cè)和定位；

9、s23.根據(jù)所述錯(cuò)誤的定位生成糾錯(cuò)候選集合；

10、s24.利用基于機(jī)器學(xué)習(xí)算法和語(yǔ)言模型的評(píng)估方法，通過(guò)文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)對(duì)候選進(jìn)行權(quán)衡和判斷，使用所述所述文本糾錯(cuò)模型網(wǎng)絡(luò)結(jié)構(gòu)correction層的正確詞對(duì)原始文本中的錯(cuò)誤進(jìn)行糾錯(cuò)。

11、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，所述步驟s21中的對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行分析，包括詞法分析、句法分析和上下文理解；

12、所述步驟s22中的根據(jù)所述分析將對(duì)文本中的錯(cuò)誤進(jìn)行檢測(cè)和定位，包括利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)算法，結(jié)合領(lǐng)域知識(shí)和語(yǔ)料庫(kù)資源，識(shí)別拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤等問(wèn)題；

13、所述步驟s23中的根據(jù)所述錯(cuò)誤的定位生成糾錯(cuò)候選集合，包括可能的替換詞語(yǔ)、短語(yǔ)或句子，在生成糾錯(cuò)候選時(shí)，綜合考慮上下文信息、語(yǔ)言模型和領(lǐng)域知識(shí)，確保糾錯(cuò)候選的準(zhǔn)確性和合法性，考慮語(yǔ)音識(shí)別引擎的特點(diǎn)和常見(jiàn)誤差，為生成糾錯(cuò)候選提供選擇；

14、所述步驟s24中的利用基于機(jī)器學(xué)習(xí)算法和語(yǔ)言模型的評(píng)估方法，對(duì)候選進(jìn)行權(quán)衡和判斷，綜合考慮候選的語(yǔ)言流暢度、上下文連貫性、語(yǔ)義一致性以及語(yǔ)音識(shí)別引擎的誤差因素，以選擇最有可能是正確糾正的候選作為最終的輸出。

15、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，所述模型的損失函數(shù)：

16、loss＝w·lossdet+(1-w)·losscor。

17、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，所述步驟s10中獲取語(yǔ)音識(shí)別結(jié)果的文本，包括

18、提取視頻文件中的音頻文件；

19、識(shí)別所述音頻文件中的音頻對(duì)應(yīng)的第一文本，所述第一文本是所述音頻文件中的音頻的對(duì)應(yīng)文本的集合，所述第一文本包括音頻時(shí)間標(biāo)記；

20、通過(guò)聲紋識(shí)別對(duì)所述音頻文件中的音頻中的不同聲音特征分類；

21、根據(jù)所述特征分類確定不同說(shuō)話對(duì)象以及不同說(shuō)話對(duì)象的音頻區(qū)間；

22、識(shí)別音頻區(qū)間的音頻對(duì)應(yīng)的第二文本，所述第二文本是各所述音頻區(qū)間的音頻對(duì)應(yīng)文本的集合，且所述第二文本包括各音頻區(qū)間對(duì)應(yīng)的文本區(qū)間的文本區(qū)間標(biāo)記以及文本區(qū)間對(duì)應(yīng)的說(shuō)話對(duì)象標(biāo)記，所述第二文本還包括音頻時(shí)間標(biāo)記；

23、根據(jù)所述音頻時(shí)間標(biāo)記，將所述第二文本與所述第一文本匹配，對(duì)所述第二文本中各音頻區(qū)間的音頻對(duì)應(yīng)的文本對(duì)應(yīng)在所述第一文本的相應(yīng)的文本位置，根據(jù)第二文本的所述文本區(qū)間標(biāo)記對(duì)所述第一文本的對(duì)應(yīng)文本的區(qū)間標(biāo)記說(shuō)話對(duì)象，所述標(biāo)記文本區(qū)間的說(shuō)話對(duì)象的第一文本是所述語(yǔ)音轉(zhuǎn)錄所得文件，其中，所述音頻區(qū)間、文本區(qū)間是所述音頻時(shí)間的時(shí)間區(qū)間的對(duì)應(yīng)表示。

24、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，在音頻區(qū)間未識(shí)別有效文本內(nèi)容，識(shí)別得到音頻區(qū)間的聲音特征以及特征分類，使第二文本中這類文本的文本區(qū)間無(wú)對(duì)應(yīng)文本內(nèi)容，但文本區(qū)間對(duì)應(yīng)說(shuō)話對(duì)象標(biāo)記，這類文本是第二文本中的特別文本；

25、根據(jù)所述音頻時(shí)間標(biāo)記，將所述第二文本與所述第一文本匹配，其中，對(duì)所述第二文本中的特別文本根據(jù)音頻時(shí)間標(biāo)記對(duì)應(yīng)在所述第一文本的相應(yīng)的文本位置，根據(jù)第二文本中的特別文本的所述文本區(qū)間標(biāo)記對(duì)所述第一文本的對(duì)應(yīng)文本的區(qū)間標(biāo)記說(shuō)話對(duì)象。

26、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，包括

27、對(duì)于執(zhí)法記錄儀或者監(jiān)控器中的視頻文件，使用自動(dòng)化剪輯工具將視頻中的音頻抽取出來(lái)，并固定格式，抽取出的音頻格式固定為16khz，16位的單聲道音頻；

28、所述通過(guò)聲紋識(shí)別對(duì)所述音頻文件中的音頻中的不同聲音特征分類的方法包括

29、對(duì)于音頻區(qū)間的音頻的音頻信號(hào)進(jìn)行預(yù)處理；

30、對(duì)于預(yù)處理后的音頻區(qū)間的音頻的音頻信號(hào)進(jìn)行mfcc特征提取，把每一幀波形變成一個(gè)包含聲音信息的多維向量，得到音頻區(qū)間的音頻中的特征向量；

31、聲學(xué)模型將特征向量根據(jù)語(yǔ)音的聲學(xué)特征分類，得到所述音頻文件中的音頻中的聲音特征分類；

32、識(shí)別音頻區(qū)間的音頻對(duì)應(yīng)的第二文本，包括

33、聲學(xué)模型將所述聲學(xué)特征分類對(duì)應(yīng)到音素和/或字詞單元；

34、通過(guò)語(yǔ)言模型將所得到的音素和/或字詞單元解碼成完整的句子，所述完整的句子是音頻區(qū)間的音頻對(duì)應(yīng)的文本區(qū)間的第二文本。

35、在本發(fā)明的一種實(shí)施例中的針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法，所述預(yù)處理包括幀切割、對(duì)語(yǔ)音的高頻部分進(jìn)行預(yù)加重、增加語(yǔ)音的高頻分辨率的操作中的任一種或者其組合。

36、本技術(shù)實(shí)施例還提供一種電子設(shè)備，所述電子設(shè)備包括：一個(gè)或多個(gè)處理器，存儲(chǔ)器，以及，一個(gè)或多個(gè)程序；其中，所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中，所述一個(gè)或多個(gè)程序包括指令，當(dāng)所述指令被所述電子設(shè)備執(zhí)行時(shí)，使得所述電子設(shè)備執(zhí)行本技術(shù)實(shí)施例第一方面任一可能設(shè)計(jì)的技術(shù)方案。

37、本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括計(jì)算機(jī)程序，當(dāng)計(jì)算機(jī)程序在電子設(shè)備上運(yùn)行時(shí)，使得所述電子設(shè)備執(zhí)行本技術(shù)實(shí)施例第一方面任一可能設(shè)計(jì)的技術(shù)方案。

38、本發(fā)明的有益效果：

39、針對(duì)于本發(fā)明的糾錯(cuò)方法，本發(fā)明旨能夠提高糾錯(cuò)的準(zhǔn)確性和可靠性。該技術(shù)利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)算法，結(jié)合語(yǔ)音識(shí)別領(lǐng)域的專業(yè)知識(shí)和語(yǔ)料庫(kù)資源，針對(duì)語(yǔ)音識(shí)別后的文本進(jìn)行錯(cuò)誤檢測(cè)和糾正，提供更準(zhǔn)確的文本輸出。

40、本發(fā)明可以有效處理語(yǔ)音識(shí)別文本中的拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤、標(biāo)點(diǎn)缺失等問(wèn)題。通過(guò)分析文本的上下文信息、語(yǔ)言模型和領(lǐng)域規(guī)則，識(shí)別并糾正錯(cuò)誤，最終提供準(zhǔn)確的文本結(jié)果。

41、在司法領(lǐng)域，該專利技術(shù)可應(yīng)用于自動(dòng)化的語(yǔ)音識(shí)別文書處理系統(tǒng)中，為法律工作者提供高效、準(zhǔn)確的文本糾錯(cuò)工具，改善法律文件的質(zhì)量和可靠性。

42、針對(duì)于本發(fā)明的語(yǔ)音識(shí)別方法，本發(fā)明基于對(duì)人力以及時(shí)間的兩點(diǎn)要求，提出能夠?qū)?zhí)法記錄儀或監(jiān)控器中的視頻的對(duì)話內(nèi)容進(jìn)行提取的方法，并將對(duì)話的文本進(jìn)行保存，從而減緩對(duì)人力的需求，并提高執(zhí)法信息數(shù)據(jù)存儲(chǔ)的速度。

43、本發(fā)明為了能夠識(shí)別視頻中的文本，使用語(yǔ)音信號(hào)處理與識(shí)別實(shí)現(xiàn)對(duì)音頻的提取和初步識(shí)別。本發(fā)明還為能夠?qū)⒁纛l中不同的說(shuō)話人進(jìn)行區(qū)分，使用聲紋識(shí)別對(duì)不同的聲音特征進(jìn)行分類。

44、本發(fā)明將的不同說(shuō)話人的第二文本與整體識(shí)別得到的第一文本進(jìn)行匹配，一方面使得第一文本能夠具有文本分區(qū)和說(shuō)話人的對(duì)應(yīng)標(biāo)記，并將具有文本分區(qū)和說(shuō)話人對(duì)應(yīng)標(biāo)記的第一文本作為最終轉(zhuǎn)錄文本。另一方面對(duì)因音頻時(shí)間短等原因在分段識(shí)別的第二文本中無(wú)法識(shí)別的語(yǔ)音，借由整體識(shí)別的第一文本所彌補(bǔ)，避免了分段識(shí)別因音頻時(shí)間短等原因具有部分無(wú)法識(shí)別語(yǔ)音的現(xiàn)象。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林國(guó)凱,王志永,劉詩(shī)慧,王勇
技術(shù)所有人：中檢美亞（廈門）科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種針對(duì)語(yǔ)音識(shí)別結(jié)果的文本糾錯(cuò)方法與流程