語音識(shí)別系統(tǒng)以及方法

文檔序號(hào)：2821762閱讀：649來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音識(shí)別系統(tǒng)以及方法
技術(shù)領(lǐng)域：
本發(fā)明是關(guān)于一種語音識(shí)別系統(tǒng)以及方法，特別是關(guān)于一種應(yīng)用于數(shù)據(jù)處理裝置的語音識(shí)別系統(tǒng)與方法。
背景技術(shù)：
隨著電子信息產(chǎn)業(yè)發(fā)展的日新月異，各種功能強(qiáng)大且價(jià)格低廉的消費(fèi)性電子信息產(chǎn)品紛紛問世。例如，為了能進(jìn)一步與使用外語的人進(jìn)行溝通，大量具有語言學(xué)習(xí)功能的數(shù)據(jù)處理裝置如雨后春筍一般出現(xiàn)在消費(fèi)市場中。通過如計(jì)算機(jī)或電子辭典等數(shù)據(jù)處理裝置進(jìn)行語言學(xué)習(xí)的過程中，如何能夠提供給學(xué)習(xí)者幾乎與真人相同的學(xué)習(xí)環(huán)境，達(dá)到無須通過與真人的互動(dòng)，僅通過與該數(shù)據(jù)處理裝置間的互動(dòng)即可達(dá)到語文學(xué)習(xí)的功效，已成為研發(fā)者必須面對(duì)的問題。
臺(tái)灣公告第308666號(hào)專利是一種「智能型漢語語音學(xué)習(xí)系統(tǒng)及其方法」，是通過機(jī)器先檢測使用者輸入的學(xué)習(xí)例句語音信號(hào)的特征參數(shù)，再經(jīng)過辨認(rèn)輸入的學(xué)習(xí)例句的語音及計(jì)算的辨認(rèn)結(jié)果與學(xué)習(xí)例句比較的符合率的辨認(rèn)裝置，以及通過使用者學(xué)習(xí)例句的語音以訓(xùn)練使用者的語音模型并更新其中數(shù)據(jù)的訓(xùn)練裝置。經(jīng)過一組學(xué)習(xí)例句的訓(xùn)練后，該使用者的語音模型幾乎已涵蓋所有本身的語音特性，使在正式上線使用時(shí)，能有效的根據(jù)該語音模型內(nèi)的語音特性辨認(rèn)使用者的輸入信號(hào)。
上述語音學(xué)習(xí)與識(shí)別系統(tǒng)及方法是現(xiàn)今語音識(shí)別系統(tǒng)常用的技術(shù)。然而它卻存在著相當(dāng)大的缺點(diǎn)，也就是使用者必須先根據(jù)接近預(yù)定的標(biāo)準(zhǔn)速度與音量朗讀例句，借以建立使用者的語音特征，降低系統(tǒng)識(shí)別錯(cuò)誤的機(jī)會(huì)，同時(shí)養(yǎng)成用清晰穩(wěn)定的朗讀方式輸入語音的習(xí)慣。這種語音特征建立及識(shí)別的方式要求使用者遷就機(jī)器的識(shí)別習(xí)慣，不但欠缺人性化，對(duì)于反應(yīng)較慢的使用者來說，則必須反復(fù)多次的嘗試才能求得較佳的識(shí)別效果。此外，若使用者變更則必須重新建立使用者特征否則無法進(jìn)行識(shí)別。
總而言之，現(xiàn)有的語言識(shí)別至今仍存在兩個(gè)主要的問題，一方面是學(xué)習(xí)者無法自行決定取樣的頻率，換言之，即無法自行決定音頻分辨率的高低，高分辨率固然可以讓學(xué)習(xí)者學(xué)習(xí)到更準(zhǔn)確的發(fā)音，但相對(duì)的也會(huì)造成辨別成功率降低的困擾。另一方面現(xiàn)行的語言學(xué)習(xí)系統(tǒng)中的語言識(shí)別功能，并無法供學(xué)習(xí)者根據(jù)自身的需求做聲音的播放速度以及播放頻率的改變，欠缺個(gè)性化的語音識(shí)別功能，無法讓學(xué)習(xí)者在接近自身發(fā)音特性的環(huán)境下做語言的學(xué)習(xí)，對(duì)于學(xué)習(xí)效率提高而言是一種阻礙。
綜上所述，如何能夠提供一種更具有使用者個(gè)性化的語音識(shí)別系統(tǒng)以及方法，成為目前急待解決的課題。

發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的缺點(diǎn)，本發(fā)明的主要目的在于提供一種可根據(jù)需求設(shè)定音頻取樣頻率的語音識(shí)別系統(tǒng)以及方法。
本發(fā)明的另一目的在于提供一種可根據(jù)需求設(shè)定語音播放速度與頻率的語音識(shí)別系統(tǒng)以及方法。
為達(dá)以上所述及其它目的，本發(fā)明的語音識(shí)別系統(tǒng)包括存儲(chǔ)單元，用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)；取樣頻率設(shè)定模塊，用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值；音頻聲波信號(hào)轉(zhuǎn)換模塊，用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)；分析模塊，用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值；計(jì)算模塊，用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值；判斷模塊，用于根據(jù)該識(shí)別標(biāo)準(zhǔn)比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果；以及音頻處理模塊，設(shè)定語音播放的速度與頻率等音頻特性。
通過該語音識(shí)別系統(tǒng)執(zhí)行語音識(shí)別的方法是提供存儲(chǔ)單元，用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)；提供音頻處理模塊，設(shè)定語音播放的速度與頻率等音頻特性；提供取樣頻率設(shè)定模塊，用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值；提供音頻聲波信號(hào)轉(zhuǎn)換模塊，用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)；提供分析模塊，用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值；提供計(jì)算模塊，用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值；以及提供判斷模塊，用于依據(jù)該識(shí)別標(biāo)準(zhǔn)，比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果。
與現(xiàn)有的語音識(shí)別技術(shù)比較，本發(fā)明的語音識(shí)別系統(tǒng)以及方法可根據(jù)需求設(shè)定音頻取樣頻率，還可根據(jù)需求設(shè)定語音播放的速度與頻率，讓學(xué)習(xí)者在接近自身發(fā)音特性的環(huán)境下進(jìn)行語言的學(xué)習(xí)，能夠有效提高語言學(xué)習(xí)的效率。

圖1是本發(fā)明的語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)圖；以及圖2是本發(fā)明的語音識(shí)別的流程圖。
具體實(shí)施例方式
實(shí)施例以下通過特定的具體實(shí)施例說明本發(fā)明的實(shí)施方式。
圖1是本發(fā)明的語音識(shí)別系統(tǒng)1的基本結(jié)構(gòu)圖，該系統(tǒng)包括存儲(chǔ)單元11、取樣頻率設(shè)定模塊12、音頻聲波信號(hào)轉(zhuǎn)換模塊13、分析模塊14、計(jì)算模塊15、判斷模塊16以及音頻處理模塊17。
在本實(shí)施例中，本發(fā)明的語音識(shí)別系統(tǒng)1應(yīng)用在個(gè)人計(jì)算機(jī)2中，特別是用于提供該個(gè)人計(jì)算機(jī)2語言發(fā)音學(xué)習(xí)的功能。此外，該個(gè)人計(jì)算機(jī)2包括用于輸入音頻數(shù)據(jù)的輸入單元22，例如是麥克風(fēng)。此外，該個(gè)人計(jì)算機(jī)2實(shí)際上還包括其它用于執(zhí)行數(shù)據(jù)運(yùn)算的軟、硬及/或韌體，為突出本案的技術(shù)特征，僅顯示與本發(fā)明的語音識(shí)別系統(tǒng)1以及方法相關(guān)部分。此外，該個(gè)人計(jì)算機(jī)2也可換成如電子辭典、個(gè)人數(shù)字助理、移動(dòng)電話等支持語音輸出入功能的數(shù)據(jù)處理裝置。
該存儲(chǔ)單元11用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及預(yù)設(shè)識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)。在本實(shí)施例中，該存儲(chǔ)單元11是硬盤裝置。除了用于儲(chǔ)存該原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)外，還可用于儲(chǔ)存該個(gè)人計(jì)算機(jī)2在執(zhí)行本發(fā)明的語音識(shí)別系統(tǒng)1時(shí)產(chǎn)生的數(shù)據(jù)。
該取樣頻率設(shè)定模塊12用于根據(jù)預(yù)設(shè)的數(shù)值，設(shè)定原聲音頻與錄入音頻取樣頻率值。由于將模擬音頻信號(hào)轉(zhuǎn)換為數(shù)字音頻信號(hào)的過程中必須先確定取樣頻率，作為模擬音頻轉(zhuǎn)換為數(shù)字音頻的過程中每秒取樣次數(shù)的依據(jù)。
一般來說，聲音播出時(shí)的品質(zhì)通常只能達(dá)到取樣頻率的一半，因此須采取雙倍取樣率才能將原音準(zhǔn)確重現(xiàn)。正常情況下，一般人的聽力極限約為20KHz，所以高品質(zhì)的取樣應(yīng)為其兩倍以上，當(dāng)聲音來源為音樂時(shí)，由于它所橫跨的頻率變化極為寬廣，通常以44.1KHz的頻率為CD音樂取樣率的標(biāo)準(zhǔn)；但是若以語音為主，由于人說話的語音大約為10KHz，因此加倍采樣，只取22KHz即可。取樣率越高，所記錄下來的音質(zhì)就越清晰；當(dāng)然，越高的取樣所記錄下來的數(shù)據(jù)就會(huì)越大。在本實(shí)施例中，本發(fā)明的語音識(shí)別系統(tǒng)1用于語音識(shí)別，所以取樣頻率可以是22KHz。其中，關(guān)于取樣分辨率的部分則可根據(jù)使用者的需求設(shè)定八位、十六位或更高，然由于取樣分辨率與本發(fā)明的技術(shù)內(nèi)容無直接關(guān)聯(lián)，所以不予贅述。
該音頻聲波信號(hào)轉(zhuǎn)換模塊13用于根據(jù)該取樣頻率設(shè)定模塊12所設(shè)定的取樣頻率值，將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)。在本實(shí)施例中，該音頻聲波信號(hào)轉(zhuǎn)換模塊13利用個(gè)人計(jì)算機(jī)上常用的數(shù)字聲音文件(digital audio file)格式「.WAV」。在將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)的過程中，可依據(jù)該取樣頻率設(shè)定模塊12設(shè)定的不同的取樣頻率(44kHz、22kHz或11kHz)與位數(shù)(8位或16位)及單聲/立體聲等。需特別說明，該音頻聲波信號(hào)轉(zhuǎn)換模塊13也可利用其它的音頻聲波信號(hào)轉(zhuǎn)換格式，如「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」等格式。
該分析模塊14用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值。由于模擬音頻信號(hào)在進(jìn)入該個(gè)人計(jì)算機(jī)2前是一種連續(xù)性的信號(hào)，所謂的連續(xù)性號(hào)是指時(shí)間上的連續(xù)，通過該輸入單元22將模擬音頻信號(hào)傳到該個(gè)人計(jì)算機(jī)2中，也就是數(shù)字化的過程。原來連續(xù)性的模擬音頻信號(hào)，經(jīng)過數(shù)字化的處理后，變成一種不連續(xù)的信號(hào)，這些轉(zhuǎn)換后的聲波信號(hào)只在某些固定的時(shí)間刻度上有值，該分析模塊14即是用于分析該時(shí)間刻度上的值。在本實(shí)施例中，該時(shí)間刻度上的值可以是伏特(volt)或分貝(decibel；dB)。
該計(jì)算模塊15用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值。在本實(shí)施例中，該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值，也就是將每一時(shí)間刻度除以該時(shí)間刻度上的伏特或分貝值作為該絕對(duì)值。
該判斷模塊16用于依據(jù)該識(shí)別標(biāo)準(zhǔn)，比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果。在本實(shí)施例中，該識(shí)別標(biāo)準(zhǔn)可例如是比較該計(jì)算模塊15計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度，更具體來說，是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值，除以該原聲音頻的絕對(duì)值并求其相似度百分比。接著，進(jìn)一步在求出所有時(shí)間刻度的相似度百分比后，再求出所有時(shí)間刻度相似度百分比的總平均值。若本發(fā)明的語音識(shí)別系統(tǒng)1是應(yīng)用在語言學(xué)習(xí)軟件的發(fā)音準(zhǔn)確度鑒別功能中，則該總平均值則可作為鑒別的依據(jù)。
該音頻處理模塊17用于設(shè)定語音播放速度與頻率等音頻特性。在本實(shí)施例中，該音頻處理模塊17可通過諸如時(shí)序變化的方式，加快或放慢該原聲音頻數(shù)據(jù)的速度，借以符合不同使用者的說話速度。另一方面，該原聲音頻音調(diào)的高低與振動(dòng)的快慢成正比，若在相同時(shí)間內(nèi)振動(dòng)較快者則其頻率較高，音調(diào)也會(huì)相對(duì)提高。因此，通過變更該原聲音頻數(shù)據(jù)的頻率即可變更該原聲音頻數(shù)據(jù)的音調(diào)，例如趨近于女聲或男聲，同樣的可符合不同使用者的說話音調(diào)。
請(qǐng)參閱圖2，它是本發(fā)明的語音識(shí)別方法步驟的流程圖。
在步驟S201中，提供存儲(chǔ)單元11以儲(chǔ)存至少包括原聲音頻、錄入音頻以及預(yù)設(shè)識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)。接著進(jìn)行步驟S202。
在步驟S202中，該音頻處理模塊17用于設(shè)定語音播放的速度與頻率等音頻特性。在本實(shí)施例中，該音頻處理模塊17可通過諸如時(shí)序變化的方式，加快或放慢該原聲音頻數(shù)據(jù)的速度。另一方面，還可變更該原聲音頻數(shù)據(jù)的頻率即可變更該原聲音頻數(shù)據(jù)的音調(diào)。接著進(jìn)行步驟S203。
在步驟S203中，提供取樣頻率設(shè)定模塊12，依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值。在本實(shí)施例中，本發(fā)明的語音識(shí)別系統(tǒng)1是用于語音識(shí)別，所以取樣頻率可取22KHz。接著進(jìn)行步驟S204。
在步驟S204中，提供音頻聲波信號(hào)轉(zhuǎn)換模塊13，依據(jù)該取樣頻率設(shè)定模塊12所設(shè)定的取樣頻率值，將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)。在本實(shí)施例中，該音頻聲波信號(hào)轉(zhuǎn)換模塊13是利用個(gè)人計(jì)算機(jī)上常用的數(shù)字聲音文件格式「.WAV」。接著進(jìn)行步驟S205。
在步驟S205中，提供該分析模塊14，分析該原聲音頻與錄入音頻取樣頻率的最大音量值。在本實(shí)施例中，該時(shí)間刻度上的值可以是伏特(volt)或分貝(decibel；dB)。接著進(jìn)行步驟S206。
在步驟S206中，提供該計(jì)算模塊15，分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值。在本實(shí)施例中，該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值，也就是將每一時(shí)間刻度除以該時(shí)間刻度上的伏特或分貝值作為該絕對(duì)值。接著進(jìn)行步驟S207。
在步驟S207中，提供該判斷模塊16，依據(jù)該識(shí)別標(biāo)準(zhǔn)比較該原聲音頻與錄入音頻絕對(duì)值決定識(shí)別的結(jié)果。在本實(shí)施例中，該識(shí)別標(biāo)準(zhǔn)可例如是比較該計(jì)算模塊15所計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度，具體來說，即是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值除以該原聲音頻的絕對(duì)值并求其相似度百分比。接著，進(jìn)一步在求出所有時(shí)間刻度的相似度百分比后，再求出所有時(shí)間刻度相似度百分比的總平均值。
綜上所述，本發(fā)明的語音識(shí)別系統(tǒng)以及方法除了可根據(jù)需求設(shè)定音頻取樣頻率外，還可根據(jù)需求設(shè)定語音播放的速度與頻率。讓學(xué)習(xí)者在接近自身發(fā)音特性的環(huán)境下進(jìn)行語言學(xué)習(xí)，進(jìn)而有效提高語言學(xué)習(xí)的效率。
權(quán)利要求
1.一種語音識(shí)別系統(tǒng)，應(yīng)用在數(shù)據(jù)處理裝置中，其特征在于，該系統(tǒng)包括存儲(chǔ)單元，用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)；取樣頻率設(shè)定模塊，用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值；音頻聲波信號(hào)轉(zhuǎn)換模塊，用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)；分析模塊，用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值；計(jì)算模塊，用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值；判斷模塊，用于根據(jù)該識(shí)別標(biāo)準(zhǔn)比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果；以及音頻處理模塊，設(shè)定語音播放的速度與頻率等音頻特性。
2.如權(quán)利要求1所述的系統(tǒng)，其特征在于，該取樣頻率是44.1KHz及22KHz其中之一。
3.如權(quán)利要求1所述的系統(tǒng)，其特征在于，該音頻聲波信號(hào)轉(zhuǎn)換模塊的音頻聲波信號(hào)轉(zhuǎn)換格式是「.wav」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」文件格式中的一種格式。
4.如權(quán)利要求1所述的系統(tǒng)，其特征在于，該音量值是聲波信號(hào)時(shí)間刻度上的值是伏特及分貝其中之一。
5.如權(quán)利要求1所述的系統(tǒng)，其特征在于，該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值。
6.如權(quán)利要求1所述的系統(tǒng)，其特征在于，該識(shí)別標(biāo)準(zhǔn)是比較該計(jì)算模塊計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度。
7.如權(quán)利要求6所述的系統(tǒng)，其特征在于，該絕對(duì)值的相似程度是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值除以該原聲音頻的絕對(duì)值后所得到的值。
8.如權(quán)利要求6所述的系統(tǒng)，其特征在于，該判斷模塊在求出所有時(shí)間刻度的相似程度后，再求出所有時(shí)間刻度相似程度的總平均值。
9.如權(quán)利要求1所述的系統(tǒng)，其特征在于，該音頻處理模塊是通過時(shí)序變化的方式，調(diào)整該原聲音頻數(shù)據(jù)的速度。
10.如權(quán)利要求1所述的系統(tǒng)，其特征在于，該音頻處理模塊是通過變更該原聲音頻數(shù)據(jù)的頻率來變更該原聲音頻數(shù)據(jù)的音調(diào)。
11.一種語音識(shí)別方法，應(yīng)用在數(shù)據(jù)處理裝置中，其特征在于，該方法包括提供存儲(chǔ)單元，用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)；提供音頻處理模塊，設(shè)定語音播放的速度與頻率等音頻特性；提供取樣頻率設(shè)定模塊，用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值；提供音頻聲波信號(hào)轉(zhuǎn)換模塊，用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)；提供分析模塊，用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值；提供計(jì)算模塊，用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值；以及提供判斷模塊，用于依據(jù)該識(shí)別標(biāo)準(zhǔn)，比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果。
12.如權(quán)利要求11所述的方法，其特征在于，該取樣頻率是44.1KHz及22KHz其中之一。
13.如權(quán)利要求11所述的方法，其特征在于，該音頻聲波信號(hào)轉(zhuǎn)換模塊的音頻聲波信號(hào)轉(zhuǎn)換格式是「.wav」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」文件格式中的一種格式。
14.如權(quán)利要求11所述的方法，其特征在于，該音量值是聲波信號(hào)時(shí)間刻度上的值是伏特及分貝其中之一。
15.如權(quán)利要求11所述的方法，其特征在于，該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值。
16.如權(quán)利要求11所述的方法，其特征在于，該識(shí)別標(biāo)準(zhǔn)是比較該計(jì)算模塊所計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度。
17.如權(quán)利要求16所述的方法，其特征在于，該絕對(duì)值的相似程度是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值除以該原聲音頻的絕對(duì)值后所得到的值。
18.如權(quán)利要求16所述的方法，其特征在于，該判斷模塊在求出所有時(shí)間刻度的相似程度后，再求出所有時(shí)間刻度相似程度的總平均值。
19.如權(quán)利要求11所述的方法，其特征在于，該音頻處理模塊是通過時(shí)序變化的方式，調(diào)整該原聲音頻數(shù)據(jù)的速度。
20.如權(quán)利要求11所述的方法，其特征在于，該音頻處理模塊是通過變更該原聲音頻數(shù)據(jù)的頻率來變更該原聲音頻數(shù)據(jù)的音調(diào)。
全文摘要
一種語音識(shí)別系統(tǒng)以及方法，應(yīng)用在數(shù)據(jù)處理裝置中，該系統(tǒng)包括存儲(chǔ)單元、取樣頻率設(shè)定模塊、音頻聲波信號(hào)轉(zhuǎn)換模塊、分析模塊、計(jì)算模塊、判斷模塊以及音頻處理模塊；本發(fā)明主要通過存儲(chǔ)單元將原聲音頻與錄入音頻儲(chǔ)存，接著根據(jù)預(yù)設(shè)的數(shù)值設(shè)定取樣頻率值，分別將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)并分析取樣頻率的最大音量值后，分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值，再通過比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果；通過該語音識(shí)別系統(tǒng)以及方法，可根據(jù)使用者的特性調(diào)整音頻，提高語音識(shí)別的準(zhǔn)確度，還可根據(jù)需求設(shè)定語音播放的速度與頻率。
文檔編號(hào)G10L15/10GK1770263SQ20041008713
公開日2006年5月10日申請(qǐng)日期2004年11月1日優(yōu)先權(quán)日2004年11月1日
發(fā)明者邵曉慧, 邱全成申請(qǐng)人:英業(yè)達(dá)股份有限公司

完整全部詳細(xì)技術(shù)資料下載