專利名稱:一種音頻變速方法
技術(shù)領(lǐng)域:
本發(fā)明涉及^:字信號處理,具體涉及一種音頻變速方法。
背景技術(shù):
不同層次的語言學(xué)習(xí)者,對語速的接受程度有所不同。初級入門 者,需要收聽更慢一點(diǎn)的語速,便于學(xué)習(xí)和理解。中級學(xué)者,則要求 更高一點(diǎn)的語速,而高級學(xué)習(xí)者,則要聽比正常語速更快的語速。針 對這種需求,很多廠家推出了具備語言學(xué)習(xí)功能的電子設(shè)備,此類設(shè) 備帶有語音變速功能,可以將預(yù)存的語音數(shù)據(jù)或錄制語音數(shù)據(jù)進(jìn)行變 速播放。使用者可以根據(jù)不同需求變更語速的播放,達(dá)到助于學(xué)習(xí)語 言的目的。
這些語言學(xué)習(xí)電子設(shè)備,雖然具備有變速播放功能,但都普遍存 在一些缺點(diǎn)
1、通過調(diào)節(jié)f茲帶的轉(zhuǎn)動速率來改變播放的速度。此方法會帶來 語音的嚴(yán)重變調(diào)。
2、 基于MCU芯片上,配以一些信號處理算法實(shí)現(xiàn)變速,這些方 法雖然也能實(shí)現(xiàn)語音變速,但是變速的幅度有限,或者變速幅度大到 一定程度時,聲音會出現(xiàn)變調(diào)或失真。未能滿足更多使用者學(xué)習(xí)語言 的需求。
3、 變速所支持的語音帶寬有限,未能支持到4410QHz采樣率的 寬帶音頻。
4另外.中國發(fā)明專利申請"語音變速的方法",公開號
CN101202048,公開了一種語音變速方法,根據(jù)語音基本周期尋找語 音區(qū)段然后對語音區(qū)段進(jìn)行變速處理,每個人語音特征不同,基本周 期也不同,因此這種方式實(shí)現(xiàn)復(fù)雜,同時僅適用于語音,并不適用于 音樂。
發(fā)明內(nèi)容
本發(fā)明需要解決的技術(shù)問題是,如何提供一種音頻變速方法,能 完成更大幅度的音頻變速,并且實(shí)現(xiàn)高保真音頻變速,包括語音和音 樂。
本發(fā)明技術(shù)問題這樣解決,構(gòu)建一種音頻變速方法,包括以下步
驟
根據(jù)變速要求按一定速率向音頻緩沖區(qū)內(nèi)輸入原始音頻數(shù)據(jù);
在所述音頻緩沖區(qū)中尋找拷貝固定長度的最佳配準(zhǔn)數(shù)據(jù),進(jìn)行淡 入淡出式疊加后以固定速度輸出。
按照本發(fā)明提供的音頻變速方法,所述淡入淡出式疊加是更改 這一次所找最佳配準(zhǔn)數(shù)據(jù)的上半段為上一次所找最佳配準(zhǔn)數(shù)據(jù)下半段 的加窗值加上這一次所找最佳配準(zhǔn)數(shù)據(jù)上半段的加窗值,更改這一次 最佳配準(zhǔn)數(shù)據(jù)的下半段為這一次所找最佳配準(zhǔn)數(shù)據(jù)下半段的加窗值, 加上下一次所找音頻段上半段的加窗值。
按照本發(fā)明提供的音頻變速方法,所述拷貝保留在所述音頻緩沖 區(qū)的被找最佳配準(zhǔn)數(shù)據(jù),所述音頻緩沖區(qū)先溢出先輸入數(shù)據(jù)。
按照本發(fā)明提供的音頻變速方法,所述尋找包括但不限制于采用 最小均方差、互信息量最大和幅度相關(guān)性最高準(zhǔn)則中的任一種。按照本發(fā)明提供的音頻變達(dá)方法,該音頻變速方法包括根據(jù)音頻 加速要求,所述一定速率高于所述固定速度,所述固定速度是原始音 頻數(shù)據(jù)速率。
按照本發(fā)明提供的音頻變速方法,該音頻變速方法包括根據(jù)音頻 減速要求,所述一定速率低于所述固定速度,所述固定速度是原始音 頻數(shù)據(jù)速率。
按照本發(fā)明提供的音頻變速方法,所述音頻包括但不限制于語音 和音樂的一種或二種。
按照本發(fā)明提供的音頻變速方法,所述原始音頻數(shù)據(jù)采樣率包括
j旦不卩艮制于是8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 或48000Hz,所述原始音頻數(shù)據(jù)位長包括但不限制于是16bit、 24bit 或32bit。
本發(fā)明提供的音頻變速方法,相比現(xiàn)有技術(shù)具有如下優(yōu)點(diǎn)
1、 沒有使用語音信號的基本參量,比如語音信號的基音、共振峰 等,可適用于音頻信號(包括語音信號)的變速。
2、 可適用于不同采樣率的音頻信號,支持常用的8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 4,0Hz采樣率的音頻 信號。
3、 可適用于不同樣點(diǎn)位長的音頻信號,支持常用的16bit、 24bit 或32bit位長音頻信號。
4、 變速后輸出信號,每幀信號的長度是固定的;
5、 改變變速速度,只需要改變輸入原始信號的速度,控制過程簡 潔,控制精度高,可實(shí)現(xiàn)高精度級別差的無級變速和高精度控制時間 差的即時變速;6、不需要提取語音或音頻信號特征參數(shù),計(jì)算量遠(yuǎn)小于其它變 速算法;
7 、變速后音頻信號保持高保真的音質(zhì)。
8、 可實(shí)現(xiàn)大變速因子范圍的變速。
附困說明
下面結(jié)合附圖和具體實(shí)施例進(jìn)一步對本發(fā)明進(jìn)行詳細(xì)說明。
圖1是本發(fā)明音頻變速方法流程示意圖2是本發(fā)明音頻緩沖區(qū)結(jié)構(gòu)示意圖3是圖2所示音頻緩沖區(qū)中基本音核結(jié)構(gòu)示意圖4是本發(fā)明音頻緩沖區(qū)最優(yōu)配準(zhǔn)示意圖5是本發(fā)明音頻緩沖區(qū)音頻輸出示意圖。
具體實(shí)施例方式
首先,簡要說明本發(fā)明音頻變速方法,包括
接收原始音頻(包括語音)信號,原始音頻信號的采樣率,可以 包才舌常用的8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 48000Hz;原始語音的位長,可以是16bit、 24bit或32bit;
緩存足夠長的 一段原始音頻信號;
以后向激勵的方式,在緩存的原始音頻信號中尋找最優(yōu)配準(zhǔn)音核, 拷貝該音核、進(jìn)行淡入淡出式處理后拼接到輸出音頻信號中,音核即 一段固定長度的音頻數(shù)據(jù)。上述音頻變速方法,可適用于不同的常規(guī)采樣率的音頻信號,并
不限制于語音信號,也不限制于8kHz采樣率的語音信號。上述音頻變 速方法,采用定點(diǎn)算法實(shí)現(xiàn),以節(jié)省計(jì)算量,可適用于目前主流的運(yùn) 算芯片;其輸入的音頻信號的位長,可以是16bit、 24bit或32bit,當(dāng) 采用高精度位長進(jìn)行計(jì)算的時候,應(yīng)避免了運(yùn)算中的位長溢出。上述 音頻變速方法,在配準(zhǔn)尋找最佳匹配音核的時候,采用的準(zhǔn)則,可以 是最小均方差、互信息量、幅度相關(guān)性或其它常用的矢量配準(zhǔn)準(zhǔn)則, 其中,最小均方差準(zhǔn)則是
參考音核是x,待配準(zhǔn)音頻信號是y,則把y分為小段,每一小段 包含N-1音頻樣點(diǎn)數(shù)N點(diǎn),計(jì)算各小段的均方差,sum((x(i)-y(i)f2) /N, i=0最后比較各小段均方差的值,最小均方差的小段對應(yīng)最佳匹配 音核。
也可采用互信息量、幅度相關(guān)性或其它的矢量配準(zhǔn)準(zhǔn)則,這里不 再贅述。
上述音頻變速方法,在輸出音頻信號的時候,每次輸出的信號段, 其長度是固定的,采用了淡入淡出措施,其中,前一半信號段是舊音 核逐漸淡出,后一半信號段是新的配準(zhǔn)音核逐漸淡入。淡入淡出過程 中采用的淡入淡出函數(shù), 一般采用Hamming窗或Hanning窗,也可 以采用其它類似形狀的加窗函數(shù)。
進(jìn)一步,結(jié)合本發(fā)明具體實(shí)施例進(jìn)行詳細(xì)說明,如圖1所示,包 括以下步驟
步驟110:接收原始音頻(包括語音)信號,原始音頻信號的采樣 率,可以包括常用的8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 48000Hz;原始語音的位長,可以是16bit、 24bit或32bit。步驟120:音頻緩沖區(qū),結(jié)構(gòu)如圖2所示,緩存足夠長的一段原 始音頻信號。
步驟130:如圖3所示,以后向激勵的方式,在緩存的原始音頻 信號中尋找基本音核31。
步驟140:如圖4所示,找到最優(yōu)配準(zhǔn)的音核41。在配準(zhǔn)尋找最 佳匹配音核的時候,采用的準(zhǔn)則,可以是最小均方差、互信息量、幅 度相關(guān)性或其它常用的矢量配準(zhǔn)準(zhǔn)則。
步驟150:切取固定長度的一段音核
步驟160:拼接成新的音頻信號輸出,如圖5所示。在輸出音頻 信號的時候,每次輸出的信號段,其長度是固定的,采用了淡入淡出 措施,其中,前一半信號段是舊音核逐漸淡出,后一半信號段是新的 配準(zhǔn)音核逐漸淡入。淡入淡出過程中采用的淡入淡出函數(shù), 一般采用 Hamming窗或Hanning窗,也可以采用其它類似形狀的加窗函數(shù)。
步驟170:更新待配準(zhǔn)的音核。
以上所述僅為本發(fā)明的較佳實(shí)施例,凡依本發(fā)明權(quán)利要求范圍所 做的均等變化與修飾,皆應(yīng)屬本發(fā)明權(quán)利要求的涵蓋范圍。
權(quán)利要求
1、一種音頻變速方法,其特征在于,包括以下步驟根據(jù)變速要求按一定速率向音頻緩沖區(qū)內(nèi)輸入原始音頻數(shù)據(jù);在所述音頻緩沖區(qū)中尋找拷貝固定長度的最佳配準(zhǔn)數(shù)據(jù),進(jìn)行淡入淡出式疊加后以固定速度輸出。
2、 根據(jù)權(quán)利要求1所述音頻變速方法,其特征在于,所述淡入淡 出式疊加是更改這一次所找最佳配準(zhǔn)數(shù)據(jù)的上半段為上一次所找最 佳配準(zhǔn)數(shù)據(jù)下半段的加窗值加上這一次所找最佳配準(zhǔn)數(shù)據(jù)上半段的加 窗值,更改這一次最佳配準(zhǔn)數(shù)據(jù)的下半段為這一次所找最佳配準(zhǔn)數(shù)據(jù) 下半段的加窗值,加上下一次所找音頻段上半段的加窗值。
3、 根據(jù)權(quán)利要求1所述音頻變速方法,其特征在于,所述拷貝保 留在所述音頻緩沖區(qū)的被找最佳配準(zhǔn)數(shù)據(jù),所述音頻緩沖區(qū)先溢出先 輸入數(shù)據(jù)。
4、 根據(jù)權(quán)利要求1所述音頻變速方法,其特征在于,所述尋找采 用最小均方差、互信息量最大和幅度相關(guān)性最高準(zhǔn)則中的任一種。
5、 根據(jù)權(quán)利要求1所述音頻變速方法,其特征在于,該音頻變速 方法包括根據(jù)音頻加速要求,所述一定速率高于所述固定速度,所述 固定速度是原始音頻數(shù)據(jù)速率。
6 、 根據(jù)權(quán)利要求1所述音頻變速方法,其特^正在于,該音頻變速 方法包括根據(jù)音頻減速要求,所述一定速率低于所述固定速度,所述固定速度是原始音頻數(shù)據(jù)速率。
7、 根據(jù)權(quán)利要求1所述音頻變速方法,其特征在于,所述音頻包 括語音和音樂的 一種或二種。
8、 根據(jù)權(quán)利要求1所述音頻變速方法,其特征在于,所述原始音 頻數(shù)據(jù)采樣率是8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 或48000Hz,所述原始音頻數(shù)據(jù)位長是16bit、 24bit或32bit。
全文摘要
本發(fā)明涉及包括一種音頻變速方法,包括根據(jù)變速要求按一定速率向音頻緩沖區(qū)內(nèi)輸入原始音頻數(shù)據(jù);在所述音頻緩沖區(qū)中尋找拷貝固定長度的最佳配準(zhǔn)數(shù)據(jù),進(jìn)行淡入淡出式疊加后以固定速度輸出。這種音頻變速方法,只需更改原始信號的輸入速度就可改變音頻速度,不使用語音信號的基本參量,計(jì)算簡單、精度高、無級變速、即時、音質(zhì)高和變速因子可取范圍大,同時適用于各種不同采樣率、不同樣點(diǎn)位長的音頻信號以及包括語音和音樂在內(nèi)的各種音頻。
文檔編號G11B27/031GK101630522SQ20091010816
公開日2010年1月20日 申請日期2009年6月29日 優(yōu)先權(quán)日2009年6月29日
發(fā)明者林嘉宇, 蘇宏桓 申請人:東莞市步步高教育電子產(chǎn)品有限公司