音頻處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種音頻處理方法,該方法包括:按照取樣頻率對一段音頻進(jìn)行取樣,獲得一組音量取樣值;判斷所述一組音量取樣值中的最大值與最小值之間的差值是否大于音量差閾值;當(dāng)所述差值小于或等于所述音量差閾值時,保存所述音頻;當(dāng)所述差值大于所述音量差閾值時,從所述一組音量取樣值的第一個音量取樣值開始,直到最后一個音量取樣值結(jié)束,依次把每個音量取樣值與參照值進(jìn)行比較;當(dāng)所述音量取樣值小于或等于參照值時,刪除所述音量取樣值對應(yīng)的音頻;當(dāng)所述音量取樣值大于參照值時,保存所述音量取樣值對應(yīng)的音頻。本發(fā)明還公開了一種音頻處理裝置。采用本發(fā)明實(shí)施例,可以節(jié)約存儲空間、聽者的回放時間及音頻通過網(wǎng)絡(luò)傳輸時的數(shù)據(jù)流量。
【專利說明】音頻處理方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種音頻處理方法及裝置。
【背景技術(shù)】
[0002] 當(dāng)今社會快速發(fā)展,人們常常需要記錄并回放各種有用語音信息,也常常通過互 聯(lián)網(wǎng)進(jìn)行語音溝通。比如,人們在參加會議時,需要錄下發(fā)言人的講話,以便掌握更詳細(xì)的 信息;人們使用互聯(lián)網(wǎng)聊天工具進(jìn)行溝通時會發(fā)送微信語音、QQ語音等語音信息。目前,常 用的錄音方法是從錄音開始至結(jié)束,錄音設(shè)備記錄錄音期間所有的音頻信息。
[0003] 在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問題:
[0004] 現(xiàn)有的錄音記錄方法把無用音頻也記錄了起來。無用音頻是指包含無用信息的音 頻,例如錄音期間沒有人講話的無聲音頻,或者是聲音很小的非正常講話的音頻。這種無用 音頻浪費(fèi)存儲空間,回放的時候也浪費(fèi)聽者的時間,如果在網(wǎng)絡(luò)傳輸還會浪費(fèi)流量。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例的多個方面提出一種音頻處理方法及裝置,能夠自動識別并刪除無 用音頻,保存有用音頻,從而節(jié)約了存儲空間、回放的時間及音頻通過網(wǎng)絡(luò)傳輸時的數(shù)據(jù)流 量。
[0006] 本發(fā)明實(shí)施例的一個方面提供了一種音頻處理方法,包括:
[0007] 按照取樣頻率f對一段音頻進(jìn)行取樣,獲得一組所述音頻的音量取樣值;
[0008] 判斷所述一組音量取樣值中的最大值與最小值之間的差值是否大于音量差閾 值;
[0009] 當(dāng)所述差值小于或等于所述音量差閾值時,保存所述音頻;
[0010] 當(dāng)所述差值大于所述音量差閾值時,從所述一組音量取樣值的第一個音量取樣值 開始,直到最后一個音量取樣值結(jié)束,依次把每個音量取樣值與參照值進(jìn)行比較;
[0011] 當(dāng)所述音量取樣值小于或等于參照值時,刪除所述音量取樣值對應(yīng)的音頻;
[0012] 當(dāng)所述音量取樣值大于參照值時,保存所述音量取樣值對應(yīng)的音頻。
[0013] 其中,所述參照值是所述一組音量取樣值中的最小值與修正系數(shù)相乘而得到的 值。所述修正系數(shù)是一個比1大的數(shù),并且可以修改。
[0014] 相應(yīng)地,本發(fā)明實(shí)施例的另一個方面還提供了一種音頻處理裝置,包括:
[0015] 取樣模塊,用于按照取樣頻率f對一段音頻進(jìn)行取樣,獲得一組所述音頻的音量 取樣值;
[0016] 第一判斷模塊,用于判斷所述一組音量取樣值中的最大值與最小值之間的差值是 否大于音量差閾值;
[0017] 第一保存模塊,用于當(dāng)所述差值小于或等于所述音量差閾值時,保存所述音頻;
[0018] 第二判斷模塊,用于當(dāng)所述差值大于所述音量差閾值時,從所述一組音量取樣值 的第一個音量取樣值開始,直到最后一個音量取樣值結(jié)束,依次把每個音量取樣值與參照 值進(jìn)行比較;
[0019] 音頻刪除模塊,用于當(dāng)所述音量取樣值小于或等于參照值時,刪除所述音量取樣 值對應(yīng)的音頻;和,
[0020] 第二保存模塊,用于當(dāng)所述音量取樣值大于參照值時,保存所述音量取樣值對應(yīng) 的音頻。
[0021] 其中,所述參照值是所述一組音量取樣值中的最小值與修正系數(shù)相乘而得到的 值,所述修正系數(shù)是一個比1大的數(shù),并且可以修改。實(shí)施本發(fā)明實(shí)施例,具有如下有益效 果:
[0022] 本發(fā)明實(shí)施例提供的音頻處理方法及裝置,對音頻的音量進(jìn)行取樣,獲得一組所 述音頻的音量取樣值,再用所述音量取樣值去判斷音頻是否是有用音頻。然后把無用音頻 刪除,僅保存有用音頻,從而節(jié)約了音頻的存儲空間和聽者回放的時間,如果音頻在網(wǎng)絡(luò)上 傳輸,就也節(jié)約了網(wǎng)絡(luò)流量。
【專利附圖】
【附圖說明】
[0023] 圖1是本發(fā)明提供的音頻處理方法的一個實(shí)施例的流程示意圖;
[0024] 圖2是本發(fā)明提供的音頻處理裝置的一個實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0026] 參見圖1,是本發(fā)明提供的音頻處理方法的一個實(shí)施例的流程示意圖,該方法包括 步驟S101至S106,具體如下:
[0027] S101,按照取樣頻率f對一段音頻進(jìn)行取樣,獲得一組所述音頻的音量取樣值;
[0028] 在一種實(shí)施方式中,所述音頻可以是一段已經(jīng)預(yù)先錄制好的音頻,假設(shè)所述音頻 的時長為10分鐘,按取樣頻率f為20Hz對這段音頻的音量進(jìn)行取樣,得到12000個所述音 頻的音量的取樣值,即所述音頻被平均分成了 12000段音頻單元,一個所述音量取樣值對 應(yīng)一個所述音頻單元。
[0029] S102,判斷所述一組音量取樣值中的最大值與最小值之間的差值是否大于音量差 閾值;
[0030] 具體的,通過比較獲得所述一組音量取樣值中每個音量取樣值的大小,獲得最大 值與最小值,計(jì)算獲得所述最大值與所述最小值之間的差值,再將所述差值與音量差閾值 進(jìn)行比較。
[0031] 所述音量差閾值是預(yù)先設(shè)置好的數(shù)值,在具體實(shí)施當(dāng)中,可以通過大量測試,在有 人講話時錄音的音量取樣值與無人講話時錄音的音量取樣值的差值中,選取一個臨界值作 為所述音量差閾值。
[0032] S103,當(dāng)所述差值小于或等于所述音量差閾值時,保存所述音頻。
[0033] 具體的,若音量取樣值的最大值與最小值的差值較小,則說明這段音頻里音量變 化不大,都是有用音頻,所以不需要刪除,直接把整個音頻保存,完成音頻處理。
[0034] S104,當(dāng)所述差值大于所述音量差閾值時,從所述一組音量取樣值的第一個音量 取樣值開始,直到最后一個音量取樣值結(jié)束,依次把每個音量取樣值與參照值進(jìn)行比較;
[0035] 具體的,若音量取樣值的最大值與最小值的差值較大,則說明這段音頻里音量變 化較大,存在有用音頻,也存在無用音頻,此時,需要把無用音頻選擇出來,并刪除。選擇出 無用音頻的具體方法是:從所述一組音量取樣值的第一個音量取樣值開始,直到最后一個 音量取樣值結(jié)束,依次把每個音量取樣值與參照值進(jìn)行比較。因?yàn)橐话闱闆r下,有用音頻的 音量比無用音頻的音量大,所以,通過音量大小的區(qū)別就可以判斷哪些是有用音頻,哪些是 無用音頻。
[0036] 優(yōu)選的,所述參照值是由所述一組音量取樣值的最小值乘以修正系數(shù)而得到的 值。所述修正系數(shù)是一個比1大的數(shù),并且可以修改。
[0037] S105,當(dāng)所述音量取樣值小于或等于參照值時,刪除所述音量取樣值對應(yīng)的音頻。
[0038] S106,當(dāng)所述音量取樣值大于參照值時,保存所述音量取樣值對應(yīng)的音頻。
[0039] 具體的,如果所述音量取樣值小于或等于參照值時,則說明所述音量取樣值對應(yīng) 的音頻單元是無用音頻,所以應(yīng)當(dāng)刪除所述音頻單元;如果所述音量取樣值大于參照值時, 則說明所述音量取樣值對應(yīng)的音頻單元是有用音頻,所以應(yīng)當(dāng)保存所述音頻單元。
[0040] 在另一個實(shí)施例中,上述步驟S101中的一段音頻還可以是實(shí)時輸入的音頻,例如 是實(shí)時的錄音音頻,在這種情況下,錄音與音量取樣同時進(jìn)行,在具體實(shí)施當(dāng)中,系統(tǒng)會預(yù) 先設(shè)定一段時間,如10分鐘,在這10分鐘內(nèi)系統(tǒng)把聲音錄制成錄音音頻,存放在臨時存儲 空間里;系統(tǒng)也同時按照取樣頻率f,如20HZ對聲音音量進(jìn)行取樣;錄音與取樣結(jié)束后,獲 得錄音音頻以及12000個與所述錄音音頻對應(yīng)的音量取樣值,余下步驟便可按上述實(shí)施例 的 S102、S103、S104、S105、S106 進(jìn)行。
[0041] 本發(fā)明的實(shí)施例還提供一種音頻處理裝置,能夠?qū)崿F(xiàn)上述實(shí)施例提供的音頻處理 方法的所有流程。
[0042] 參見圖2,是本發(fā)明提供的音頻處理裝置的一個實(shí)施例的結(jié)構(gòu)示意圖。
[0043] 本發(fā)明實(shí)施例提供的一種音頻處理裝置,包括:
[0044] 取樣模塊1,用于按照取樣頻率f對一段音頻進(jìn)行取樣,獲得一組所述音頻的音量 取樣值;
[0045] 第一判斷模塊2,用于判斷所述一組音量取樣值中的最大值與最小值之間的差值 是否大于音量差閾值;
[0046] 第一保存模塊3,用于當(dāng)所述差值小于或等于所述音量差閾值時,保存所述音頻;
[0047] 第二判斷模塊4,用于當(dāng)所述差值大于所述音量差閾值時,從所述一組音量取樣值 的第一個音量取樣值開始,直到最后一個音量取樣值結(jié)束,依次把每個音量取樣值與參照 值進(jìn)行比較;
[0048] 音頻刪除模塊5,用于當(dāng)所述音量取樣值小于或等于參照值時,刪除所述音量取樣 值對應(yīng)的音頻;和,
[0049] 第二保存模塊6,用于當(dāng)所述音量取樣值大于參照值時,保存所述音量取樣值對應(yīng) 的音頻。
[0050] 優(yōu)選的,所述參照值是所述一組音量取樣值中的最小值與修正系數(shù)相乘而得到的 值。所述修正系數(shù)是一個比1大的數(shù),并且可以修改。
[0051] 本發(fā)明提供的音頻處理方法及裝置,可以有效地刪除音頻中無人講話時的音頻, 從而達(dá)到節(jié)省存儲空間,節(jié)省聽者回放的時間及節(jié)省音頻的網(wǎng)絡(luò)上傳輸時消耗的流量。
[0052] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助 軟件加必需的硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以全部通過硬件來實(shí)施?;谶@樣的理解, 本發(fā)明的技術(shù)方案對【背景技術(shù)】做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來, 該計(jì)算機(jī)軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使 得一臺計(jì)算機(jī)設(shè)備(可以是個人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例 或者實(shí)施例的某些部分所述的方法。
[0053] 以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員 來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為 本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1. 一種音頻處理方法,其特征在于,包括: 按照取樣頻率f對一段音頻進(jìn)行取樣,獲得一組所述音頻的音量取樣值; 判斷所述一組音量取樣值中的最大值與最小值之間的差值是否大于音量差閾值; 當(dāng)所述差值小于或等于所述音量差閾值時,保存所述音頻; 當(dāng)所述差值大于所述音量差閾值時,從所述一組音量取樣值的第一個音量取樣值開 始,直到最后一個音量取樣值結(jié)束,依次把每個音量取樣值與參照值進(jìn)行比較; 當(dāng)所述音量取樣值小于或等于參照值時,刪除所述音量取樣值對應(yīng)的音頻; 當(dāng)所述音量取樣值大于參照值時,保存所述音量取樣值對應(yīng)的音頻。
2. 根據(jù)權(quán)利要求1所述音頻處理方法,其特征在于,所述參照值是所述一組音量取樣 值中的最小值與修正系數(shù)相乘而得到的值。
3. -種音頻處理裝置,其特征在于,包括: 取樣模塊,用于按照取樣頻率f對一段音頻進(jìn)行取樣,獲得一組所述音頻的音量取樣 值; 第一判斷模塊,用于判斷所述一組音量取樣值中的最大值與最小值之間的差值是否大 于音量差閾值; 第一保存模塊,用于當(dāng)所述差值小于或等于所述音量差閾值時,保存所述音頻; 第二判斷模塊,用于當(dāng)所述差值大于所述音量差閾值時,從所述一組音量取樣值的第 一個音量取樣值開始,直到最后一個音量取樣值結(jié)束,依次把每個音量取樣值與參照值進(jìn) 行比較; 音頻刪除模塊,用于當(dāng)所述音量取樣值小于或等于參照值時,刪除所述音量取樣值對 應(yīng)的音頻;和, 第二保存模塊,用于當(dāng)所述音量取樣值大于參照值時,保存所述音量取樣值對應(yīng)的音 頻。
4. 根據(jù)權(quán)利要求3所述音頻處理裝置,其特征在于,所述參照值是所述一組音量取樣 值中的最小值與修正系數(shù)相乘而得到的值。
【文檔編號】G10L15/08GK104157287SQ201410367980
【公開日】2014年11月19日 申請日期:2014年7月29日 優(yōu)先權(quán)日:2014年7月29日
【發(fā)明者】劉淦明 申請人:廣州視源電子科技股份有限公司