基于時-頻域趨勢變化的密文語音感知哈希及檢索方案的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種新穎的語音感知哈希方案和基于內(nèi)容的密文語音檢索方案。
【背景技術(shù)】
[0002] 語音感知哈希算法是將語音數(shù)據(jù)集單項映射為一段簡潔的數(shù)字摘要,并滿足區(qū)分 性、魯棒性、單向性、摘要性和安全性等要求。語音感知哈希技術(shù)應(yīng)用范圍很廣,如語音識 另IJ、檢索和認證等領(lǐng)域。而隨著互聯(lián)網(wǎng)的普及以及計算機存儲能力的快速發(fā)展,語音的數(shù)量 也在飛速增加,語音感知哈希技術(shù)怎樣更好的適應(yīng)如此迅猛增長的語音數(shù)量,成為急需解 決的問題。云計算的出現(xiàn)為大規(guī)模語音數(shù)據(jù)的存儲提供了新思路。但是在云環(huán)境中,用戶 的數(shù)據(jù)存儲在防火墻外的遠程服務(wù)器中,從密碼學(xué)的角度來說,遠程的云服務(wù)器并不是可 信任的第三方,因此,存儲在云端的重要數(shù)據(jù)需要進行前端加密。
[0003] 傳統(tǒng)的語音感知哈希算法大都是對語音進行時頻變換,在頻域提取魯棒性較好的 特征用于提取感知哈希摘要。大部分語音感知哈希算法都是基于常見的頻域魯棒特征提 取哈希序列,例如頻域MFCCs系數(shù)、傅里葉系數(shù)、小波變換系數(shù)等。文獻"A highly robust audio fingerprinting system"(J. Haitsma, T. Kalker, Proceedings of International Symposium on Music Information Retrieval. Paris, France, 2002:107-115)中,提出一 種基于時間軸上頻域能量不同性的感知哈希算法;文獻"音頻感知哈希算法研宄"(焦玉 華.哈爾濱工業(yè)大學(xué)博士學(xué)位論文.2009)給出了感知哈希各項性質(zhì)的數(shù)學(xué)定義,且提出了 用熵率來聯(lián)合評價算法的區(qū)分性、壓縮性等性能。除此之外,該文獻還提出了一種壓縮寬帶 音頻感知哈希算法、原始語音感知哈希算法及編碼標(biāo)準(zhǔn)相結(jié)合的語音感知哈希算法?,F(xiàn)有 的感知哈希算法雖然性能不斷提升,但并沒有從大規(guī)模實際應(yīng)用的角度考慮,算法復(fù)雜性 與其使用效率之間的矛盾一直無法解決。
[0004] 語音中不乏語音訂單、法庭證據(jù)、軍事命令等重要信息,這些數(shù)據(jù)如果不加以保護 便上傳云端,很容易造成隱私泄露,也是極為危險的。因此,對重要信息在上傳云端前進行 加密是必要的手段。另一方面,當(dāng)存儲在云端的加密數(shù)據(jù)規(guī)模越來越大之后,如何從中快 速、準(zhǔn)確地檢索出指定的語音片段,成為急需解決的問題。
[0005] 綜上所述,現(xiàn)有的感知哈希算法一味的追求提取特征的魯棒性,并沒有從實際應(yīng) 用角度出發(fā),在大規(guī)模應(yīng)用時效率較低;云端密文語音數(shù)據(jù)量的增加,給快速、準(zhǔn)確檢索帶 來了挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0006] 鑒于現(xiàn)有技術(shù)的以上不足,本發(fā)明的目的是提供一種基于時-頻域趨勢變化的感 知哈希及檢索方案,并使之具有快速、準(zhǔn)確檢索的優(yōu)點。
[0007] 本發(fā)明的目的是通過以下的手段實現(xiàn)的。
[0008] -種基于時-頻域趨勢變化的密文語音感知哈希及檢索方案,基于感知哈希的密 文語音檢索方案實現(xiàn)對密文語音在不解密情況下的快速準(zhǔn)確檢索,包含如下步驟:
[0009] (1)感知哈希提?。簩⒄Z音信號分為時域和頻域兩部分;
[0010] 時域采用不重疊分幀,從第二幀開始,比較每幀與前一幀的短時能量,如果大于前 一幀,表示該幀提取的時域感知哈希為1,否則為0 ;將提取的感知哈希值按分幀順序排列, 形成整段語音的時域感知哈希序列h1;
[0011] 頻域分析采用重疊分幀,幀移等于時域分幀的幀長,首先以幀為單位對語音進行 傅里葉變換,將語音信號從時域變換到頻域,再將頻域信號轉(zhuǎn)換到Bark域,計算24個Bark 域中12到19共8個Bark域的短時能量值,再對這8個值進行DCT變換,最終用DCT變換 后的低頻分量來代表該幀的頻域能量,從第二幀開始,比較每幀與前一幀的頻域能量,若大 于,表示該幀提取的頻域感知哈希值為1,否則為〇 ;將提取的感知哈希值按分幀順序排列, 形成整段語音的頻域感知哈希序列h2;
[0012] 采用交叉結(jié)合方法將hdP h 2結(jié)合起來,形成最終的感知哈希序列h ;
[0013] (2)密文語音庫生成:對(1)所獲感知哈希序列h使用混沌異或方法對語音加密, 最后采用數(shù)字水印方法將感知哈希序列嵌入加密后的語音,形成嵌有感知哈希的密文語 音;
[0014] 混純異或加密采用的迭代公式為Xn= μ Xn(I-Xn),其中,μ = 3. 98, XciS加密算 法的密鑰,X(ie (0,1);采用該迭代公式生成偽隨機序列,再將偽隨機序列二值化,與語音數(shù) 據(jù)塊的二進制數(shù)據(jù)按位異或,得到加密后的語音;在密文語音中每IOms選取一個采樣點, 在該采樣點的最低有效位嵌入感知哈希值,生成嵌有感知哈希的密文語音;
[0015] 對語音庫中每段語音進行上述操作,并將所有提取的感知哈希序列保存在系統(tǒng)感 知哈希表中;最后將得到的嵌有感知哈希的密文語音庫和對應(yīng)的系統(tǒng)感知哈希表上傳云 端;
[0016] (3)密文語音檢索:由用戶提供較短的索引語音片段,并同樣采用⑴和⑵的方 法生成索引感知哈希摘要;使用與該感知哈希摘要相同長度的滑動窗,在系統(tǒng)哈希表中滑 動匹配與該索引感知哈希摘要最為相似的感知哈希序列,當(dāng)匹配成功時,返回與該感知哈 希序列對應(yīng)的密文語音,即檢索成功。
[0017] 這樣,本發(fā)明主要實際上為兩部分,第一部分首先結(jié)合感知哈希的使用方法,提出 了將語音分別進行時域和頻域分析,提取兩組感知哈希序列,給予不同的權(quán)重的方法。在使 用過程中,先匹配時域感知哈希,若成功再匹配頻域感知哈希,并綜合時域和頻域感知哈希 的匹配情況得出最終匹配結(jié)果;若時域感知哈希匹配失敗,則直接判定整體匹配失敗。實驗 顯示,該算法有較強的區(qū)分性和魯棒性,并且隨著實驗樣本的增加,其在效率上的優(yōu)勢也愈 發(fā)增大。具體的步驟如下:
[0018] (1)時域感知哈希提取:對語音信號進行不重疊分幀(幀長20ms)。計算各幀的 短時能量。從第二幀開始,用每幀的短時能量與前一幀的短時能量進行比較,如果大于前一 幀,表示該幀提取的感知哈希值為1,否則為〇。這樣,除第一幀外,每幀都提取了 Ibit時域 感知哈希值,將所有提取的時域感知哈希值按分幀的順序排列起來就形成時域感知哈希序 列h1;
[0019] (2)頻域感知哈希提?。簩φZ音信號進行重疊分幀,幀長(30ms)略長于時域分析 的幀長,幀移(20ms)等于時域分析的幀長。對于分幀后的語音,以幀為單位進行傅里葉變 換,將信號從時域變換到頻域,再將頻域信號變換到對耳蝸具有很好模擬作用的Bark域, 計算包含人類最敏感頻域范圍的12到19共8個Bark域的頻域短時能量值,再對這8個值 進行DCT變換,取變換后的低頻分量代表該幀頻域能量。從第二幀開始,將每幀的頻域能量 值與前一幀的頻域能量值進行比較,若大于前一幀表示該幀提取的頻域感知哈希值為1,否 則表示0。這樣,除第一幀外,每幀都提取了 Ibit感知哈希值,將所有提取的頻域感知哈希 值按分幀順序結(jié)合起來就形成了頻域感知哈希序列h2。
[0020] (3)因為頻域分幀的幀移等于時域分幀的幀長,所以時域和頻域提取的感知哈希 序列長度相同。將時域和頻域感知哈希序列交叉結(jié)合起來,奇數(shù)位為時域感知哈希值,偶數(shù) 位為頻域感知哈希值。在進行感知哈希匹配時,先后匹配時域感知哈希序列和頻域感知哈 希