專利名稱:處理數(shù)字圖像的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總地涉及數(shù)字信號(hào)處理領(lǐng)域,更具體而言,涉及處理例如數(shù)字靜止圖像這樣的數(shù)字圖像的方法和系統(tǒng)。
背景技術(shù):
數(shù)字網(wǎng)絡(luò)在向消費(fèi)者提供多媒體資源方面正變得越來越普遍。但是,在數(shù)字媒體被分銷以獲得利潤(rùn)時(shí),對(duì)多媒體內(nèi)容的所有權(quán)的實(shí)施是考慮的主要問題。在現(xiàn)有技術(shù)中,已知水印和數(shù)據(jù)隱藏的方法可為數(shù)字媒體的非法分銷問題提供解決方案。這些應(yīng)用的目的是確保隱藏的數(shù)據(jù)只能被得到授權(quán)的人取得。當(dāng)要隱藏大量數(shù)據(jù)時(shí)一般應(yīng)用數(shù)據(jù)隱藏,而當(dāng)提供少量特定標(biāo)識(shí)信息時(shí)則應(yīng)用數(shù)字水印。
因此,現(xiàn)今的數(shù)字視頻處理方法致力于使用水印和數(shù)字簽名來標(biāo)識(shí)多媒體。但是,如果沒有僅被提供給單個(gè)被授權(quán)者或有限的一組被授權(quán)者的專門軟件或密鑰,數(shù)字簽名就不能被驗(yàn)證。在某些情況下,水印本身可能就不是保密的(與加密不同),因?yàn)樗〉闹饕康氖欠乐勾鄹?。?dāng)然,水印也可被加密。
發(fā)明內(nèi)容
根據(jù)本發(fā)明提供了一種用于處理宿主圖像的方法,該方法包括接收所述宿主圖像;
接收音頻數(shù)據(jù);以及將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)以提供嵌入后圖像,其中所述音頻數(shù)據(jù)可從所述嵌入后圖像自由地恢復(fù)。
該方法可包括在將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)之前減少所述音頻數(shù)據(jù)中包括的代表音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)的量。在一個(gè)示例性實(shí)施例中,該方法包括使用短時(shí)傅立葉變換來變換所述音頻數(shù)據(jù),量化幅值數(shù)據(jù)并丟棄所述音頻信號(hào)的相位數(shù)據(jù),以提供所述音頻數(shù)據(jù)以便嵌入。所述音頻數(shù)據(jù)可以被量化和映射到D4點(diǎn)陣代碼。所述D4點(diǎn)陣的點(diǎn)陣代碼可以按比例縮放(scale),以將所述宿主圖像的失真最小化。
在一個(gè)示例性實(shí)施例中,該方法包括分離所述宿主圖像的亮度數(shù)據(jù)和色度數(shù)據(jù),將所述音頻數(shù)據(jù)包括在所述亮度數(shù)據(jù)中,以提供修改后的亮度數(shù)據(jù),以及將所述修改后的亮度數(shù)據(jù)和所述色度數(shù)據(jù)組合起來以提供所述嵌入后圖像。
該方法可包括處理所述亮度數(shù)據(jù)以提供中間亮度數(shù)據(jù),對(duì)所述中間亮度數(shù)據(jù)的至少一個(gè)子帶執(zhí)行感知自適應(yīng),以提供經(jīng)感知自適應(yīng)的子帶,以及將所述音頻數(shù)據(jù)包括在所述經(jīng)感知自適應(yīng)的子帶中,以提供所述修改后的亮度數(shù)據(jù)。
在一個(gè)示例性實(shí)施例中,該方法包括從所述中間亮度數(shù)據(jù)去除所述至少一個(gè)子帶,以提供進(jìn)一步的中間亮度數(shù)據(jù)。可將所述經(jīng)感知自適應(yīng)的子帶與所述進(jìn)一步的中間亮度數(shù)據(jù)組合起來以提供所述修改后的亮度數(shù)據(jù)??梢詫?duì)所述修改后的亮度數(shù)據(jù)執(zhí)行逆變換,以及將已經(jīng)過逆變換的亮度數(shù)據(jù)與所述色度數(shù)據(jù)組合起來以提供限定了所述數(shù)字圖像的嵌入后宿主。所述亮度數(shù)據(jù)可被離散小波變換或離散余弦變換處理。所述音頻數(shù)據(jù)可被量化并基于所述宿主圖像的子帶的系數(shù)而被按比例縮放。
在一個(gè)示例性實(shí)施例中,該方法包括掩蔽所述宿主圖像的一部分,以及為宿主圖像數(shù)據(jù)保留被掩蔽的部分。在其他實(shí)施例中,該方法包括掩蔽所述宿主圖像的一部分,以提供被掩蔽部分和未被掩蔽部分,以及將所述音頻數(shù)據(jù)既嵌入所述被掩蔽部分也嵌入所述未被掩蔽部分中,其中所述未被掩蔽部分中的每個(gè)像素比所述被掩蔽部分中的每個(gè)像素存儲(chǔ)更多的音頻數(shù)據(jù)。所述圖像可以是數(shù)字照片。
本發(fā)明延及一種用于處理嵌入后圖像來提取音頻數(shù)據(jù)的方法,該方法包括對(duì)所述嵌入后圖像的亮度分量執(zhí)行離散小波變換和離散余弦變換之一;識(shí)別與所述音頻數(shù)據(jù)相關(guān)聯(lián)的量化后的幅值數(shù)據(jù);估計(jì)與識(shí)別出的幅值數(shù)據(jù)相關(guān)聯(lián)的相位數(shù)據(jù);以及基于所述量化后的幅值數(shù)據(jù)和所述相位數(shù)據(jù)生成輸出音頻信號(hào)。
該方法可包括對(duì)所述嵌入后圖像中包括的每個(gè)點(diǎn)陣代碼估計(jì)比例,并對(duì)所述點(diǎn)陣代碼進(jìn)行按比例縮放以將其歸一化,從而提供所述量化后的幅值數(shù)據(jù)。在一個(gè)示例性實(shí)施例中,在識(shí)別所述量化后的幅值數(shù)據(jù)之前該方法包括從編碼后的子帶提取點(diǎn)陣通道代碼;從每個(gè)代碼的最大絕對(duì)值估計(jì)比例;從D4點(diǎn)陣代碼找出匹配;以及對(duì)所述匹配進(jìn)行逆量化以提供STFT幅值數(shù)據(jù)。
該方法可包括將所述音頻數(shù)據(jù)建模為一組已知值,每個(gè)已知值都具有相應(yīng)的代表對(duì)所述已知值的置信度級(jí)別的權(quán)重,其中零權(quán)重指示未知的值,而提取出的所述音頻數(shù)據(jù)的STFT幅值被視為已知值。每個(gè)權(quán)重可被建模為提取出的有噪聲點(diǎn)陣代碼和它的最近的點(diǎn)陣代碼之間的距離的函數(shù)。
此外,根據(jù)本發(fā)明提供了一種用于處理宿主圖像的系統(tǒng),所述系統(tǒng)包括圖像處理電路,用于接收所述宿主圖像;音頻處理電路,用于接收音頻數(shù)據(jù);以及嵌入模塊,用于將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)以提供嵌入后圖像,其中所述音頻數(shù)據(jù)可從所述嵌入后圖像自由地恢復(fù)。
本發(fā)明延及一種用于從宿主圖像提取音頻數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括圖像處理電路,用于接收所述宿主圖像和提供所述宿主圖像的亮度分量;以及音頻處理電路,用于從所述亮度分量提取所述音頻數(shù)據(jù)和提供可被自由地提取的音頻數(shù)據(jù)。
該系統(tǒng)可包括離散小波變換模塊,用于對(duì)所述宿主圖像的亮度分量執(zhí)行離散小波變換;識(shí)別模塊,用于識(shí)別與所述亮度分量相關(guān)聯(lián)的量化后的幅值數(shù)據(jù);以及相位恢復(fù)模塊,用于估計(jì)與識(shí)別出的幅值數(shù)據(jù)相關(guān)聯(lián)的相位數(shù)據(jù),并基于所述量化后的幅值數(shù)據(jù)和所述相位數(shù)據(jù)來生成輸出音頻信號(hào)。
本發(fā)明還延及一種包含指令序列的機(jī)器可讀介質(zhì),當(dāng)所述指令序列被機(jī)器執(zhí)行時(shí)使得所述機(jī)器這里描述的任何一種或多種方法,或者所述指令序列被配置為實(shí)現(xiàn)這里描述的任何一個(gè)或多個(gè)系統(tǒng)。本發(fā)明還延及數(shù)字照相機(jī)和包括數(shù)字照相機(jī)的移動(dòng)電話。
本發(fā)明的其他特征將從附圖和下面的描述中變得很清楚。
在附圖中以示例而非限制的方式示出了本發(fā)明,其中除非特別指明,否則相似的標(biāo)號(hào)指示相同或相似的特征。
附圖中圖1示出了根據(jù)本發(fā)明的示例性數(shù)字照相機(jī)的示意性框圖;圖2示出了根據(jù)本發(fā)明的用于處理數(shù)字圖像的圖像處理系統(tǒng)實(shí)施例的示例性功能單元的示意性框圖;圖3示出了根據(jù)本發(fā)明的用于處理數(shù)字圖像的示例性方法的示意性流程圖;圖4示出了根據(jù)本發(fā)明的用于處理嵌入宿主圖像中的音頻數(shù)據(jù)的方法的示意性流程圖;圖5示出了根據(jù)本發(fā)明的用于從嵌入后圖像中提取音頻的音頻處理系統(tǒng)實(shí)施例的示例性功能單元的示意性框圖;圖6示出了根據(jù)本發(fā)明的用于從嵌入后圖像中提取音頻數(shù)據(jù)的音頻處理方法的示意性流程圖;圖7示出了數(shù)字圖像的示例性小波子帶;圖8示出了根據(jù)本發(fā)明的用于從自原始音頻信號(hào)導(dǎo)出的幅值數(shù)據(jù)重建音頻數(shù)據(jù)的音頻處理方法的示意性流程圖;圖9示出了根據(jù)本發(fā)明的用于將STFT幅值嵌入宿主圖像的子帶的示例性方法;圖10示出了根據(jù)本發(fā)明的用于處理數(shù)字圖像的圖像處理系統(tǒng)的另一實(shí)施例的示例性功能單元的示意性框圖;圖11示出了示例性8x8離散余弦變換(DCT)系數(shù)塊,其中4個(gè)DCT系數(shù)被點(diǎn)陣代碼(lattice code)替換;圖12示出了根據(jù)本發(fā)明的用于從嵌入后圖像中提取音頻的音頻處理系統(tǒng)的另一示例性實(shí)施例的功能單元的示意性框圖;圖13A、13B、14A和14B示出了示例性宿主圖像和限定了不包括音頻嵌入的圖像部分的示例性相關(guān)遮罩(mask);圖15和16示出了圖像的示例性屏幕顯示以及圖象的被表示為“聲音帶”或“話音帶”的相關(guān)音頻;并且圖17示出了機(jī)器的示意性表示,所述機(jī)器采取計(jì)算機(jī)系統(tǒng)的示例性形式,在該計(jì)算機(jī)系統(tǒng)中可執(zhí)行用于致使機(jī)器執(zhí)行這里討論的任何一種方法的一組指令。
具體實(shí)施例方式
這里描述了處理數(shù)字圖像數(shù)據(jù)的方法和系統(tǒng)。在以下描述中,為了說明的目的列舉了大量具體細(xì)節(jié),以提供對(duì)本發(fā)明的透徹理解。但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)很清楚,本發(fā)明可在沒有這些具體細(xì)節(jié)的情況下實(shí)現(xiàn)。以示例的形式,參考向例如由數(shù)字照相機(jī)攝取的照片或“快照(snap-shot)”這樣的靜止圖像嵌入音頻數(shù)據(jù)和從其中提取音頻數(shù)據(jù)來描述本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明可應(yīng)用于包括視頻和其他多媒體環(huán)境的任何數(shù)字信號(hào)處理應(yīng)用中。
在本發(fā)明的一個(gè)示例性實(shí)施例中,提供了用于向例如靜止圖像這樣的彩色宿主圖像嵌入音頻信號(hào)(例如話音信號(hào))的方法和系統(tǒng)。如下所詳述的那樣,音頻信號(hào)的短時(shí)傅立葉變換(STFT)的幅值可以被點(diǎn)陣編碼,并被注入到宿主圖像的小波變換或離散余弦變換的子帶中。在本發(fā)明的一個(gè)實(shí)施例中,可以提供“有聲圖片(talking picture)”,其可以用任何計(jì)算機(jī)或處理設(shè)備來捕獲和/或重放,所述處理設(shè)備例如但不限于個(gè)人數(shù)字助理(PDA)、蜂窩電話、數(shù)字照相機(jī)、個(gè)人計(jì)算機(jī)(PC)等。但是,以示例的方式參考數(shù)字照相機(jī)描述本發(fā)明。此外應(yīng)當(dāng)理解,這里描述的數(shù)字照相機(jī)或其任何組件都可被包括在PDA、蜂窩電話、web照相機(jī)或任何其他計(jì)算機(jī)或處理設(shè)備中。
具體參考圖1,根據(jù)本發(fā)明的示例性實(shí)施例,標(biāo)號(hào)10總地指示示例性數(shù)字照相機(jī)。照相機(jī)10被示為包括用于捕獲圖像的光學(xué)系統(tǒng)或圖像捕獲模塊12。相應(yīng)地,照相機(jī)10可包括用于控制圖像捕獲模塊12的光學(xué)系統(tǒng)控制器14,并且可選地包括用于處理從圖像捕獲模塊12接收的數(shù)字信號(hào)(例如以數(shù)字?jǐn)?shù)據(jù)的形式)的圖像處理模塊1 6。圖像捕獲模塊12例如可以是傳統(tǒng)的CCD探測(cè)器等。在一個(gè)實(shí)施例中,圖像捕獲模塊12捕獲靜止的宿主圖像或“照片”,然后所述宿主圖像或照片被饋入靜止圖像處理器18以供處理。然后,靜止圖像可經(jīng)由I/O接口20被傳送到外部設(shè)備,和/或被存儲(chǔ)在可移動(dòng)存儲(chǔ)設(shè)備22上。為了控制數(shù)字照相機(jī)10的操作,可以提供存儲(chǔ)器/照相機(jī)控制程序和數(shù)據(jù)模塊24。
為了捕獲例如話音之類的音頻,照相機(jī)10包括音頻捕獲模塊26,并且可選地包括音頻處理模塊28。于是,音頻數(shù)據(jù)可被饋入靜止圖像處理器18,然后如下所詳述的那樣,靜止圖像處理器1 8將音頻數(shù)據(jù)嵌入由圖像捕獲模塊12捕獲的宿主圖像中。應(yīng)當(dāng)理解,圖1所示的各個(gè)模塊只是示例性模塊,在示例性數(shù)字照相機(jī)1的不同實(shí)施例中可包括更多的或其他模塊。例如,在蜂窩電話內(nèi)提供的數(shù)字照相機(jī)可包括不同的模塊,以便幫助集成到蜂窩電話中。此外,例如,數(shù)字照相機(jī)10可包括其他模塊,以便幫助照相機(jī)10集成到PDA、web照相機(jī)等中。因此應(yīng)當(dāng)理解,示例性數(shù)字照相機(jī)10可依賴于特定的照相機(jī)應(yīng)用(例如作為獨(dú)立照相機(jī)、PDA、蜂窩電話照相機(jī)等等)而包括不同的模塊。
參考圖2,標(biāo)號(hào)30總地指示根據(jù)本發(fā)明實(shí)施例的用于處理圖像以便將音頻數(shù)據(jù)嵌入其中的示例性系統(tǒng)。在一個(gè)實(shí)施例中,圖像是靜止圖像,系統(tǒng)30可以被包括在數(shù)字照相機(jī)10的靜止圖像處理器18內(nèi)。但是應(yīng)當(dāng)理解,系統(tǒng)30可作為獨(dú)立單元提供,或被集成在捕獲宿主圖像(靜止的或視頻)的任何其他計(jì)算機(jī)設(shè)備內(nèi)。
系統(tǒng)30包括多個(gè)功能模塊,用于處理RGB宿主圖像信號(hào)(或數(shù)據(jù))32和例如采取示例性的話音信號(hào)(或數(shù)據(jù))形式的音頻信號(hào)34。雖然系統(tǒng)30被示為包括多個(gè)分立的功能模塊,但是應(yīng)當(dāng)理解,各個(gè)模塊可被組合或集成到單個(gè)功能單元中,并且在其他實(shí)施例中還可包括更多的模塊。此外,被捕獲的宿主圖像可以是其他格式的,并不限于RGB圖像。在示例性系統(tǒng)30中,各個(gè)模塊可由圖像處理電路31和音頻處理電路33提供。
示例性系統(tǒng)30被示為包括RGB到Y(jié)CbCr轉(zhuǎn)換模塊36、離散小波變換模塊38、濾波器模塊40、感知分析模塊41、短時(shí)傅立葉變換(STFT)模塊42、量化器模塊44、D4點(diǎn)陣代碼模塊46、查找模塊48、逆離散小波變換模塊50、YCbCr到RGB轉(zhuǎn)換模塊52。如下所詳述的那樣,在一個(gè)示例性實(shí)施例中,系統(tǒng)30允許適度的音頻惡化,其中僅STFT的幅值被編碼和嵌入宿主圖像中。此外,系統(tǒng)30可使用自適應(yīng)點(diǎn)陣代碼來對(duì)音頻編碼,如下所詳述的那樣。
圖3示出了根據(jù)本發(fā)明的用于通過在例如RGB宿主圖像信號(hào)32這樣的宿主圖像中嵌入音頻數(shù)據(jù)來處理數(shù)字圖像的示例性方法60。雖然方法60可應(yīng)用于處理任何數(shù)字圖像以便在宿主圖像數(shù)據(jù)中包括音頻數(shù)據(jù)的任何設(shè)備,但是方法60是參考系統(tǒng)30以示例形式描述的。
如操作62所示,系統(tǒng)30接收RGB宿主圖像信號(hào)32,然后,顏色空間轉(zhuǎn)換在操作64被執(zhí)行,以將RGB分量(或數(shù)據(jù))轉(zhuǎn)換為Y、Cb和Cr通道(見RGB到Y(jié)CbCr轉(zhuǎn)換模塊36)。因此,在顏色空間轉(zhuǎn)換之后,RGB宿主圖像信號(hào)32被分別轉(zhuǎn)換為獨(dú)立的色度和亮度通道或分量66、68(見圖3中的操作70)。色度和亮度通道66和68可由數(shù)字?jǐn)?shù)據(jù)來定義。
然后,方法60在操作72執(zhí)行示例性的兩級(jí)離散小波變換,以提供中間亮度數(shù)據(jù)74,該中間亮度數(shù)據(jù)74被饋入感知分析模塊41(見操作76)。操作76中的感知分析可使用基于人類視覺系統(tǒng)模型的感知信息,從而當(dāng)被人眼觀看時(shí)被嵌入宿主圖像中的音頻數(shù)據(jù)對(duì)宿主圖像的改變盡可能地小。在本發(fā)明的一個(gè)實(shí)施例中,感知分析模塊41可使用類似于目前僅應(yīng)用于數(shù)字水印中的技術(shù)。此外,中間亮度數(shù)據(jù)78被饋入濾波器模塊40,以選擇一個(gè)或多個(gè)子帶并對(duì)其進(jìn)行濾波(例如濾除)(見操作80),以提供濾波后的亮度數(shù)據(jù)87。
返回操作76中的感知分析,經(jīng)感知自適應(yīng)的(perceptually adapted)亮度子帶數(shù)據(jù)82與音頻數(shù)據(jù)在84處被組合(見操作86),以提供經(jīng)感知自適應(yīng)的音頻數(shù)據(jù)88。然后,如89所示,經(jīng)感知自適應(yīng)的音頻數(shù)據(jù)88與濾波后的亮度數(shù)據(jù)87被組合在一起,以提供修改后的亮度數(shù)據(jù)91(見操作90)。如操作92處所示,對(duì)修改后的亮度數(shù)據(jù)91執(zhí)行逆離散小波變換(見逆離散小波變換模塊50)。
然后,利用逆離散小波變換模塊50逆變換后的修改后的亮度數(shù)據(jù)91與色度分量66在YCbCr到RGB轉(zhuǎn)換模塊52處被組合并被從YCbCr轉(zhuǎn)換為RGB分量。因此,YCbCr到RGB轉(zhuǎn)換模塊52的處理后輸出或嵌入后圖像56是其中嵌入了音頻信號(hào)(或數(shù)據(jù))34的RGB宿主圖像信號(hào)(或數(shù)據(jù))32。
在一個(gè)示例性實(shí)施例中,小波變換后的亮度數(shù)據(jù)的LL-HH子帶100(見圖7和圖2的感知分析模塊41)可被用來嵌入或容宿音頻數(shù)據(jù)。在另一實(shí)施例中,高頻子帶102可被使用,因?yàn)樗商峁└叩娜萘?,從而允許嵌入或容宿更大量或更大數(shù)量的音頻數(shù)據(jù),同時(shí)在輸出的嵌入后圖像56中宿主圖像信號(hào)或數(shù)據(jù)32的潛在感知失真更小。但是,高頻子帶102對(duì)于對(duì)嵌入后圖像56執(zhí)行的有損圖像壓縮來說可能是較脆弱的。宿主圖像的低頻子帶104也可被用來嵌入音頻數(shù)據(jù),但是可能引入感知失真,并且用于容納音頻數(shù)據(jù)34的容量也可能較低(因此在宿主圖像中容宿或嵌入的音頻數(shù)據(jù)更少)。因此,在一個(gè)實(shí)施例中,LL-HH子帶100被使用,因?yàn)樗商峁└哳l子帶102和低頻子帶104之間的合理平衡,其中高頻子帶102具有潛在的有損圖像壓縮特性,而低頻子帶104用于嵌入音頻數(shù)據(jù)的容量潛在地較低。在一個(gè)特定實(shí)施例中,通過在HH子帶102中包括音頻數(shù)據(jù)34以用于低JPEG壓縮設(shè)置,可以提供大約5倍的通道容量增加。
標(biāo)號(hào)110(見圖4)總地指示根據(jù)本發(fā)明的用于處理音頻數(shù)據(jù)以便嵌入到宿主圖像中的示例性方法。在一個(gè)實(shí)施例中,方法110被用來處理系統(tǒng)30的宿主圖像數(shù)據(jù)32中的音頻數(shù)據(jù)34(見圖2)。如操作112所示,方法110可接收例如可以是以8kHz采樣的數(shù)字話音的音頻數(shù)據(jù)(例如代表任何音頻信號(hào))。然后,如操作114所示,進(jìn)行音頻數(shù)據(jù)的短時(shí)傅立葉變換(STFT)(例如見圖2的STFT模塊42),然后,變換后的頻譜數(shù)據(jù)的相位(STFT相位)可被丟棄,而變換后的頻譜數(shù)據(jù)的幅值(STFT幅值)可被量化(例如量化為24級(jí)),如操作116所示。應(yīng)當(dāng)理解,丟棄相位可能會(huì)使音頻惡化,降低其質(zhì)量,但仍提供足夠的信息以供隨后的音頻重建。然后,量化后的幅值可被映射到D4點(diǎn)陣代碼(見操作118)。方法110的輸出可提供4維(4D)通道編碼音頻數(shù)據(jù),該音頻數(shù)據(jù)如上所述地與經(jīng)感知自適應(yīng)的亮度子帶數(shù)據(jù)82組合,以提供經(jīng)感知自適應(yīng)的音頻數(shù)據(jù)88。
在一個(gè)示例性實(shí)施例中,當(dāng)在系統(tǒng)30上實(shí)現(xiàn)時(shí),方法110接收8位8kHz話音形式的音頻數(shù)據(jù)34,該音頻數(shù)據(jù)34以50%的重疊被STFT變換,然后相位被丟棄。每個(gè)頻譜幅值可被量化(例如均勻地)為24級(jí),以與D4點(diǎn)陣的第一外殼(shell)相匹配。在一個(gè)實(shí)施例中,該映射可以用這樣的方式進(jìn)行當(dāng)點(diǎn)陣代碼被加性噪聲干擾時(shí),在其代表的數(shù)據(jù)(STFT幅值)中引起最小差錯(cuò)。因此,這樣的要求可能有助于嵌入RGB宿主圖像或數(shù)據(jù)32內(nèi)的音頻數(shù)據(jù)的適度惡化。在一個(gè)實(shí)施例中,自適應(yīng)編碼可被用來分析宿主圖像中的區(qū)域,并且響應(yīng)于該分析,基于例如對(duì)頻率、亮度和對(duì)比度掩蔽的人類視覺靈敏感度來決定編碼強(qiáng)度。例如,在高頻或紋理明顯的區(qū)域中,可以接受較大的失真,因此可以使用高編碼強(qiáng)度以獲得較大的魯棒性,并同時(shí)保持感觀透明度(perceived transparency)(在典型觀看條件下減小的宿主圖像失真)。在類似于明朗的藍(lán)天這樣的明亮低頻區(qū)域中,低編碼強(qiáng)度可被用來提高透明度,但是會(huì)犧牲魯棒性(在嵌入后圖像經(jīng)歷線性或非線性操作后對(duì)音頻數(shù)據(jù)的修改)。在一個(gè)實(shí)施例中,可以使用基于這種頻率敏感度的一種簡(jiǎn)單方案,其中小波子帶的系數(shù)確定一個(gè)區(qū)域的頻率內(nèi)容。通過基于被點(diǎn)陣代碼替換的相應(yīng)的子帶系數(shù)(見圖3中的操作76)來按比例縮放點(diǎn)陣代碼,可以實(shí)現(xiàn)感知自適應(yīng)。例如,在D4點(diǎn)陣代碼的情形下,比例因子可以是其將替換的四個(gè)子帶系數(shù)的最大絕對(duì)值。
例如,Scale=max(|Di|) (1)其中,0<=i<=3,并且Di是用于替換的選定子帶的四個(gè)系數(shù)。
S=Scale*Sglobal(2)P=Smin(如果S<Smin),Smax(如果S>Smax),或S(在所有其他情況下)。
(3)Di6=P*Ci, (4)其中Di6是新系數(shù),Ci是點(diǎn)陣代碼,Sglobal是整體比例因子,Smin和Smax可以限制失真。Di和Sglobal一起可確定點(diǎn)陣代碼S的強(qiáng)度,并提供感知分析元素。對(duì)于高頻區(qū)域來說,S可以較大,這可以更好地掩蔽失真。
在一個(gè)實(shí)施例中,Smin、Smax和Sglobal變量可以是可調(diào)節(jié)的。Smin可以設(shè)置由于嵌入音頻而造成的宿主圖像的最小失真,增大Smin可得到整體的較大魯棒性,但是會(huì)增大圖像失真。Smax可以限制由于嵌入音頻而造成的宿主圖像的最大失真。在一個(gè)示例性實(shí)施例中,Sglobal可以被設(shè)置為1.0,Smin可以等于1.0或2.0,Smax可以等于4.0。在Smin=1.0時(shí),失真可能較不明顯。雖然參考點(diǎn)陣編碼以示例形式描述了本發(fā)明,但是應(yīng)當(dāng)理解,在其他實(shí)施例中可以使用二進(jìn)制編碼(或任何其他合適的技術(shù))。但是,在某些情況下,點(diǎn)陣編碼可能提供較高的抗噪能力。
具體參考圖5,標(biāo)號(hào)120總地指示根據(jù)本發(fā)明的用于處理數(shù)字圖像以從數(shù)字圖像(例如嵌入后宿主122)中取得或提取音頻數(shù)據(jù)的示例性系統(tǒng)。系統(tǒng)120例如可被用來實(shí)現(xiàn)方法124(見圖6)。系統(tǒng)120包括RGB到Y(jié)CbCr轉(zhuǎn)換模塊126、離散小波變換模塊128、點(diǎn)陣代碼提取模塊130、比例估計(jì)模塊132、匹配模塊134、逆量化模塊136、濾波器模塊138和相位恢復(fù)模塊140。如下所詳述的那樣,系統(tǒng)120和方法124允許提取嵌入后圖像122中的嵌入的音頻數(shù)據(jù)。因此,例如,嵌入RGB宿主圖像數(shù)據(jù)32中的音頻數(shù)據(jù)34(見圖2)可以被取得或重建。系統(tǒng)120和方法124例如還可以被包括在數(shù)字照相機(jī)10中。但是,在其他實(shí)施例中,系統(tǒng)120和方法124可以被提供在PDA、包括照相機(jī)的蜂窩電話和任何其他計(jì)算設(shè)備(例如PC)中,從而嵌入在被設(shè)備接收的圖像中的音頻數(shù)據(jù)可以被再現(xiàn),并且宿主圖像可被觀看。當(dāng)數(shù)字圖像被再現(xiàn)時(shí),視覺二維圖像(對(duì)應(yīng)于宿主圖像)則可被顯示給用戶,并且被嵌入圖像中的伴隨的音頻數(shù)據(jù)可同時(shí)被重放或再現(xiàn)。因此,包括嵌入的數(shù)據(jù)的數(shù)字圖像可能類似于“有聲照片”或“有聲圖片”。應(yīng)當(dāng)理解,因?yàn)橐纛l數(shù)據(jù)34被嵌入宿主圖像數(shù)據(jù)32中,因此圖像數(shù)據(jù)32和音頻數(shù)據(jù)34形成了單個(gè)實(shí)體或承載介質(zhì)。因此,不是傳送兩個(gè)獨(dú)立的文件,而是音頻和視覺數(shù)據(jù)被合并或混合,并且對(duì)圖像復(fù)本的拷貝會(huì)導(dǎo)致音頻數(shù)據(jù)也被拷貝或復(fù)制。
返回系統(tǒng)120和方法124,如操作142(見圖6)所示,系統(tǒng)120(圖5)可接收嵌入后圖像122(例如對(duì)應(yīng)于圖2的嵌入后圖像56),然后(如果有必要的話)對(duì)RGB分量進(jìn)行轉(zhuǎn)換以提供YCbCr分量,如操作144所示(另見RGB到Y(jié)CbCr轉(zhuǎn)換模塊126)。然后,亮度數(shù)據(jù)Y 146被饋入執(zhí)行離散小波變換(見操作148)的離散小波變換模塊128,然后,點(diǎn)陣代碼從編碼后子帶中被提取(見操作150和提取模塊130)。點(diǎn)陣提取模塊130的輸出可以是按比例縮放后的4-D通道代碼,該代碼然后在操作1 52經(jīng)歷比例估計(jì)(也見比例估計(jì)模塊132),以產(chǎn)生歸一化的4-D通道代碼,歸一化的4-D通道代碼被饋入匹配模塊134,以找出最佳或合適的匹配。匹配模塊134搜索點(diǎn)陣代碼模塊46,并找出最佳或合適的匹配,產(chǎn)生量化(例如24級(jí))系數(shù)(見操作154),該量化系數(shù)被逆量化(見逆量化模塊136)以獲得STFT幅值(見操作156)。然后,STFT幅值被濾波(見操作158)以去除噪聲(例如鹽/胡椒型(salt/pepper)噪聲),并且高斯平滑(見濾波器138)被執(zhí)行。然后,濾波后的STFT幅值被饋入相位恢復(fù)模塊140,以執(zhí)行相位恢復(fù)(見操作160),然后在操作162提供輸出音頻信號(hào)。輸出音頻信號(hào)對(duì)應(yīng)于音頻數(shù)據(jù)34(見圖2),而在一個(gè)實(shí)施例中可被認(rèn)為是恢復(fù)后的音頻信號(hào)。
在一個(gè)實(shí)施例中,比例可以被估計(jì)為每個(gè)系數(shù)的最大絕對(duì)值,因?yàn)樗械谝煌鈿4點(diǎn)陣代碼都可能具有最大單位幅值。因此,可以采用動(dòng)態(tài)比例縮放,以允許在無需額外編碼的情況下同一宿主圖像內(nèi)有不同強(qiáng)度的代碼。
如圖9所示,在一個(gè)實(shí)施例中執(zhí)行兩級(jí)小波變換,并且使用(例如直接地)LL-HH子帶的四個(gè)系數(shù)(被替換的)的最大值來按比例縮放點(diǎn)陣代碼。由于圖像已經(jīng)經(jīng)歷了小波變換,因此動(dòng)態(tài)比例縮放操作可以很快而且僅需要一些附加操作。通過將點(diǎn)陣代碼限制到D4點(diǎn)陣的第一外殼,比例可在解碼期間被估計(jì),并且不需要與嵌入后圖像一起被傳送。
在圖9中,標(biāo)號(hào)250總地指示根據(jù)本發(fā)明的用于將音頻數(shù)據(jù)映射到點(diǎn)陣代碼的方法。點(diǎn)陣編碼的優(yōu)點(diǎn)是點(diǎn)陣代碼之間的距離可被最大化,以使其對(duì)噪聲魯棒。在一個(gè)實(shí)施例中,點(diǎn)陣代碼在理論上可被按比例放大到足夠大,以處理通道的最大噪聲。但是,在水印的上下文中,這可能是不實(shí)際的,因?yàn)樵肼暷P鸵话愫茈y建模。即使噪聲模型是已知的,比例也可能太大,造成可能是不可接受的失真。因此,一般來說足夠的噪聲可能仍會(huì)導(dǎo)致點(diǎn)陣代碼被錯(cuò)誤地解碼,可能需要例如檢錯(cuò)和糾錯(cuò)這樣的額外編碼來對(duì)其進(jìn)行校正,從而增加了計(jì)算開銷和復(fù)雜度。但是,在本發(fā)明的一個(gè)實(shí)施例中,這種差錯(cuò)可以被允許并且不被校正。相反,可以提供接近實(shí)際代碼的被錯(cuò)誤地解碼的代碼。在一個(gè)實(shí)施例中,可以設(shè)計(jì)STFT幅值到點(diǎn)陣代碼的映射來滿足這一要求。通過示例方式,方法250(見圖9)示出了用于D4點(diǎn)陣代碼的第一外殼的示例性音頻數(shù)據(jù)映射。應(yīng)當(dāng)理解,該映射可以應(yīng)用于所有外殼。
如表252所示,音頻數(shù)據(jù)的STFT(見圖2的STFT模塊42)可以提供128個(gè)STFT幅值,每個(gè)幅值的范圍例如是從0到255。然后,每個(gè)STFT幅值被量化為24級(jí)(見操作254和256)。例如,使用第一幅值M0,假設(shè)第一STFT具有幅值164(見表252),則如操作256所示,量化值可由下式給出M0=round(M0/255*23)(在給出的示例中等于15)然后,如操作258所示,從D4點(diǎn)陣第一外殼表260獲得相應(yīng)的D4點(diǎn)陣代碼。在給出的示例中,點(diǎn)陣代碼L等于(1,0,-1,0)。
在示例性方法250中,LL-HH子帶被用來嵌入音頻數(shù)據(jù)。因此,獲得了LL-HH子帶中宿主圖像的子帶值(見LL-HH子帶表262)。例如,如操作264所示,對(duì)于示例性第一STFT幅值M0,可獲得前四個(gè)系數(shù)C0(-2.4,6.9,4.6和-0.5)。然后,如操作266所示,通過使用例如簡(jiǎn)單最大值函數(shù)來估計(jì)頻率內(nèi)容可執(zhí)行感知分析。例如,S=max(|-2.4|,|6.9|,|4.6|,|-0.5|),結(jié)果為6.9然后,該值可被限幅在(Smin=2,Smax=4)之內(nèi),因此值6.9可被限幅為4。
然后,所得到的值(在本例中是“4”)可乘以點(diǎn)陣代碼L(在本例中是(1,0,-1,0)),以提供修改后或按比例縮放后的點(diǎn)陣代碼L’ (在本例中是(4,0,-4,0))。然后,這些值可替換LL-HH子帶的前四個(gè)系數(shù)(見表268)。
D4點(diǎn)陣表260示出了對(duì)于每個(gè)STFT幅值的點(diǎn)陣代碼映射的示例,但是在其他實(shí)施例中,其他映射也是可能的。應(yīng)當(dāng)理解,有24!(階乘)種方法來對(duì)24個(gè)點(diǎn)陣代碼排序。因此在本發(fā)明的一個(gè)實(shí)施例中,點(diǎn)陣代碼被排序。例如,作為4-D空間中的24個(gè)點(diǎn)的24個(gè)點(diǎn)陣代碼可以被排序如下1.對(duì)于每個(gè)點(diǎn)陣代碼Ci(其中i的范圍是從0到23——見表260),可以計(jì)算以下內(nèi)容Di=包含Ci并具有法線(N)的4-D平面到原點(diǎn)(0,0,0,0)之間的距離。
對(duì)法線(N)的選擇可以是任意的,但是在一個(gè)實(shí)施例中被選擇以使平局(tie)最小化。為了簡(jiǎn)明起見,可選擇N=(1,1,1,1)。
2.然后,點(diǎn)陣代碼可以按Di的降序排序。
3.例如通過窮盡性地評(píng)估每個(gè)可能的排序,可以交換相同Di的點(diǎn)陣代碼。K可以是相同Di的代碼數(shù)目。由于K可以很小(例如3),因此組合的數(shù)目是K!<<24 !。可以選擇這樣的排序,其中兩個(gè)相鄰代碼之間的歐幾里德距離的和最小。應(yīng)當(dāng)理解,點(diǎn)陣代碼(例如在點(diǎn)陣代碼模塊46和D4點(diǎn)陣表260中)可以被預(yù)先生成。編碼器和解碼器可以具有對(duì)應(yīng)的點(diǎn)陣代碼表,并且在一個(gè)示例性實(shí)施例中,點(diǎn)陣代碼表被公布,從而它們可被自由獲得。在一個(gè)示例性實(shí)施例中,在編碼期間,每個(gè)量化的STFT幅值都直接映射到一個(gè)點(diǎn)陣代碼。因?yàn)樵诮獯a器處可能接收到被噪聲干擾的歸一化的點(diǎn)陣代碼,因此可以搜索整個(gè)點(diǎn)陣代碼表以獲得匹配條目(例如具有最小歐幾里德距離的條目)。
上述方法250提供了用于將音頻數(shù)據(jù)映射到點(diǎn)陣代碼的示例性方法。例如通過反向執(zhí)行上述步驟中的至少一些,可從嵌入后宿主提取音頻數(shù)據(jù)。在一個(gè)實(shí)施例中,可如下提取音頻。最初,可從宿主圖像提取點(diǎn)陣代碼。在本發(fā)明的一個(gè)實(shí)施例中,包括音頻數(shù)據(jù)的點(diǎn)陣代碼可被一般大眾自由獲得,因此具有合適硬件的任何人都可對(duì)點(diǎn)陣代碼解碼。因此,在一個(gè)實(shí)施例中,當(dāng)本發(fā)明被應(yīng)用在例如照相機(jī)10這樣的數(shù)字照相機(jī)中時(shí),照相機(jī)10可既包括嵌入功能又包括提取功能。一旦已提取出點(diǎn)陣代碼,就可估計(jì)比例。在一個(gè)實(shí)施例中,D4點(diǎn)陣的第一外殼可僅包含元素0或-1,因此估計(jì)可以相對(duì)簡(jiǎn)單。例如,可采用點(diǎn)陣代碼的最大幅值。在圖9中提供的示例中,按比例縮放的原始點(diǎn)陣代碼L’(4,0,-4,0)可能被某些噪聲干擾,例如被提取為(3.2,-1.4,-4.5,2.1)。于是,點(diǎn)陣代碼系數(shù)的最大幅值可以等于max(|3.2|,|-1.4|,|-4.5|,|2.1|)=3.2。因此,比例可被選擇為3.2。然后,點(diǎn)陣代碼可被除以最大幅值(在給出的示例中是3.2),D4點(diǎn)陣代碼表(對(duì)應(yīng)于D4點(diǎn)陣代碼表260)可被搜索,以獲得就歐幾里德距離而言的最近代碼。例如,如果最大幅值=0(這可能發(fā)生在提取出的點(diǎn)陣代碼是(0,0,0,0)時(shí)),則點(diǎn)陣代碼可被分類為未知,并且相應(yīng)的STFT幅值被設(shè)置為0。
在某些實(shí)施例中,可執(zhí)行后處理以提高提取出的STFT幅值的質(zhì)量。例如,可以去除鹽胡椒型噪聲。例如,假設(shè)像素代表STFT幅值,則對(duì)于每個(gè)像素,可以計(jì)算5×5窗口的平均像素值。如果像素值與平均像素值相差32,則像素值可被設(shè)置為平均值。如下所詳述的那樣,另一種后處理方法可利用推拉(Pull-Push)功能來去除鹽胡椒型噪聲,該功能可適用于離散小波變換和離散余弦變換。推拉功能在Gortler S.J,Grzeszczuk R,Szeliski R.,Cohen M.F.的“The Lumigraph”,Computer Graphics,AnnualConference Series,1996中有所描述,該文獻(xiàn)的全部?jī)?nèi)容通過引用而被包含于此。在某些情況下,如果噪聲集中在一起導(dǎo)致很大的間隙(gap),則上述兩種方法的性能可能很差。例如,圖14A中天空區(qū)域的所有點(diǎn)陣代碼都可能被嚴(yán)重干擾,丟失了全部音頻部分。一個(gè)解決方案是在編碼之前混排(shuffle)STFT幅值。這具有擴(kuò)展差錯(cuò)的效果。接收機(jī)可在降噪之后取消混排。在一個(gè)實(shí)施例中,通過使用具有3x3窗口和標(biāo)準(zhǔn)偏差=1的標(biāo)準(zhǔn)高斯核,可以提供額外的高斯平滑。
在一個(gè)實(shí)施例中,嵌入的音頻數(shù)據(jù)32不被加密或編碼,因此用戶對(duì)音頻數(shù)據(jù)的提取不受限制。因此,用戶可自由地提取音頻數(shù)據(jù)。此外,與水印和數(shù)據(jù)隱藏(其中宿主數(shù)據(jù)中包括的數(shù)據(jù)被隱藏或隱蔽以防止用戶提取數(shù)據(jù))不同,在本發(fā)明的一個(gè)實(shí)施例中,音頻數(shù)據(jù)34被嵌入宿主圖像34中已知圖像部分中,并且可被自由提取,而無需有關(guān)密鑰或任何其他保密信息的知識(shí)。例如,在水印中,多媒體分銷商一般試圖唯一地標(biāo)識(shí)他們的數(shù)字內(nèi)容,以便在發(fā)生未經(jīng)授權(quán)的分銷時(shí),他們可以識(shí)別未經(jīng)授權(quán)的分銷的源。數(shù)字水印是被插入數(shù)字圖像中的數(shù)字信號(hào)或模式,其僅標(biāo)識(shí)特定圖像,并且為了這樣做,包括了相對(duì)較少的數(shù)據(jù)。數(shù)字水印與加密的不同之處在于其保持了原始圖像的完整性和可識(shí)別性。多媒體分銷商還使用加密來防止對(duì)媒體的未經(jīng)授權(quán)的復(fù)制。數(shù)字內(nèi)容分銷商還使用數(shù)據(jù)隱藏來包括僅可由被授權(quán)者取得的數(shù)據(jù)。與數(shù)字水印不同,數(shù)據(jù)隱藏允許隱藏更大量的數(shù)據(jù),但是兩種技術(shù)的目的都是防止用戶從宿主中提取被隱藏的數(shù)據(jù)。但是,在本發(fā)明的一個(gè)實(shí)施例中,任何人都可自由地提取音頻數(shù)據(jù),而且可以用任何方法進(jìn)行提取。因此,用照相機(jī)10拍攝的照片例如可被發(fā)送到家庭和/或朋友,在這些人觀看照片時(shí)可以重放音頻。因此,例如嵌入的音頻可包括伴隨靜止圖片的問候、消息等等,從而提供“有聲照片”。
在某些實(shí)施例中,STFT的幅值和相位可被嵌入宿主圖像中,但是音頻數(shù)據(jù)可能就需要二倍于僅將音頻數(shù)據(jù)的幅值嵌入宿主圖像32所需的帶寬或嵌入?yún)^(qū)域(例如假設(shè)50%重疊)。因此,在一個(gè)示例性實(shí)施例中,相位被丟棄,僅幅值被嵌入宿主圖像中。因此宿主圖像中包括的音頻數(shù)據(jù)的量(比特總數(shù))可以減少。雖然音頻的實(shí)際質(zhì)量也隨之降低,但是給定量的嵌入的音頻數(shù)據(jù)可提供更長(zhǎng)的音頻播放時(shí)間(例如更長(zhǎng)的消息可被嵌入宿主圖像中)。
下面描述用于從STFT幅值恢復(fù)相位(或估計(jì)的相位)的示例性方法和系統(tǒng)(可使用相位恢復(fù)模塊140——見圖5來實(shí)現(xiàn))。但是應(yīng)當(dāng)理解,本發(fā)明不需要被限制于以下描述的示例性實(shí)施例,而是可以在不同實(shí)施例中使用用于從STFT幅值信號(hào)恢復(fù)相位的任何技術(shù)。
參考附圖,標(biāo)號(hào)180總地指示根據(jù)本發(fā)明的用于從嵌入宿主圖像中的音頻數(shù)據(jù)重建音頻信號(hào)的方法。方法180可以是非迭代型重建技術(shù),其可被用于實(shí)時(shí)應(yīng)用或計(jì)算資源稀缺或者希望限制這種計(jì)算的情況。應(yīng)當(dāng)理解,本發(fā)明并不限于這種示例性重建技術(shù)。
如操作182所示,方法180接收STFT幅值數(shù)據(jù),然后識(shí)別STFT幅值中的峰(見操作184)。STFT幅值中的峰被假設(shè)為對(duì)應(yīng)于信號(hào)中的正弦曲線,并且如操作186所示,方法180通過用拋物線擬合可以圍繞每個(gè)峰的FFT桶(FFT bin) (例如3個(gè)FFT桶)來估計(jì)每個(gè)正弦曲線(峰)的瞬時(shí)頻率。應(yīng)當(dāng)理解可以使用多于或少于3個(gè)桶。然后,方法180找出拋物線處于其最大值(或接近其最大值)時(shí)的頻率(或近似頻率。)然后,方法180使用前一幀處的相位以及從瞬時(shí)頻率計(jì)算得到的相位增量來計(jì)算或估計(jì)峰桶的相位(見操作188)。然后,如操作190所示,使用逆STFT技術(shù)(例如標(biāo)準(zhǔn)STFT技術(shù))來從STFT幅值重建音頻信號(hào)。
在一些實(shí)施例中,任何算法都可被用來識(shí)別頻譜中的正弦曲線峰。例如,可以進(jìn)行檢查以查看桶幅值是否大于它在峰左側(cè)的兩個(gè)鄰居和它在峰右側(cè)的兩個(gè)鄰居。在另一實(shí)施例中,當(dāng)分析考慮了旁瓣未被錯(cuò)誤地識(shí)別為正弦曲線峰時(shí),可以提供改良的結(jié)果。在另一實(shí)施例中,可以檢查峰的形狀事實(shí)上與可被預(yù)期為真正的正弦曲線的形狀相匹配。
一旦對(duì)給定的峰計(jì)算了瞬時(shí)頻率ω(見操作186),就可根據(jù)下式獲得第k幀處的新相位φkφk=φk+2πωR, (5)其中R是樣本中跳的大小,ω是歸一化的頻率。
然后,相位可被應(yīng)用到圍繞峰桶的FFT桶??梢詫?duì)各個(gè)峰重復(fù)該過程。在一個(gè)實(shí)施例中,在沒有任何先驗(yàn)知識(shí)的情況下可以對(duì)φ0使用任意初始相位。逆FFT可以生成具有靠近n=0的最大值的短時(shí)信號(hào)。在這些情況下,相同的相位可被指派給峰附近的桶,因此FFT是“零相位”的,其中信號(hào)可以集中于n=0。通過按半窗口大小對(duì)FFT的輸出進(jìn)行循環(huán)移位,可以獲得最終輸出的短時(shí)信號(hào)。
在某些情況下,方法1 80可提供對(duì)音頻數(shù)據(jù)的合理近似或重建。但是,在其他實(shí)施例中,應(yīng)當(dāng)理解各種其他重建技術(shù)可被用來提供改良的音頻信號(hào)重建。在一個(gè)實(shí)施例中,方法180可包括一系列Griffin-Lim迭代。
因此,在一個(gè)實(shí)施例中,可以假設(shè)音頻數(shù)據(jù)包括多個(gè)正弦曲線,并且峰附近的STFT相位根據(jù)對(duì)正弦曲線瞬時(shí)頻率的估計(jì)而被更新。
在本發(fā)明的一個(gè)實(shí)施例中,如上通過示例所描述的那樣,數(shù)據(jù)處理系統(tǒng)30和/或數(shù)據(jù)處理系統(tǒng)120可被包括在便攜式數(shù)字照相機(jī)中。因此,數(shù)字照相機(jī)的用戶(例如公眾)可以在拍攝靜止圖片的同時(shí)記錄音頻片斷或消息,然后音頻片斷被嵌入宿主圖像內(nèi),然后宿主圖像可被存儲(chǔ)在數(shù)字照相機(jī)上或例如經(jīng)由蜂窩電話網(wǎng)絡(luò)而被傳送。然后,接收數(shù)字圖像的任何設(shè)備都可從數(shù)字圖像中取得或提取音頻數(shù)據(jù),并且例如當(dāng)觀看數(shù)字圖像時(shí),音頻數(shù)據(jù)可被自動(dòng)生成或再現(xiàn)。因此在一個(gè)如上所述的實(shí)施例中,本發(fā)明提供了“有聲照片”或“有聲圖片”,其中集成了音頻數(shù)據(jù)和圖像數(shù)據(jù)。
在本發(fā)明的一個(gè)實(shí)施例中,嵌入的音頻數(shù)據(jù)可以至少部分地從有損格式轉(zhuǎn)換中幸存下來,例如從BMP格式到TIFF格式的轉(zhuǎn)換,BMP格式到Targa格式的轉(zhuǎn)換等等。在一個(gè)實(shí)施例中,數(shù)字音頻(例如數(shù)字話音)可以從有損壓縮(例如JPEG壓縮)中幸存下來,并且較高壓縮比下具有適度的惡化。此外,在某些實(shí)施例中,例如銳化、顏色平衡、伽馬(gamma)、亮度和對(duì)比度調(diào)節(jié)以及90°旋轉(zhuǎn)這樣的普通圖像處理程序也不會(huì)明顯惡化音頻數(shù)據(jù)。
在本發(fā)明的一個(gè)實(shí)施例中,嵌入的音頻數(shù)據(jù)被盡可能透明地嵌入,從而減少對(duì)原始靜止圖像(宿主圖像)的改變。但是,與數(shù)字水印和數(shù)字隱藏不同,在本發(fā)明的一個(gè)實(shí)施例中,嵌入在靜止圖片中的音頻數(shù)據(jù)傾向于可被使用兼容設(shè)備的任何人自由地取得或恢復(fù)。因?yàn)橐纛l數(shù)據(jù)傾向于能被自由恢復(fù),因此恢復(fù)技術(shù)不是保密的而是可被公開,并且不需要密鑰等就能取得音頻數(shù)據(jù)。
在上述示例性實(shí)施例中,對(duì)亮度通道或分量68執(zhí)行離散小波變換(DWT)(見圖2中的離散小波變換模塊38)。在另一示例性實(shí)施例中,使用離散余弦變換(DCT)。
參考圖10,標(biāo)號(hào)300總地指示根據(jù)本發(fā)明的實(shí)施例的用于處理圖像以在其中嵌入音頻數(shù)據(jù)的示例性系統(tǒng)。系統(tǒng)300與系統(tǒng)30類似,因此相似的標(biāo)號(hào)被用來示出相同或類似的特征。但是,系統(tǒng)30的離散小波變換模塊38、濾波器模塊40和感知分析模塊41在系統(tǒng)300中被替換為離散余弦變換模塊302、DCT濾波器模塊304、DCT感知分析模塊306和逆離散余弦變換模塊308。與系統(tǒng)30的情形一樣,系統(tǒng)300可以與提供數(shù)字照相機(jī)技術(shù)的任何電子設(shè)備一起使用,或被集成在這樣的電子設(shè)備內(nèi)。當(dāng)系統(tǒng)300被包括在數(shù)字照相機(jī)10中時(shí),可使用JPEG格式來壓縮數(shù)據(jù)。
在系統(tǒng)300中,圖像首先在離散余弦變換模塊302中被劃分為示例性的8x8個(gè)塊。該劃分可使用例如JPEG技術(shù)或MPEG技術(shù)在圖像壓縮期間執(zhí)行。然后,使用直接余弦變換來對(duì)這示例性的8x8個(gè)塊進(jìn)行變換,以產(chǎn)生向DCT濾波器模塊304提供中間亮度數(shù)據(jù)78的DCT系數(shù)的另外8×8個(gè)塊。在一個(gè)示例性實(shí)施例中,選擇(例如預(yù)先選擇)對(duì)應(yīng)于中間帶的一組系數(shù)。然后,選定的系數(shù)被DCT濾波器模塊304濾波(例如濾除),以提供濾波后的亮度數(shù)據(jù)87。離散余弦變換模塊302還將中間亮度數(shù)據(jù)74提供給DCT感知分析模塊306,以提供經(jīng)感知自適應(yīng)的亮度數(shù)據(jù)82,該亮度數(shù)據(jù)82被與來自查找模塊48的音頻數(shù)據(jù)的點(diǎn)陣代碼組合,如84所示。然后,經(jīng)感知自適應(yīng)的音頻數(shù)據(jù)88替換選定的系數(shù),如89所示,以提供修改后的亮度數(shù)據(jù)91,該修改后的亮度數(shù)據(jù)91被饋入逆離散余弦變換模塊308中。然后,逆變換后的數(shù)據(jù)被饋入YCbCr到RGB轉(zhuǎn)換模塊52中,在這里如上參考圖2所述地對(duì)其進(jìn)行處理。
因此,在系統(tǒng)300中,系統(tǒng)30的離散小波變換處理被替換為離散余弦變換處理。以類似的方式,圖3的方法60中的操作72、76和80可被修改以執(zhí)行離散余弦變換處理而非離散小波變換處理。在示例性系統(tǒng)300中,在進(jìn)行到點(diǎn)陣代碼的映射之前,使用STFT對(duì)音頻(例如話音)進(jìn)行變換,從而可提供適度的音頻惡化。
參考圖11,標(biāo)號(hào)3 10示出了示例性的8x8離散余弦變換(DCT)系數(shù)塊,其中有四個(gè)DCT系數(shù)312、314、316和318被來自查找模塊48的點(diǎn)陣代碼替換。在一個(gè)示例性實(shí)施例中,每個(gè)點(diǎn)陣代碼替換四個(gè)系數(shù),并且對(duì)于每個(gè)8×8系數(shù)塊310僅編碼一個(gè)STFT幅值。與離散小波系數(shù)(見圖9)一樣,通過選擇更多的系數(shù)(例如高頻系數(shù))可增大宿主圖像的音頻存儲(chǔ)容量,但是這將導(dǎo)致魯棒性降低。例如在用戶選擇了高質(zhì)量圖像的數(shù)字照相機(jī)(例如數(shù)字照相機(jī)10)中,照相機(jī)可以存儲(chǔ)利用最小JPEG壓縮拍攝的圖片的數(shù)字圖像,并且由于最小JPEG壓縮,較高頻的DCT系數(shù)可以不受不利影響。因此,在一個(gè)示例性實(shí)施例中,這些高頻系數(shù)可被用于點(diǎn)陣編碼,從而提高數(shù)字圖像容納音頻數(shù)據(jù)的容量。在一個(gè)示例性實(shí)施例中,以與離散小波變換類似的方式,對(duì)于感知分析306,比例可取為要被替換的四個(gè)DCT系數(shù)的最大絕對(duì)值。例如在圖11中,比例S=max(|-15|,|-12|,|-17|,|0|)=17。
圖12中的標(biāo)號(hào)320總地指示根據(jù)本發(fā)明的用于從嵌入后圖像中提取音頻的音頻處理系統(tǒng)的又一實(shí)施例。系統(tǒng)320與系統(tǒng)120基本類似,因此相似的標(biāo)號(hào)被用來指示相同或類似的特征。在系統(tǒng)320中,離散余弦變換模塊322和點(diǎn)陣提取模塊324替換了圖5的離散小波變換模塊128和點(diǎn)陣代碼提取模塊130。離散余弦變換模塊322將亮度數(shù)據(jù)146(YCbCr分量)劃分為示例性的8×8個(gè)塊,并對(duì)每個(gè)塊執(zhí)行離散余弦變換。然后,點(diǎn)陣提取模塊324從編碼后的DCT系數(shù)中提取點(diǎn)陣通道代碼,以提供按比例縮放后的4-D通道代碼,4-D通道代碼被饋入比例估計(jì)模塊132,如上在離散小波變換實(shí)施例中參考圖5所述。以類似的方式,方法124(見圖6)可在操作148和150中被修改,以執(zhí)行離散余弦變換處理。
在一個(gè)示例性實(shí)施例中,被干擾的STFT幅值的重建可以在濾波器模塊138中被建模為2維散射數(shù)據(jù)(scattered data)近似。所得到的間隙例如可利用推拉方法填充,如在Gortler S.J,Grzeszczuk R,Szeliski R.,CohenM.F.的“The Lumigraph”,Computer Graphics,Annual Conference Series,1996中所提出的那樣,該文獻(xiàn)的內(nèi)容通過引用而被包含于此。到該推拉方法的輸入是一組已知值和它們的相應(yīng)權(quán)重。該權(quán)重度量對(duì)已知值的置信度級(jí)別,其中零權(quán)重指示未知的值。在向系統(tǒng)30、300應(yīng)用該推拉方法的情況下,提取出的STFT幅值可被認(rèn)為是已知值,它們的權(quán)重可被建模為提取出的有噪聲點(diǎn)陣代碼和它們的最近(匹配)的點(diǎn)陣代碼之間的距離的函數(shù)。零距離(例如完全匹配)可以指示最大權(quán)重。應(yīng)用這些示例性技術(shù)w=1-d (6)其中w是權(quán)重,w=0表示最低置信度級(jí)別,d是提取出的有噪聲點(diǎn)陣代碼和它的最近匹配之間的歐幾里德距離d=((C1-M1)2+(C2-M2)2+(C3-M3)2+(C4-C4)2),]]>其中(7)提取出的點(diǎn)陣代碼,C=(C1,C2,C3,C4),并且最近的匹配點(diǎn)陣代碼,M=(M1,M2,M3,M4)。
在一個(gè)示例性實(shí)施例中,不是使用整個(gè)或基本上整個(gè)宿主圖像來嵌入音頻數(shù)據(jù),而是可使用遮罩來限制宿主圖像中要嵌入音頻數(shù)據(jù)的部分或區(qū)域。示例性遮罩330(見圖13B)的外形是橢圓形的,示例性圖像332(見圖13A)在橢圓內(nèi)的任何部分都可以被保留(例如全部保留)以用于圖像數(shù)據(jù)。因此,橢圓外部的區(qū)域334可以被用來嵌入音頻數(shù)據(jù)。應(yīng)當(dāng)理解,遮罩的形狀和/或大小在各個(gè)實(shí)施例中可能有所不同,并且可以依賴于由宿主圖像捕獲的圖片的性質(zhì)而變化。圖14A示出了用于掩蔽宿主圖像338的一個(gè)區(qū)域的遮罩336(見圖14B)的又一示例性實(shí)施例,其中僅提供圖像數(shù)據(jù)。在遮罩336中,音頻數(shù)據(jù)僅被嵌入?yún)^(qū)域340中。應(yīng)當(dāng)理解,可以提供任何合適形狀和/或大小的任何數(shù)目的遮罩。因此,音頻數(shù)據(jù)可被嵌入任何部分中或被嵌入整個(gè)宿主圖像中。
在一個(gè)示例性實(shí)施例中,遮罩330、336本質(zhì)上可以是二進(jìn)制的或離散的(例如“1”對(duì)應(yīng)于包括音頻數(shù)據(jù)的區(qū)域,“0”對(duì)應(yīng)于不包括音頻數(shù)據(jù)的區(qū)域)。因此,例如,遮罩330、336可限定不包括音頻數(shù)據(jù)的只包括圖像數(shù)據(jù)的區(qū)域,具有零遮罩值的宿主像素可不被改變(原始圖像數(shù)據(jù)保持不變)。但是應(yīng)當(dāng)理解,示例性遮罩330、336在本質(zhì)上可以是連續(xù)的(例如“0”和“1”之間的值用于指示給定區(qū)域中音頻嵌入的程度應(yīng)當(dāng)有多強(qiáng)或多重)。因此,掩蔽可以允許用戶(或電子電路)選擇宿主圖像中可容忍失真的區(qū)域,并將音頻數(shù)據(jù)嵌入其中,并且保護(hù)宿主圖像的重要區(qū)域或部分。此外,音頻數(shù)據(jù)既可被嵌入被掩蔽的部分,又可被嵌入未被掩蔽的部分,其中與被掩蔽的部分相比,未被掩蔽的部分中的每個(gè)像素存儲(chǔ)的音頻數(shù)據(jù)更多。因此在嵌入后圖像中,對(duì)于不同圖像部分,存儲(chǔ)的音頻數(shù)據(jù)的“密度”可能不同。
遮罩可以由用戶定義,或者用戶可選擇幾個(gè)預(yù)定的遮罩之一。對(duì)于用戶定義的遮罩,用于處理嵌入后圖像以從數(shù)字圖像中取得或提取音頻數(shù)據(jù)的示例性系統(tǒng)120、320(見圖5和12)包括相應(yīng)的遮罩,該遮罩隨后被用于提取處理。例如,當(dāng)預(yù)定的遮罩被用來生成嵌入后圖像56時(shí),系統(tǒng)120、320識(shí)別在嵌入過程期間使用了哪個(gè)預(yù)定遮罩,然后相應(yīng)的預(yù)定遮罩被用來從嵌入后圖像中提取音頻。例如,相關(guān)聯(lián)的遮罩可以由外部輸入(例如用戶選擇)標(biāo)識(shí),接收機(jī)可窮舉性地嘗試所有預(yù)定遮罩,并使用具有最高置信度因子的一個(gè)遮罩,或者任何其他識(shí)別方法都可被用來識(shí)別所使用的遮罩(例如在宿主圖像中可嵌入標(biāo)識(shí)符、可以提供標(biāo)簽或任何其他標(biāo)識(shí)符)。在一個(gè)實(shí)施例中,可以使用公式(7)來確定置信度因子。
應(yīng)當(dāng)理解,將音頻數(shù)據(jù)嵌入宿主圖像中將導(dǎo)致圖像失真。圖像失真的量依賴于被嵌入宿主圖像中的音頻數(shù)據(jù)的量或數(shù)量。但是,通過如上所述自適應(yīng)地控制點(diǎn)陣代碼比例,可以減小失真的量。此外/或者,遮罩可被用來控制嵌入后圖像中由于嵌入音頻數(shù)據(jù)而發(fā)生失真的區(qū)域。但是應(yīng)當(dāng)理解,此外/或者,各種其他技術(shù)可被用來減小宿主圖像的失真。
嵌入后圖像例如可在顯示設(shè)備(例如計(jì)算機(jī)監(jiān)視器、電視機(jī)、PDA顯示器、數(shù)字照相機(jī)、顯示器、蜂窩電話顯示器等)上被觀看,或被打印。當(dāng)較高分辨率的圖像(例如5兆像素的圖像)在1280x1024像素監(jiān)視器上被整體(例如沒有縮放)觀看時(shí),可以被下采樣(down sample)。這種下采樣過程一般是低通濾波,其可以有效地去除由于音頻數(shù)據(jù)被嵌入宿主圖像中而引入的任何失真。因此,用戶將不會(huì)看到失真。在某些打印的情形下,由于打印機(jī)的字點(diǎn)增益(dot gain)和抖動(dòng)過程平滑掉了失真,因此兒乎看不出失真。
在一個(gè)示例性實(shí)施例中,知曉使用這里描述的離散余弦變換技術(shù)進(jìn)行了嵌入的觀看者應(yīng)用可通過執(zhí)行前向離散余弦變換來去除嵌入的音頻數(shù)據(jù),濾出(濾除)選定的系數(shù),并在顯示圖像之前利用逆離散余弦變換來處理嵌入后宿主圖像。應(yīng)當(dāng)理解,通過在方法中用離散小波變換替換離散余弦變換,相同的方法可以與離散小波變換一起使用。在另一示例性實(shí)施例中,可將點(diǎn)陣比例與和圖像相關(guān)聯(lián)的噪聲(例如在圖像捕獲過程期間引入的照相機(jī)或傳感器噪聲)匹配。從可交換圖像文件格式中的數(shù)據(jù)(EXIF頭部)可測(cè)量或估計(jì)噪聲。例如,使用數(shù)字照相機(jī)捕獲的圖像可能包含從鏡頭和/或傳感器產(chǎn)生的某種級(jí)別的噪聲。在較高的ISO級(jí)別,該噪聲可能非常明顯。例如,在傳統(tǒng)的模擬膠片照相機(jī)中,攝影師可選擇高ISO級(jí)別膠片,這種膠片對(duì)光更敏感,但是會(huì)導(dǎo)致更多“顆?!薄T跀?shù)字照相機(jī)中,高ISO級(jí)別對(duì)應(yīng)于高傳感器(CCD或CMOS)增益,這會(huì)導(dǎo)致原始圖像中的較大噪聲。由于原始圖像已經(jīng)包含了某些噪聲,因此可以嘗試將水印引起的失真(看上去與噪聲類似)限制到與傳感器噪聲相同的程度,從而將其隱藏在傳感器噪聲中。點(diǎn)陣比例可以被選擇為使得由于嵌入按比例縮放的點(diǎn)陣代碼而導(dǎo)致的失真不會(huì)超過傳感器噪聲所引起的失真。因此,點(diǎn)陣代碼可被有效地隱藏在噪聲中。在本發(fā)明的另一示例性實(shí)施例中,音頻數(shù)據(jù)可被包括在EXIF文件中,例如在EXIF頭部中,因此,音頻數(shù)據(jù)可以更好地從文件格式轉(zhuǎn)換中幸存下來。在另一示例性實(shí)施例中,例如在創(chuàng)建圖像期間,STFT幅值可以被直接粘貼(例如不隱藏)在圖像上。在一個(gè)示例性實(shí)施例中,可在編碼期間使用與在方法110的操作112、114和116中提供的操作(見圖4)類似的操作來生成話音或聲音帶。在一個(gè)示例性實(shí)施例中,幅值可被量化為256級(jí)而非24級(jí),因?yàn)榛叶葓D像一般具有256級(jí)。但是應(yīng)當(dāng)理解,幅值可被量化為任何數(shù)目的級(jí)。
參考圖15,標(biāo)號(hào)350總地指示嵌入后宿主圖像,其中音頻數(shù)據(jù)是在宿主圖像354的選定區(qū)域352中提供的。音頻數(shù)據(jù)可在“話音帶”或“音頻帶”中提供,所述“話音帶”或“音頻帶”包括如參考圖2所述的從音頻數(shù)據(jù)生成的STFT幅值。在一個(gè)實(shí)施例中,話音帶提供STFT幅值,STFT幅值作為常規(guī)的灰度級(jí)圖像被呈現(xiàn)。應(yīng)當(dāng)理解,話音帶可從嵌入后圖像中提取,然后在選定區(qū)域352中顯示。
在一個(gè)示例性實(shí)施例中,話音或音頻帶被重疊或“粘貼”(例如直接地)到宿主圖像上。這將允許用戶例如使用剪切和粘貼功能來編輯話音帶,并將兩個(gè)或多個(gè)話音或音頻帶混合在一起。由于話音或音頻帶是圖像的一部分,因此它可以從各種圖像處理技術(shù)、圖像格式轉(zhuǎn)換和數(shù)-模-數(shù)轉(zhuǎn)換中幸存下來。在圖16所示的示例性實(shí)施例中,嵌入后宿主圖像具有擴(kuò)展部分358,用于容納音頻數(shù)據(jù)(例如在話音或音頻帶360、362中提供)。但是,與發(fā)言者(在照片中捕獲的一個(gè)人的圖像)的空間關(guān)系在多于一個(gè)發(fā)言者的情況下(在照片中捕獲另一人的圖像)可能會(huì)丟失。在一個(gè)實(shí)施例中,可以提供標(biāo)記364、366,它們分別充當(dāng)相應(yīng)的話音帶360、362的索引。電子設(shè)備(例如任何數(shù)字處理設(shè)備)可以檢測(cè)和解碼標(biāo)記364、366和話音帶360、362。例如,當(dāng)用戶移動(dòng)指針(例如鼠標(biāo)指針)到標(biāo)記364、366中的一個(gè)時(shí),對(duì)應(yīng)于識(shí)別出的標(biāo)記的話音或音頻可從與其相關(guān)聯(lián)的話音帶再現(xiàn)。
在上述示例性實(shí)施例中,在將音頻數(shù)據(jù)嵌入宿主圖像中時(shí)使用了點(diǎn)陣編碼。但是,在其他實(shí)施例中可使用其他技術(shù)。例如,量化索引調(diào)制(QIM)技術(shù)也可被用來嵌入STFT幅值。這種QIM技術(shù)的一個(gè)示例在Brian Chen和Gregory W.的“Quantization Index ModulationA class ofprovably good methods for digital watermarking and information embedding”,IEEE Transaction on Information Theory,Vol 47.No.4,May 2001,pp 1423-1443中有所描述,該文獻(xiàn)的全部?jī)?nèi)容通過引用而被包含于此。
在應(yīng)用QIM技術(shù)時(shí),量化的DCT系數(shù)可受到擾動(dòng),以在對(duì)數(shù)字音頻數(shù)據(jù)編碼時(shí)取偶數(shù)或奇數(shù)值(“簽名”)。雖然這一技術(shù)可被視為無損的,但是它可能是很脆弱的,其中嵌入的音頻數(shù)據(jù)在普通圖像處理操作(例如使圖像變亮)下是不受保護(hù)的。該方法可能需要對(duì)編碼和解碼模塊的完全控制,因此在某些實(shí)施例中可能是不太有利的,如果用戶被允許使用任意圖像編輯軟件的話。不過,如果提供了這種控制,則該方法可將高質(zhì)量和高容量的音頻數(shù)據(jù)嵌入宿主圖像中。如果嵌入的目標(biāo)圖像格式的是JPEG,則上述自適應(yīng)點(diǎn)陣編碼技術(shù)可能是更適合的。在某些實(shí)施例中,通過利用其脆弱性,QIM方法可以具有優(yōu)點(diǎn)。例如,如果圖像中的區(qū)域被修改,則這種修改可被檢測(cè)到,因?yàn)橄鄳?yīng)的塊中的點(diǎn)陣代碼可能被干擾或具有很低的置信度級(jí)別。在一個(gè)示例性實(shí)施例中,這一副作用可被用來提供特征(temper)檢測(cè)機(jī)制。
這里通過示例描述的本發(fā)明可提供或被用來提供集成圖像(例如數(shù)字照片)和音頻(例如語音或話音)的單個(gè)媒體。因此,可以提供既包含圖像也包含音頻的單個(gè)文件(例如JPEG文件)。此外,單個(gè)文件的內(nèi)容(宿主圖像和音頻數(shù)據(jù))可在文件格式轉(zhuǎn)換中幸存下來。在一個(gè)示例性實(shí)施例中,可執(zhí)行基于音頻的“照片搜索”。因此數(shù)字圖像可基于其中嵌入的音頻數(shù)據(jù)而被定位。在一個(gè)本發(fā)明的示例性應(yīng)用中,這里描述的方法和系統(tǒng)可被用來通過將用戶自己的語音嵌入圖像中來提供保護(hù)措施,以例如防止圖像被剽竊。
在本說明書中,術(shù)語“圖像”應(yīng)被廣義地理解,而不限于例如照片、視頻片斷之類的圖像。術(shù)語“圖像”意圖包括任何二維表示并且可以是例如照片圖像、文檔圖像、文本之類的圖像。
圖17示出了呈計(jì)算機(jī)系統(tǒng)200這樣的示例性形式的機(jī)器的圖示,其中可執(zhí)行用于致使機(jī)器執(zhí)行這里討論的任意一種方法的一組指令。在另一種實(shí)施例中,機(jī)器可包括網(wǎng)絡(luò)路由器、網(wǎng)絡(luò)交換機(jī)、網(wǎng)橋、個(gè)人數(shù)字助理(PDA)、蜂窩電話、web用具或任何能夠執(zhí)行指定了要被該機(jī)器執(zhí)行的動(dòng)作的指令集合/序列的機(jī)器。
計(jì)算機(jī)系統(tǒng)200被示為包括總線212,總線212互連多個(gè)例如中央處理器214、系統(tǒng)存儲(chǔ)器216和外部設(shè)備這樣的子系統(tǒng),其中在到外部設(shè)備的連接中,總線212經(jīng)由音頻卡220連接揚(yáng)聲器218,經(jīng)由顯示適配器224連接顯示屏222,經(jīng)由并行端口228連接打印機(jī)226,經(jīng)由輸入/輸出(I/O)控制器234連接指向設(shè)備例如鼠標(biāo)230和鍵盤232,經(jīng)由主機(jī)適配器240連接固定盤驅(qū)動(dòng)器236和CD-ROM/DVD驅(qū)動(dòng)器238,還連接網(wǎng)絡(luò)接口卡242以及可操作來接收軟盤246的軟盤驅(qū)動(dòng)器244。
應(yīng)當(dāng)理解,很多其他設(shè)備或子系統(tǒng)(未示出)也可被連接,例如掃描設(shè)備、觸摸屏等。此外,要實(shí)現(xiàn)本發(fā)明并不需要圖17所示的所有設(shè)備。當(dāng)計(jì)算機(jī)系統(tǒng)采用PDA或蜂窩電話形式時(shí),它可不包括例如鼠標(biāo)230、軟盤驅(qū)動(dòng)器244、固定盤驅(qū)動(dòng)器236等。此外,這些設(shè)備和子系統(tǒng)可以用不同于圖17所示的配置互連。計(jì)算機(jī)系統(tǒng)200的操作是本領(lǐng)域已知的,這里不再詳細(xì)討論。
在本說明書中,術(shù)語“機(jī)器可讀介質(zhì)”應(yīng)被理解為包括能夠存儲(chǔ)或編碼用于被機(jī)器執(zhí)行并致使機(jī)器執(zhí)行本發(fā)明的任何一種方法的指令序列的任何介質(zhì)。術(shù)語“機(jī)器可讀介質(zhì)”應(yīng)相應(yīng)地被理解為包括但不限于固態(tài)存儲(chǔ)器、光和磁盤以及載波信號(hào)。
用于實(shí)現(xiàn)本發(fā)明某些實(shí)施例的軟件可以被可操作地部署(全部或部分)在系統(tǒng)存儲(chǔ)器216內(nèi),在耦合到總線212的子系統(tǒng)(例如音頻卡220、中央處理器214)內(nèi),或者被存儲(chǔ)在存儲(chǔ)介質(zhì)(例如固定盤驅(qū)動(dòng)器236、軟盤246或可利用CD-ROM/DVD驅(qū)動(dòng)器238操作的CD-ROM/DVD248上。
可以用多種方式實(shí)現(xiàn)總線212。例如,總線212可被實(shí)現(xiàn)為本地總線、串行總線、并行端口或擴(kuò)展總線(例如ADB、SCSI、ISA、EISA、MCA、NuBus、PCI或其他總線體系結(jié)構(gòu))。系統(tǒng)存儲(chǔ)器216可以是隨機(jī)訪問存儲(chǔ)器(RAM)、動(dòng)態(tài)RAM(DRAM)或其他存儲(chǔ)器設(shè)備。
因此,已經(jīng)描述了用于處理數(shù)字圖像的方法和系統(tǒng)。在一個(gè)實(shí)施例中,例如話音信號(hào)這樣的音頻數(shù)據(jù)可被嵌入靜止彩色宿主圖像中。雖然參考具體的示例性實(shí)施例描述了本發(fā)明,但是很明顯,在不脫離本發(fā)明的更廣的精神和范圍的情況下可對(duì)這些實(shí)施例作出各種修改和改變。因此,說明書和附圖應(yīng)被理解為說明性而非限制性的。
權(quán)利要求
1.一種用于處理宿主圖像的方法,該方法包括接收所述宿主圖像;接收音頻數(shù)據(jù);以及將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)以提供嵌入后圖像,其中所述音頻數(shù)據(jù)可從所述嵌入后圖像自由地恢復(fù)。
2.如權(quán)利要求1所述的方法,包括在將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)之前使用短時(shí)傅立葉變換(STFT)來處理所述音頻數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,包括在將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)之前減少所述音頻數(shù)據(jù)中包括的代表音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)的量。
4.如權(quán)利要求3所述的方法,包括量化幅值數(shù)據(jù)并丟棄所述音頻信號(hào)的相位數(shù)據(jù),以提供所述音頻數(shù)據(jù)以便嵌入。
5.如權(quán)利要求4所述的方法,包括量化所述音頻數(shù)據(jù)以將其映射到D4點(diǎn)陣代碼。
6.如權(quán)利要求5所述的方法,包括將所述D4點(diǎn)陣的點(diǎn)陣代碼按比例縮放,以將所述宿主圖像的失真最小化。
7.如權(quán)利要求1所述的方法,包括分離所述宿主圖像的亮度數(shù)據(jù)和色度數(shù)據(jù);將所述音頻數(shù)據(jù)包括在所述亮度數(shù)據(jù)中,以提供修改后的亮度數(shù)據(jù);以及將所述修改后的亮度數(shù)據(jù)和所述色度數(shù)據(jù)組合起來以提供所述嵌入后圖像。
8.如權(quán)利要求7所述的方法,包括處理所述亮度數(shù)據(jù)以提供中間亮度數(shù)據(jù);對(duì)所述中間亮度數(shù)據(jù)的至少一個(gè)子帶執(zhí)行感知自適應(yīng),以提供經(jīng)感知自適應(yīng)的子帶;以及將所述音頻數(shù)據(jù)包括在所述經(jīng)感知自適應(yīng)的子帶中,以提供所述修改后的亮度數(shù)據(jù)。
9.如權(quán)利要求8所述的方法,包括從所述中間亮度數(shù)據(jù)去除所述至少一個(gè)子帶,以提供進(jìn)一步的中間亮度數(shù)據(jù);以及將所述經(jīng)感知自適應(yīng)的子帶與所述進(jìn)一步的中間亮度數(shù)據(jù)組合起來以提供所述修改后的亮度數(shù)據(jù)。
10.如權(quán)利要求8所述的方法,包括對(duì)所述修改后的亮度數(shù)據(jù)執(zhí)行逆變換;以及將已經(jīng)過逆變換的亮度數(shù)據(jù)與所述色度數(shù)據(jù)組合起來以提供限定了所述數(shù)字圖像的嵌入后宿主。
11.如權(quán)利要求8所述的方法,其中所述亮度數(shù)據(jù)被離散小波變換和離散余弦變換之一處理。
12.如權(quán)利要求1所述的方法,包括將所述宿主圖像的RGB分量轉(zhuǎn)換為色度分量和亮度分量;處理所述宿主圖像的所述亮度分量;以及將所述宿主圖像轉(zhuǎn)換為RGB分量。
13.如權(quán)利要求1所述的方法,包括掩蔽所述宿主圖像的一部分;以及為宿主圖像數(shù)據(jù)保留被掩蔽的部分。
14.如權(quán)利要求1所述的方法,包括掩蔽所述宿主圖像的一部分,以提供被掩蔽部分和未被掩蔽部分;以及將所述音頻數(shù)據(jù)既嵌入所述被掩蔽部分也嵌入所述未被掩蔽部分中,其中所述未被掩蔽部分中的每個(gè)像素比所述被掩蔽部分中的每個(gè)像素存儲(chǔ)更多的音頻數(shù)據(jù)。
15.如權(quán)利要求1所述的方法,其中所述圖像是數(shù)字照片。
16.一種用于處理宿主圖像的系統(tǒng),所述系統(tǒng)包括圖像處理電路,用于接收所述宿主圖像;音頻處理電路,用于接收音頻數(shù)據(jù);以及嵌入模塊,用于將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)以提供嵌入后圖像,其中所述音頻數(shù)據(jù)可從所述嵌入后圖像自由地恢復(fù)。
17.如權(quán)利要求16所述的系統(tǒng),其中所述音頻處理電路包括短時(shí)傅立葉變換(STFT)模塊,用于在將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)之前使用短時(shí)傅立葉變換處理所述音頻數(shù)據(jù)。
18.如權(quán)利要求16所述的系統(tǒng),其中所述音頻處理電路在將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)之前減少所述音頻數(shù)據(jù)中包括的代表音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)的量。
19.如權(quán)利要求18所述的系統(tǒng),其中所述音頻處理電路量化幅值數(shù)據(jù)并丟棄所述音頻信號(hào)的相位數(shù)據(jù),以提供所述音頻數(shù)據(jù)以便嵌入。
20.如權(quán)利要求18所述的系統(tǒng),其中所述圖像處理電路利用離散小波變換來處理所述亮度數(shù)據(jù)以提供中間亮度數(shù)據(jù),然后量化后的幅值數(shù)據(jù)被包括在所述中間亮度數(shù)據(jù)中。
21.如權(quán)利要求19所述的系統(tǒng),其中所述圖像處理電路利用離散余弦變換來處理所述亮度數(shù)據(jù)以提供中間亮度數(shù)據(jù),然后量化后的幅值數(shù)據(jù)被包括在所述中間亮度數(shù)據(jù)中。
22.如權(quán)利要求16所述的系統(tǒng),其中所述音頻數(shù)據(jù)被量化以提供量化后的音頻數(shù)據(jù),所述量化后的音頻數(shù)據(jù)基于所述宿主圖像的子帶的系數(shù)而被按比例縮放。
23.一種用于處理嵌入后圖像來提取音頻數(shù)據(jù)的方法,該方法包括對(duì)所述嵌入后圖像的亮度分量執(zhí)行離散小波變換和離散余弦變換之一;識(shí)別與所述音頻數(shù)據(jù)相關(guān)聯(lián)的量化后的幅值數(shù)據(jù);估計(jì)與識(shí)別出的幅值數(shù)據(jù)相關(guān)聯(lián)的相位數(shù)據(jù);以及基于所述量化后的幅值數(shù)據(jù)和所述相位數(shù)據(jù)生成輸出音頻信號(hào)。
24.如權(quán)利要求23所述的方法,其中所述幅值數(shù)據(jù)是STFT幅值數(shù)據(jù),所述方法包括識(shí)別所述STFT幅值數(shù)據(jù)中被假設(shè)為與正弦曲線相對(duì)應(yīng)的峰;估計(jì)所述峰的瞬時(shí)頻率;以及從估計(jì)出的瞬時(shí)頻率重建音頻數(shù)據(jù)。
25.如權(quán)利要求23所述的方法,包括從編碼后的子帶提取點(diǎn)陣代碼;對(duì)于每個(gè)提取出的點(diǎn)陣代碼估計(jì)比例;使用所述比例來歸一化所述提取出的點(diǎn)陣代碼,以提供歸一化的提取出的點(diǎn)陣代碼;以及搜索點(diǎn)陣代碼表,以獲得與所述歸一化的提取出的點(diǎn)陣代碼相匹配的點(diǎn)陣代碼,以提供所述量化后的幅值數(shù)據(jù)。
26.如權(quán)利要求23所述的方法,在識(shí)別所述量化后的幅值數(shù)據(jù)之前包括從編碼后的子帶提取點(diǎn)陣通道代碼;從每個(gè)代碼的最大絕對(duì)值估計(jì)比例;從D4點(diǎn)陣代碼找出匹配;以及對(duì)所述匹配進(jìn)行逆量化以提供STFT幅值數(shù)據(jù)。
27.如權(quán)利要求23所述的方法,包括將所述音頻數(shù)據(jù)建模為一組已知值,每個(gè)已知值都具有相應(yīng)的代表對(duì)所述已知值的置信度級(jí)別的權(quán)重,其中零權(quán)重指示未知的值,而提取出的所述音頻數(shù)據(jù)的STFT幅值被視為已知值。
28.如權(quán)利要求27所述的方法,包括將每個(gè)權(quán)重建模為提取出的有噪聲點(diǎn)陣代碼和它的最近的點(diǎn)陣代碼之間的距離的函數(shù)。
29.一種用于從宿主圖像提取音頻數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括圖像處理電路,用于接收所述宿主圖像和提供所述宿主圖像的亮度分量;以及音頻處理電路,用于從所述亮度分量提取所述音頻數(shù)據(jù)和提供可被自由地提取的音頻數(shù)據(jù)。
30.如權(quán)利要求29所述的系統(tǒng),包括離散小波變換模塊,用于對(duì)所述宿主圖像的亮度分量執(zhí)行離散小波變換;識(shí)別模塊,用于識(shí)別與所述亮度分量相關(guān)聯(lián)的量化后的幅值數(shù)據(jù);以及相位恢復(fù)模塊,用于估計(jì)與識(shí)別出的幅值數(shù)據(jù)相關(guān)聯(lián)的相位數(shù)據(jù),并基于所述量化后的幅值數(shù)據(jù)和所述相位數(shù)據(jù)來生成輸出音頻信號(hào)。
31.如權(quán)利要求29所述的系統(tǒng),包括離散余弦變換模塊,用于對(duì)所述宿主圖像的亮度分量執(zhí)行離散余弦變換;識(shí)別模塊,用于識(shí)別與所述亮度分量相關(guān)聯(lián)的量化后的幅值數(shù)據(jù);以及相位恢復(fù)模塊,用于估計(jì)與識(shí)別出的幅值數(shù)據(jù)相關(guān)聯(lián)的相位數(shù)據(jù),并基于所述量化后的幅值數(shù)據(jù)和所述相位數(shù)據(jù)來生成輸出音頻信號(hào)。
32.如權(quán)利要求30所述的系統(tǒng),其中所述幅值數(shù)據(jù)是STFT幅值數(shù)據(jù),所述恢復(fù)模塊被配置為識(shí)別所述STFT幅值數(shù)據(jù)中被假設(shè)為與正弦曲線相對(duì)應(yīng)的峰;估計(jì)所述峰的瞬時(shí)頻率;以及從估計(jì)出的瞬時(shí)頻率重建音頻數(shù)據(jù)。
33.如權(quán)利要求29所述的系統(tǒng),其中從編碼后的子帶中提取點(diǎn)陣代碼,對(duì)每個(gè)提取出的點(diǎn)陣代碼估計(jì)比例,使用所述比例來歸一化所述提取出的點(diǎn)陣代碼以提供歸一化的提取出的點(diǎn)陣代碼,并且搜索點(diǎn)陣代碼表以獲得與所述歸一化的提取出的點(diǎn)陣代碼相匹配的點(diǎn)陣代碼,以提供所述量化后的幅值數(shù)據(jù)。
34.一種包含指令序列的機(jī)器可讀介質(zhì),當(dāng)所述指令序列被機(jī)器執(zhí)行時(shí)使得所述機(jī)器接收宿主圖像;接收音頻數(shù)據(jù);以及將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)以提供嵌入后圖像,其中所述音頻數(shù)據(jù)可從所述嵌入后圖像自由地恢復(fù)。
35.一種包含指令序列的機(jī)器可讀介質(zhì),當(dāng)所述指令序列被機(jī)器執(zhí)行時(shí)使得所述機(jī)器對(duì)所述宿主圖像的亮度分量執(zhí)行離散小波變換和離散余弦變換之一;識(shí)別與所述音頻數(shù)據(jù)相關(guān)聯(lián)的量化后的幅值數(shù)據(jù);估計(jì)與識(shí)別出的幅值數(shù)據(jù)相關(guān)聯(lián)的相位數(shù)據(jù);以及基于所述量化后的幅值數(shù)據(jù)和所述相位數(shù)據(jù)生成輸出音頻信號(hào)。
36.一種數(shù)字照相機(jī),包括圖像捕獲模塊,用于捕獲宿主數(shù)字圖像;音頻捕獲模塊,用于捕獲音頻信號(hào);以及圖像處理模塊,用于將所述音頻信號(hào)嵌入所述宿主圖像中。
37.一種包括如權(quán)利要求36所述的數(shù)字照相機(jī)的移動(dòng)電話。
38.一種用于處理宿主圖像的系統(tǒng),包括用于接收宿主圖像的裝置;用于接收音頻數(shù)據(jù)的裝置;以及用于將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)以提供嵌入后圖像的裝置,其中所述音頻數(shù)據(jù)可從所述嵌入后圖像自由地恢復(fù)。
全文摘要
本發(fā)明提供了一種用于處理數(shù)字圖像的方法和裝置。該方法可包括接收宿主圖像數(shù)據(jù),接收音頻數(shù)據(jù)以及將所述音頻數(shù)據(jù)嵌入所述宿主圖像數(shù)據(jù)內(nèi)以提供嵌入后圖像,其中所述音頻數(shù)據(jù)可從所述嵌入后圖像自由地恢復(fù)。該方法可包括在將所述音頻數(shù)據(jù)嵌入所述宿主圖像數(shù)據(jù)內(nèi)之前使用短時(shí)傅立葉變換(STFT)來處理所述音頻數(shù)據(jù)。該方法可在將所述音頻數(shù)據(jù)嵌入所述宿主圖像內(nèi)之前減少所述音頻數(shù)據(jù)中包括的代表音頻信號(hào)的數(shù)字?jǐn)?shù)據(jù)的量。在一個(gè)實(shí)施例中,該方法包括量化幅值數(shù)據(jù)并丟棄所述音頻信號(hào)的相位數(shù)據(jù),以提供所述音頻數(shù)據(jù)以便嵌入。該方法可包括量化所述音頻數(shù)據(jù)以與D
文檔編號(hào)H04N5/76GK1898695SQ200480038031
公開日2007年1月17日 申請(qǐng)日期2004年12月17日 優(yōu)先權(quán)日2003年12月19日
發(fā)明者沈望傅, 道恩·德斯蒙德·許 申請(qǐng)人:創(chuàng)新科技有限公司