專利名稱:基于人臉檢測的可視電話視頻傳輸抗誤碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于人臉檢測的可視電話視頻傳輸抗誤碼方法。
背景技術(shù):
近年來,抗誤碼視頻編碼技術(shù)被廣泛的研究,特別是在無線信道環(huán)境下, 前向差錯更正,多描述編碼,分層視頻編碼技術(shù),聯(lián)合編碼以及信道編碼等技 術(shù)被廣泛研究,此外還有魯棒小波編碼等。在最近的國際視頻編碼標(biāo)準(zhǔn)
H.264/AVC中,又有一些新的算法用來提高編碼的容錯能力,比如復(fù)雜宏塊排 序,參數(shù)設(shè)置,SP變換等。雖然有這么多容錯技術(shù),幀內(nèi)刷新(Intrarefresh) 技術(shù),即將某些選定的視頻數(shù)據(jù)進(jìn)行幀內(nèi)編碼來阻止差錯擴(kuò)散,仍然是易錯信 道中視頻傳輸?shù)淖詈唵魏陀行У姆椒ā?br>
現(xiàn)有的基于塊的混合視頻編碼結(jié)構(gòu)中有兩種編碼模式幀內(nèi)編碼與幀間編 碼,其中幀內(nèi)編碼只用當(dāng)前幀的信息,而幀間編碼模式用相鄰幀的信息作為參 考幀來進(jìn)一步減少時間冗余。當(dāng)一個編碼后的視頻在傾向于出錯的網(wǎng)絡(luò)中傳輸 時,無碼會在某一幀中出現(xiàn),然后傳播到后面的幾幀因為幀間編碼的預(yù)測。 甚至在解碼端采用一些錯誤檢測方法,也效果十分有限。相反地,幀內(nèi)編碼模 式可以抑制差錯傳播因為他并不參考相鄰幀的信息。因此,通過設(shè)定某些規(guī)則, 幀內(nèi)編碼,或者說幀內(nèi)刷新,是在抗誤碼視頻編碼中修復(fù)視頻主觀質(zhì)量損失的 一個基本的,有效的方法。I-幀是幀內(nèi)刷新的一個特殊情況,在I-幀情況下,整 幀圖像用幀內(nèi)模式編碼。但是,編碼這么多I幀將會產(chǎn)生大量的比特流,并且
產(chǎn)生一個劇烈的比特率波動。因此,有許多幀內(nèi)刷新技術(shù)的改進(jìn)包括隨機(jī)重
傳,周期性重傳,基于運(yùn)動信息的重傳,基于端到端的RD模型的重傳,基于 反饋的重傳,基于丟包率的重傳,以及這些方法的結(jié)合。
在上述方法中,基于端到端模型的幀內(nèi)刷新技術(shù)將有高的,或者復(fù)雜的運(yùn) 動信息的塊設(shè)置為幀內(nèi)刷新塊,因為如果將它們用幀間模式編碼的話,與用幀 內(nèi)編碼模式相比,由于是誤碼擴(kuò)散,會有更大的端到端的失真。雖然將高運(yùn)動信息的塊用幀內(nèi)模式編碼是看起來很合理,但是,從感知的角度看,這個解決 方案仍然不夠完美,尤其是在視頻電話的應(yīng)用中。在可視電話或者視頻會議中, 人們更傾向于關(guān)注可視電話中的"人臉",而不是其他區(qū)域。而往往人臉區(qū)域并 沒有很大的運(yùn)動向量信息。因此, 一個適用于可視電話的容錯視頻編碼算法應(yīng) 該盡可能保護(hù)在人臉的區(qū)域的信息,從而提高視頻的主管質(zhì)量。
在2002年,M.H.Yang在IEEE Trans. PAMI上發(fā)表的"Detecting Faces in Images: A survey",的綜述文章,將人臉檢測技術(shù)分為幾類進(jìn)行了詳細(xì)介紹。主 要包括基于幾何特征的人臉檢測方法(包括基于先驗知識的方法,基于特征不 變性的方法,基于模板的方法),基于膚色模型的人臉檢測方法,以及基于統(tǒng)計 理論的人臉檢測方法(包括子空間方法,神經(jīng)網(wǎng)絡(luò)方法,支持向量方法,隱馬 爾可夫模型方法,以及Boosting方法)。在這些方法中,基于膚色模型的人臉檢 測方法應(yīng)用廣泛,具有易于應(yīng)用,對人臉姿態(tài)不敏感,在背景單調(diào)的環(huán)境下檢 測率高的優(yōu)點。此外,對于色度空間的選擇非常重要,很大程度上影響整個算 法的效果?;谀w色模型的方法在光照和背景復(fù)雜的情況下,效果不是很理想, 現(xiàn)在往往和其他方法相結(jié)合使用。近期出現(xiàn)的使用紅外線作為光源的方法可以 部分解決光照復(fù)雜的問題。在基于幾何特征的人臉檢測方法中基于先驗知識的 方法可以直觀的尋找到簡單的判定準(zhǔn)則,適合簡單背景下的正面單人臉檢測。 因為針對人臉面部器官制定一系列精確恰當(dāng)?shù)呐卸?zhǔn)則非常困難,而且該方法 在復(fù)雜背景下的檢測效果不很理想,所以在實際系統(tǒng)中應(yīng)用并不廣泛。與以上 兩種相似,基于特征不變性的方法主要的問題是在面部存在遮擋和復(fù)雜背景的 情況下很難獲得理想的效果?;谀0宸椒ǖ膬?yōu)點在于構(gòu)造簡單,但是面對人 臉的多樣性,很難設(shè)計出精確匹配的標(biāo)準(zhǔn)模板。此外對于應(yīng)用于人臉配準(zhǔn)上的 變形模板,模板初始位置必須要在待檢人臉?biāo)闹芤欢ǖ姆秶鷥?nèi),否則不能收斂。
RD模型幾乎是當(dāng)前所有視頻編碼技術(shù)通過在特定比特率下,得到最小失真 的,決定編碼模式的基本策略。這個受限的最優(yōu)化問題可以被拉格朗日優(yōu)化方 法解決。對于每一個編碼模式o來說,代價函數(shù)J(o)用下式計算。最優(yōu)的編碼 模式o,就是使得代價方程值最小的編碼模式<formula>formula see original document page 5</formula>與傳統(tǒng)的RD模型不同的是,端到端的RD模型進(jìn)一步考慮了視頻傳輸與解碼 的影響,因此他使用端到端的失真代替了原有的只考慮在編碼端的失真。端到 端的失真定義"失真"為傳輸,差錯檢測后的解碼數(shù)據(jù)與編碼前的原始視頻數(shù) 據(jù)的差異。相應(yīng)地,從解碼端進(jìn)行考慮的端到端的RD模型的失真就由三部分
組成由量化產(chǎn)生的失真,由錯誤擴(kuò)散產(chǎn)生的失真,由丟失當(dāng)前幀產(chǎn)生的失真。
當(dāng)當(dāng)前數(shù)據(jù)塊收到的時候,只有第一個和第二個部分有效果。數(shù)據(jù)塊是否收到
可以由之前假設(shè)的PLR模型設(shè)定。 一個簡單有效的端到端RD模型在中提出, 錯誤擴(kuò)散被大致用基于塊的失真圖模擬。在對每個塊進(jìn)行編碼之前,錯誤擴(kuò)散 失真可以由前一幀/參考幀的失真圖得到。端到端的RD模型的代價方程為
眷A。)+U。)+竭o)
端到端的RD模型的主要問題在于,人臉不一定是運(yùn)動信息值大的區(qū)域,運(yùn)動信 息小的區(qū)域未必在可視電話中不引人注意。在并不引人注意的區(qū)域進(jìn)行幀內(nèi)刷 新,會導(dǎo)致一些不必要的碼率提升。
發(fā)明內(nèi)容
本發(fā)明的目的涉及一種基于人臉檢測的可視電話視頻傳輸抗誤碼方法,以 進(jìn)一步去除膚色分割后包括的非人臉區(qū)域,實現(xiàn)更精準(zhǔn)的人臉定位,從而盡可 能多地檢測到人臉的同時降低誤檢率。
本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)
一種基于人臉檢測的可視電話視頻傳輸抗誤碼方法,選擇基于膚色的人臉 檢測,該方法包括以下步驟
膚色分割選擇YCbCr空間作為膚色分布統(tǒng)計的映射空間,其中Y分量表
示亮度、Cb、 Cr表示色度,膚色點能夠形成較好的膚色聚類;對人臉進(jìn)行膚色
檢測首先要對膚色建模,人臉建模的方法諸如高斯模型、橢圓模型,其中對于
橢圓模型,經(jīng)過非線性分段色彩變換得到的色彩空間用YCb,Cr,來表示,膚色 聚類在YCb'Cr'空間中的分布呈明顯的橢圓分布,橢圓內(nèi)區(qū)域為膚色區(qū)域,其 他區(qū)域為非膚色區(qū)域,從而得到比較理想的二值化分割圖像;膚色區(qū)域處理首先對分割出來的皮膚區(qū)域進(jìn)行腐蝕與膨脹操作,除去噪 聲對膚色分隔的影響;然后通過人臉膚色區(qū)域的統(tǒng)計特征分析,對分割出來的 膚色區(qū)域作預(yù)處理,得到最為可能的人臉區(qū)域;
基于人臉檢測的RD模型將人臉檢測模型引入RD模型中,在基于人臉 的RD模型FDRD中,將人臉檢測的信息用作引導(dǎo)模式的選擇,在端到端RD 模型的基礎(chǔ)上,改進(jìn)FDRD的代價方程為 ■/(。) = ,, o, + "印re/ (o) +辟))
加權(quán)因子"(F,A"根據(jù)視頻塊是否在人臉區(qū)域內(nèi),以及是否屬于重傳幀來確定;
重傳幀將幀內(nèi)編碼的加權(quán)因子設(shè)置為1,而將幀間編碼的加權(quán)因子設(shè)置 為+ w,這樣,感興趣的人臉區(qū)域?qū)煌暾倪M(jìn)行幀內(nèi)刷新,提升了視頻的主 觀質(zhì)量,加權(quán)因子只在幀內(nèi)、幀間編碼的選擇層面產(chǎn)生作用,并不影響幀內(nèi)以 及幀間的子模式,子模式的選擇仍然由端到端模型來決定。
在對實時性要求不高的場合,可以用Adaboost級聯(lián)分類器對上面的方法進(jìn) 行改進(jìn)。首先用膚色模型檢測膚色區(qū)域,然后用膨脹,腐蝕去噪;再將這些區(qū) 域作為輸入圖像用訓(xùn)練好的Adaboost級聯(lián)分類器進(jìn)行檢測,進(jìn)一步去除膚色分
割后包括的非人臉區(qū)域,實現(xiàn)更精準(zhǔn)的人臉定位,從而進(jìn)可能多地檢測到人臉 的同時降低誤檢率。同時,也避免了只用級聯(lián)算法需要掃描整幅圖像得到所有
子窗口的過程,大大加快了算法的運(yùn)行速度,也避免了 Adaboost算法檢測多人 臉圖像時效果不理想的情況
本發(fā)明的有益效果提高對人臉檢測精度、速度性能;以及對幀內(nèi),幀間 選擇子模式的選擇模型進(jìn)行優(yōu)化。
圖1是本發(fā)明實施例所述的基于人臉檢測的可視電話視頻傳輸抗誤碼方法 的流程7圖2A-2D是幾種差錯控制方式的比較圖。
具體實施例方式
如圖1所示,本發(fā)明實施例所述的基于人臉檢測的可視電話視頻傳輸抗誤 碼方法,選擇基于膚色的人臉檢測,該方法包括以下步驟
在步驟10中,進(jìn)行膚色分割選擇YCbCr空間作為膚色分布統(tǒng)計的映射 空間,其中Y分量表示亮度、Cb、 Cr表示色度,該空間的優(yōu)點是可以將亮度和 色度分開單獨處理,實現(xiàn)亮度和色度分量比較徹底的分離,Cb、 Cr是兩維獨立 分布,能較好地限制膚色分布區(qū)域,膚色點能夠形成較好的膚色聚類;利用橢 圓模型對膚色建模,經(jīng)過非線性分段色彩變換得到的色彩空間用YCb,Cr,來表 示,膚色聚類在YCb'Cr'空間中的分布呈明顯的橢圓分布,可用以下的公式來 匹配兩個色度分量的距離
<formula>formula see original document page 8</formula>
以上表達(dá)式中的常量分別為
*^=109.38, S =152.02,
eC'=l. 60, eCy=2. 41,
<9=2、 53, a =25. 39, b=14、 03
橢圓內(nèi)區(qū)域為膚色區(qū)域,其他區(qū)域為非膚色區(qū)域,從而得到比較理想的二值化 分割圖像;
在步驟20中,進(jìn)行膚色區(qū)域處理經(jīng)過膚色分割得到一系列的連通區(qū)域, 這些區(qū)域包括皮膚區(qū)域及與皮膚顏色相近的背景區(qū)域,在復(fù)雜背景下,有可能 存在很多與人臉膚色相近的非人臉區(qū)域被分割出來,如手、胳膊等,這就需對 這些膚色區(qū)域作進(jìn)一步的處理,首先對分割出來的皮膚區(qū)域進(jìn)行腐蝕與膨脹操作,除去噪聲對膚色分隔的影響;然后通過人臉膚色區(qū)域的統(tǒng)計特征分析,對 分割出來的膚色區(qū)域作以下預(yù)處理,得到最為可能的人臉區(qū)域
a) 對人臉來說,其長寬比一般為1左右,計算膚色區(qū)域的長寬比,取人臉 的長寬比為O. 4 0. 5,長寬比不滿足此范圍的區(qū)域,被認(rèn)為是非人臉區(qū)域而 被剔除;
b) 由于人臉區(qū)域有一定的大小,將膚色區(qū)域小于400像素(小于2X2個宏 塊單位)被認(rèn)為是噪聲干擾而被除去;
在步驟30中,基于人臉檢測的RD模型將人臉檢測模型引入RD模型中, 在基于人臉的RD模型(FDRD)中,將人臉檢測的信息用作引導(dǎo)模式的選擇, 在端到端RD模型的基礎(chǔ)上,改進(jìn)FDRD的代價方程為 /(。)=+ U。) +辟))
加權(quán)因子"^>^)根據(jù)視頻塊是否在人臉區(qū)域內(nèi),以及是否屬于重傳幀來確定;
在步驟40中,進(jìn)行重傳幀將幀內(nèi)編碼的加權(quán)因子設(shè)置為1,而將幀間編 碼的加權(quán)因子設(shè)置為+ w ,這樣,感興趣的人臉區(qū)域?qū)煌暾倪M(jìn)行幀內(nèi)刷新, 提升了視頻的主觀質(zhì)量,加權(quán)因子只在幀內(nèi)、幀間編碼的選擇層面產(chǎn)生作用, 并不影響幀內(nèi)以及幀間的子模式,子模式的選擇仍然由端到端模型來決定。
如圖2A-2D所示,比較了4種情況圖2A、不進(jìn)行差錯控制;圖2B、隨 機(jī)選擇的幀內(nèi)刷新技術(shù);圖2C、端到端模型;圖2D、 FDRD模型。設(shè)置丟包 率為10%, 20%對多種格式的序列進(jìn)行測定。圖2A-2D是在丟包率為20%的情 況下,CIF格式的序列"Foreman"的一個截圖??梢钥闯觯現(xiàn)DRD模型對人臉 區(qū)域保護(hù)非常好,與其他三種方法相比,得到了最好的主觀質(zhì)量。
權(quán)利要求
1、一種基于人臉檢測的可視電話視頻傳輸抗誤碼方法,選擇基于膚色的人臉檢測,其特征在于該方法包括以下步驟膚色分割選擇YCbCr空間作為膚色分布統(tǒng)計的映射空間,其中Y分量表示亮度、Cb、Cr表示色度,膚色點能夠形成較好的膚色聚類;利用橢圓模型對膚色建模,經(jīng)過非線性分段色彩變換得到的色彩空間用YCb’Cr’來表示,膚色聚類在YCb’Cr’空間中的分布呈明顯的橢圓分布,橢圓內(nèi)區(qū)域為膚色區(qū)域,其他區(qū)域為非膚色區(qū)域,從而得到比較理想的二值化分割圖像;膚色區(qū)域處理首先對分割出來的皮膚區(qū)域進(jìn)行腐蝕與膨脹操作,除去噪聲對膚色分隔的影響,然后通過人臉膚色區(qū)域的統(tǒng)計特征分析,對分割出來的膚色區(qū)域作預(yù)處理,得到最為可能的人臉區(qū)域;基于人臉檢測的RD模型在基于人臉的RD模型FDRD中,將人臉檢測的信息用作引導(dǎo)模式的選擇,在端到端RD模型的基礎(chǔ)上,改進(jìn)的基于人臉的RD模型FDRD的代價方程為J(o)=α(F,o,R)(D(o)+Dep_ref(o)+λR(o))加權(quán)因子α(F,o,R)根據(jù)視頻塊是否在人臉區(qū)域內(nèi),以及是否屬于重傳幀來確定;重傳幀將幀內(nèi)編碼的加權(quán)因子設(shè)置為1,而將幀間編碼的加權(quán)因子設(shè)置為+∞,這樣,感興趣的人臉區(qū)域?qū)煌暾倪M(jìn)行幀內(nèi)刷新,其中加權(quán)因子只在幀內(nèi)、幀間編碼的選擇層面產(chǎn)生作用,并不影響幀內(nèi)以及幀間的子模式,子模式的選擇仍然由端到端模型來決定。
2、 根據(jù)權(quán)利要求1所述的基于人臉檢測的可視電話視頻傳輸抗誤碼方法, 其特征在于在膚色區(qū)域處理步驟的對分割出來的膚色區(qū)域作預(yù)處理中,對人 臉來說,其長寬比為1,計算膚色區(qū)域的長寬比,取人臉的長寬比為O. 4 0. 5, 長寬比不滿足此范圍的區(qū)域,被認(rèn)為是非人臉區(qū)域而被剔除。
3、 根據(jù)權(quán)利要求1所述的基于人臉檢測的可視電話視頻傳輸抗誤碼方法,其特征在于在膚色區(qū)域處理步驟的對分割出來的膚色區(qū)域作預(yù)處理中,膚色 區(qū)域小于400像素被認(rèn)為是噪聲干擾而被除去。
全文摘要
本發(fā)明涉及一種基于人臉檢測的可視電話視頻傳輸抗誤碼方法,選擇基于膚色的人臉檢測,該方法包括以下步驟膚色分割選擇YCbCr空間作為膚色分布統(tǒng)計的映射空間,其中Y分量表示亮度、Cb、Cr表示色度,膚色點能夠形成較好的膚色聚類;膚色區(qū)域處理首先對分割出來的皮膚區(qū)域進(jìn)行腐蝕與膨脹操作,除去噪聲對膚色分隔的影響;然后通過人臉膚色區(qū)域的統(tǒng)計特征分析,對分割出來的膚色區(qū)域作以下預(yù)處理,得到最為可能的人臉區(qū)域;基于人臉檢測的RD模型將人臉檢測模型引入RD模型中;重傳幀。本發(fā)明的有益效果提高對人臉檢測精度、速度性能;以及對幀內(nèi),幀間選擇子模式的選擇模型進(jìn)行優(yōu)化。
文檔編號G06T5/00GK101309426SQ20081013283
公開日2008年11月19日 申請日期2008年7月10日 優(yōu)先權(quán)日2008年7月10日
發(fā)明者鄭中亮, 郭彥東 申請人:北京郵電大學(xué)