一種平面視頻轉(zhuǎn)立體視頻的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種平面視頻轉(zhuǎn)立體視頻的方法及裝置,所述方法包括對平面視頻的每一幀圖像執(zhí)行以下步驟:S1、獲取當(dāng)前幀圖像的深度圖D:通過基于塊匹配的運動估計獲取第一深度圖D1;通過邊緣檢測算法和霍夫變換算法,基于幾何透視關(guān)系構(gòu)建第二深度圖D2;通過基于顏色信息的方法估算第三深度圖D3;對D1、D2和D3執(zhí)行深度融合得到深度圖D;S2、基于DIBR算法,由參考圖和深度圖D生成多視點立體視圖;S3、根據(jù)用戶的立體視頻格式要求,從多視點立體視圖中選取至少部分所述左右眼視圖執(zhí)行立體渲染,以生成相應(yīng)格式的彩色立體視頻。本發(fā)明的方法生成的立體視頻,不但立體效果佳,而且可以根據(jù)用戶需求生成不同格式的立體視頻。
【專利說明】一種平面視頻轉(zhuǎn)立體視頻的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種平面視頻轉(zhuǎn)立體視頻的方法及裝置。
【背景技術(shù)】
[0002] 平面視頻轉(zhuǎn)立體視頻技術(shù),又稱2D轉(zhuǎn)3D技術(shù),是指將現(xiàn)有的平面視頻使用必要的 技術(shù)手段,充分挖掘平面視頻中的深度信息,根據(jù)深度信息模擬多視點觀察的虛擬場景,從 而達到立體感知的效果。在立體視頻技術(shù)中,通過雙目立體視覺實現(xiàn)立體感知效果。雙目 立體視覺利用雙目成像的原理,通過模擬雙目感知成像,將左右兩路圖像或者視頻使用特 殊的手段分別投射的人的左右眼中,人的大腦會重構(gòu)出圖像或視頻中的立體場景,達到立 體感知效果。
[0003]立體圖像作為一種新型的描述三維世界的方式,它不僅包含傳統(tǒng)平面圖像的關(guān)于 場景的表面信息,而且還包含與場景具體位置相關(guān)的三維立體信息,即深度信息。與傳統(tǒng)的 平面視頻相比,立體視頻能對客觀世界的具體場景進行更加真實的反映。
[0004]通過立體視覺算法可以獲得場景的深度圖,深度圖能夠反映出平面圖像對應(yīng)場景 的前后或遠(yuǎn)近的關(guān)系。通常在應(yīng)用中,用8個位深的灰度圖像來表示深度圖。在深度圖上某 點的值為〇,表示對應(yīng)平面圖像該點的圖像位于相對深度范圍內(nèi)的最遠(yuǎn)處,深度圖上某點的 深度值為255,表示對應(yīng)該位置點上的平面圖像位于相對深度范圍內(nèi)的最近處,在0?255 范圍內(nèi)的的其他值則表示某一個相對深度范圍內(nèi)的深度。
[0005]目前3D視頻技術(shù)已經(jīng)取得了較為長遠(yuǎn)的發(fā)展,市場上出現(xiàn)了從高端到低端的一 系列立體視頻采集設(shè)備。經(jīng)過多年的技術(shù)積累,立體顯示設(shè)備的價格也逐漸平民化,3D電視 開始走進越來越多的普通家庭。然而近幾年來3D產(chǎn)業(yè)繁榮的背后,存在高端立體采集設(shè)備 昂貴,高質(zhì)量立體片源短缺,人工3D視頻制作成本高昂等難題,這些難題逐漸成為3D視頻 發(fā)展的瓶頸。
[0006]另外,市場上也存在基于多種顯示原理的立體顯示設(shè)備,如光柵式,快門式,偏振 式等。通常快門式和偏振式顯示設(shè)配需要佩戴特制的立體眼鏡才能觀看,光柵式的顯示設(shè) 備則不需要特制眼鏡即能呈現(xiàn)立體場景,但是光柵式的立體顯示設(shè)備所支持的立體視頻格 式有雙目格式和多視點格式之分,而現(xiàn)有的立體視頻處理裝置往往僅能輸出某一種格式的 立體視頻,并且輸出的立體視頻的立體效果較差,極大的限制了立體視頻處理裝置的使用 范圍。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的主要目的在于提出一種平面視頻轉(zhuǎn)立體視頻的方法及裝置,以解決現(xiàn)有 的立體視頻處理裝置輸出的立體視頻格式單一且立體效果欠佳的技術(shù)問題。
[0008]本發(fā)明提出的平面視頻轉(zhuǎn)立體視頻的方法如下:
[0009]一種平面視頻轉(zhuǎn)立體視頻的方法,包括對平面視頻的每一幀圖像執(zhí)行以下步驟:
[0010]S1、獲取當(dāng)前幀圖像的深度圖D:通過基于塊匹配的運動估計獲取第一深度圖D1; 通過邊緣檢測算法和霍夫變換算法提取當(dāng)前幀圖像中的消失點和消失線,根據(jù)圖像深度與 消失點和消失線之間的關(guān)系構(gòu)建第二深度圖D2;通過基于顏色信息的方法估算第三深度圖 D3;對所述第一深度圖Di、所述第二深度圖D2和所述第三深度圖D3執(zhí)行深度融合,以獲取所 述當(dāng)前幀圖像的深度圖D;
[0011]S2、基于DIBR算法,由參考圖和所述深度圖D生成多視點立體視圖,其中所述參考 圖為所述當(dāng)前幀圖像,所述多視點立體視圖包括多對左右眼視圖;
[0012]S3、根據(jù)用戶的立體視頻輸出格式要求,從所述多視點立體視圖中選取至少一對 所述左右眼視圖執(zhí)行立體渲染,以生成相應(yīng)格式的彩色立體視頻。
[0013] 上述平面視頻轉(zhuǎn)立體視頻的方法,對每一幀圖像采用不同的方法獲取不同的深度 圖,再將這些以不同方法獲得的深度圖進行加權(quán)融合,得到每一幀圖像的一個最終的深度 圖,再基于該最終的深度圖以及該幀圖像,采用DIBR算法生成多視點立體視圖,執(zhí)行立體 渲染后生成立體視頻。由于在本方案中對單幀圖像通過不同方法求得多個深度圖,再進行 深度融合得到最終的深度圖,基于該最終的深度圖來執(zhí)行后續(xù)的處理,因此最終得到的立 體視頻的立體效果佳,而且,由于得到的是多視點立體視圖,可以從中挑選不同的視圖對 (一個視圖對包括左眼圖像和右眼圖像),生成不同格式的立體視頻,例如,挑選其中某一 視點的一對立體視圖,生成紅藍(lán)格式立體視頻、雙目格式立體視頻或side-by-side格式立 體視頻;也可以挑選多對立體視圖,生成多視點格式立體視頻或行交織格式立體視頻,用戶 可以根據(jù)其立體顯示設(shè)備的顯示原理進行立體渲染以得到的相應(yīng)格式的立體視頻,供不同 顯示原理的立體顯示設(shè)備進行顯示。
[0014] 本發(fā)明提出的平面視頻轉(zhuǎn)立體視頻的裝置如下:
[0015]-種平面視頻轉(zhuǎn)立體視頻的裝置,包括控制模塊、緩存模塊、視頻轉(zhuǎn)換模塊和立體 渲染模塊;所述緩存模塊用于存儲待處理的RGB視頻以及處理的中間結(jié)果;所述視頻轉(zhuǎn)換 模塊分別與所述緩存模塊、所述立體渲染模塊連接,用于將所述待處理的RGB視頻的平面 圖像轉(zhuǎn)換為多視點立體視圖,并將所述多視點立體視圖輸入至所述立體渲染模塊,所述多 視點立體視圖包括多對左右眼視圖;所述立體渲染模塊用于根據(jù)用戶的立體視頻輸出格式 要求從所述多視點立體視圖中選取至少一對的所述左右眼視圖,并對選取的所述左右眼視 圖執(zhí)行立體渲染,生成相應(yīng)格式的彩色立體視頻;所述控制模塊分別與所述視頻轉(zhuǎn)換模塊、 所述立體渲染模塊連接,用于根據(jù)用戶要求對所述裝置進行配置,所述用戶要求包括所述 立體視頻輸出格式要求。
[0016] 本發(fā)明提供的上述平面視頻轉(zhuǎn)立體視頻的裝置相比現(xiàn)有技術(shù),具有以下優(yōu)點:可 以根據(jù)用戶對輸出的立體視頻格式要求,從多視點立體視圖的多對左右眼視圖中,進行不 同的選擇,將選擇的立體視圖進行立體渲染,生成相應(yīng)格式的立體視頻,本裝置能夠滿足不 同顯示原理的立體顯示設(shè)備,適用范圍極為廣泛。
【專利附圖】
【附圖說明】
[0017] 圖1是本發(fā)明具體實施例提供的一種平面視頻轉(zhuǎn)立體視頻的方法流程圖;
[0018] 圖2是圖1中的步驟40的具體流程圖;
[0019] 圖3是邊緣檢測算法在FPGA中實現(xiàn)的原理圖;
[0020] 圖4是霍夫變換算法在FPGA中實現(xiàn)的原理圖;
[0021] 圖5是對深度圖D進行雙邊濾波在FPGA中實現(xiàn)的原理圖;
[0022] 圖6是本發(fā)明具體實施例提供的一種平面視頻轉(zhuǎn)立體視頻的裝置框圖;
[0023]圖7是圖6中視頻轉(zhuǎn)換模塊的一種具體實施例的工作原理框圖;
[0024]圖8是圖6中視頻輸入模塊的一種具體實施例的工作原理框圖;
[0025] 圖9是圖6中視頻輸出模塊的一種具體實施例的工作原理框圖;
[0026]圖10是圖6中緩存模塊的一種具體實施例的工作原理框圖。
【具體實施方式】
[0027] 下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步說明。
[0028] 本發(fā)明的【具體實施方式】提供一種平面視頻轉(zhuǎn)立體視頻的方法,該方法以FPGA為 核心處理器件,通過FPGA實現(xiàn)硬件設(shè)計,該方法包括對待處理視頻(平面視頻)中的每一 幀圖像執(zhí)行以下步驟,可參考圖1 :
[0029] 步驟10 :開始
[0030] 步驟21 :通過基于塊匹配的運動估計獲取第一深度圖Di
[0031] 步驟22 :通過邊緣檢測算法和霍夫變換算法提取當(dāng)前幀圖像中的消失點和消失 線,根據(jù)圖像深度與消失點和消失線之間的關(guān)系構(gòu)建第二深度圖D2
[0032] 步驟23:通過基于顏色信息的方法估算第三深度圖D3
[0033] 步驟30:對第一深度圖Di、第二深度圖D2和第三深度圖D3執(zhí)行深度融合,得到所 述當(dāng)前幀圖像的深度圖D
[0034] 步驟40 :基于DIBR(DepthImageBasedRendering,基于深度圖像的繪制)算法, 由一幅參考圖和一幅深度圖D生成多視點立體視圖,其中所述參考圖為所述當(dāng)前幀圖像
[0035] 步驟50 :根據(jù)用戶的立體視頻格式要求,從所述多視點立體視圖中選取至少部分 視圖執(zhí)行立體渲染,以生成相應(yīng)格式的彩色立體視頻
[0036] 需要說明,在上述的步驟中,步驟21、22和23是可以同時執(zhí)行的。
[0037] 對于步驟21,可以采用一種具體的算法FSBMA(全搜索塊匹配算法),包括:假設(shè)對 一當(dāng)前幀圖像Ii執(zhí)行該步驟21,則還需提取當(dāng)前幀圖像的前一幀圖像12作為參考幀,對當(dāng) 前幀和參考幀,采用基于塊匹配的運動估計,計算第一運動矢量,根據(jù)當(dāng)前幀圖像L和第一 運動矢量得到預(yù)測幀圖像Ip^再以預(yù)測幀圖像I作為參考幀、所述前一幀圖像12作為當(dāng) 前幀,以前述的方法計算第二運動矢量,根據(jù)所述第二運動矢量得到所述當(dāng)前幀圖像1:的 第一深度圖Di,且第一深度圖Di中每個點的灰度值為Ii的前一幀圖像I2中每個像素的運 動矢量的模值。具體地,進行前述的運動估計求取運動矢量可以采用更適合硬件實現(xiàn)的平 均絕度值準(zhǔn)則(MAD)塊匹配準(zhǔn)則,即:
【權(quán)利要求】
1. 一種平面視頻轉(zhuǎn)立體視頻的方法,包括對平面視頻的每一幀圖像執(zhí)行以下步驟: 51、 獲取當(dāng)前幀圖像的深度圖D :通過基于塊匹配的運動估計獲取第一深度圖D1;通過 邊緣檢測算法和霍夫變換算法提取當(dāng)前幀圖像中的消失點和消失線,根據(jù)圖像深度與消失 點和消失線之間的關(guān)系構(gòu)建第二深度圖D2;通過基于顏色信息的方法估算第三深度圖D 3; 對所述第一深度圖Di、所述第二深度圖D2和所述第三深度圖D 3執(zhí)行深度融合,以獲取所述 當(dāng)前幀圖像的深度圖D ; 52、 基于DIBR算法,由參考圖和所述深度圖D生成多視點立體視圖,其中所述參考圖為 所述當(dāng)前幀圖像,所述多視點立體視圖包括多對左右眼視圖; 53、 根據(jù)用戶的立體視頻格式要求,從所述多視點立體視圖中選取至少一對所述左右 眼視圖執(zhí)行立體渲染,以生成相應(yīng)格式的彩色立體視頻。
2. 如權(quán)利要求1所述的方法,其特征在于:所述步驟S1中獲取所述第一深度圖D i具體 包括:提取緩存中的連續(xù)兩幀圖像分別為L、12,以L作為當(dāng)前幀、12作為參考幀,其中1 2為 1:的前一幀,通過基于塊匹配的運動估計,計算第一運動矢量,根據(jù)當(dāng)前幀I i和所述第一運 動矢量,得到預(yù)測幀Ip^再以預(yù)測幀I作為參考幀,I 2作為當(dāng)前幀,通過基于塊匹配的運 動估計,計算第二運動矢量,根據(jù)所述第二運動矢量,獲得所述第一深度圖Di,其中,所述第 一深度圖Di中每個點的灰度值為I 2中的每個像素的運動矢量的模值。
3. 如權(quán)利要求2所述的方法,其特征在于:在FPGA內(nèi)采用并行算法進行所述運動估計 的硬件結(jié)構(gòu)設(shè)計,并在FPGA的多個處理單元內(nèi)構(gòu)成并行處理陣列以同時計算所述第一深 度圖Di、所述第二深度圖D2和所述第三深度圖D 3。
4. 如權(quán)利要求1所述的方法,其特征在于:所述步驟S1中所述圖像深度與消失點和消 失線之間的關(guān)系為:消失線的交點為消失點,消失點為深度最大的點,圖像深度沿消失線從 最大變化到最小。
5. 如權(quán)利要求1所述的方法,其特征在于:所述步驟S1中獲取所述第三深度圖像03具 體包括:計算所述當(dāng)前幀圖像中每個像素的藍(lán)色分量與紅色分量的第一差值、藍(lán)色分量與 綠色分量的第二差值,以所述第一差值與所述第二差值的乘積作為所述第三深度圖的每個 像素的像素值,從而獲得所述第三深度圖D3。
6. 如權(quán)利要求1所述的方法,其特征在于:所述步驟S1中進行所述深度融合以獲取所 述深度圖D具體包括:對所述第一深度圖Di、所述第二深度圖D2和所述第三深度圖D 3執(zhí)行 深度圖加權(quán)融合D = aDi+eDfyDs,其中a+0+y = 1。
7. 如權(quán)利要求6所述的方法,其特征在于:所述視頻場景包括人工場景和自然場景,當(dāng) 視頻場景為人工場景時,〇. 5< a <1,〇. 2< 0 <0. 5,0< y <0. 1 ;當(dāng)視頻場景為自然 場景時,〇? 5 < a < 1,〇 < 0 < 〇? l,〇. 2 < y < 0? 5。
8. 如權(quán)利要求1所述的方法,其特征在于:所述步驟S2具體包括: 521、 對所述深度圖D進行雙邊濾波; 522、 使用圖像映射公式完成多視點圖像的映射,生成所述多視點立體視圖; 523、 對所述多視點立體視圖進行空洞填充和修補。
9. 一種平面視頻轉(zhuǎn)立體視頻的裝置,其特征在于:包括控制模塊、緩存模塊、視頻轉(zhuǎn)換 模塊和立體渲染模塊; 所述緩存模塊用于存儲待處理的RGB視頻以及處理的中間結(jié)果; 所述視頻轉(zhuǎn)換模塊分別與所述緩存模塊、所述立體渲染模塊連接,用于將所述待處理 的RGB視頻的平面圖像轉(zhuǎn)換為多視點立體視圖,并將所述多視點立體視圖輸入至所述立體 渲染模塊,所述多視點立體視圖包括多對左右眼視圖; 所述立體渲染模塊用于根據(jù)用戶的立體視頻輸出格式要求從所述多視點立體視圖中 選取至少一對所述左右眼視圖,并對選取的所述左右眼視圖執(zhí)行立體渲染,生成相應(yīng)格式 的彩色立體視頻; 所述控制模塊分別與所述視頻轉(zhuǎn)換模塊、所述立體渲染模塊連接,用于根據(jù)用戶要求 對所述裝置進行配置,所述用戶要求包括所述立體視頻輸出格式要求。
10. 如權(quán)利要求9所述的裝置,其特征在于:所述視頻轉(zhuǎn)換模塊包括第一深度估算模 塊、第二深度估算模塊、第三深度估算模塊、深度融合模塊和多視點立體視圖生成模塊,所 述第一深度估算模塊、所述第二深度估算模塊和所述第三深度估算模塊均與所述緩存模塊 和所述深度融合模塊連接; 所述第一深度估算模塊用于對所述待處理的RGB視頻的一當(dāng)前幀圖像執(zhí)行基于塊匹 配的運動估計,以獲得第一深度圖Di,所述第二深度估算模塊用于對所述當(dāng)前幀圖像執(zhí)行 幾何透視關(guān)系估算,以獲得第二深度圖D2,所述第三深度估算模塊用于對所述當(dāng)前幀圖像 執(zhí)行基于顏色彳目息的估算,以獲得第二株度圖D3; 所述深度融合模塊用于對所述第一深度圖Di、所述第二深度圖D2和所述第三深度圖D 3執(zhí)行深度圖加權(quán)融合,以獲得所述當(dāng)前幀圖像的深度圖D ; 所述多視點立體視圖生成模塊用于基于所述深度圖D和所述當(dāng)前幀圖像,生成所述多 視點立體視圖。
11. 如權(quán)利要求9所述的裝置,其特征在于:還包括視頻輸入模塊和視頻輸出模塊:所 述視頻輸入模塊與所述緩存模塊連接,用于向所述緩存模塊輸入所述待處理的RGB視頻; 所述視頻輸出模塊與所述立體渲染模塊連接,用于將轉(zhuǎn)換出的所述彩色立體視頻輸出; 所述控制模塊包括數(shù)據(jù)配置模塊和人機通信模塊,其中,所述數(shù)據(jù)配置模塊分別與所 述視頻轉(zhuǎn)換模塊、所述立體渲染模塊、所述視頻輸入模塊、所述視頻輸出模塊、所述人機通 信模塊連接。
12. 如權(quán)利要求11所述的裝置,其特征在于:所述視頻輸入模塊包括視頻信號輸入面 板、視頻輸入轉(zhuǎn)換器群組和輸入信號選擇器,其中,所述輸入信號選擇器與所述數(shù)據(jù)配置模 塊連接; 所述視頻輸出模塊包括輸出信號選擇器、視頻輸出轉(zhuǎn)換器群組和視頻信號輸出面板, 其中,所述輸出信號選擇器與所述數(shù)據(jù)配置模塊連接; 所述視頻信號輸入面板和所述視頻信號輸出面板均包括有多種視頻接口,所述視頻輸 入轉(zhuǎn)換器群組和所述視頻輸出轉(zhuǎn)換器群組均包括分別對應(yīng)每種所述視頻接口的多個轉(zhuǎn)換 器; 所述人機通信模塊用于輸入所述用戶要求,所述數(shù)據(jù)配置模塊根據(jù)所述用戶要求分別 對所述輸入信號選擇器、所述信號輸出選擇器、所述視頻轉(zhuǎn)換模塊、所述立體渲染模塊進行 所述配置。
13. 如權(quán)利要求12所述的裝置,其特征在于:所述視頻信號輸入面板用于從多種視頻 接口接入平面視頻;當(dāng)所述視頻信號輸入面板的一特定視頻接口處接入平面視頻時,所述 輸入信號選擇器根據(jù)所述用戶要求從所述視頻輸入轉(zhuǎn)換器群組的多個所述轉(zhuǎn)換器中選擇 與所述特定視頻接口對應(yīng)的特定轉(zhuǎn)換器,所述特定轉(zhuǎn)換器用于將所述特定視頻接口處輸入 的平面視頻轉(zhuǎn)換為所述待處理的RGB視頻,并輸出至所述緩存模塊和所述視頻轉(zhuǎn)換模塊; 所述用戶要求包括從所述人機通信模塊輸入的用于表征當(dāng)前平面視頻的輸入接口的數(shù)據(jù)。
14.如權(quán)利要求12所述的裝置,其特征在于:所述用戶要求包括從所述人機通信模塊 輸入的用于表征所述彩色立體視頻需從某一特定視頻接口輸出的數(shù)據(jù);所述輸出信號選擇 器根據(jù)所述用戶要求從所述視頻輸出轉(zhuǎn)換器群組的多個所述轉(zhuǎn)換器中選擇與所述特定視 頻接口對應(yīng)的特定轉(zhuǎn)換器,所述特定轉(zhuǎn)換器用于將來自所述立體渲染模塊的所述彩色立體 視頻轉(zhuǎn)換為與所述特定視頻接口匹配的立體視頻。
【文檔編號】H04N19/597GK104506872SQ201410697508
【公開日】2015年4月8日 申請日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】張新, 柯家琪, 廖智宏 申請人:深圳凱澳斯科技有限公司