以下內(nèi)容總體上涉及對(duì)點(diǎn)云進(jìn)行譯碼,該譯碼包括對(duì)點(diǎn)云進(jìn)行編碼和解碼,并且更具體而言,涉及基于onr-cnn的點(diǎn)云屬性視頻環(huán)路濾波方法和產(chǎn)品的方法、計(jì)算設(shè)備和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著時(shí)代的演變和技術(shù)的迅速進(jìn)步,虛擬現(xiàn)實(shí)(virtual?reality,vr)、增強(qiáng)現(xiàn)實(shí)(augmented?reality,ar)和混合現(xiàn)實(shí)(mix?reality,mr)等技術(shù)在世界范圍內(nèi)引起了廣泛的關(guān)注。由于這些技術(shù)能夠?yàn)橛脩籼峁┍普婧蜕砼R其境的3d視覺體驗(yàn),它們?cè)谠S多領(lǐng)域中得到了廣泛的應(yīng)用,如3d電影、遺產(chǎn)保護(hù)、導(dǎo)航、自動(dòng)駕駛、智能城市、沉浸式遠(yuǎn)程呈現(xiàn)和遠(yuǎn)程手術(shù)等。
2、動(dòng)態(tài)點(diǎn)云表示具有大量非結(jié)構(gòu)化高維點(diǎn)的三維場景,是3d數(shù)據(jù)的主要表示方式之一,其中每個(gè)點(diǎn)都包括用于定位3d空間位置的幾何分量和用于描述物理特征和外觀屬性(如rgb顏色、反射率和透明度等)的屬性分量(例如顏色、材料特性、紋理信息、強(qiáng)度屬性、反射率屬性、運(yùn)動(dòng)相關(guān)屬性、模態(tài)屬性以及其它各種屬性),并且是一系列時(shí)間上連續(xù)的點(diǎn)云,反映了運(yùn)動(dòng)和時(shí)間上的變化。點(diǎn)云作為3d空間中點(diǎn)的集合,可以用于重建一個(gè)對(duì)象或場景。這些點(diǎn)可以在各種設(shè)置中使用多個(gè)相機(jī)和深度傳感器來捕獲,并且可以由數(shù)千到數(shù)十億個(gè)點(diǎn)組成,以便真實(shí)地表示重建的場景。
3、然而,這些大量的高維點(diǎn)導(dǎo)致了巨大的數(shù)據(jù)量,這需要龐大的存儲(chǔ)空間和高傳輸帶寬來處理。為了解決這一問題,迫切需要開發(fā)有效的點(diǎn)云壓縮技術(shù),以便將其用于實(shí)時(shí)通信和六自由度(6dof)虛擬現(xiàn)實(shí)中。另外,在針對(duì)自動(dòng)駕駛和文化遺產(chǎn)應(yīng)用等的動(dòng)態(tài)映射的環(huán)境中,尋求無損點(diǎn)云壓縮的技術(shù)。
4、圖1是根據(jù)實(shí)施例的通信系統(tǒng)的簡化框圖的示意圖。通信系統(tǒng)包括多個(gè)終端裝置,所述終端裝置可以通過例如網(wǎng)絡(luò)(150)彼此通信。例如,通信系統(tǒng)包括通過網(wǎng)絡(luò)(150)互連的第一終端裝置(110)和第二終端裝置(120)。在圖1的示例中,第一終端裝置(110)和第二終端裝置(120)執(zhí)行點(diǎn)云數(shù)據(jù)的單向傳輸。例如,第一終端裝置(110)可以壓縮由與第一終端裝置(110)連接的傳感器105捕獲的點(diǎn)云(例如,表示結(jié)構(gòu)的點(diǎn))。壓縮的點(diǎn)云可以例如以比特流的形式通過網(wǎng)絡(luò)(150)傳輸?shù)降诙K端裝置(120)。第二終端裝置(120)可以從網(wǎng)絡(luò)(150)接收壓縮的點(diǎn)云,解壓縮該比特流以重建點(diǎn)云,并根據(jù)重建的點(diǎn)云適當(dāng)?shù)仫@示。單向數(shù)據(jù)傳輸在媒體服務(wù)等應(yīng)用中可能很常見。在圖1的示例中,第一終端裝置(110)和第二終端裝置(120)可以為服務(wù)器和個(gè)人計(jì)算機(jī),但是本技術(shù)的原理可以不限于此。本技術(shù)的實(shí)施例適用于膝上型計(jì)算機(jī)、平板電腦、智能電話、游戲終端、媒體播放器和/或?qū)S萌S(3d)設(shè)備。網(wǎng)絡(luò)(150)表示在第一終端裝置(110)和第二終端裝置(120)之間傳輸壓縮的點(diǎn)云的任何數(shù)目的網(wǎng)絡(luò)。網(wǎng)絡(luò)(150)可以包括例如有線(連線的)和/或無線通信網(wǎng)絡(luò)。網(wǎng)絡(luò)(150)可以在電路交換和/或分組交換信道中交換數(shù)據(jù)。該網(wǎng)絡(luò)可包括電信網(wǎng)絡(luò)、局域網(wǎng)、廣域網(wǎng)和/或互聯(lián)網(wǎng)。出于本技術(shù)的目的,除非在下文中有所解釋,否則網(wǎng)絡(luò)(150)的架構(gòu)和拓?fù)鋵?duì)于本技術(shù)公開的操作來說可能是無關(guān)緊要的。
5、圖2是根據(jù)實(shí)施例的流式傳輸系統(tǒng)的簡化框圖的示意圖,其是針對(duì)點(diǎn)云的應(yīng)用的示例。當(dāng)然,本公開內(nèi)容可以等同地應(yīng)用于其他支持點(diǎn)云的應(yīng)用,包括3d遠(yuǎn)程呈現(xiàn)應(yīng)用、虛擬現(xiàn)實(shí)應(yīng)用。流式傳輸系統(tǒng)200可以包括捕獲子系統(tǒng)(213)。捕獲子系統(tǒng)(213)可以包括點(diǎn)云源(201),例如光檢測和測距(lidar)系統(tǒng)、3d相機(jī)、3d掃描儀、在軟件中生成未壓縮的點(diǎn)云的圖形生成組件、以及生成例如未壓縮的點(diǎn)云(202)的類似組件。在一個(gè)示例中,點(diǎn)云(202)包括由3d相機(jī)捕獲的點(diǎn)。與壓縮的點(diǎn)云(204)(壓縮的點(diǎn)云的比特流)相比,點(diǎn)云(202)被描繪為粗線以強(qiáng)調(diào)高數(shù)據(jù)量。壓縮的點(diǎn)云(204)可以由電子設(shè)備(220)生成,所述電子設(shè)備(220)包括耦合到點(diǎn)云源(201)的編碼器(203)。編碼器(203)可以包括硬件、軟件或硬件和軟件的組合,以使能或?qū)崿F(xiàn)如下文更詳細(xì)地描述的所公開主題的各個(gè)方面。與點(diǎn)云(202)的流相比,壓縮的點(diǎn)云(204)(或壓縮的點(diǎn)云(204)的比特流)被描繪為細(xì)線以強(qiáng)調(diào)較低的數(shù)據(jù)量,其可以存儲(chǔ)在流式傳輸服務(wù)器(205)上以供將來使用。一個(gè)或多個(gè)流式傳輸客戶端子系統(tǒng),例如圖2中的客戶端子系統(tǒng)(206)和(208),能夠訪問流式傳輸服務(wù)器(205)以檢索壓縮的點(diǎn)云(204)的副本(207)和(209)??蛻舳俗酉到y(tǒng)(206)可以包括例如在電子設(shè)備(230)中的解碼器(210)。解碼器(210)對(duì)壓縮的點(diǎn)云的輸入副本(207)進(jìn)行解碼,并創(chuàng)建可以在呈現(xiàn)設(shè)備(212)上呈現(xiàn)的重建的點(diǎn)云(211)的輸出流。在一些流式傳輸系統(tǒng)中,可以根據(jù)某些標(biāo)準(zhǔn)對(duì)壓縮的點(diǎn)云(204)、(207)和(209)(例如,壓縮的點(diǎn)云的比特流)進(jìn)行壓縮。在一些示例中,視頻譯碼標(biāo)準(zhǔn)被用于點(diǎn)云的壓縮。這些標(biāo)準(zhǔn)的示例包括高效視頻譯碼(hevc)、通用視頻譯碼(vvc)等。應(yīng)注意,電子裝置(220)和電子裝置(230)可包括其它組件(未示出)。舉例來說,電子裝置(220)可包括解碼器(未示出),且電子裝置(230)還可包括編碼器(未示出)。
6、為了有效地壓縮動(dòng)態(tài)點(diǎn)云,運(yùn)動(dòng)圖像專家組(motion?picture?experts?group,mpeg)發(fā)布了兩個(gè)點(diǎn)云壓縮編碼標(biāo)準(zhǔn),即基于幾何的點(diǎn)云壓縮(geometry-based?pointcloud?compression,g-pcc)和基于視頻的點(diǎn)云壓縮(video-based?point?cloudcompression,v-pcc)。研究表明g-pcc對(duì)復(fù)雜度較低的稀疏和噪聲點(diǎn)云有效,而v-pcc對(duì)密集點(diǎn)云的壓縮效果更好。v-pcc利用了2d視頻壓縮技術(shù),采用一種貼片投影方法將點(diǎn)云數(shù)據(jù)從3d轉(zhuǎn)換為2d,然后由2d視頻譯碼器(如h.265/hevc和h.266/vvc等視頻編解碼器)對(duì)其進(jìn)行編碼。每個(gè)點(diǎn)云由指示像素是否屬于點(diǎn)云的占用圖、存儲(chǔ)投影深度信息的幾何圖像以及存儲(chǔ)顏色等信息的屬性圖像來表示。這三個(gè)映射被編碼為三個(gè)比特流,通過網(wǎng)絡(luò)傳輸將點(diǎn)云傳達(dá)給遠(yuǎn)程接收器或用戶。v-pcc繼承了2d視頻譯碼技術(shù),極大地縮短了開發(fā)周期,成為了點(diǎn)云壓縮方案的優(yōu)勝者。v-pcc和g-pcc標(biāo)準(zhǔn)可以在www.iso.org網(wǎng)站上獲得,其標(biāo)準(zhǔn)編號(hào)分別為:iso/iec?23090-5和iso/iec?23090-9。
7、在v-pcc中,提出了一種貼片(patch,一些文獻(xiàn)中稱為“貼片”)投影方法來將動(dòng)態(tài)點(diǎn)云轉(zhuǎn)換為2d視頻。具體地,根據(jù)法線相似性將輸入的動(dòng)態(tài)點(diǎn)云分解為多個(gè)貼片。因此,廣義而言,“貼片”是表示以下各信息的集合:點(diǎn)云的3d包圍框以及相關(guān)聯(lián)的幾何和屬性描述,以及根據(jù)2d投影來重建3d點(diǎn)和相應(yīng)的屬性所需的圖集(atlas)。這些貼片被打包到2d圖像中,分別生成幾何視頻和屬性視頻。由于這些貼片可能具有不規(guī)則的形狀,因此生成占用圖以指示2d圖像中的像素是否屬于貼片。然后使用現(xiàn)有的視頻譯碼器壓縮占用圖和生成的幾何視頻和屬性視頻,例如高效視頻譯碼(high?efficiency?video?coding,hevc)/h.265、多功能視頻譯碼(versatile?video?coding)vvc/h.266。
8、圖3示出了v-pcc的通用編碼器的一般性方框圖的實(shí)施例。
9、根據(jù)一個(gè)實(shí)施例,v-pcc編碼器將輸入的3d點(diǎn)云幀(有時(shí)也被稱為:體積3d數(shù)據(jù),3d投影集等等)表示為不同的分量,即,將其轉(zhuǎn)換成基于圖像的表示、以及將壓縮的點(diǎn)云轉(zhuǎn)換回解壓縮的點(diǎn)云所需的一些元數(shù)據(jù)(例如,占用圖和貼片信息,有時(shí)也被稱為輔助信息)。在一些示例中,v-pcc編碼器可以將3d點(diǎn)云幀轉(zhuǎn)換為幾何圖像、屬性(attribute)圖像(在一些文獻(xiàn)中,將“屬性”稱為“紋理”,這兩個(gè)術(shù)語在本文中可互換地使用)和占用圖(occupancy),然后使用視頻譯碼技術(shù)將幾何圖像、屬性圖像和占用圖編碼為比特流。通常,幾何圖像是2d圖像,該2d圖像的像素填充有與投影到該像素的點(diǎn)相關(guān)聯(lián)的幾何值,并且填充有幾何值的像素可以被稱為幾何樣本。屬性圖像是2d圖像,該2d圖像的像素填充有與投影到該像素的點(diǎn)相關(guān)聯(lián)的屬性值,并且填充有屬性值的像素可以被稱為屬性樣本。占用圖是2d圖像,該2d圖像的像素填充有表示貼片已占用或未占用的值。
10、3d貼片生成模塊將點(diǎn)云分割成貼片的集合(例如,將貼片定義為由點(diǎn)云描述的表面的連續(xù)子集)。這些貼片可以重疊或不重疊,使得每個(gè)貼片可以由相對(duì)于2d空間中的平面的深度場來描述。在一些實(shí)施例中,3d貼片生成模塊旨在將點(diǎn)云分解為具有平滑邊界的最小數(shù)量的貼片,同時(shí)還最小化重建誤差。更具體而言,在3d貼片生成模塊中,旨在生成具有平滑邊界的2d貼片,同時(shí)最小化貼片的數(shù)量和映射失真。該過程首先對(duì)點(diǎn)云中每個(gè)點(diǎn)進(jìn)行法線估計(jì)。給定六個(gè)正交投影方向(±x、±y、±z),將投影方向(即投影平面法線)與點(diǎn)的法線進(jìn)行點(diǎn)積計(jì)算,并選擇點(diǎn)積最大的投影方向與該點(diǎn)相關(guān)聯(lián),實(shí)現(xiàn)點(diǎn)云的初始聚類。隨后,根據(jù)相鄰點(diǎn)的投影方向聚類,進(jìn)一步細(xì)化點(diǎn)的聚類,換言之,通過基于每個(gè)點(diǎn)的法線和該點(diǎn)的最接近鄰居的聚類索引迭代地更新與每個(gè)點(diǎn)相關(guān)聯(lián)的聚類索引來進(jìn)一步對(duì)聚類進(jìn)行細(xì)化。完成點(diǎn)的聚類后,采用連通組件算法將具有相同投影方向的點(diǎn)分組在一起,形成它們各自的3d貼片。每個(gè)連通的組件都可以被視為一個(gè)獨(dú)立的3d貼片。最后,基于與3d貼片相關(guān)聯(lián)的投影方向?qū)⒚總€(gè)3d貼片進(jìn)行正交投影,映射到軸對(duì)齊邊界框的六個(gè)面之一,從而生成對(duì)應(yīng)的2d貼片。因此,貼片生成的大致過程包括:輸入點(diǎn)云、法線估計(jì)、初始分割、細(xì)化分割、連通組件(connected?components,即貼片)。
11、由于重建幾何可能與原始幾何不完全相同,編碼器會(huì)將顏色屬性從原始點(diǎn)云轉(zhuǎn)移到重建的點(diǎn)云,并利用這些新的顏色屬性值進(jìn)行傳輸。在重新著色過程中,考慮離原始點(diǎn)云最近的點(diǎn)的顏色值以及離重建點(diǎn)更近的鄰域,以確定可能更好的顏色值。對(duì)于屬性信息,一旦獲得顏色值,編碼器就會(huì)使用與幾何映射相同的映射方式,將顏色從3d貼片映射到2d貼片。
12、考慮到3d貼片中可能存在多個(gè)點(diǎn)投影到同一像素位置的情況,可以采用了兩個(gè)圖來存儲(chǔ)這些重疊的點(diǎn),即近層(near?layer)和遠(yuǎn)層(far?layer)。近層用于存儲(chǔ)具有最低深度值d0的點(diǎn),遠(yuǎn)層則存儲(chǔ)在用戶定義的間隔(d0,d0+d)內(nèi)具有最高深度值的點(diǎn)。其中d表示表面厚度,在編碼器中可以進(jìn)行自定義調(diào)整,從而改善幾何編碼和重建的效果。此外,用戶可以自定義3d貼片中的最小點(diǎn)數(shù)限制,即編碼器不會(huì)生成包含比指定的最小數(shù)量更少點(diǎn)的3d貼片。在有損編碼情況下,可以簡單地忽略這些無法形成貼片的點(diǎn)。然而,在無損編碼情況下,未包含在任何貼片中的點(diǎn)可以額外的附加貼片進(jìn)行編碼。因此,在某種意義上,近層和遠(yuǎn)層分別代表3d點(diǎn)云在該特定方向上的表面和背面。遠(yuǎn)層可以被編碼和傳輸,也可以通過插值生成。
13、3d貼片生成模塊的輸出包括指示貼片的大小和形狀的貼片信息。在一些示例中,可以通過貼片序列壓縮模塊對(duì)貼片信息進(jìn)行壓縮,以生成經(jīng)壓縮的貼片信息(示為“貼片子流”)。
14、貼片打包模塊將提取的貼片映射到2維(2d)網(wǎng)格上,同時(shí)最小化未使用的空間,并確保網(wǎng)格的每個(gè)m×m(例如,16×16)塊都與唯一貼片相關(guān)聯(lián)。有效的貼片打包可以通過最小化未使用的空間或確保時(shí)間一致性來直接影響壓縮效率。
15、更具體而言,貼片打包是指在尺寸為w×h的2d圖像中確定投影的2d貼片放置位置的過程。這是一個(gè)迭代過程:首先,按照特定的排序方法定義貼片在圖像中的打包順序,在一個(gè)實(shí)施例中,按高度排序。隨后,根據(jù)已經(jīng)打包的貼片和所采用的排序方法,搜索下一個(gè)要打包貼片的最佳可用位置。從左上角開始,通過按照光柵掃描順序在2d圖像中搜索空位置,以確定每個(gè)貼片的放置位置。初始時(shí),用戶設(shè)置要打包貼片的2d圖像大小,如果沒有足夠的空閑空間用于放置下一個(gè)貼片,圖像的高度h會(huì)加倍,并且重新搜索該貼片的位置。當(dāng)所有貼片都被打包后,最終的圖像高度將被裁剪至所需的最小值。
16、為了提高壓縮效率,在不同時(shí)間點(diǎn)上具有相似內(nèi)容的貼片應(yīng)該被放置在2d圖像中相似的位置。在一個(gè)示例中,通過匹配不同幀的貼片,并試圖在相似的位置插入匹配的貼片。在貼片匹配操作中,tmc2利用交并比(iou)來計(jì)算兩個(gè)投影貼片之間的重疊度,其計(jì)算方式如下所示:
17、
18、其中prepatch[i]是在2d空間中投影的來自先前幀的貼片i的2d邊界框。patch[j]是在2d空間中投影的當(dāng)前幀的貼片j的邊界框?!?prepatch[i],patch[j])是prepatch[i]和patch[j]之間的相交面積,∪(prepatch[i],patch[j])是prepatch[i]和patch[j]之間的并集面積。當(dāng)θi,j大于預(yù)定義的閾值時(shí),則兩個(gè)貼片被認(rèn)為是匹配的,并且可以利用來自前一幀的信息來進(jìn)行當(dāng)前貼片的打包和編碼。
19、在v-pcc中,每個(gè)3d貼片的幾何分量和屬性分量被打包為2d圖像,即幾何圖像和屬性圖像。由于這些貼片通常具有不規(guī)則的形狀,在打包的2d圖像中會(huì)存在許多空像素。因此生成占用圖以指示每個(gè)像素是否屬于點(diǎn)云。點(diǎn)云中的像素稱為占用像素,其他像素稱為未占用像素。因此生成了三種圖像:占用圖,幾何圖像和屬性圖像。v-pcc中的幾何圖像僅使用視頻序列的亮度通道來存儲(chǔ)點(diǎn)的3d位置中缺失的坐標(biāo),即3d點(diǎn)的投影深度(嚴(yán)格來說,是與投影映射相關(guān)聯(lián)的值,而不是直接的深度值)。因此,廣義而言,貼片打包也可以被認(rèn)為包括生成這三種圖像以及解碼端重構(gòu)3d點(diǎn)云所需的貼片輔助信息的過程。
20、如圖3所示,貼片打包模塊還可以生成描述每個(gè)模塊處的填充信息的占用圖。例如,占用圖包括二進(jìn)制圖,所述二進(jìn)制圖指示網(wǎng)格的每個(gè)單元是屬于空白空間還是屬于點(diǎn)云。在一個(gè)示例中,占用圖使用二進(jìn)制信息描述每個(gè)像素是否被填充。在另一個(gè)示例中,占用圖使用二進(jìn)制信息描述每個(gè)像素塊是否被填充。由貼片打包模塊生成的占用圖可以使用無損編碼或有損編碼進(jìn)行壓縮。當(dāng)使用無損編碼時(shí),可以使用相應(yīng)的熵壓縮算法來壓縮占用圖;當(dāng)使用有損編碼時(shí),可以使用相應(yīng)的視頻壓縮算法來壓縮占用圖。在一個(gè)示例中,占用圖以用戶定義的精度b×b塊為單位,其中b表示塊的大小。對(duì)于無損編碼,b的取值為1,而對(duì)于有損編碼,通常使用b=4,這可以在視覺上保持可接受質(zhì)量的同時(shí)顯著減少編碼占用圖所需要的比特?cái)?shù)。在一個(gè)示例中,占用圖是由無損視頻譯碼器編碼的二進(jìn)制圖像,其中數(shù)值1表示對(duì)應(yīng)于幾何圖像和屬性圖像的b×b塊中至少包含一個(gè)有效像素,而數(shù)值0表示對(duì)應(yīng)的b×b塊屬于空白區(qū)域。
21、幾何圖像生成模塊可以在給定的貼片位置處生成與點(diǎn)云的幾何形狀相關(guān)聯(lián)的2d幾何圖像。屬性圖像生成模塊可以在給定的貼片位置處生成與點(diǎn)云的屬性相關(guān)聯(lián)的2d屬性圖像。幾何圖像生成模塊和屬性圖像生成模塊利用在打包過程中計(jì)算的3d到2d映射,將點(diǎn)云的幾何形狀和順序存儲(chǔ)為圖像。為了更好地處理多個(gè)點(diǎn)被投影到同一樣本的情況,每個(gè)貼片被投影到兩個(gè)圖像上,稱為圖層。在一個(gè)示例中,幾何圖像由例如yuv420-8位格式的wxh的單色幀表示。為了生成屬性圖像,屬性生成過程利用了經(jīng)重建的/經(jīng)平滑的幾何形狀,以便計(jì)算要與重采樣點(diǎn)相關(guān)聯(lián)的顏色。
22、屬性圖像的生成方式與幾何圖像相似,但帶有顏色、法線、反射率等屬性。
23、應(yīng)注意,貼片打包模塊可能會(huì)在圖像幀中打包的2d貼片之間留下一些空白空間。各個(gè)圖像填充模塊可以填充相應(yīng)的圖像幀(屬性圖像或幾何圖像)的該空白空間(稱為填充(padding)),以便生成適合于2d視頻和圖像編解碼器的圖像幀。圖像填充也被稱為背景填充,其可以通過冗余信息填充未使用的空間。在一些示例中,良好的背景填充可最小程度地增加比特率,同時(shí)不會(huì)在貼片邊界周圍引入明顯的編碼失真。更具體而言,當(dāng)2d貼片打包到2d圖像上后,它們之間自然不會(huì)完全貼合。因此,在幾何視頻和屬性視頻中存在許多空白區(qū)域。由于這些視頻將通過視頻譯碼器(例如hevc,vvc)進(jìn)行編碼,而該編碼器無法有效地處理非常尖銳的過渡,因此需要圖像填充過程來適當(dāng)?shù)靥畛溥@些空白區(qū)域。該過程旨在平滑這些過渡,從而最小化圖像中的高頻成分。
24、針對(duì)填充,在針對(duì)幾何圖像的一個(gè)示例中,針對(duì)大小為t×t像素的每個(gè)塊進(jìn)行獨(dú)立處理。當(dāng)塊中沒有與點(diǎn)云相關(guān)聯(lián)的點(diǎn)時(shí),通過按光柵掃描順序復(fù)制前一個(gè)t×t塊的最后一行或最后一列來填充該塊的像素。如果塊已滿(即塊中所有像素均為占用像素),則無需進(jìn)行填充操作。對(duì)于那些同時(shí)包含占用像素和未占用像素的塊,采用非空鄰域的平均值進(jìn)行迭代填充空位置。這個(gè)填充過程,也稱為幾何膨脹,針對(duì)每個(gè)幀都是獨(dú)立執(zhí)行的。在針對(duì)屬性圖像的一個(gè)示例中,考慮到與幾何圖像相比具有較低的平滑性,因此采用推拉算法進(jìn)行圖像填充。該算法通過創(chuàng)建屬性圖像的多分辨率表示,并用較低級(jí)別分辨率的像素值對(duì)未占用像素進(jìn)行填充。
25、另外,考慮到近層和遠(yuǎn)層的空白區(qū)域相同,可以通過使用相似的值進(jìn)行填充來提高壓縮效率。因此,對(duì)近地圖和遠(yuǎn)地圖中的空白區(qū)域進(jìn)行組擴(kuò)展操作,即對(duì)兩針幀的填充值進(jìn)行平均,并使用相同的值來填充。
26、各個(gè)視頻壓縮模塊可以基于諸如hevc、vvc等合適的視頻譯碼標(biāo)準(zhǔn)對(duì)2d圖像(例如經(jīng)填充的幾何圖像(示為“經(jīng)填充的幾何”)、經(jīng)填充的屬性圖像((示為“經(jīng)填充的屬性”))和占用圖)進(jìn)行編碼。在一個(gè)示例中,各個(gè)視頻壓縮模塊是單獨(dú)操作的獨(dú)立組件。應(yīng)注意,在另一個(gè)示例中,各個(gè)視頻壓縮模塊可以實(shí)現(xiàn)為單個(gè)組件。
27、在一些示例中,平滑模塊被配置為生成重建的幾何圖像的經(jīng)平滑的幾何圖像(示為“經(jīng)填充的幾何”)。平滑圖像信息可以被提供給屬性圖像生成模塊312。然后,屬性圖像生成模塊312可以基于重建的幾何圖像來調(diào)整屬性圖像的生成。例如,當(dāng)貼片形狀(例如,幾何形狀)在編碼和解碼過程中稍微失真時(shí),在生成屬性圖像時(shí)可以考慮該失真以校正貼片形狀的失真。
28、在一些實(shí)施例中,可以在圖像填充后用冗余低頻內(nèi)容填充對(duì)象邊界周圍的像素,以提高編碼增益以及重建的點(diǎn)云的視覺質(zhì)量。
29、復(fù)用模塊可以將壓縮的幾何圖像(示為“幾何子流”)、壓縮的屬性圖像(示為“屬性子流”)、壓縮的占用圖(示為“占用子流”)、經(jīng)壓縮的貼片信息(示為“貼片子流”)復(fù)用到壓縮比特流中。
30、圖4示出了v-pcc的通用解碼器的一般性方框圖的實(shí)施例。解復(fù)用模塊可以接收壓縮比特流并分離成壓縮的幾何圖像(示為“幾何子流”)、壓縮的屬性圖像(示為“屬性子流”)、壓縮的占用圖(示為“占用子流”)、經(jīng)壓縮的貼片信息(示為“貼片子流”)。
31、各個(gè)視頻解壓縮模塊可以根據(jù)適當(dāng)?shù)臉?biāo)準(zhǔn)(例如,hevc、vvc等)解碼壓縮的圖像(占用圖、幾何圖像和屬性圖像),并輸出解壓縮的圖像。
32、輔助貼片信息解壓縮模塊可以根據(jù)適當(dāng)?shù)臉?biāo)準(zhǔn)(例如,hevc、vvc等)解碼壓縮的輔助貼片信息,并輸出解壓縮的輔助貼片信息。
33、幾何/屬性重構(gòu)模塊可以接收解壓縮的幾何圖像,并基于解壓縮的占用圖和解壓縮的輔助貼片信息生成重構(gòu)的點(diǎn)云幾何形狀。
34、幾何后處理模塊可以平滑貼片邊緣處的不一致。該平滑過程旨在減輕由于壓縮偽像而可能在貼片邊界處出現(xiàn)的潛在不連續(xù)性。在一些實(shí)施例中,可以對(duì)位于貼片邊界上的像素應(yīng)用平滑濾波器,以減輕可能由壓縮/解壓縮引起的失真。
35、幾何/屬性重構(gòu)模塊可以基于解壓縮的屬性圖像和平滑幾何形狀來確定點(diǎn)云中的點(diǎn)的屬性信息(例如,紋理)。
36、幾何后處理模塊還可以平滑著色的不一致。3d空間中的非相鄰貼片通常在2d視頻中彼此相鄰。在一些示例中,來自非相鄰貼片的像素值可能被基于塊的視頻編解碼器混合。顏色平滑的目標(biāo)是減少在貼片邊界處出現(xiàn)的可見偽像。
37、在一個(gè)示例中,可以使用yuv420-8bit格式來編碼v-pcc中的2d視頻。因此在對(duì)幾何視頻和屬性視頻利用傳統(tǒng)視頻譯碼器(例如hevc)編碼之前,需要將填充圖像序列從rgb444顏色空間轉(zhuǎn)化為yuv420。同時(shí),占用圖和貼片輔助信息也會(huì)被編碼并復(fù)用到最終編碼的比特流中。
38、v-pcc中的視頻壓縮可以采用各種視頻編解碼標(biāo)準(zhǔn)。2d視頻中存在空間冗余、時(shí)間冗余、信息熵冗余、視覺冗余等多種冗余數(shù)據(jù),這些冗余數(shù)據(jù)在視頻譯碼過程中被有效的壓縮。圖5示出了hevc/vvc的通用編碼器的一般性方框圖的實(shí)施例。由于v-pcc的提出與vvc視頻標(biāo)準(zhǔn)的提出時(shí)間接近,所以在v-pcc中默認(rèn)使用hevc來對(duì)2d視頻進(jìn)行編碼。在hevc/vvc中,編碼器首先會(huì)將輸入的視頻序列分割為ctu,對(duì)每個(gè)ctu選擇幀內(nèi)或幀間預(yù)測模式,并計(jì)算預(yù)測殘差。對(duì)于幀內(nèi)預(yù)測,計(jì)算殘差后進(jìn)行變換、量化和熵編碼形成碼流輸出,同時(shí)進(jìn)行反量化和反變換以得到重構(gòu)幀。對(duì)于幀間預(yù)測,先進(jìn)行運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償?shù)玫筋A(yù)測數(shù)據(jù),然后再按照幀內(nèi)編碼的方式進(jìn)行后續(xù)編碼流程。由于視頻幀中的時(shí)域相關(guān)性和空域相關(guān)性,殘差中通常存在大量零值,通過編碼壓縮可以減少冗余信息,實(shí)現(xiàn)有效壓縮。
39、另外,v-pcc中一幀動(dòng)態(tài)點(diǎn)云投影生成兩幀屬性視頻即近層幀和遠(yuǎn)層幀,在全幀內(nèi)(ai)模式配置下,近層幀將作為i幀編碼,只進(jìn)行幀內(nèi)預(yù)測;遠(yuǎn)層幀將作為p幀編碼,主要進(jìn)行幀間預(yù)測。并且兩幀視頻圖像之間具有很強(qiáng)的相關(guān)性。所以在編碼過程中,會(huì)以近層幀作為參考幀,對(duì)遠(yuǎn)層幀幀間預(yù)測編碼,在ai配置中形成了具有幀內(nèi)、幀間交叉編碼的獨(dú)特編碼架構(gòu)。
40、如圖5所示,在hevc中,可以進(jìn)行幀內(nèi)預(yù)測模式和幀間預(yù)測模式的切換。在幀內(nèi)預(yù)測模式和幀間預(yù)測模式中,hevc都采用譯碼樹單元(ctu)的編碼結(jié)構(gòu),ctu是hevc譯碼的基本處理單元。ctu由1個(gè)亮度ctb(譯碼樹塊,coding?tree?block)、2個(gè)色度ctb和相應(yīng)的語法元素組成。圖6顯示了在一個(gè)lcu(最大譯碼單元)編碼后的ctu結(jié)構(gòu)。在hevc中,lcu可以只包含一個(gè)譯碼單元(cu),也可以使用ctu四叉樹結(jié)構(gòu)劃分出為不同大小的cu。hevc中有四種大小cu,大小分別為:64x64、32x32、16x16和8x8。cu塊越小,其在ctu樹中位置越深。當(dāng)cu為64x64、32x32和16x16時(shí)稱為2nx2n模式(表示可以劃分為更小的cu),當(dāng)cu為8x8時(shí)稱為nxn模式(表示不可以進(jìn)行進(jìn)一步劃分)。對(duì)于幀內(nèi)預(yù)測,cu被分成兩個(gè)partmode(2nx2n和nxn),這取決于它是否可以被分成更小的cu。尺寸為64x64、32x32和16x16的cu屬于2n×2n,尺寸為8×8的cu屬于n×n。在hevc中,pu進(jìn)行幀內(nèi)幀間預(yù)測的基本單元,pu的劃分是以cu為基礎(chǔ)的,具有五種規(guī)則大小64x64、32x32、16x16、8x8和4x4。更具體地,pu尺寸基于partmode:對(duì)于2n×2n的partmode?pu尺寸與cu相同,對(duì)于n×n的partmode?cu可以被劃分為四個(gè)4×4子pu。對(duì)于2n*2n的cu模式,幀內(nèi)預(yù)測pu的可選模式包括2n*2n和n*n,幀間預(yù)測pu的可選模式有8種,包括4種對(duì)稱模式(2n*2n,n*2n,2n*n,n*n)和4種非對(duì)稱模式(2n*nu,2n*nd,nl*2n,nr*2n),其中,2n*nu和2n*nd分別以上下1:3、3:1的比例劃分,nl*2n和nr*2n分別以左右1:3、3:1的比例劃分。
41、如圖6所示,在hevc中,處理一幀視頻圖像需要首先將其劃分成多個(gè)lcu(64x64),然后依次編碼每個(gè)lcu。每個(gè)lcu依次遞歸劃分,其通過計(jì)算當(dāng)前深度的rd-cost判定是否繼續(xù)劃分。一個(gè)lcu最小可劃分至8x8大小的單元,如圖2所示。編碼器通過比較深度的rd-cost值判定是否繼續(xù)劃分,如果當(dāng)前深度內(nèi)的4個(gè)子cu的編碼代價(jià)總和大于當(dāng)前cu,則不繼續(xù)劃分;反之則繼續(xù)劃分,直至劃分結(jié)束。
42、本領(lǐng)域技術(shù)人員容易理解,由于ctu是對(duì)lcu進(jìn)行cu劃分的樹狀編碼結(jié)構(gòu),ctu中的cu劃分方式是以lcu開始的,因此在本領(lǐng)域中這兩個(gè)名詞經(jīng)??山粨Q地使用。
43、如圖5所示,在vvc中,依然沿用h.264就開始采用的混合編碼框架。vvc同樣采用樹結(jié)構(gòu)來進(jìn)行ctu劃分,但是在vvc采用了與hevc不同的樹結(jié)構(gòu)ctu劃分方式。并且,與hevc相比,vvc中的ctu的(亮度塊)最大大小達(dá)到了128x128(盡管亮度變換塊的最大大小為64x64)。
44、與hevc類似,vvc將圖片劃分為子圖片(subpicture)、切片(slice)、和圖塊(tile)。一個(gè)圖片被劃分為一個(gè)或多個(gè)圖塊行和一個(gè)或多個(gè)圖塊列。圖塊是覆蓋圖片的矩形區(qū)域的ctu序列。切片由整數(shù)個(gè)完整圖塊或在圖片的圖塊內(nèi)的整數(shù)個(gè)連續(xù)的完整ctu行。支持兩種切片模式,即光柵掃描切片模式和矩形切片模式。在光柵掃描切片模式中,切片包含圖片的圖塊光柵掃描中的完整圖塊的序列。在矩形切片模式中,切片包含共同形成圖片的矩形區(qū)域的多個(gè)完整圖塊,或者一個(gè)圖塊的、共同形成圖片中的矩形區(qū)域的多個(gè)連續(xù)完整ctu行。矩形切片內(nèi)的圖塊在對(duì)應(yīng)于該圖塊的矩形區(qū)域內(nèi)以圖塊光柵掃描順序進(jìn)行掃描。子圖片包含一個(gè)或多個(gè)切片,這些切片共同覆蓋圖片的矩形區(qū)域。
45、如上所述地,在hevc中,使用四叉樹結(jié)構(gòu)將ctu劃分為cu(即編碼樹)。關(guān)于幀內(nèi)編碼和幀間編碼的決策是在葉節(jié)點(diǎn)cu處做出的。換言之,一個(gè)葉節(jié)點(diǎn)cu定義了共享相同預(yù)測模式(例如幀內(nèi)預(yù)測或幀間預(yù)測)的一個(gè)區(qū)域。然后,根據(jù)pu劃分類型,每個(gè)葉cu可以進(jìn)一步劃分為1、2或4個(gè)預(yù)測單元pu。在每個(gè)pu內(nèi),使用相同的預(yù)測過程,并將相關(guān)信息以pu為基礎(chǔ)發(fā)送到解碼器段。在基于pu的預(yù)測過程獲得了殘差塊后,可以根據(jù)類似于cu的編碼樹的另一類似四叉樹結(jié)構(gòu)將葉cu劃分為tu。而在vvc中,則采用了具有嵌套的多類型樹的四叉樹分割結(jié)構(gòu)(qtmt)來劃分ctu,其中嵌套的多類型樹使用二叉樹和三叉樹。作為一個(gè)示例,這種嵌套的多類型樹的一個(gè)實(shí)例是四叉樹-二叉樹(qtbt)結(jié)構(gòu)。qtbt結(jié)構(gòu)包括兩個(gè)級(jí)別:根據(jù)四叉樹劃分而劃分的第一級(jí),以及根據(jù)二叉樹劃分而劃分的第二級(jí)。qtbt結(jié)構(gòu)的根節(jié)點(diǎn)對(duì)應(yīng)于ctu。二叉樹的葉節(jié)點(diǎn)對(duì)應(yīng)于譯碼單元(cu),cu定義了共享相同預(yù)測模式(例如幀內(nèi)預(yù)測或幀間預(yù)測)的一個(gè)區(qū)域。在vvc中刪除了cu、pu和tu的不同形式。在vvc中,一個(gè)ctu首先通過四叉樹進(jìn)行劃分,然后再通過多類型樹進(jìn)行進(jìn)一步劃分。如圖7所示,vvc規(guī)定了4種多類型樹劃分模式:水平二叉樹劃分(split_bt_hor)、垂直二叉樹劃分(split_bt_ver)、水平三叉樹劃分(split_tt_ver)、垂直三叉樹劃分(split_tt_hor)。多類型樹的葉節(jié)點(diǎn)被稱為譯碼單元(cu),并且除非cu對(duì)于最大變換長度而言過大,否則該cu分割就會(huì)用于預(yù)測和變換處理而不進(jìn)行進(jìn)一步分割。這就意味著在大多數(shù)情況下,cu、pu和tu在該具有嵌套的多類型樹的四叉樹分割結(jié)構(gòu)是具有相同的塊大小的。其中的例外是所支持的最大變換長度小于cu的顏色分量的寬度或高度。圖8示出了vvc的具有嵌套的多類型樹的四叉樹分割結(jié)構(gòu)的ctu到cu的分割的一個(gè)具體實(shí)施例,其中,粗體框表示四叉樹分割,剩余的邊表示多類型樹分割。vvc的這種具有嵌套的多類型樹的四叉樹分割結(jié)構(gòu)提供了包括cu的內(nèi)容自適應(yīng)編碼樹結(jié)構(gòu)。cu的大小可以與ctu一樣大,也可以以亮度樣本為單位小到4x4。對(duì)于4:2:0色度格式的情況,最大色度編碼塊大小為64x64,最小大小色度大小由16個(gè)色度樣本組成。在vvc中,支持的最大亮度變換大小為64x?64,支持的最高色度變換大小為32x32。當(dāng)編碼塊的寬度或高度大于最大變換寬度或高度時(shí),編碼塊在水平和/或垂直方向上自動(dòng)分割,以滿足該方向上的變換大小限制。
46、在進(jìn)行了ctu劃分后,對(duì)表示預(yù)測和/或殘差信息以及其他信息的cu的視頻數(shù)據(jù)進(jìn)行編碼。預(yù)測信息指示將如何預(yù)測cu以便形成cu的預(yù)測塊。殘差信息通常表示編碼之前的cu的樣本與預(yù)測塊的樣本之間的逐樣本差。
47、為了預(yù)測cu,通??赏ㄟ^幀間預(yù)測或幀內(nèi)預(yù)測來形成cu的預(yù)測塊。幀間預(yù)測通常是指根據(jù)先前譯碼的圖片的數(shù)據(jù)來預(yù)測cu,而幀內(nèi)預(yù)測通常是指根據(jù)同一圖片的先前譯碼的數(shù)據(jù)來預(yù)測cu。為了執(zhí)行幀間預(yù)測,可使用一個(gè)或多個(gè)運(yùn)動(dòng)向量來生成預(yù)測塊。通??梢岳绨凑誧u與參考?jí)K之間的差來執(zhí)行運(yùn)動(dòng)搜索,以識(shí)別與cu緊密匹配的參考?jí)K??墒褂媒^對(duì)差之和(sad)、平方差之和(ssd)、平均絕對(duì)差(mad)、均方差(msd)或其他此類差值計(jì)算來計(jì)算差值度量,以確定參考?jí)K是否與當(dāng)前cu緊密匹配。在一些示例中,可使用單向預(yù)測或雙向預(yù)測來預(yù)測當(dāng)前cu。
48、在諸如塊的幀內(nèi)預(yù)測或幀間預(yù)測之類的預(yù)測之后,可以計(jì)算塊的殘差數(shù)據(jù)。殘差數(shù)據(jù)(諸如殘差塊)表示該塊與使用相應(yīng)預(yù)測模式形成的該塊的預(yù)測塊之間的逐樣本差??蓪⒁粋€(gè)或多個(gè)變換應(yīng)用于殘差塊,以產(chǎn)生在變換域而非樣本域中的經(jīng)變換的數(shù)據(jù)。例如,可將離散余弦變換(dct)、整數(shù)變換、小波變換或概念上類似的變換應(yīng)用于殘差視頻數(shù)據(jù)。另外,視頻編碼器可在一次變換之后應(yīng)用二次變換,例如,與模式相關(guān)的不可分離的二次變換(mdnsst)、與信號(hào)相關(guān)的變換、karhunen-loeve變換(klt)等。在應(yīng)用一個(gè)或多個(gè)變換之后產(chǎn)生變換系數(shù)。
49、如上所述,在用以產(chǎn)生變換系數(shù)的任何變換之后,可以根據(jù)量化系數(shù)(qp),執(zhí)行對(duì)變換系數(shù)的量化。量化通常是指對(duì)變換系數(shù)進(jìn)行量化以可能減少用于表示系數(shù)的數(shù)據(jù)量,從而提供進(jìn)一步壓縮的過程。通過執(zhí)行量化過程,可以減小與一些或所有系數(shù)相關(guān)聯(lián)的位深度。例如,可以在量化期間將n-位值舍入為m-位值,其中n大于m。在一些示例中,為了執(zhí)行量化,可以執(zhí)行對(duì)待量化的值的按位右移。量化系數(shù)(qp)通常是采用語法元素的形式包含在頭信息中的。
50、在量化之后,可以掃描變換系數(shù),從而從包括經(jīng)量化的變換系數(shù)的二維矩陣產(chǎn)生一維向量??梢詫呙柙O(shè)計(jì)為將較高能量(并且因此較低頻率)的系數(shù)放置在向量的前面,并將較低能量(并且因此較高頻率)的變換系數(shù)放置在向量的后面。在一些示例中,可以利用預(yù)定義的掃描順序來掃描經(jīng)量化的變換系數(shù)以產(chǎn)生串行化的向量,然后對(duì)向量的經(jīng)量化的變換系數(shù)進(jìn)行熵編碼。在其他示例中,可以執(zhí)行自適應(yīng)掃描。在掃描經(jīng)量化的變換系數(shù)以形成一維向量之后,可以例如根據(jù)上下文自適應(yīng)二進(jìn)制算術(shù)譯碼(cabac)對(duì)一維向量進(jìn)行熵編碼還可對(duì)用于語法元素的值進(jìn)行熵編碼,語法元素描述與經(jīng)編碼視頻數(shù)據(jù)相關(guān)聯(lián)的元數(shù)據(jù),以供視頻解碼器在解碼視頻數(shù)據(jù)時(shí)使用。
51、如圖5所示,在hevc和vvc中,環(huán)路濾波都是在解碼過程中的重要的后處理模塊,其目的是消除重建圖像圖像中的方塊效應(yīng)、振鈴效應(yīng)、顏色偏差、圖像模糊等常見譯碼失真效應(yīng)。在hevc中,主要通過去方塊濾波來降低塊效應(yīng),通過像素自適應(yīng)補(bǔ)償(sao)來改善振鈴效應(yīng)。在vvc中的環(huán)路濾波主要采用的技術(shù)包括色度與亮度縮放(luma?mapping?chromascaling,lmcs)、去方塊濾波(de-blocking?filter,dbf)、樣點(diǎn)自適應(yīng)補(bǔ)償(sampleadaptive?offset,sao)、自適應(yīng)濾波(adaptive?loop?filter,alf)。
52、近年來,深度學(xué)習(xí)在環(huán)路濾波領(lǐng)域的應(yīng)用取得了顯著進(jìn)展。與傳統(tǒng)的環(huán)路濾波算法相比,基于深度學(xué)習(xí)的算法能夠充分利用網(wǎng)絡(luò)的學(xué)習(xí)能力和非線性擬合能力,通過大量的視頻數(shù)據(jù)學(xué)習(xí)訓(xùn)練,達(dá)到更好的濾波效果。目前基于深度學(xué)習(xí)的環(huán)路濾波算法研究多用于傳統(tǒng)視頻質(zhì)量增強(qiáng),缺乏針對(duì)點(diǎn)云視頻特性以及v-pcc編碼特點(diǎn)的深度學(xué)習(xí)優(yōu)化方案,優(yōu)化效果有待提高。
53、在包括深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)的研究和應(yīng)用中,主要存在兩個(gè)大方向。第一個(gè)方向是神經(jīng)網(wǎng)絡(luò)模型本身的不斷研究或擴(kuò)展,例如,google所提出的基于感知的深度模型雖然是針對(duì)語音識(shí)別提出的,但是很快作為抽象的神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于各個(gè)領(lǐng)域。第二方向是神經(jīng)網(wǎng)絡(luò)模型在具體應(yīng)用中的實(shí)現(xiàn),更具體而言,針對(duì)具體應(yīng)用如何選取(或提取)要應(yīng)用于神經(jīng)網(wǎng)絡(luò)模型的特征、如何對(duì)特征進(jìn)行處理、如何將特征輸入至神經(jīng)網(wǎng)絡(luò)模型中,例如,其包括對(duì)特征的各種預(yù)處理、各種組合方式。容易理解,神經(jīng)網(wǎng)絡(luò)模型本身實(shí)際是抽象的數(shù)學(xué)模型,而基于特征的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用則是如何將抽象的數(shù)學(xué)模型與實(shí)際要解決的問題關(guān)聯(lián)的方式。
54、zhang等人(lin?k,jia?c,zhang?x,et?al.nr-cnn:nested-residual?guided?cnnin-loop?filtering?for?video?coding[j].acm?transactions?on?multimediacomputing,communications,and?applications(tomm),2022,18(4):1-22)提出了一種具有級(jí)聯(lián)全局快捷和可配置殘差塊的嵌套殘差引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(nested-residual?guidedcnn,nr-cnn)結(jié)構(gòu),利用亮度和色度之間的相關(guān)性,將亮度作為紋理和結(jié)構(gòu)指導(dǎo)色度濾波,顯著提高了濾波性能。但是現(xiàn)有nr-cnn并未能夠充分利用v-pcc的特點(diǎn),從而無法針對(duì)v-pcc實(shí)現(xiàn)最優(yōu)化。
55、如上所述地,在v-pcc過程中,點(diǎn)云視頻經(jīng)過貼片成,貼片填充,圖像生成過程得到點(diǎn)云的屬性視頻。屬性視頻包含了點(diǎn)云視頻的紋理信息,為點(diǎn)云的重建提供顏色信息。在屬性視頻中,非占用像素對(duì)點(diǎn)云視頻重建無貢獻(xiàn)。屬性視頻是由貼片填充后圖像,經(jīng)過使用算法填充空白像素而來,這一過程是為了使屬性視頻能在v-pcc底層的傳統(tǒng)視頻編碼工具中可以高效的編碼壓縮。由此可知在屬性視頻中2d貼片中的存儲(chǔ)著點(diǎn)云的紋理信息,所以2d貼片占用區(qū)域的重建質(zhì)量影響著點(diǎn)云對(duì)象的重建質(zhì)量。而神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中往往更注重圖像整體質(zhì)量的提升,這在一定程度上造成網(wǎng)絡(luò)模型的性能浪費(fèi)。同時(shí),在v-pcc全幀內(nèi)配置幀內(nèi)、幀間交叉編碼的獨(dú)特編碼結(jié)構(gòu)下,p幀對(duì)共享同一幀占用圖的i幀存在依賴關(guān)系,傳統(tǒng)訓(xùn)練過程中沒有考慮p幀對(duì)i幀依賴關(guān)系,可能會(huì)造成對(duì)p幀的濾波效果不佳。
56、因此,需要基于v-pcc的如上特點(diǎn),特別是其占用圖的特殊用途,設(shè)計(jì)新的環(huán)路濾波功能。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,在本公開內(nèi)容的一個(gè)方面中,提出了針對(duì)nr-cnn的基于v-pcc特征的輸入設(shè)計(jì)和訓(xùn)練的新方法。本公開內(nèi)容的創(chuàng)造性概念涉及若干方面。
2、根據(jù)本公開內(nèi)容的一個(gè)方面,對(duì)nr-cnn網(wǎng)絡(luò)優(yōu)化,設(shè)計(jì)了onr-cnn網(wǎng)絡(luò),用于對(duì)經(jīng)重建的點(diǎn)云屬性視頻幀進(jìn)行環(huán)路濾波(例如圖5所示的環(huán)路濾波功能),實(shí)現(xiàn)了點(diǎn)云屬性視頻的圖像增強(qiáng)。
3、根據(jù)本公開內(nèi)容的另一個(gè)方面,通過占用圖中的占用信息優(yōu)化損失函數(shù),分配給屬性圖占用區(qū)域更高的權(quán)重,使網(wǎng)絡(luò)訓(xùn)練在過程中更加注重占用位置的質(zhì)量重建,使網(wǎng)絡(luò)的性能得到有效利用。
4、根據(jù)本公開內(nèi)容的另一個(gè)方面,根據(jù)v-pcc在ai配置下幀內(nèi)、幀間交叉編碼的獨(dú)特編碼結(jié)構(gòu),引入了迭代訓(xùn)練機(jī)制,使網(wǎng)絡(luò)在訓(xùn)練過程中考慮了在該編碼結(jié)構(gòu)下,p幀對(duì)共享同一幀占用圖的i幀的依賴關(guān)系,使訓(xùn)練出的網(wǎng)絡(luò)模型能對(duì)p幀進(jìn)行有效的濾波處理。
5、根據(jù)本公開內(nèi)容的另一個(gè)方面,利用劃分信息來引導(dǎo)質(zhì)量增強(qiáng)過程,并使用占用信息對(duì)占用區(qū)域和非占用區(qū)域的劃分信息處理,使網(wǎng)絡(luò)能夠有效檢測并解決各種失真同時(shí),在訓(xùn)練過程中使占用區(qū)域得到更多的關(guān)注和調(diào)整。
6、根據(jù)本公開內(nèi)容的另一個(gè)方面,為了提高網(wǎng)絡(luò)的自適應(yīng)性,對(duì)網(wǎng)絡(luò)輸入進(jìn)行預(yù)處理,并引入qp信息作為輔助信息,使訓(xùn)練出的網(wǎng)絡(luò)模型能適應(yīng)不同qp下的質(zhì)量增強(qiáng)。
7、在一個(gè)方面中,提出了一種用于對(duì)點(diǎn)云視頻進(jìn)行譯碼的方法,包括:獲得重建的亮度樣本、譯碼單元?jiǎng)澐中畔?cumap)、以及量化信息(qpmap);將所獲得的重建的亮度樣本、所述譯碼單元?jiǎng)澐中畔?cumap)、以及所述量化信息(qpmap)分別輸入至嵌套殘差的卷積神經(jīng)網(wǎng)絡(luò)(nr-cnn)中,以獲得環(huán)路濾波樣本作為所述nr-cnn的輸出。
8、由此,本公開內(nèi)容對(duì)nr-cnn網(wǎng)絡(luò)優(yōu)化,設(shè)計(jì)了onr-cnn網(wǎng)絡(luò)用以對(duì)經(jīng)重建的點(diǎn)云屬性視頻幀進(jìn)行環(huán)路濾波,從而實(shí)現(xiàn)對(duì)點(diǎn)云屬性視頻的圖像增強(qiáng),實(shí)現(xiàn)了基于v-pcc的特征對(duì)對(duì)nr-cnn網(wǎng)絡(luò)的最優(yōu)化。
9、在一個(gè)優(yōu)選方面中,所述方法還包括:獲得點(diǎn)云視頻的占用圖,其中,所述nr-cnn所使用的損失函數(shù)(loss)是基于與所述占用圖相關(guān)聯(lián)的權(quán)重信息的。
10、在一個(gè)優(yōu)選方面中,其中,所述loss為:
11、
12、其中m,n為輸入樣本和輸出的長和寬,output(i,j)和org(i,j)分別為網(wǎng)絡(luò)輸出和未壓縮的亮度樣本,y(i,j)是根據(jù)所述占用圖信息得到的權(quán)重信息。
13、在一個(gè)優(yōu)選方面中,其中,
14、
15、其中,curr(i,j)為占用圖中每個(gè)像素點(diǎn)的亮度值,值為0或1,curri,j為以像素位置(i,j)為中心,大小為3×3的數(shù)組,x是可設(shè)置的權(quán)重值。
16、因此,通過占用圖中的占用信息優(yōu)化損失函數(shù),可以分配給屬性圖占用區(qū)域更高的權(quán)重,使網(wǎng)絡(luò)訓(xùn)練在過程中更加注重占用位置的質(zhì)量重建,使網(wǎng)絡(luò)的性能得到有效利用。
17、在一個(gè)優(yōu)選方面中,其中,通過如下兩個(gè)訓(xùn)練階段,基于視頻譯碼器來訓(xùn)練所述nr-cnn:訓(xùn)練階段一:使用所述視頻譯碼器在全幀內(nèi)配置下的i幀作為訓(xùn)練樣本,利用重建的i幀圖像和輔助信息來訓(xùn)練i幀網(wǎng)絡(luò)模型;以及訓(xùn)練階段一:將階段一訓(xùn)練得到的i幀網(wǎng)絡(luò)模型嵌入到所述視頻譯碼器中,使用i幀網(wǎng)絡(luò)模型只對(duì)i幀執(zhí)行濾波操作,并在全幀內(nèi)配置下提取p幀作為訓(xùn)練樣本,利用重建的p幀圖像和輔助信息來訓(xùn)練p幀網(wǎng)絡(luò)模型。
18、因此,根據(jù)v-pcc在ai配置下幀內(nèi)、幀間交叉編碼的獨(dú)特編碼結(jié)構(gòu),引入了迭代訓(xùn)練機(jī)制,使網(wǎng)絡(luò)在訓(xùn)練過程中考慮了在該編碼結(jié)構(gòu)下,p幀對(duì)共享同一幀占用圖的i幀的依賴關(guān)系,使訓(xùn)練出的網(wǎng)絡(luò)模型能對(duì)p幀進(jìn)行有效的濾波處理。
19、在一個(gè)優(yōu)選方面中,在輸入至所述nr-cnn之前,對(duì)所述重建的亮度樣本和所述量化信息(qpmap)進(jìn)行歸一化。
20、在一個(gè)優(yōu)選方面中,所述譯碼單元?jiǎng)澐中畔?cumap)包括亮度(y)劃分信息和色度(u,v)劃分信息。
21、在一個(gè)優(yōu)選方面中,其中,在輸入至所述nr-cnn之前:對(duì)所述亮度(y)劃分信息進(jìn)行歸一化,或者對(duì)色度(u,v)劃分信息進(jìn)行基于占用圖的預(yù)處理。
22、因此,利用劃分信息來引導(dǎo)質(zhì)量增強(qiáng)過程,并使用占用信息對(duì)占用區(qū)域和非占用區(qū)域的劃分信息處理,使網(wǎng)絡(luò)能夠有效檢測并解決各種失真同時(shí),在訓(xùn)練過程中使占用區(qū)域得到更多的關(guān)注和調(diào)整。
23、在一個(gè)優(yōu)選方面中,其中,對(duì)點(diǎn)云視頻進(jìn)行譯碼是對(duì)點(diǎn)云視頻進(jìn)行解碼,其中,所述方法還包括:從譯碼比特流中解析與所述譯碼單元?jiǎng)澐中畔?cumap)和所述量化信息(qpmap)相關(guān)聯(lián)的語法元素,以獲得所述譯碼單元?jiǎng)澐中畔?cumap)和所述量化信息(qpmap)。
24、在一個(gè)優(yōu)選方面中,其中,對(duì)點(diǎn)云視頻進(jìn)行譯碼是對(duì)點(diǎn)云視頻進(jìn)行解碼,其中,所述方法還包括:根據(jù)所述譯碼單元?jiǎng)澐中畔?cumap)和所述量化信息(qpmap),從所述譯碼比特流中重建得到所述重建的亮度樣本。
25、在另一個(gè)方面中,一種計(jì)算設(shè)備,其包括:存儲(chǔ)器,用于存儲(chǔ)與點(diǎn)云相關(guān)的數(shù)據(jù);譯碼單元,其被配置為根據(jù)本公開內(nèi)容的各個(gè)方法,對(duì)輸入的點(diǎn)云數(shù)據(jù)進(jìn)行譯碼。
26、在另一個(gè)方面中,一種計(jì)算設(shè)備,其包括:用于執(zhí)行公開內(nèi)容的各個(gè)方法的步驟的單元。
27、在另一個(gè)方面中,一種計(jì)算機(jī)程序產(chǎn)品,包括非暫時(shí)性存儲(chǔ)介質(zhì),所述非暫時(shí)性存儲(chǔ)介質(zhì)中存儲(chǔ)有用于執(zhí)行根據(jù)本公開內(nèi)容的各個(gè)方法的代碼。
28、根據(jù)另一方面,提出了一種可用于視頻編解碼的設(shè)備,該設(shè)備包括:一個(gè)或多個(gè)處理器;存儲(chǔ)器,其中存儲(chǔ)有計(jì)算機(jī)代碼,所述計(jì)算機(jī)代碼當(dāng)由所述處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的方法。