两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于處理圖像的編碼和/或解碼裝置、方法和系統(tǒng)

文檔序號:40642251發(fā)布日期:2025-01-10 18:48閱讀:9來源:國知局
用于處理圖像的編碼和/或解碼裝置、方法和系統(tǒng)

本發(fā)明涉及用于處理圖像的編碼和/或解碼裝置、方法和系統(tǒng)。


背景技術(shù):

1、圖像壓縮是一種信號處理操作,其可便于高效的圖像傳輸和存儲。已知的圖像壓縮標(biāo)準(zhǔn)包括聯(lián)合圖像專家組(jpeg)、聯(lián)合圖像專家組2000(jpeg2000)、hevc/h.265、多功能視頻編碼(vvc)等。這些標(biāo)準(zhǔn)大多依賴于具有基于塊的編碼而定制的編碼器/解碼器框架。盡管這些標(biāo)準(zhǔn)已被廣泛使用,但是對進(jìn)一步改進(jìn)編碼性能的需求正持續(xù)增長。

2、近年來,深度圖像壓縮(基于深度學(xué)習(xí)的圖像壓縮)開始獲得關(guān)注。深度圖像壓縮主要包括基于自編碼器(autoencoder)的圖像壓縮和生成式(generative)圖像壓縮。一般而言,在基于自編碼器的圖像壓縮中,編碼器學(xué)習(xí)生成輸入圖像的緊湊表示,而解碼器則基于該緊湊表示重建接近輸入圖像的圖像。在一些示例中,與自編碼器(ae)模型相關(guān)的變分自編碼器(vae)側(cè)重于學(xué)習(xí)具有連續(xù)特征的表示。在一些示例中,矢量量化變分自編碼器(vq-vae)將潛在特征量化為整數(shù)標(biāo)記以獲得圖像的緊湊表示。另一方面,生成式圖像壓縮一般利用生成式模型對圖像進(jìn)行壓縮。在一些示例中,它可以表現(xiàn)出較高的壓縮效率并且即使在較低比特率下也能獲得視覺上良好的結(jié)果。

3、較為新興的方法包括具有跨模態(tài)表示的語義壓縮,其旨在提高不同方法的壓縮效率。作為示例,li等人在題為“cross?modal?compression:towards?human-comprehensiblesemantic?compression”(2021)的文章中提出了跨模態(tài)壓縮框架,其結(jié)合圖像到文本(i2t)翻譯和文本到圖像(t2i)的生成式模型,以達(dá)到人類可理解的結(jié)果。然而,這種方法主要強(qiáng)調(diào)保存語義一致性而不是信號級的重建。為了解決這限制,作為示例,zhang等人在題為“rethinkingsemantic?image?compression:scalable?representation?with?cross-modality?transfer”(2023)的文章中提出了可擴(kuò)展的跨模態(tài)壓縮(scmc)范式,其利用不同的模態(tài)對圖像進(jìn)行分層勾畫,以在不同階段實(shí)現(xiàn)語義、結(jié)構(gòu)和信號級的重建。盡管這些方法已經(jīng)取得了不錯(cuò)的結(jié)果,但是這些方法大多依賴于利用另一種模態(tài)(如文本)來直接表示視覺場景,使得細(xì)粒度的可擴(kuò)展性和互動性沒有得到很好的支持。


技術(shù)實(shí)現(xiàn)思路

1、在第一方面,本發(fā)明提供了一種編碼裝置。該編碼裝置包括圖像編碼器、量化模塊、采樣模塊以及壓縮模塊。圖像編碼器用于從圖像提取圖像編碼特征。量化模塊用于基于潛在嵌入空間對圖像編碼特征進(jìn)行量化以將圖像編碼特征轉(zhuǎn)換為離散的潛在變量。采樣模塊用于利用與采樣因子相關(guān)的采樣掩膜對離散的潛在變量進(jìn)行采樣以獲得采樣潛在變量。壓縮模塊用于對采樣潛在變量進(jìn)行壓縮。壓縮后的采樣潛在變量可用于生成與圖像相關(guān)的比特流。優(yōu)選地,采樣因子是可以調(diào)節(jié)的。

2、在第一方面的一些實(shí)施方式中,采樣模塊還用于生成采樣掩膜,其包括:從圖像提取掩膜以將與圖像相關(guān)的前景信息和背景信息分離,處理所提取的掩膜以獲得錨點(diǎn)掩膜,根據(jù)采樣因子生成區(qū)間掩膜,以及將錨點(diǎn)掩膜和區(qū)間掩膜結(jié)合生成采樣掩膜。

3、在第一方面的一些實(shí)施方式中,采樣模塊調(diào)整所提取的掩膜的大小并對調(diào)整后的掩膜進(jìn)行二值化以處理所提取的掩膜。

4、在第一方面的一些實(shí)施方式中,至少圖像編碼器和潛在嵌入空間通過損失函數(shù)進(jìn)行訓(xùn)練。

5、在第一方面的一些實(shí)施方式中,通過損失函數(shù)進(jìn)行的訓(xùn)練是基于矢量量化的擴(kuò)散模型訓(xùn)練。

6、在第一方面的一些實(shí)施方式中,在訓(xùn)練基于矢量量化的擴(kuò)散模型時(shí),圖像編碼器和潛在嵌入空間的參數(shù)被固定。

7、在第一方面的一些實(shí)施方式中,采樣模塊利用顯著性檢測算法將離散的潛在變量相關(guān)的前景信息和背景信息分離。

8、在第一方面的一些實(shí)施方式中,從圖像提取的掩膜為顯著掩膜,其用于將特征空間中的語義信息局部化,從而將前景元素和背景元素分離。

9、在第一方面的一些實(shí)施方式中,區(qū)間掩膜為間隔掩膜,其通過采樣因子進(jìn)行控制,其中較大的采樣因子代表較大的間隔和較少的潛在變量被采樣。

10、在第二方面,本發(fā)明提供了一種解碼裝置。該解碼裝置包括圖像解碼器和基于矢量量化的擴(kuò)散模塊。圖像解碼器用于將與圖像相關(guān)的比特流解碼以獲得采樣潛在變量。基于矢量量化的擴(kuò)散模塊用于至少通過反向擴(kuò)散過程處理采樣潛在變量以對圖像進(jìn)行重建。

11、在第二方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模塊包括語義信息輸入,其用于編輯要被重建的圖像的背景。

12、在第二方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模塊用于通過正向擴(kuò)散過程和反向擴(kuò)散過程處理采樣潛在變量以對所述圖像進(jìn)行重建(例如,在訓(xùn)練基于矢量量化的擴(kuò)散模塊時(shí)),并且基于矢量量化的擴(kuò)散模塊在正向擴(kuò)散過程中使用馬爾可夫鏈依次對數(shù)據(jù)進(jìn)行采樣并逐步將噪聲引入到數(shù)據(jù)中。

13、在第二方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模塊在正向擴(kuò)散過程的每一個(gè)時(shí)間步驟都是高斯轉(zhuǎn)移分布。

14、在第二方面的一些實(shí)施方式中,在固定數(shù)量的t個(gè)時(shí)間步驟過去后,基于矢量量化的擴(kuò)散模塊在正向擴(kuò)散過程產(chǎn)生帶有逐漸增加的噪聲水平的潛在變量序列x1,…,xt。

15、在第二方面的一些實(shí)施方式中,解碼裝置還包括去噪網(wǎng)絡(luò)模塊,用于近似條件轉(zhuǎn)移分布其中是采樣潛在變量。

16、在第三方面,本發(fā)明提供了一種編解碼系統(tǒng)。該編解碼系統(tǒng)包括第一方面的編碼裝置以及第二方面的解碼裝置。優(yōu)選地,潛在嵌入空間由編碼裝置和解碼裝置共享。

17、在第四方面,本發(fā)明提供了一種編碼方法。該編碼方法包括:從圖像提取圖像編碼特征,基于潛在嵌入空間對圖像編碼特征進(jìn)行量化以將圖像編碼特征轉(zhuǎn)換為離散的潛在變量,利用與采樣因子相關(guān)的采樣掩膜對離散的潛在變量進(jìn)行采樣以獲得采樣潛在變量,以及對采樣潛在變量進(jìn)行壓縮。壓縮后的采樣潛在變量可用于生成與圖像相關(guān)的比特流。優(yōu)選地,采樣因子是可以調(diào)節(jié)的。

18、在第四方面的一些實(shí)施方式中,編碼方法還包括生成采樣掩膜,其包括:從圖像提取掩膜以將與圖像相關(guān)的前景信息和背景信息分離,處理所提取的掩膜以獲得錨點(diǎn)掩膜,根據(jù)采樣因子生成區(qū)間掩膜,以及將錨點(diǎn)掩膜和區(qū)間掩膜結(jié)合以生成采樣掩膜。

19、在第四方面的一些實(shí)施方式中,處理所提取的掩膜以獲得錨點(diǎn)掩膜包括:調(diào)整所提取的掩膜的大小并對調(diào)整后的掩膜進(jìn)行二值化以獲得錨點(diǎn)掩膜。

20、在第四方面的一些實(shí)施方式中,從圖像提取的掩膜為顯著掩膜,其用于將特征空間中的語義信息局部化,從而將前景元素和背景元素分離。

21、在第四方面的一些實(shí)施方式中,區(qū)間掩膜為間隔掩膜,其通過采樣因子進(jìn)行控制,其中較大的采樣因子代表較大的間隔和較少的潛在變量被采樣。

22、在第五方面,本發(fā)明提供了一種解碼方法。該解碼方法包括:將與圖像相關(guān)的比特流解碼以獲得采樣潛在變量,以及利用基于矢量量化的擴(kuò)散模型至少通過反向擴(kuò)散過程處理采樣潛在變量以對圖像進(jìn)行重建。

23、在第五方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模型包括語義信息輸入,其用于編輯要被重建的圖像的背景。

24、在第五方面的一些實(shí)施方式中,利用基于矢量量化的擴(kuò)散模型對圖像進(jìn)行重建包括利用基于矢量量化的擴(kuò)散模型通過正向擴(kuò)散過程和反向擴(kuò)散過程處理采樣潛在變量以對所述圖像進(jìn)行重建(例如,在訓(xùn)練基于矢量量化的擴(kuò)散模型時(shí)),并且正向擴(kuò)散過程使用馬爾可夫鏈依次對數(shù)據(jù)進(jìn)行采樣并逐步將噪聲引入到數(shù)據(jù)中。

25、在第五方面的一些實(shí)施方式中,正向擴(kuò)散過程的每一個(gè)時(shí)間步驟都是高斯轉(zhuǎn)移分布。

26、在第五方面的一些實(shí)施方式中,在固定數(shù)量的t個(gè)時(shí)間步驟過去后,正向擴(kuò)散過程產(chǎn)生帶有逐漸增加的噪聲水平的潛在變量序列x1,…,xt。

27、在第五方面的一些實(shí)施方式中,解碼方法還包括近似條件轉(zhuǎn)移分布其中是采樣潛在變量。

28、在第六方面,本發(fā)明提供了一種編碼裝置。該編碼裝置包括:一個(gè)或多個(gè)處理器以及存儲器。存儲器存儲被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第四方面的編碼方法的指令。

29、在第七方面,本發(fā)明提供了一種解碼裝置。該解碼裝置包括:一個(gè)或多個(gè)處理器以及存儲器。存儲器存儲被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第五方面的解碼方法的指令。

30、在第八方面,本發(fā)明提供了一種編解碼系統(tǒng)。該編解碼系統(tǒng)包括第六方面的編碼裝置以及第七方面的解碼裝置。優(yōu)選地,潛在嵌入空間由編碼裝置和解碼裝置共享。

31、在第九方面,本發(fā)明提供了一種非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其存儲被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第四方面的編碼方法的指令。

32、在第十方面,本發(fā)明提供了一種非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其存儲被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第五方面的解碼方法的指令。

33、通過考慮詳細(xì)描述和附圖,本發(fā)明的其他特征和方面將變得顯而易見。在適當(dāng)和適用的情況下,在本文關(guān)于一個(gè)方面或?qū)嵤┓绞矫枋龅娜魏我粋€(gè)或多個(gè)特征可以與本文關(guān)于任何一個(gè)或多個(gè)其他方面或?qū)嵤┓绞矫枋龅娜魏我粋€(gè)或多個(gè)其他特征組合。

34、與數(shù)量或條件相關(guān)的程度術(shù)語或相關(guān)性術(shù)語(例如“一般”、“大約”、“約”、“大體”等)用于考慮(根據(jù)上下文)以下至少一個(gè):制造公差、退化、組裝、使用、趨勢、傾向、不完美的實(shí)際情況等。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
平遥县| 尉氏县| 昌吉市| 定边县| 弋阳县| 云龙县| 武乡县| 宽甸| 白山市| 墨竹工卡县| 深州市| 仁寿县| 金坛市| 孝义市| 台安县| 义马市| 华池县| 五常市| 邳州市| 威海市| 昌都县| 姚安县| 始兴县| 河池市| 龙南县| 顺昌县| 大宁县| 抚宁县| 融水| 樟树市| 巧家县| 太谷县| 卓尼县| 安西县| 大英县| 谷城县| 九龙坡区| 铜川市| 连城县| 古蔺县| 镇江市|