編碼/解碼字幕數據項的方法和設備的制作方法

文檔序號：7580910閱讀：183來源：國知局

專利名稱：：編碼/解碼字幕數據項的方法和設備的制作方法
技術領域：
：本發(fā)明涉及一種編碼/解碼字幕數據項的方法和設備，特別是字幕和圖形，以便藍色光束盤的光學存儲和記錄。
背景技術：
：在用于預記錄的視聽(AV)材料的字幕區(qū)域中，存在相互矛盾的要求一方面，應該有效地對字幕數據進行編碼，特別是，如果要將整個字幕服務提供給任意給定的AV材料。在這種情況下，至少平均地，非常少的比特可用于每一個字幕字符。另一方面，專業(yè)內容擁有者想要對字幕字符在屏幕上的出現進行完全地控制，另外，其想要使其命令為具有特殊顯示效果的豐富的集合，從簡單的漸變到真正的動畫。這樣高的設計自由度和命令通常僅對于高或非常高的字幕帶寬而言是實用的。在今天的技術發(fā)展水平下，存在兩種主要的方案，用于利用單獨的字幕信息給預先記錄的AV數據信號加字幕字幕可以基于像素數據或字符數據。在兩種情況下，字幕方案包括一般框架，例如，沿AV時間軸來處理字幕元素的同步。在基于字符的字幕方案中，例如，在針對歐洲模擬或數字TV的圖文電視系統(tǒng)中(參見ETSIETS300706EnhancedTeletextspecification，1997年5月)，由字母碼序列來描述字符串，例如ASCII(參見ISO/IEC8850AmericanStandardCodeforInformationInterchange-ASCII)或UNICODE(參見ISO/IEC10646Informationtechnology-UniversalMultiple-字節(jié)編碼字符集(UCS))，本質上，這允許非常有效的編碼。但是單獨從字符串中，不能夠將字幕轉換為要重疊在視頻上的圖形表示。對此，必須在字幕比特流中明確地對所需字符集、字體和一些字體參數(最為典型地，字體尺寸)進行編碼，或者在適當定義的字幕環(huán)境中對其進行隱含假設。此外，在該方案中的任何字幕局限于可以利用所使用的特定字體的字幕和符號來表達的字幕。DVB字幕規(guī)范(參見ETSIETS300743DigitalVideoBroadcasting(DVB)；Subtitlingsystems，1997年9月，以及EP-A-0745307VanderMeer等人，Subtitlingtransmissionsystem)，其對象類型為“基本對象，字符”或“合成對象，字符串”，構成了基于字符的字幕的現有技術狀態(tài)的另一示例。在基于像素的字幕方案中，通過將其描述為在AV屏上的像素值的區(qū)域(典型地，矩形的)，以圖形表示來直接傳送字幕幀。無論何時無論何地，當某物表示為在重疊到視頻上的字幕平面上可見時，必須對其像素值進行編碼，并與適當的同步信息一起，將其設置在字幕比特流中。明顯地去除了第三方定義字體的固有的任何限制，基于像素的方案帶來了相當大地增加了針對適當字幕數據的帶寬的負擔。在DVD的“子圖像”概念(參見DVD論壇DVDSpecificationforRead-OnlyDisc/Part3VideoSpecifications/Version1.0，1996年8月)、以及DVB字幕的“位圖對象”概念(參見以上所提到的ETS300743和EP-A-0745307)中可以找到基于像素的字幕方案的示例。
發(fā)明內容本發(fā)明要解決的問題是組合基于字符字幕的有效編碼與對字幕字符的出現的完全控制(如對基于像素的字幕可行的那樣)組合在一起，而不會顯著地增加傳送所需信息所需要的數據量。通過權利要求1和7所公開的方法來解決該問題。在權利要求4中公開了實現權利要求1所述的方法的設備。本發(fā)明基于基于像素的字幕方案。該字幕系統(tǒng)包括允許將字體支持包括到基于像素的字幕方案中的多個組件。該字體支持包括a.1)字體描述數據的結構，用于以像素數據的形式有效地描述字體字符集；a.2)字體標識數據結構，用于惟一地識別要使用的預定字體；a.3)具有整個存儲區(qū)的一部分的字體存儲器的概念，其中，字體存儲器專用于保持字體字符，并且并不直接在AV輸出中可見；a.4)字符參考數據的結構，用于有效地引用來自字體存儲器中所存儲的字體中的各個字體字符。將字體描述數據和字符參考數據與所存儲的AV數據一起傳送和存儲，由此，該傳送和存儲具有幾乎不可分離的混合格式，或者完全使用單獨的傳輸信道和存儲位置，或者作為兩者的混合。在解碼器側，字體描述數據使任意字符點符集(字符的圖形表示)或其他圖形構建塊得以加載到字體存儲器中。在每一個情況下，要使用的字符點符的數量和設計完全在內容提供商的控制之下。根據本發(fā)明，字體描述數據由一個或多個字符參數集部分構成，每一個均包括字體中的一個或多個字符的字符參數集，并且一個或多個字符像素數據部分的每一個均包括字體中的一個或多個字符的像素數據。字符的像素數據表示為字符陣列，即，作為像素值的矩形陣列，所述陣列具有專用于該字符的寬度和高度。每一個所述字符參數集包括以下各項的任意組合c.1)字符陣列的寬度；c.2)字符陣列的高度；c.3)字符的像素數據相對于包括其的字符像素數據部分的起始地址；c.4)陣列邊界和字符參考點之間的水平偏移；c.5)所述邊界和字符參考點之間的垂直偏移；c.6)描述字符與之前和之后的那些字符之間的水平距離的水平增量。本發(fā)明使用字體存儲器提供了對基于像素的字幕字母的有效實現，這是因為僅需要一次性傳送點符，之后，在AV事件期間，以相對緊湊的字符參考對所傳送的點符進行引用。另一方面，由于以基于像素的形式有效地提供點符，因此使字幕的出現完全處于內容提供商的控制之下，并且有利地，避免了通常在基于字符的方案中會出現的字體標識、字體選擇、字體參數化和字符再現的所有問題。按照這種方式，本發(fā)明實際上組合了純基于像素和純基于字符的字幕方案的優(yōu)點，同時較大地避免了各自的缺點。原則上，本發(fā)明適合于解碼字幕數據項，包括以下步驟-檢索與視頻或視聽數據信號的相應部分相關的字符參考數據項，所述數據項描述了字符序列、以及與所述數據信號在圖像中何處/和/或何時和/或如何使用顯示存儲器使所述參考字符可見有關的信息；-從所述字符參考數據項中獲得字符選擇信息和字符定位信息；-從字體存儲器中讀取由所述字符選擇信息項所指定的所述參考字符的像素數據；-如由所述字符定位信息項所指定地，將所述像素數據寫入所述顯示存儲器。原則上，本發(fā)明的設備適合于解碼字幕數據項的設備，所述設備包括-裝置，用于檢索與視頻或視聽數據信號的相應部分相關的字符參考數據項，所述數據項描述了字符序列、以及與所述數據信號在圖像中何處/和/或何時和/或如何使用顯示存儲器使所述參考字符可見有關的信息；-裝置，用于從所述字符參考數據項中獲得字符選擇信息和字符定位信息；從字體存儲器中讀取由所述字符選擇信息項所指定的所述參考字符的像素數據；如由所述字符定位信息項所指定地，將所述像素數據寫入所述顯示存儲器。在各個從屬權利要求中公開了本發(fā)明的優(yōu)選附加實施例。將參考附圖來描述本發(fā)明的典型實施例，其中圖1示出了本發(fā)明的數據結構；圖2示出了本發(fā)明的字幕系統(tǒng)的方框圖；圖3是用于將“font-id”嵌入DVD-ST“object_data_segment”中的示例數據結構。具體實施例方式如圖1所示，利用相關的AV數據101來傳送、存儲或記錄字體描述數據102、以及字符參考數據103，由此，所述傳送或存儲可以處于幾乎不可分離的混合和使用完全獨立的傳輸信道或存儲位置之間。在解碼器側，如圖2所示，字幕流201通過數據分離裝置202，反過來，分離裝置202提供字符參考數據203和字體描述數據204。通過經過字體描述數據處理裝置205，字體描述數據204使任意字符點符(glyph)或其他圖形構件塊的集合得以加載到字體存儲器208中。有利地，要在每一個單獨使用的情況下使用的字符點符的數量和設計完全處于內容提供商的控制下。可選地，對于如此描述并加載到字體存儲器208中的字體，可以對上述字體標識數據進行關聯。字符參考數據203使字符參考數據處理裝置206將字符點符表示的字符描述數據209的集合的各個子集從字體存儲器208復制到顯示存儲器207中，其可以是整個系統(tǒng)存儲器的一部分。使顯示存儲器207的內容重疊到視頻上，因此變?yōu)榭梢娮帜??？蛇x地，所述字符參考數據可以包含對字體標識數據的引用，因此，允許字幕解碼器確定是否仍必須將再現特定字幕流所需的字體加載到字體存儲器208中，或者其已經可用于立即使用。所提出的字幕系統(tǒng)的可能用途和操作模式可以包括但并不局限于以下情況之一b.1)預先加載至少一個字體，以便在整個長AV節(jié)目中使用；b.2)使用包含針對至少一個字母的多于一個的變量的字體，所述使用包括但并不局限于子像素精確字母定位或強調(粗體/斜體)支持；b.3)在使用大字體的稀疏子集(例如亞洲字體)的情況下，加載針對AV材料部分的字體子集(例如電影章節(jié))。對于字體描述數據的另外的結構，如下提出了特定實施例的多個變體。在第一變體中，如果字體是其中各個字符具有可變寬度的比例字體時，將所有字符陣列進行水平地填充以使其標稱地具有相等的寬度，并且將所得到的填充后的字符陣列垂直地級聯到字體陣列中。然后，按照傳統(tǒng)的方式對字體陣列進行線掃描以形成單一字符像素數據部分。在另一變體中，對所有字符陣列進行垂直填充以使其標稱地具有相等的高度，并且將得到的填充后的字符矩陣水平地級聯到字體矩陣中。然后，按照傳統(tǒng)的方式對該字體矩陣進行線掃描到單一字符像素數據部分中。對于上述兩個變體，單一字符像素數據部分前面具有單一字符參數部分，包括字體中所有字符的字符參數集合。在另一變體中，通過針對字體中的所有字符，交替地級聯字符參數集和字符陣列來產生字體描述數據。在另一變體中，通過首先將所有字符參數集級聯到單一字符參數集中，并且向該部分附加包括所有字符陣列的單一字符像素數據部分，來產生所述字體描述數據。在另一變體中，可任意擴展到所有上述變體中，將UNICODE(參見ISO/IEC10646Informationtechnology--UniversalMultiple-字節(jié)編碼字符集(UCS))碼與字體中的字符的一部分或全部相關聯，并將UNICODE碼插入并包括在字體描述數據的該部分內與所討論的字符相關聯的可識別位置上。在另一變體中，可任意擴展到所有上述變體中，將非重復字符標識符與字體中的每一個字符關聯，并且將該標識符插入并包括在字體描述數據內與所討論的字符關聯的可識別位置上。在所有上述變體中，所述字體描述數據可以是d.1)每一個數據項利用一個碼字直接傳送，或者其可以是d.2)通過掃描寬度(runlength)碼壓縮，或者其可以是d.3)由無損壓縮的其他方法進行壓縮，例如在PNG中所使用的“zlib”方法(參見W3C推薦，PNG(PortableNetworkGraphics)Specification，版本1.0，1996，http//www.w3.org/TR/REC-png.pdg)。對于字體標識數據的結構，如下所述提出了特定實施例的多個變體。在第一變體中，將字體標識數據實現為“font_id”，如在“PortableFontResource”(PFR)系統(tǒng)中所定義的(參見BitstreamIncTrueDocPFRSpecification，http//www.bitsream.com/pfrspec/index.html)。在另一變體中，利用圖3所示的數據結構，將處于PFR“font_id”形式的字體標識數據結構具體實現為上述DVB字幕系統(tǒng)。在另一變體中，將字體標識數據結構具體實現為“通用惟一標識符”，如在(UUIDinISO/IEC115781996，Informationtechnology-openSystemsInterconnection-RemoteProcedurecall(RPC))中所定義的。在本發(fā)明的環(huán)境中，字符參考數據由每一個均伴隨有組定位數據的一個或多個字符參考組的序列構成，并且每一個字符參考組由每一個伴隨有字符定位數據的一個或多個字符參考的序列構成。優(yōu)選地，將所述組定位數據具體實現為以下情況之一e.1)組參考點相對于視頻圖像的原點的絕對水平和垂直坐標；e.2)組參考點相對于先前字符參考組的組參考點的相對水平和垂直坐標；e.3)相對于其他任何指定參考點的相對水平和垂直坐標。優(yōu)選地，可以將字符參考具體實現為以下情況之一f.1)參考字體描述數據內的指定字符的明確位置的字符索引；f.2)任何種類的明確字符標識符；f.3)如果已經將其明確地分配給字符，則ASCII碼；f.4)如果已經將其明確地分配給字符，則UNICODE碼。優(yōu)選地，可以將字符定位數據具體實現為以下情況之一g.1)不需要附加的各字符定位數據的自動提前，可從先前字符的字符參考點的位置和從所討論的字符的水平增量來得到該提前；g.2)具有字符位置偏移數據的自動提前，其中對于字符的水平以及垂直位置，將從先前字符的字符參考點和從所討論的字符的水平增量獲得的第一值與在字符定位數據中相應描述的第二值相加；g.3)相對于先前字符的字符參考點施加的相對字符定位數據；g.4)相對于視頻圖像原點施加的絕對字符定位數據。權利要求1.一種解碼字幕數據項的方法，其特征在于以下步驟-檢索與視頻或視聽數據信號(101)的相應部分相關的字符參考數據項(103，203)，所述數據項(103，203)描述了字符序列、以及與所述數據信號在圖像中何處/和/或何時和/或如何使用顯示存儲器(207)使所述參考字符可見有關的信息；-從所述字符參考數據項(103，203)的所述項中獲得(206)字符選擇信息和字符定位信息；-從字體存儲器(208)中讀取(206)由所述字符選擇信息項所指定的所述參考字符的像素數據；-如由所述字符定位信息項所指定地，將所述像素數據寫入(206)所述顯示存儲器(207)。2.根據權利要求1所述的方法，其特征在于在檢索(202)所述字符參考數據項(103，203)之前，執(zhí)行以下步驟-檢索(202)與所述字符參考數據項(103，203)中的相應一個相關的字體描述數據項(102，204)；-將所述字體描述數據項寫入(205)所述字體存儲器(208)中。3.根據權利要求1或2所述的方法，其特征在于在檢索所述字符參考數據項(103，203)之后，執(zhí)行以下步驟-檢查所述參考字符的所述像素數據是否已經被存儲在所述字體存儲器(208)中；-如果不是這樣，則檢索(202)包含所述參考字符的字體描述數據項(102，204)；-將所述字體描述數據項寫入到所述字體存儲器(208)中。4.一種解碼字幕數據項的設備，所述設備包括-裝置(202)，用于檢索與視頻或視聽數據信號(101)的相應部分相關的字符參考數據項(103，203)，所述數據項(103，203)描述了字符序列、以及與所述數據信號在圖像中何處/和/或何時和/或如何使用顯示存儲器(207)使所述參考字符可見有關的信息；-裝置(206)，用于從所述字符參考數據項(103，203)中獲得字符選擇信息和字符定位信息；從字體存儲器(208)中讀取由所述字符選擇信息項所指定的所述參考字符的像素數據；如由所述字符定位信息項所指定地，將所述像素數據寫入(206)所述顯示存儲器(207)。5.根據權利要求4所述的設備，其特征在于用于檢索的裝置(202)在檢索所述字符參考數據項(103，203)之前，檢索與所述字符參考數據項(103，203)中的相應一個相關的字體描述數據項(102，204)；所述設備還包括-裝置(205)，將所述字體描述數據項寫入所述字體存儲器(208)中。6.根據權利要求4或5所述的設備，其特征在于還包括裝置，用于在檢索所述字符參考數據項(103，203)之后，檢查所述參考字符的所述像素數據是否已經被存儲在所述字體存儲器(208)中；如果不是這樣，則檢索包含所述參考字符的字體描述數據項(102，204)；并將所述字體描述數據項寫入到所述字體存儲器(208)中。7.一種對字幕數據進行編碼的方法，其特征在于以下步驟-向視頻或視聽數據信號(101)附加相關的字幕數據，包括字符參考數據項(103，203)和字體描述數據項(102，204)，由此，所述字符參考數據項(103，203)描述了字符序列、以及與所述數據信號在圖像中何處/和/或何時和/或如何使用顯示存儲器(207)使所述參考字符可見有關的信息；所述字符參考數據項包括字符選擇信息項和字符定位信息項，其中可以在字幕解碼器中使用所述字符選擇信息項，以便從字體存儲器中讀取所述參考字符的像素數據，并且可以在所述字幕解碼器中使用所述字符定位信息項，用于將所述像素數據寫入所述顯示存儲器；并且由此，可以在所述字幕解碼器中將所述字體描述數據項(102，204)寫入到所述字體存儲器中，用于檢查所述參考字符的所述像素數據是否已經被存儲在所述字體存儲器中；并且如果不是這樣，則檢索包含所述參考字符的字體描述數據項(102，204)，并將所述字體描述數據項寫入到所述字體存儲器中。8.一種包含視頻或視聽數據信號(101)和利用根據權利要求7所述的方法進行編碼的相關字幕數據的數據載體。全文摘要字幕可以基于像素數據或字符數據。字符數據允許非常有效的編碼，但是單獨從字符串中，不能夠將字幕轉換為要重疊在視頻上的圖形表示。必須在字幕比特流中明確地對所需字符集、字體和如字體尺寸等進行編碼，或者必須對其進行隱含假設。在基于像素的字幕中，通過將其描述為在AV屏上的像素值的區(qū)域(典型地，矩形的)，以圖形表示的形式來直接傳送字幕幀，這以相當大地增加字幕數據的帶寬為代價。根據本發(fā)明，使用允許有效實現基于像素的字幕字母的字體存儲器，因為僅需要對這些點符進行一次傳送，之后在AV事件期間，通過相對緊湊的字符參考對其進行引用。由此，本發(fā)明組合了純基于像素和純基于字符的字幕方案的優(yōu)點，同時極大地避免了各自的缺陷。文檔編號H04N5/445GK1729684SQ200380103429公開日2006年2月1日申請日期2003年11月6日優(yōu)先權日2002年11月18日發(fā)明者哈拉爾德·席勒,迪爾克·阿道夫,約布斯特·霍倫特魯普,拉爾夫·奧斯特曼,哈特穆特·彼得斯申請人:湯姆森許可貿易公司

完整全部詳細技術資料下載