專利名稱:三維(3d)呈現(xiàn)中的字幕的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及準(zhǔn)備供立體呈現(xiàn)使用的字幕。
背景技術(shù):
在三維(3D)數(shù)字電影劇場呈現(xiàn)中,屏幕上的遮擋(masking)可能模糊或侵占在已經(jīng)顯示了字幕或解說詞,因此必然要對字幕進行修改,例如字幕在屏幕上的位置和/或尺寸。同樣的情形會出現(xiàn)在3D視頻顯示中,如果內(nèi)容或原始字幕的全光柵占用比監(jiān)視器的顯示區(qū)域大的區(qū)域。在這種情形下,在3D中,不僅必須調(diào)整字幕或解說詞的大小或尺寸和/或針對每只眼睛的圖像以協(xié)同的方式重新放置字幕或解說詞,而且必須存在針對解說詞所覆蓋的3D內(nèi)容的處所,使得解說詞不會干擾內(nèi)容中元素的視深度,也不會不適合地一直顯示到相對于下層內(nèi)容的前景中。術(shù)語“視深度(apparent d印th) ”是觀看者相對于屏幕的感知,這由左眼與右眼圖像之間的視差引起。3D呈現(xiàn)通常受限于提供視深度,這是因為對于圖像中的相同元素不同位置處的觀看者會感知到不同的視深度。在3D呈現(xiàn)中,解說詞的“覆蓋”或“合成”提供了解說詞與關(guān)聯(lián)的圖像或內(nèi)容的組合,以在圖像空間內(nèi)可讀地向觀看者呈現(xiàn)。這必然模糊一部分圖像,其中手動地選擇(例如,通過美工或字幕技師)或者在一些情況下自動選擇被模糊的圖像部分。解說詞整體上或部分可以是半透明的。在3D的情況下,字幕通常具有通常以像素度量的指定視差(即,右眼字幕與左眼字幕之間的偏移),使得負責(zé)呈現(xiàn)文本的系統(tǒng)可以與3D圖像內(nèi)容一起呈現(xiàn)文本,并且具有在右眼字幕與左眼字幕之間應(yīng)用的適當(dāng)偏移,使得正確放置文本和3D圖像內(nèi)容。當(dāng)右眼和左眼之間的位置偏移為零時,字幕看起來在屏幕的表面。當(dāng)位置偏移將針對右眼的字幕置于針對左眼的字幕的右側(cè)時,字幕看起來在屏幕的后面。如果針對右眼的字幕在針對左眼的字幕的左側(cè),則字幕看起來在屏幕的前面。其他人在共同轉(zhuǎn)讓的專利申請(例如,Redmann在題為“Method and Apparatusfor Preparing Subtitles for Display” 的公開 PCT 專利申請 W02010/096030 中,以及Izzat 等人在題為 “System and Method for Combining Text with Three-DimensionalContent”的PCT公開專利申請W02008/115222中)中已經(jīng)描述了用于字幕顯示的各種方法和系統(tǒng)。兩個PCT申請中的教導(dǎo)的全部內(nèi)容通過引用合并于此。通常,劇場呈現(xiàn)中的解說詞和字幕具有不同意義。例如,解說詞是指主音頻語言的注釋,而字幕通常是除主音頻以外的語言。然而,這二者是在主圖像上應(yīng)用文本的實例。由于本發(fā)明實施例等同地應(yīng)用于解說詞和字幕,因此這些術(shù)語在本討論中是可互換使用的。
解說詞和字幕也經(jīng)常會面對被‘開啟’或‘關(guān)閉’。開啟的解說詞或字幕對于所有觀看者可見,并且被‘疊印(burned)’,即成為主圖像(例如,用于呈現(xiàn)或顯示的圖像或內(nèi)容)的不可分元素。然而,關(guān)閉的解說詞或字幕不作為主圖像的一部分提供。取而代之,結(jié)合主圖像或內(nèi)容的顯示,通過監(jiān)視器或投影儀或驅(qū)動監(jiān)視器的機頂盒或服務(wù)器的動作來顯示關(guān)閉的解說詞或字幕。在一些情況下,例如,在數(shù)字電影呈現(xiàn)中,向字幕或解說詞提供針對它們在主圖像中的布置的元數(shù)據(jù)。在其他情況(例如,電視)下,提供不具有布置信息的關(guān)閉的解說詞,并且布置留給呈現(xiàn)系統(tǒng)負責(zé)。大多數(shù)電視系統(tǒng)提供關(guān)閉的解說詞作為由顯示設(shè)備呈現(xiàn)的文本流。在數(shù)字電影系統(tǒng)中,可以提供解說詞或字幕作為定時文本,其中可以缺省或明確知道和提供的字體來呈現(xiàn)文本串,或者解說詞或字幕可以作為文本的靜止幀圖像提供。
發(fā)明內(nèi)容
本發(fā)明原理的實施例提供一種準(zhǔn)備用于立體呈現(xiàn)的字幕或解說詞的方法和系統(tǒng)??梢园凑詹煌绞秸{(diào)整字幕,使得字幕可以在給定圖像顯示區(qū)域內(nèi)顯示,而不會被刪節(jié)或模糊。這樣的調(diào)整包括通過應(yīng)用縮放因子來改變字幕的尺寸、在圖像空間中平移字幕,改變字幕的視差或視深度或其組合。由于可以通過考慮下層圖中圖其他對象或元素的視差來進行對字幕的視差調(diào)整,因此可以使深度提示沖突(depth cur conflict)最小化,獲得改善的立體觀看體驗。一個實施例提供了一種準(zhǔn)備用于立體呈現(xiàn)的字幕的方法,包括根據(jù)調(diào)整信息來處理字幕,并且將處理后的字幕合成到至少一個立體圖像中,以產(chǎn)生用于立體呈現(xiàn)的至少一個變換的立體圖像。另一實施例提供了一種準(zhǔn)備用于立體呈現(xiàn)的字幕的系統(tǒng),包括第一處理器,被配置用于根據(jù)以下至少一個的調(diào)整信息來自動處理字幕縮放因子、平移量和視差變化,并且將處理后的字幕合成到立體圖像中,以產(chǎn)生用于立體呈現(xiàn)的變換的立體圖像。
通過考慮結(jié)合附圖的以下詳細描述,可以更加易于理解本發(fā)明的教導(dǎo),在附圖中圖I示出了呈現(xiàn)中屏幕的示例;圖2示出了圖I場景中3D鏡頭或合成的左眼視圖;圖3示出了圖I場景中3D鏡頭或合成的右眼視圖;圖4示出了通過重疊圖2-3的左眼圖像和右眼圖像而形成的立體視圖;圖5示出了具有解說詞的立體圖像,示出了解說詞和各種對象的視差;圖6示出了從立體圖像感知到的3D虛擬視圖;圖7A示出了解說詞被裁剪的立體視圖;圖7B示出了具有縮小的解說詞的圖7A立體視圖;圖8示出了被調(diào)整以免裁剪的解說詞;圖9示出了立體圖像,其中解說詞位置相對于3D圖像中的對象被調(diào)整以免裁剪和與深度提示沖突;圖IOA示出了圖7B的圖像的虛擬視圖;圖IOB是示出了圖8和9中兩個顯示的虛擬視圖;圖11示出了場景中另一解說詞布置;圖12示出了解說詞被裁剪的圖11中的顯示;圖13示出了被向上平移以免裁剪的圖11中的解說詞;圖14示出了具有調(diào)整視差以提供相對于3D圖像或內(nèi)容中對象的視差的特定關(guān)系的解說詞;圖15是示出了圖13和14的兩個顯示的虛擬視圖; 圖16示出了調(diào)整用于具有3D內(nèi)容呈現(xiàn)的顯示的字幕的方法;圖17A示出了字幕調(diào)整過程的第一實施例;圖17B示出了字幕調(diào)整過程的第二實施例;圖17C示出了字幕調(diào)整過程的第三實施例;圖17D示出了字幕調(diào)整過程的第四實施例;圖18示出了兩個覆蓋區(qū)的空白區(qū)和參數(shù);圖19示出了用于實現(xiàn)本發(fā)明原理的實施例的系統(tǒng)。為了便于理解,在可能的情況下將相同的參考數(shù)字用于指示附圖中公共的相同元件。
具體實施例方式
本發(fā)明的實施例提供了一種準(zhǔn)備用于在立體呈現(xiàn)中顯示的字幕或解說詞的方法和系統(tǒng),包括調(diào)整與字幕相關(guān)聯(lián)至少一個參數(shù),使得可以通過顯示系統(tǒng)的部件或配置來在給定顯示區(qū)域中呈現(xiàn)調(diào)整的字幕,而不會被模糊或刪節(jié)??烧{(diào)整參數(shù)可以包括字幕在顯示平面中的位置、尺寸或大小,以及相對于顯示平面的水平視差或視深度。通過基于字幕下層內(nèi)容(即,占用相同顯示圖像區(qū)域)中其他對象的視差來調(diào)整字幕的水平視差,可以向觀看者顯示字幕和對象,而不會與深度提示沖突。本發(fā)明原理可以使用在數(shù)字電影影院設(shè)備和視頻設(shè)備中,例如前端廣播或流傳輸系統(tǒng)以及消費者側(cè)設(shè)備,包括電視監(jiān)視器、機頂盒、DVD播放器、視頻錄像機、個人計算機、手持顯示器(例如視頻播放器或智能電話上的手持顯示器)、以及其他移動或便攜式設(shè)備。本發(fā)明原理適用于還沒有被疊印到主畫面或圖像內(nèi)容中的關(guān)閉的解說詞或字幕(不管是否提供布置信息作為元數(shù)據(jù)),并且用于連同形成呈現(xiàn)一部分的圖像或內(nèi)容一起顯示這些字幕或解說詞。在以下討論中,術(shù)語‘字幕’和‘解說詞’互換使用,以指代沒有按照分布疊印到主圖像中的文本或圖形。此外,字幕和解說詞可以包括無論由終端設(shè)備產(chǎn)生還是作為內(nèi)容流的一部分提供的圖形覆蓋元素。由終端設(shè)備提供的圖形覆蓋元素的示例包括機頂盒(例如,有線或衛(wèi)星盒)的菜單、來自DVD播放器的屏幕上顯示器、或包括針對回放速度、音量設(shè)置或當(dāng)前頻道的指示器的電視控制器。作為內(nèi)容流的一部分提供的圖形覆蓋元素的一些示例可以是體育比分、新聞爬行字幕、嵌入式廣告、“下時段呈現(xiàn)”通知、廣播網(wǎng)絡(luò)圖標(biāo)等。類似地,可以以如本文描述的相同方式來處理畫中畫顯示元素的布置和視差,并且可以理解為通過參考字幕或解說詞包括畫中畫顯示元素的布置和視差。根據(jù)本發(fā)明原理,根據(jù)需要利用尺寸調(diào)整實時地定位或重新定位用于3D呈現(xiàn)的字幕或解說詞(包括字幕、圖形覆蓋、畫中畫元素等),無論在數(shù)字電影還是視頻中,來適應(yīng)遮擋或圖像大小調(diào)整,并且避免對立體圖像中的內(nèi)容(即,對象)的尺寸元素的侵占。備選地,可以在實際內(nèi)容呈現(xiàn)之前進行對字幕或解說詞的調(diào)整,并且存儲調(diào)整后的字幕以供某些未來呈現(xiàn)使用。因此,對于給定圖像顯示區(qū)域或系統(tǒng)配置(例如,如遮擋、圖像大小調(diào)整或系統(tǒng)相關(guān)布置所限定),本方法允許自動調(diào)整解說詞的位置、比例和/或立體視差(或其組合),以提供具有美感和清晰度改善的解說詞和內(nèi)容顯示。存在會干擾適當(dāng)字幕顯示的許多可能的侵擾源或系統(tǒng)配置。例如,在影院中,投影儀可以由于屏幕彎曲、投影角度、不理想鏡頭大小或調(diào)整而超出屏幕的邊界,使得顯著地縮減了圖像空間。屏幕遮擋或幕簾可以侵占投影屏幕的可用區(qū)域,或者可以將梯形失真圖像 修剪成更具美感的矩形。在另一示例中,家庭監(jiān)視器(例如,大屏幕電視機)可能對圖像進行過掃描(以在全屏幕上顯示圖像的子集),例如,以免顯示內(nèi)容的邊緣或者呈現(xiàn)高分辨率內(nèi)容而無需重新縮放)。在一些模式中,單獨監(jiān)視器可以擴大縱橫比與監(jiān)視器本身不同的畫面,例如,如果縱橫比16 9的HD(高清)監(jiān)視器接收縱橫比4 3的SD(標(biāo)清)節(jié)目,因此圖像的特定部分被裁剪掉。根據(jù)本發(fā)明的實施例可以通過調(diào)整字幕來避免對正確字幕顯示的這種干擾或模糊。與2D和3D字幕或解說詞的布置有關(guān)的一些背景有助于理解本發(fā)明原理的各個方面。存在指定2D解說詞的布置的不同方式。在一個示例中,可以指定邊界框(例如,根據(jù)顯示軸取向的最小尺寸矩形,用于包圍感興趣的對象或項目),如解說詞的總體高度和寬度以及位置(例如,邊界框的左上角)所限定。如果沒有指定邊界框,則可以呈現(xiàn)解說詞的文本,并且確定邊界框。如果沒有指定位置,則位置缺省為預(yù)定值(例如,屏幕底部的10%并且以左到右的中心)。這樣的布置慣例是公知的并在標(biāo)準(zhǔn)中公開,例如,SMPTE429-5-2009 D-Cinema Packaging-Timed Text Track File 以及由 the Society of MotionPicture and Television Engineers, White Plains, NY 公開的現(xiàn)有技術(shù);MPEG_4Part17 text based subtitle format for MPEG-4,2006 年公開為 IS0/IEC14496-17 ;以及 the Synchronized Multimedia Integration Language (SMIL)produced by theinternational community of the World Wide Web Consortium (W3C), with offices inCambridge, MA,提供的最新文本是 version 2· 0 ;或在文件格式 Substation Alpha (. SASfiles)由同名舊產(chǎn)品使用,CL Low創(chuàng)建;以及Advanced Substation Alpha格式(從· SAS格式導(dǎo)出的· ASS 文件)as used by the Aegisub subtitle editor (among others)promoted by a development community at the Aegisub website (www. aeRisub. orR)。代替邊界框,更精確的描述是2D解說詞的“最小覆蓋區(qū)”,是包括光柵化解說詞所有像素的集合的區(qū)域(在光柵化解說詞空間中,不在顯示空間中),光柵化解說詞具有對完全顯示圖像的非零貢獻(即,既不完全透明也不被遮擋,或者離開屏幕)。對于本發(fā)明而言,可以提供2D解說詞的“覆蓋區(qū)”作為邊界框(即,完全封閉解說詞所有像素的矩形)、上述最小覆蓋區(qū)區(qū)域、或者實質(zhì)上包括最小覆蓋區(qū)區(qū)域的其他幾何圖形。3D解說詞的布置類似于2D解說詞的布置,除了與解說詞的右眼呈現(xiàn)與左眼呈現(xiàn)之間的水平偏移或水平視差或距離(例如,可以由像素數(shù)目、屏幕寬度百分比或距離單位等表示)相對應(yīng)的附加參數(shù)以外。這可以作為單個值提供,單個值表示右眼解說詞與用于對應(yīng)2D解說詞的布置位置或參考位置的偏移,其中左眼解說詞取符號相反的偏移(S卩,自2D布置位置沿著與右眼解說詞方向相反方向放置)。備選地,單個值可以表示右眼解說詞與左眼解說詞之間的距離,其中根據(jù)2D解說詞布置信息放置左眼解說詞。在本討論中,使用后一種呈現(xiàn),盡管兩種呈現(xiàn)同樣有效,并且可以使用簡單算術(shù)從一個呈現(xiàn)轉(zhuǎn)換到另一個呈現(xiàn),以調(diào)整水平布置值。為了設(shè)置后續(xù)附圖的上下文,圖I示出了來自呈現(xiàn)的代表場景,例如,以下進行討論的后續(xù)鏡頭的花園中的場景?;▓@場景100示出了在前景中站在一組花園大小的國際象棋棋子102 (包括一個特定國際象棋棋子,車)中間的演員103。在演員103后面是樹104。大約相同距離但后退到右側(cè)是燈105,并且還有建筑物106。圖2-15中所示的花園場景100 的鏡頭拍攝自圖I中呈現(xiàn)的有利位置略微向右的位置。圖2和3表示來自花園場景100的鏡頭或合成的立體圖像對,其中圖2示出了左眼圖像200,圖3示出了右眼圖像300。每個圖像200或300包括來自花園場景100的各個單獨對象的記錄圖像,使得花園場景中的每個對象在左眼圖像和右眼圖像200和300中具有對應(yīng)的記錄圖像。為了避免來自場景100的對象圖像與立體圖像200和300之間的潛在混亂,立體圖像也可以被稱作左眼合成200和右眼合成300,因此,演員103具有對應(yīng)圖像103L和103R,車101具有對應(yīng)圖像IOlL和101R,樹104具有對應(yīng)圖像104L和104R,燈105具有對應(yīng)圖像105L和105R,并且建筑物106具有對應(yīng)圖像106L和106R。圖4是由圖像200與300的重疊形成的立體視圖,其中,左眼圖像200如虛線所示,使得示出了左眼圖像和右眼圖像(200,300)之間的立體視差或位置偏移。在圖4中示出了若干視差。例如與車101相關(guān)聯(lián)的車視差401 (例如,根據(jù)右眼車圖像和左眼車圖像IOlR和IOlL的對應(yīng)垂直邊緣之間的分離所測量的)大約為水平-40個像素,其中當(dāng)右眼圖像在左眼圖像右側(cè)時度量為正。在車101的情況下,由于右眼圖像IOlR位于左眼圖像IOlL的左側(cè),因此聚焦在車101上的觀看者眼睛在示出了該立體對的顯示器(或屏幕或監(jiān)視器)的前面會聚,即車101出現(xiàn)在顯示器的前面。演員視差403大約為-5個像素,如在演員的衣袖處測量的,這略微在屏幕平面的前面。樹圖像104L和104R呈現(xiàn)大約+40個像素的視差,其中右眼圖像104R在左眼圖像104L右側(cè)。因此,樹104對于觀看者而言出現(xiàn)在顯示器或屏幕的后面。燈105以圖像105L與105R之間大約+45個像素的視差405出現(xiàn),并且建筑物106以106L與106R之間大約+60個像素的視差406出現(xiàn),每一個出現(xiàn)的距離比樹104更遠。圖5示出了立體解說詞510相對于圖4的立體視圖的期望布置。立體解說詞510包括右眼圖像510R和左眼圖像510L,在解說詞的左邊緣處具有大約-7個像素的解說詞視差511 (針對解說詞的其他部分測量的視差511’和511”也彼此相等)。該解說詞的覆蓋區(qū)(無論邊界框還是更緊湊的非空區(qū)域)在針對右眼解說詞圖像510R的水平位置512和針對左眼解說詞圖像510R的水平位置514處具有最左邊緣。對于平直出現(xiàn)的解說詞(迄今為止最普通的意圖),解說詞視差應(yīng)當(dāng)在解說詞寬度上一致或恒定,例如,在‘B,處的視差511,在下方‘t’處的511’以及在‘ss’處的511”。通過改變解說詞視差,解說詞可以沿深度方向以透視或彎曲方式出現(xiàn),但是這是罕見的。如圖5所示,左眼解說詞圖像510L的最左邊緣514位于右眼車圖像IOlL的最右邊緣515的右側(cè)。因此,車101與解說詞不交疊或交叉。如本發(fā)明原理的討論中使用的,解說詞(或其覆蓋區(qū))與圖像的交疊或覆蓋是指圖像空間中(例如,在χ-y坐標(biāo)空間中)的交疊,而不是沿著深度方向的交疊。右眼車圖像IOlR的最右邊緣513與左眼解說詞510L的最左邊緣512之間的間隙更明顯。這是美學(xué)偏好的問題,以免在視差比解說詞小的對象上顯示解說詞(具有較小視差的對象與具有較大視差的另一對象相比看起來更接近觀看者)。換言之,優(yōu)選地不使更遠離觀看者的解說詞(具有更大視差)與更接近觀看者的對象交疊。避免這種覆蓋的原因在于,對于觀看者而言,觀看者對破壞3D效果感知的立體信息存在差異。從目前的觀點看,這導(dǎo)致混亂并且在較長時間段產(chǎn)生疲勞。圖6是左眼611和右眼612觀看具有解說詞510的立體圖像500的觀看者610所感知的3D圖像或場景的虛擬視圖。(圖6是被稱作虛擬的是因為該視圖實際上不能從該有利位置觀察到)。對于觀察者610而言,立體車視差401引起在示出了立體圖像500的屏幕 前面感知到車圖像601。演員圖像603 (具有偏移或視差403)略微在屏幕前面,其中解說詞510正好在演員圖像的前面。樹視差404、燈視差45、建筑物視差106分別產(chǎn)生對在屏幕后面的遞增距離處的對應(yīng)圖像604、605和606的感知。盡管在圖6中作為平面示出了與不同對象相對應(yīng)的圖像,但是實際上,觀看者610應(yīng)當(dāng)將在與相應(yīng)視差相對應(yīng)的不同距離處的對象圖像601、603、604、605和606感知為3D。圖6示出了針對具有相應(yīng)視差401、403、404、405和406 (還參見圖4)的對象的感知3D位置。每個對象的感知位置有從左眼611和右眼612追蹤通過參考點(在參考點處,針對給定對象測量視差)的相應(yīng)光線的交叉點所指示。通過參展圖7-15討論根據(jù)本發(fā)明的準(zhǔn)備用于立體呈現(xiàn)的字幕或解說詞布置的不同情形和方法。示例 I圖7A是示出了具有解說詞510的立體圖像對500 (即,與左眼圖像和右眼圖像重疊的立體視圖)在區(qū)域700中被裁剪或遮擋或模糊的情形??梢詫?dǎo)致這種模糊區(qū)域700的一個示例是影院遮擋(例如,結(jié)合圖IOA討論的遮擋1020)。在圖7A的呈現(xiàn)中,從視圖上解說詞510的實質(zhì)部分被模糊的區(qū)域700遮擋,這損害了觀看者對放映的體驗和享受。圖7B示出了圖7A中的立體解說詞510被立體解說詞710代替的字幕顯示(也可以被稱作字幕校正或調(diào)整)的第一實施例,立體解說詞710包括右眼解說詞圖像和左眼解說詞圖像710R和710L,分別是右眼解說詞圖像510R和左眼解說詞圖像510L的縮小版本。針對圖像710R和710L的縮放因子相同,并且選擇這些縮放因子以確保生成的解說詞圖像不被區(qū)域700模糊。對于本實施例,將解說詞視差711設(shè)置為與解說詞視差511相同,使得立體解說詞710保持與解說詞510相同的深度。此外,立體解說詞710的覆蓋區(qū)的最左邊緣715 (例如,對應(yīng)于字母“B”的左邊緣)與最左邊緣515相同,因此確保立體解說詞710的邊界框覆蓋區(qū)落在立體解說詞510的邊界框覆蓋區(qū)內(nèi),并且因此不會干擾任何其他對象的深度感知。圖IOA示出了圖7B中所示的通過縮放產(chǎn)生的字幕的虛擬視圖1000A,其中縮放的解說詞710出現(xiàn)在圖6中看到解說詞510的相同位置,但是由于減小了對解說詞710的縮放,因此影院遮擋1020(或幕簾)不會模糊解說詞。解說詞710保持與解說詞510相同的視差,并且從而保持距離屏幕相同明顯距離。該提供縮放的立體解說詞710的方法的一個可能缺點在于,解說詞510的原始覆蓋區(qū)和模糊區(qū)域700的一些組合需要使得立體解說詞710無美感地較小的縮放因子,或者可能導(dǎo)致沒有解決方案(即,如果解說詞510的原始覆蓋圖完全在模糊區(qū)域700內(nèi)的話)。如果沒有找到解決方案,或者針對立體解說詞710的縮放因子小于預(yù)定值,則應(yīng)當(dāng)選擇不同的校正或方法(以下討論這些方法中的若干方法)。在另一實施例中,可以評估若干校正或正確動作,并且如下所述選擇最佳得分的一個來使用。示例 2在字幕顯示的第二實施例中,如果在立體解說詞510的覆蓋區(qū)與模糊區(qū)域700之間存在任何交疊或交叉,則將立體解說詞平移或位移(即,移動)了特定距離,以免模糊區(qū)域700刪節(jié)解說詞。然而,立體解說詞510向右的簡單平移可能導(dǎo)致解說詞510覆蓋或與 車101的立體圖像交疊(B卩,當(dāng)解說詞和車圖像占用顯示平面中的相同x-y坐標(biāo),或者在2D圖像空間的相同區(qū)域)。由于車具有小于解說詞視差511 (即,與解說詞相比,車視差是更大的負數(shù),并且因此車看起來比解說詞更接近觀看者1010)的視差401,因此這產(chǎn)生深度提示沖突或矛盾,其中解說詞510看起來與車101交疊,并且還具有指示其在車后面的視差。在這種情況下,解說詞的視差還可以被調(diào)整為與最近的交疊對象(在這種情況下,是具有視差401的車101)的視差相比更小(例如,更接近觀看者,這可以是幅度更大的示出,但是符號為負)。因此,在圖8中,立體呈現(xiàn)800包括立體解說詞810,立體解說詞810由右眼解說詞810R和左眼解說詞810L (如虛線所示)組成,右眼解說詞810R和左眼解說詞810L相對于解說詞510的覆蓋區(qū)水平向左平移了足以保持模糊區(qū)域700空白的量。選擇小于或等于車視差401的解說詞視差811,因此使解說詞810看起來在車101前面或者在與車101相同的視深度。圖IOB示出了與圖8相對應(yīng)的虛擬視圖1000B,其中解說詞810具有經(jīng)修改的位置和視差。通過將圖IOB與圖6相比較,可以看到解說詞810的解說詞布置和視深度相對于解說詞510的原始布置和視深度的變化。解說詞810相對于解說詞510的平移的一個選擇是確定解說詞510的垂直中心線應(yīng)當(dāng)出現(xiàn)在屏幕寬度的什么部分(在圖5中這是自呈現(xiàn)500的左邊緣的大約60%),并且再次應(yīng)用呈現(xiàn)的空白部分內(nèi)的百分比,即,將百分比重新計算為空白區(qū)的百分比,如所示。另一選擇(未示出)是選擇平移的解說詞將模糊區(qū)域清除了預(yù)定量所需的最小距離。該選擇引起左眼圖像810L(虛線解說詞圖像)的最右邊緣(在‘ss’處)剛好將模糊區(qū)域清除了預(yù)定量(即,最小釋放(relief)值或閾值)。在一些情況下,選擇的平移或位移值可能引起解說詞跨過呈現(xiàn)或顯示的圖像/內(nèi)容的相對邊緣,使得超過空白區(qū)的相對邊緣平移的解說詞的部分變得模糊。如Redmann的W02010/096030所教導(dǎo)的,該解說詞位移產(chǎn)生‘相對邊緣侵犯’,這需要縮小解說詞的比例,以免跨過任一邊緣,這是由于僅平移不能避免字幕的刪節(jié)和裁剪。在這種情況下,確定要應(yīng)用于解說詞的縮放因子還應(yīng)當(dāng)考慮視差如何變化可以增加或減小覆蓋區(qū)。在這種情況下,使解說詞的寬度最小化而同時保持預(yù)定最小釋放值‘I·’的縮放因子由方程I給出
Γ , (H、. - DiV卜 2r)tQ. I . = ■ - .............................................其中,‘s’是縮放因子,是Wa是未模糊區(qū)域的可用寬度,Dn是新視差(在這種情況下,解說詞視差811),Wtj是原始寬度(即,針對任一個眼睛的解說詞寬度,即,解說詞圖像5IOR或510L),并且DtJ是原始視差(在這種情況下是解說詞視差511)。如果‘s’大于或等于1,則不需要縮放,并且可用寬度足夠。但是如果‘s’小于1,則必須將解說詞的右眼圖像和左眼圖像中的每一個縮小因子s倍,結(jié)果立體解說詞插入到可用寬度中在任一側(cè)正好最小釋放值??s小(或調(diào)整)的解說詞的寬度Wn由方程2給出EQ. 2 ffN = SXff0 可用建立針對此類校正的美感實用函數(shù)以包括縮放因子‘S,的值(如果不需要縮放,則縮放因子‘S,被設(shè)置為1),以及視差變化的幅度IDtrO1J或有符號的視差變化(D0-On)。出于本討論的目的,美感實用函數(shù)用于對與特定解說詞布置或調(diào)整相關(guān)聯(lián)美感質(zhì)量的選擇進行量化或合理化。該函數(shù)可以采取任何形式,通常受特定邊緣條件的約束。在本發(fā)明的上下文中,函數(shù)或方程包括諸如縮放因子‘S,和視差變化‘d’等參數(shù)。函數(shù)可以基于經(jīng)驗度量,并且在許多情況下,根據(jù)有根據(jù)的推測或者來源組合,以創(chuàng)建“實用度量”,例如與原始解說詞布置的美學(xué)偏離的度量(因為由具有藝術(shù)能力的人所創(chuàng)建,因此可能被視為“理想”)。在給出解說詞縮放和/或位移的若干可能性的情況下,實用函數(shù)可以提供對最不能引起反感或最佳可用選擇的度量。理想地,相同的實用函數(shù)能夠用于解說詞重新定位的所有可能變型,但是不必是這種情況。然而,如果針對不同解說詞操作來創(chuàng)建不同度量,則需要確定兩個可能位移中的哪個是優(yōu)選的或者同樣可接受的機制。較大的視差變化可以引起“難以觀看”呈現(xiàn)810,這對于觀看者沒有吸引力,因為解說詞810在感興趣對象(在這種情況下,是演員103)的圖像前面較遠處。呈現(xiàn)500中解說詞的原始藝術(shù)意圖在于將立體解說詞510正好放在演員103的立體圖像前面或者接近該立體圖像,使得在讀取解說詞510與演員103之間幾乎不存在觀看者眼睛會聚的變化。示例 3在針對字幕顯示的第三實施例中,對另外刪節(jié)字幕的校正涉及避免立體解說詞510的覆蓋區(qū)與模糊區(qū)域700之間的交叉或交疊。這可以通過平移立體解說詞以不僅避免模糊區(qū)域700而且還避免包含視差小于解說詞的對象(即,接近觀眾或者在解說詞前面出現(xiàn)的對象)的區(qū)域。一種方法是跟蹤空白區(qū),首先,從與圖像500相對應(yīng)的區(qū)域中扣除模糊區(qū)域700,然后從空白區(qū)中去除具有視差小于解說詞的視差511的對象的所有區(qū)域。這可以可以通過以下來實現(xiàn)創(chuàng)建或獲得用于立體圖像500的視差圖并且將視差圖中的每個位置與視差511相比較,從而對視差圖進行二值化。例如,向視差等于或大于視差511的位置分配第一值,并且向視差小于視差511的位置分配第二值。如果按照策略,存在最小釋放值‘r’,通過該最小釋放值‘r’解說詞清除接近對象(例如,車101),則二值化的視差圖可以被‘r’膨脹(dilation),以膨脹接近對象區(qū)域(膨脹是與二值圖像一起使用的普通圖像處理函數(shù),其中真值像素的范圍‘r’內(nèi)的任何假值像素被設(shè)置為真。這類似于圍繞車101添加后的‘I·’的環(huán)狀物,并且出于解說詞布置目的考慮模糊區(qū)域700的等同物)。可以從空白區(qū)中去除生成的二值化視差圖和模糊區(qū)域700。在備選實施例中,從與圖像500相對應(yīng)的區(qū)域中減去前景車101和模糊區(qū)域700所占用的區(qū)域,以獲得空白區(qū),然后該空白區(qū)被最小釋放值‘r’被腐蝕以根據(jù)策略來精煉空白區(qū)(利用腐蝕,將假值像素的范圍r內(nèi)的任何真值像素設(shè)置為假)。在圖9中示出了該校正的結(jié)果,其中已經(jīng)平移或位移了解說詞910,以免與模糊區(qū)域700和接近觀眾的對象車101交疊。解說詞910的右眼圖像910R和左眼圖像910L之間的視差與原始視差相同。因此,解說詞910避免模糊區(qū)域700,并且通過保持車101為空白,還避免與深度提示沖突。此外,如原始選擇的解說詞910保持在相同視深度,從而保持至少一些原始藝術(shù)意圖。在圖IOB中的虛擬視圖1000B中示出了圖9中位置修改了的解說詞910 (并且還示出了以上描述的解說詞810)。通過將圖IOB與圖6相比較,可以看出解說詞910的解說詞布置和視深度相對于解說詞510的原始布置和視深度的變化。為了確定足以將至少一部分模糊解說詞(例如,510)完全放置在空白或安全區(qū)域 (例如,立體圖像90的區(qū)域扣除了模糊區(qū)域700和包含車101的區(qū)域)的最小或近似最小平移或位移,可以使用以下過程。對于空白區(qū)中的每個像素,確定解說詞(如果位于該像素處)的覆蓋區(qū)是否完全位于空白區(qū)內(nèi),其中,覆蓋區(qū)“位于該像素處”,覆蓋區(qū)中的每個像素位于空白區(qū)內(nèi)。當(dāng)解說詞的覆蓋區(qū)被稱作位于像素處時,這意味著該像素用于確定覆蓋區(qū)的位置。一種可能選項是使用像素來限定邊界框的左上角位置。另一選項是解說詞質(zhì)心的位置(或者邊框質(zhì)心的位置,可以是相同度量)。對于覆蓋區(qū)內(nèi)與空白區(qū)外部的像素交叉的每個像素(即,覆蓋區(qū)超出空白區(qū)或者在空白區(qū)外部擴展),計算最大縮放因子,使得具有相同位置的縮放覆蓋區(qū)與像素不交叉,并且對于位置注釋也計算最小縮放因子。在備選實施例中,并不檢驗空白區(qū)中的每個像素,而是可以稀疏地或者僅針對一些像素進行位置檢驗。例如,可以檢驗每第10行中每第10個像素的光柵,或者可以使用Monte Carlo方法來評價空白區(qū)內(nèi)的隨機點。與該第三解說詞重新定位方法一起使用的實用函數(shù)可以基于重新定位或新的解說詞位置與原始解說詞位置之間的距離以及縮放因子。再多幾個像素的新位置遠離原始位置,但是不需要縮放,這與需要解說詞收縮10%的略微近的位置相比可能是更好的選擇。實用函數(shù)認為垂直位移比水平位移成本更高并且不令人期望??瞻讌^(qū)上實用函數(shù)的評價(即,針對空白區(qū)中的每個像素或選定像素完全或稀疏地進行評價)產(chǎn)生對于重新定位的解說詞910而言最小值是優(yōu)選選擇的梯度。由于對點進行采樣,并且坡度逐步發(fā)展,因此更高級搜索策略可以使用發(fā)展坡度來集中在分數(shù)高的區(qū)域,從而優(yōu)化選擇,而不會局限在局部最小值。在類似方法中,可以從空白區(qū)中扣除圖像的顯著區(qū)域(例如,具有重要特征)。例如,重新定位解說詞910使得覆蓋了演員103的臉部,這是不好的呈現(xiàn),因為演員的臉部通常定義了圖像的顯著區(qū)域。類似地,如果存在在背景中進行的動作的特定重要細節(jié),則重新定位字幕導(dǎo)致該動作被隱藏是不好的選擇。為此,可以從空白區(qū)中扣除顯著區(qū)域(例如,以Le Muer等人在專利申請US 2009/0110269中較大的方式檢測到的那些顯著區(qū)域)。這樣,以同樣的方式將圖像的顯著部分視為模糊區(qū)域(例如,700),或者比解說詞更近的對象(例如,車101)。US 2009/0110269主旨的全部內(nèi)容通過引用合并于此。在備選實施例中,在候選位置被解說詞的覆蓋區(qū)覆蓋的顯著圖(例如,如Le Muer等人所教導(dǎo)的)可以累積,并且應(yīng)用于針對該位置的實用函數(shù)。這樣,在其他條件都相同的情況下,與覆蓋不顯著和/或更少像素的不同解說詞位置相比,覆蓋或與更多顯著像素交叉的解說詞位置接收較差的實用值。注意當(dāng)在某位置處確定對象或顯著區(qū)域的像素與解說詞的像素之間的交叉或交疊時,在左眼圖像對象與左眼解說詞圖像(例如,圖5中車IOlL和解說詞510L)之間進行第一比較,并且在右眼圖像對象(例如,101R)與右眼解說詞圖像(例如,圖5中的車IOlR和解說詞510R)之間進行第二比較。備選地,在解說詞的覆蓋區(qū)(包括左眼解說詞圖像與右眼解說詞圖像的合并)與針對左眼和右眼的空白區(qū)交叉之間進行比較。例如,可以通過消除前景中的所有對象(即,生成的空白區(qū)排除對象所占用的區(qū)域),僅針對右眼計算空白區(qū)。然后,通過排除針對左眼圖像的對象所占用的區(qū)域,針對左眼進行同樣的計算。“空白區(qū)的交叉”是在左眼和右眼的空白區(qū)中的那些像素。在另一實施例中,可以僅針對一只眼睛進行比較,S卩,將左(或右)眼圖像與左 (或右)眼解說詞相比較,期望空間相干性不會產(chǎn)生實質(zhì)上不同的判定。(空間相關(guān)性在這里是指以下概念如果左眼圖像示出了不會影響解說詞的良好平滑表面,則另一只眼睛圖像不可能呈現(xiàn)完全不同的輪廓,并且如果呈現(xiàn)了完全不同的輪廓,則這也是很少發(fā)生的)。如果對最小釋放值的正確選擇可以實質(zhì)上確保不會發(fā)生對顯然更近對象的干擾,上述選擇特別有效。為了獲得這種保證,在多數(shù)情況下,足以將最小釋放值(或者對象與解說詞之間的最小分開)應(yīng)用于對象的僅一側(cè),該側(cè)也與所考慮的對應(yīng)眼睛圖像同側(cè)(即,當(dāng)考慮左眼圖像時,最小釋放值可以應(yīng)用于所討論的對象圖像的僅左側(cè))。備選地,該最小釋放值還可以應(yīng)用于解說詞圖像的左側(cè)。為了策略或藝術(shù)的意圖,可以指定解說詞與該最小釋放值相比不那么接近對象。在一個實施例中,這可以由視差(例如,1/2個像素或I個像素)表示,使得即使在其最近布置處,解說詞看起來也與其上放置了解說詞的下層對象分離。視深度(或者與χ-y圖像平面相對的ζ方向)的這種分離由根據(jù)最小釋放值設(shè)置的解說詞視差產(chǎn)生。在圖11-13中還示出了該解說詞布置方法,其中圖11示出了另一種呈現(xiàn)1100,其中具有右眼解說詞圖像11IOR和左眼解說詞圖像1110L的解說詞1110具有大于車視差401的立體視差1111。通過將解說詞1110定位在車101前面,可以避免解說詞與車之間的視深沖突。類似于圖IOB中的解說詞810,接近車101放置解說詞1110,并且在屏幕前面的較遠位置處。圖12示出了模糊區(qū)域1200剪裁解說詞1110的一部分從而損害呈現(xiàn)1100的示例。這一點在圖13中通過將解說詞1110定位到不會引起對解說詞的任何裁剪或遮擋并且避免覆蓋視差比解說詞和任何顯著區(qū)域更小的任何對象(例如,演員103的臉部)的位置來糾正。因此,呈現(xiàn)1300示出了包括右眼解說詞圖像1310R和左眼解說詞圖像1310L的解說詞1310,解說詞1310是解說詞1110的重新定位版本,即,向上平移以避免模糊區(qū)域1200,但是沒有遠到足以覆蓋演員的臉部。保持解說詞1110的原始視差1111作為圖13中的視差1311,使得解說詞1310仍出現(xiàn)在屏幕前面的較遠位置處。示例 4圖14示出了根據(jù)圖13的解說詞進一步調(diào)整解說詞1310的視差的呈現(xiàn)1400。具體地,已經(jīng)針對最小視差檢驗在解說詞1310的覆蓋區(qū)以下或者覆蓋解說詞1310的覆蓋區(qū)的呈現(xiàn)或圖像內(nèi)容(即,識別覆蓋解說詞的覆蓋區(qū)的最接近觀眾的對象),并且在找到最近對象時,將解說詞的視差增加達到最近對象的視差(即,將解說詞移到離觀眾更遠的位置)。因此,如果之前將字幕或解說詞向前置于較遠位置以免深度提示與不再看得見的對象沖突(例如,置于車101前面的解說詞1310,現(xiàn)在會被模糊區(qū)域1200隱藏),則遠離字幕所覆蓋的最近對象移動字幕,但是不要太遠,因為這會產(chǎn)生深度提示沖突。這防止解說詞在其他對象前面被完全“孤立”,否則這會導(dǎo)致難以觀看到呈現(xiàn)1300。因此,利用力視差1411設(shè)置包括右眼解說詞圖像1410R和左眼解說詞圖像1410L的解說詞1410,立體視差1400與演員103的圖像的視差403相同或略微小。備選地,如上所述可以將解說詞推送回到相對于覆蓋的最近對象不比預(yù)定的“最小釋放值”近的位置。圖15示出了呈現(xiàn)1300和1400的組合虛擬視圖,其中,僅將解說詞1110向上平移以避免圖13中的模糊區(qū)域1200引起解說詞1300看起來完全浮在最近對象圖像(即,演員圖像603)前面。(注意最初將解說詞1310定位在前面較遠位置處以免與先前最近對象(車圖像101)的深度提示沖突,該車圖像101現(xiàn)在被遮擋1520模糊)。不讓解說詞1310在前面較遠位置處,解說詞1310的視差增加(使得成為更大的正數(shù))以類似于下個最近對象的視差,如以上針對圖14描述的,引起解說詞1410在深度上看起來接近演員603。然而,解說詞視差應(yīng)當(dāng)不超過下個最近對象的視差,在一些實施例中,與最小釋放值相比不接近解說詞所覆蓋的下個對象。以下對上述用于調(diào)整解說詞的示例進行總結(jié)I)在位置上縮放解說詞,而不改變解說詞視差(當(dāng)不存在與任何對象的深度提示沖突時);2)利用可選的縮放平移解說詞,以避免模糊區(qū)域,但是減小視差(接近觀看者一定解說詞)以免與對象的深度提示沖突;3)利用可選縮放平移解說詞,以避免模糊區(qū)域和深度提示沖突;以及
4)利用可選縮放平移解說詞,以避免模糊區(qū)域,并且如果在下個最近對象前面太遠位置則增加視差(遠離觀看者移動解說詞)。圖16示出了根據(jù)本發(fā)明原理實施例的準(zhǔn)備用于顯示的解說詞的方法。該過程包括重新定位或重新布置一個或多個解說詞,使得完整地顯示每個解說詞,而不會被剪裁或遮蔽,例如,就好像可以由于縮減的圖像區(qū)域而出現(xiàn),就好像當(dāng)圖像的部分變得被剪裁或遮蔽時。方法1600在步驟1601開始,在步驟1601中確定呈現(xiàn)系統(tǒng)和關(guān)聯(lián)的設(shè)置(例如,特定觀眾席或顯示器,以及設(shè)置,相應(yīng)地例如影院遮擋或圖像拉伸和/或裁減)。在步驟1602中校準(zhǔn)呈現(xiàn)系統(tǒng)及其設(shè)置,以識別整個圖像區(qū)域的哪個區(qū)域被模糊。Redmann 在 PCT 公開申請 W02010/096030 “Method and Apparatus for PreparingSubtitles for Display”中詳細地討論了這樣的校準(zhǔn)技術(shù)。例如,一個校準(zhǔn)過程包括將坐標(biāo)網(wǎng)格投影到屏幕上,并且指出觀察到的最接近屏幕角的最外坐標(biāo)。這些角坐標(biāo)內(nèi)部的區(qū)域限定空白的投影圖像區(qū)的區(qū)域,而這些角坐標(biāo)外部的區(qū)域從視圖上看被模糊。通常針對立體操作模式中的任一只眼睛進行校準(zhǔn),或者在2D中,通過禁用立體操作。然而,在特定不經(jīng)常情況下,需要為每只眼睛單獨產(chǎn)生校準(zhǔn),例如,如果從實質(zhì)上不同的點投影右眼和左眼立體圖像,因此潛在地具有實質(zhì)上不同的模糊區(qū)域。同樣可能的是,投影儀或顯示器具有針對右眼圖像和左眼圖像中的每一個具有不同的水平偏移(即,水平會聚有缺陷,或者已經(jīng)被有意改變),則兩只眼睛圖像在兩側(cè)實質(zhì)上以不同方式被剪裁。校準(zhǔn)的結(jié)果是在呈現(xiàn)系統(tǒng)上建立圖像的空白或非模糊區(qū),呈現(xiàn)系統(tǒng)可以是特定觀眾席中的投影屏幕或者家庭娛樂系統(tǒng)或其它觀看設(shè)備中的監(jiān)視器。通常對于右眼圖像和左眼圖像中的每一個空白區(qū)是相同的,但是如上所指出的,在一些情況下,空白區(qū)對于右眼圖像和左眼圖像而言不同(例如,當(dāng)投影儀在物理上分開投影兩個圖像時)。如果使用方法1600以在電影或呈現(xiàn)播放時實時地改變解說詞的位置,則在步驟1603處開始呈現(xiàn)。如果不與放映或呈現(xiàn)同時實時地使用方法1600,則例如通過檢驗包括要在后續(xù)時間播放的內(nèi)容的文件來在步驟1603處進行對解說詞的預(yù)處理。然后根據(jù)以下描述的后續(xù)步驟來處理這些文件的解說詞或字幕。在步驟1604中,檢驗內(nèi)容文件中的字幕或解說詞,或者在整個呈現(xiàn)期間實時地進行。在步驟1605中,進行比較以確定解說詞的覆蓋區(qū)是否延伸到根據(jù)步驟1602獲得的空白區(qū)之外。如果對于右眼圖像和左眼圖像而言存在單個空白區(qū),則在兩個分開步驟中進行 比較,針對右眼和左眼解說詞圖像覆蓋區(qū)中的每一個進行一個比較;或者在一個步驟,將右眼和左眼解說詞圖像覆蓋區(qū)的合并或組合與空白區(qū)相比較。如果針對左眼圖像和右眼圖像的空白區(qū)不同,則一種實現(xiàn)方式是分別針對每個眼睛圖像跟蹤空白區(qū),并且針對每個空白區(qū)分別比較解說詞的覆蓋區(qū)。另一種實現(xiàn)方式可以將左眼解說詞和右眼解說詞的組合覆蓋區(qū)(即,覆蓋區(qū)的合并)與左眼和右眼空白區(qū)(即,空白區(qū)對于兩個立體圖像是公共的)的交叉相比較。后者更精確,后一種選擇的各種組合可以更經(jīng)濟,還完全適合。備選地,還可以將空白區(qū)與兩個解說詞圖像覆蓋區(qū)之一相比較,加上擴展的覆蓋區(qū)部分以說明相對于另一眼睛的解說詞圖像的視差或偏移。如果比較示出了解說詞(覆蓋區(qū))完全位于空白區(qū)內(nèi),則通過將解說詞覆蓋或合成到圖像來繼續(xù)處理,如以下討論的步驟1609中所示。否則,可以在步驟1606中執(zhí)行一個或多個解說詞或字幕調(diào)整過程。可以提供四個示例性字幕調(diào)整過程(例如,圖17A-D中分別示出的過程1700、1710、1720和1730)中的一個或多個以在步驟1606處使用。在該實施例中,每個過程還返回質(zhì)量評價,例如,可以在步驟1607中使用以確定特定字幕調(diào)整過程的結(jié)果是否可接受的實用函數(shù)。在以下描述中,步驟1606中的每個解說詞調(diào)整過程返回計算的實用函數(shù),該函數(shù)表示可用性的經(jīng)驗評價和調(diào)整的字幕的美學(xué)質(zhì)量。如果實用函數(shù)大于預(yù)定值(對于不同過程可以相同或不同),則調(diào)整是可接受的并且可以應(yīng)用在步驟1608中。否則,在步驟1606處嘗試另一字幕調(diào)整過程。在一個實施例中,可以選擇步驟1606中嘗試或評價的字幕調(diào)整過程的量級以使找到適合或可接受的結(jié)果的期望計算成本最小化。例如,如果期望每個字幕調(diào)整‘a(chǎn)’提供具有可能性或概率‘P(a)’的可接受結(jié)果,并且嘗試調(diào)整的期望計算成本為‘c(a)’,則根據(jù)c(a)/p(a)的增加比的量級(這實質(zhì)上表示每單位成功機會的成本)來評價各個過程通常提供最小期望成本。評價這些過程的量級可以基于經(jīng)驗證據(jù)或現(xiàn)有經(jīng)驗,并且還可以基于特定場景中的結(jié)果自動改變。這假定每個P(a)獨立于針對‘a(chǎn)’的其他值的成功或失敗,SP,如果一個方法不能產(chǎn)生令人滿意的結(jié)果,那么也不會影響其他方法的概率。在另一實施例(未示出)中,在步驟1606嘗試或評價字幕調(diào)整的每個方法,并且將返回的美學(xué)實用函數(shù)值彼此相比較(而不是如在步驟1607中與預(yù)定的‘足夠良好’值相比較)。這提供了最佳的可用調(diào)整,但是始終具有最差情況的成本。如果選擇僅一個解說詞調(diào)整過程在步驟1606中使用,則省略步驟1607(這是因為不存在比較的其他備選過程)。在步驟1608處對字幕進行調(diào)整之后,或者如果在步驟1605中確定了字幕在空白區(qū)內(nèi)(并因此不需要調(diào)整),則在步驟1609處將立體字幕與立體圖像合成。如果方法1600在內(nèi)容呈現(xiàn)期間實時地執(zhí)行,則將字幕合成到圖像中,并且呈現(xiàn)生成的合成。如果過程沒有實時地進行,則將字幕合成到與其相關(guān)聯(lián)的立體圖像中,以產(chǎn)生經(jīng)變換的圖像,并且將結(jié)果(例如,作為被合成到相應(yīng)圖像中的一個或多個數(shù)據(jù)文件字幕)存儲在一個或多個存儲器設(shè)備(未示出)中以供后續(xù)使用。在步驟1610處,如果確定不存在多個要檢查的字幕,則方法在步驟1604處重復(fù)。否則,在步驟1611處完成調(diào)整方法。圖17A-D示出了不同的過程或方法,這些過程或方法例如可以在步驟1606中用 于調(diào)整字幕或解說詞以適合為了圖像顯示而縮減的空白區(qū),使得生成的字幕可以完整地顯示,例如,不會被遮擋或裁剪。方法I圖17A示出了用于原地縮放解說詞調(diào)整的過程1700。術(shù)語“原地”意味著不存在對超出器原始覆蓋區(qū)的解說詞的平移或布置。在步驟1701處發(fā)起該過程,其中初始條件是原始解說詞的覆蓋圖沒有完全包含在空白區(qū)(例如,如根據(jù)系統(tǒng)校正所確定的,例如,圖16中的步驟1602)中。在步驟1702處,將新的覆蓋區(qū)設(shè)置為等于原始覆蓋區(qū)與空白區(qū)的交叉。在步驟1703處,確定縮放因子以應(yīng)用于原始覆蓋區(qū)的高度和寬度,使得充分縮減縮放尺寸以適合新覆蓋區(qū)。在不同實施例中,縮減的解說詞可以保持原始覆蓋區(qū)的縱橫比(即,針對高度和寬度使用相同的縮放因子),或者可以允許縱橫比在限制量內(nèi)變化。例如,在對覆蓋區(qū)進行跟蹤并且與其邊界框比較的實施例中,覆蓋區(qū)的原始高度為Htj且寬度為\的解說詞在與空白區(qū)交叉時產(chǎn)生高度Hn和寬度Wn的新覆蓋區(qū)。注意可以將邊界框視為“充分大”類型的覆蓋區(qū)?!扒『酶采w區(qū)”精確地是被解說詞文本(例如包括陰影或光圈效應(yīng))改變的那些像素,而不會是其他像素。擴大的覆蓋圖是將恰好覆蓋圖膨脹了 r (最小釋放值)。通常,覆蓋圖可以是復(fù)雜、不連續(xù)、不連貫的區(qū)域。覆蓋圖的邊界框版本簡化了計算,并且通常產(chǎn)生相似的結(jié)果(盡管可能是不同的結(jié)果)。圖18示出了空白區(qū)AB⑶,原始覆蓋圖WXYZ,新的覆蓋圖WXY’ Z’,及其相應(yīng)參數(shù)。在這種情況下,Wtj = WN??梢詫⒑唵慰s放因子(通常由‘S,表示)確定為更低或更小的高度比Hn/U(或sH)以及寬度比WnZX(或sw)。由于‘s’用于縮小解說詞的比例,因此‘s’小于或等于I。針對右眼和左眼解說詞圖像中的每一個重復(fù)該計算,以用于整個呈現(xiàn)。備選地,可以基于右眼和左眼解說詞圖像邊界框來計算縮放因子,但是當(dāng)高度比保持相同時,寬度比變?yōu)?Wn-IdqI)/(wq-|dq|),其中,Dq表示對象的視差(例如,針對車101的視差401),因為要用于該方法,保留右眼圖像與左眼圖像之間的原始視差。如果要保留解說詞的縱橫比,則在步驟1704處對高度和寬度使用相同的縮放因子‘s’來縮放解說詞。然而,如果允許以變量‘V’改變縱橫比,在一個示例中,可以將該變量預(yù)先確定為30% (V的值是策略問題,盡管實際上值2(200%)變得難以讀取),則可以將經(jīng)縮放的解說詞的其他軸(相對于比值或縮放因子較小的軸)的比例從‘S,增加到s(l+v),其中s(l+v)具有最大值I。例如,如果從整體上看需要將解說詞的寬度收縮到50% (s =O. 5),則這不一定意味著必須將高度縮放相同量。變量‘V’限制允許高度保留像現(xiàn)在這樣的程度(如果V = 0,則將高度縮放到恰好為寬度)。然而,不期望使縮放的高度超過(即,大于)其原始值,因為這增大了覆蓋區(qū),并且可能引入負面美學(xué)效果。作為示例,假定立體解說詞原始總共為500個像素寬(即,包括右眼和左眼解說詞圖像),并且50個像素高,其中視差為20個像素(備選地,右眼和左眼解說詞圖像分別為480個像素)。從而,W0 = 500, H0 = 50,并且Dtj = 20。在特定呈現(xiàn)環(huán)境中(例如,在步驟1601處建立的呈現(xiàn)環(huán)境),假定在步驟1602處確定的空白區(qū)將該特定解說詞的原始覆蓋區(qū)水平裁剪了 100個像素,而在垂直方向沒有裁剪,以產(chǎn)生Wn = 400,且Hn = 50 (未改變)的新覆蓋區(qū)。這產(chǎn)生 Sff = (Wn-D0)/(W0-D0) = 380/480,或者近似 O. 79,以及 sH = HN/H0 = I。如果針對縮放的解說詞保留原始縱橫比,則針對解說詞的高度和寬度而選擇的縮放因子是
0.79。然而,如果允許縱橫比變化高達V = 30%,則針對高度的縮放比應(yīng)當(dāng)高達O. 79*(l+v)或者大約I. 03,根據(jù)以上約束(即,不會將高度縮放到超出其原始值),該縮放比會固定值
1.O。如果空白區(qū)將該特定解說詞的原始覆蓋區(qū)水平裁剪了 200個像素(而不是100個像素),則應(yīng)當(dāng)sw是280/480 = O. 58(大約),并且8[1應(yīng)當(dāng)高達O. 58* (l+ν),或者大約O. 76。注意保留了解說詞的原始縱橫比的情況與設(shè)置V = 0%相同。為了應(yīng)用該子.調(diào)整,如在步驟1703中所確定的將原始子.縮放了 Sj^PsH。向縮放的解說詞應(yīng)用平移,以確保該縮放的解說詞完整地位于新覆蓋區(qū)內(nèi),因此完整地顯示,即不會被裁剪。對于這種平移的良好選擇是使字幕位置沿著任一軸或方向不變,假如沿著該方向解說詞的尺寸沒有縮減(例如,如果的仏/%比值為1,則垂直位置可以保持不變)。如果必須縮減或者縮小沿著給定方向的解說詞尺寸,則沿著該軸的解說詞位置可以被設(shè)置為,使得縮放的解說詞的中心與新覆蓋區(qū)的中心一致。該縮放和平移的應(yīng)用可以在步驟1704處進行,或者可以被延遲,直到例如在步驟1608處完成對該特定調(diào)整的選擇為止。作為澄清,方法1700首先通過圖16的步驟1606,其中對從步驟1705估計的質(zhì)量執(zhí)行步驟1607處的測試。如果多個調(diào)整方法(例如,圖17A-D中所示)可用于步驟1606中,則對于第一種方法,在步驟1705處應(yīng)當(dāng)對呈現(xiàn)質(zhì)量值進行估計。如果在步驟1607處來自第一方法的結(jié)果被視為不充分,則在步驟1606中評價另一解說詞調(diào)整方法,其中將覆蓋區(qū)和字幕重置到原始位置和設(shè)置。例如,在原地縮放解說詞調(diào)整過程1700的情況下,用于步驟1705的呈現(xiàn)質(zhì)量值應(yīng)當(dāng)基于較小或較低的縮放因子(由‘s/表示),即,兩個比值HN/HdPWN/W。中的較小者。例如,被縮減到其原始大小的50%的解說詞與被縮減到其原始大小的70%的解說詞相比產(chǎn)生較差的質(zhì)量呈現(xiàn)。實用函數(shù),或者在這種情況下質(zhì)量函數(shù)‘qs’通常通過經(jīng)驗評價來產(chǎn)生,以確定提供的參數(shù)與呈現(xiàn)質(zhì)量值之間的適當(dāng)關(guān)系(例如,較小的縮放因子,或者與特定方法相關(guān)的其他參數(shù))。例如,可以通過考慮以其原始大小的100%的解說詞是理想的,來構(gòu)造針對基于較小縮放因子的呈現(xiàn)質(zhì)量的示例性函數(shù),該函數(shù)由(‘qs(Sl)’)表示。注意,Qs是“基于縮放的質(zhì)量函數(shù)”,對于本實施例而言,Qs基于作為較低或較小縮放值S1 (即不是s(l+v))的縮放因子。在這種情況下,Qs(I) = I。當(dāng)然,根本看不到高度或?qū)挾缺豢s減到0%的解說詞,并且該解說詞呈現(xiàn)了非常不好的呈現(xiàn)質(zhì)量,從而qs(0) =0。如果原始覆蓋區(qū)與空白區(qū)之間的交叉為空,則會出現(xiàn)這樣的情況。
然而,被縮放到如此小以至于不可讀的解說詞還表示類似的較差呈現(xiàn)質(zhì)量。從而,對于特定給定字體和其他情況,存在預(yù)定縮放因子Stl (或者閾值縮放值),在該預(yù)定縮放因子以下質(zhì)量函數(shù)為零。因此,Qs(Stl)也等于O。如果Stl等于O. 5,則這意味著在50%的縮放因子處或以下字體不可定,并且使得解說詞沒有價值。對于這樣的解說詞,質(zhì)量函數(shù)‘qs’可以以較小的縮放因子以及在其以下解說詞變得無用的縮放因子來表達方程3:
otherwise — 0
■M這里,括號內(nèi)的部分表示條件等式。如果S1大于或等于Stl,則(S1-StlV(I-Stl)用于計算Qs的結(jié)果。如果S1 < ScX其他條件),則是qs是O。對于大于閾值縮放因子Stl并且高達I的縮放因子S1,該示例性質(zhì)量函數(shù)獲得從O 到I的線性質(zhì)量函數(shù)。質(zhì)量函數(shù)可以針對不同字體而不同。例如,一些字體可能不是如此限制性的(例如,滑體、非斜體、非粗體),并且可以被估計具有S(l = 0.3。同樣,花式草寫字體對縮放非常敏感,并且具有Stl = O. 9。通常,S0是經(jīng)驗上確定的值,并且有時是主觀的。此外,本文提出的方程僅作為說明并非限制。隨著步驟1705處對呈現(xiàn)質(zhì)量的估計,過程1700可以在步驟1706返回(并且根據(jù)需要返回值步驟1607),記錄對所提出的解說詞變化的估計質(zhì)量。方法2圖17B示出了第二字幕調(diào)整過程1710。過程1710允許字幕水平和/或垂直平移,以根據(jù)需要利用縮放保留在空白區(qū)內(nèi)。此外,檢查重新定位字幕的新覆蓋區(qū)下層的圖像中任何對象的視差是否需要調(diào)整字幕本身的視差(從而字幕通過出現(xiàn)在字幕所覆蓋的另一對象后面而不會與該對象的視深度沖突)。過程1710在步驟1711處開始,初始條件是原始解說詞或字幕的覆蓋圖沒有完全包含在空白區(qū)內(nèi)。在步驟1712處,識別被原始字幕覆蓋區(qū)侵犯的空白區(qū)的邊緣(例如,Redmann的WO 2010/096030所教導(dǎo)的),并且將字幕平移足夠量以克服這些邊緣侵犯。如果在步驟1703處,字幕沒有全部位于空白區(qū)內(nèi),例如,如果字幕比空白區(qū)寬,則在步驟1714處,對字幕進行縮放以適合空白區(qū)(并且如上,縮放可以保留原始縱橫比,或者根據(jù)預(yù)定策略來修改該縮放)。在步驟1714之后,將字幕的視差與平移且可能縮放的字幕的新覆蓋區(qū)下層的立體圖像的視差相比較。如果字幕具有小于或等于下層立體圖像的視差(即,字幕看起來接近字幕下面的對象),則認為字幕調(diào)整是成功的,并且在步驟1718處處理繼續(xù)。然而,如果經(jīng)調(diào)整的字幕的視差大于其覆蓋的對象的視差(或者在預(yù)定最小視差差值內(nèi)),則在步驟1716處將立體字幕的視差調(diào)整為小于或等于下層對象的最小視差(或者小于或等于下層對象的最小視差,而不是預(yù)定的最小視差差值)。作為示例,如果處理美學(xué)策略,將重新定位的字幕限制為略微在下層對象之上浮動,則首先將字幕的視差縮減到下層對象的視差,然后縮減較小量(例如,預(yù)定最小視差差值),這可能是僅一個像素。這種視差減小的結(jié)果是經(jīng)調(diào)整的字幕不再施加與下層對象的沖突深度提示。如果使用預(yù)定最小視差差值,則經(jīng)調(diào)整的字幕通過(典型較小的)預(yù)定最小視差差值引入的視深度清除下層對象。然而,在一些情況下,視差的改變會因其立體字幕的新覆蓋區(qū)大小的增加。潛在地,這可以引起附加的邊緣侵犯,或者可能引起先前在步驟1715處沒有考慮的對象覆蓋。如果在步驟1717處檢測到新覆蓋區(qū)的增大,則例程重復(fù)回到步驟1713。否則,在步驟1718處處理繼續(xù)。注意,對預(yù)定或動態(tài)計算的過補償?shù)拿髦鞘褂脮档突蛳枰h(huán)會倒步驟1713的可能性。例如,這樣的過補償可以包括基于避免邊緣侵犯所需的最小值,將字幕(在步驟1712中)平移額外5個像素;基于步驟1714中所需的最小值,將字幕的縮小額外50%;或者在步驟1715中,當(dāng)檢驗字幕覆蓋區(qū)下層的最小視差的立體圖像時,將檢驗的區(qū)域水平地擴大額外15個像素。在步驟1718處,進行對具有經(jīng)修改或調(diào)整的立體字幕的呈現(xiàn)質(zhì)量的估計。類似于圖17A的步驟1705,該質(zhì)量函數(shù)應(yīng)當(dāng)至少部分基于縮放因子(如在示例性方程3中)。然而,對于過程1710,還存在要關(guān)于平移和視差(或者深度)變化而估計的質(zhì)量效果。較大平 移會冒著模糊下層立體圖像的重要部分或至少是感興趣部分的風(fēng)險。較大的視差變化會引起字幕遠離(在視深度方面)感興趣的主平面(例如,當(dāng)前講話者的臉部)。由于針對基于縮放的qs的原始質(zhì)量方程用于原地縮放過程1700,針對qt和qd的質(zhì)量方程(即,分別基于平移和視差調(diào)整的質(zhì)量函數(shù))是針對質(zhì)量估計的適合候選,以與平移、縮放和視差調(diào)整過程1710—起使用。方程4:
權(quán)利要求
1.一種準(zhǔn)備用于立體呈現(xiàn)的字幕的方法,包括 根據(jù)調(diào)整信息來處理字幕;并且 將處理后的字幕合成到至少一個立體圖像中,以產(chǎn)生用于立體呈現(xiàn)的至少一個變換的立體圖像。
2.根據(jù)權(quán)利要求I所述的方法,其中,調(diào)整信息包括以下中的至少一個縮放因子、平移量以及視差變化。
3.根據(jù)權(quán)利要求I所述的方法,其中,由以下步驟來確定調(diào)整信息 將字幕的覆蓋區(qū)與所述至少一個立體圖像的預(yù)定區(qū)相比較; 如果覆蓋區(qū)的任何部分在預(yù)定區(qū)之外,則確定所述調(diào)整信息,以應(yīng)用于字幕來產(chǎn)生經(jīng)調(diào)整字幕,經(jīng)調(diào)整字幕具有完全位于預(yù)定區(qū)內(nèi)的經(jīng)調(diào)整覆蓋區(qū)。
4.根據(jù)權(quán)利要求3所述的方法,其中,在校準(zhǔn)過程中建立預(yù)定區(qū)以識別與關(guān)聯(lián)于字幕的位置和尺寸之一有關(guān)的至少一個參數(shù)。
5.根據(jù)權(quán)利要求3所述的方法,還包括 基于調(diào)整信息來導(dǎo)出質(zhì)量參數(shù);并且 如果質(zhì)量參數(shù)超過預(yù)定值,則產(chǎn)生經(jīng)調(diào)整的字幕。
6.根據(jù)權(quán)利要求3所述的方法,還包括 將經(jīng)調(diào)整覆蓋區(qū)限定為覆蓋區(qū)與預(yù)定區(qū)之間的交叉區(qū);并且 確定所述縮放因子,以應(yīng)用于覆蓋區(qū)來產(chǎn)生經(jīng)調(diào)整覆蓋區(qū)。
7.根據(jù)權(quán)利要求3所述的方法,還包括 平移字幕,以減小位于預(yù)定區(qū)之外的字幕部分; 如果經(jīng)平移的字幕的覆蓋區(qū)的任何部分位于預(yù)定區(qū)之外,則對經(jīng)平移的字幕應(yīng)用縮放因子,使得縮小的平移字幕完全在預(yù)定區(qū)內(nèi);并且 將經(jīng)平移且可選地縮小的字幕的視差調(diào)整為不大于在調(diào)整了視差的字幕的經(jīng)調(diào)整覆蓋區(qū)內(nèi)出現(xiàn)的對象的最小視差。
8.根據(jù)權(quán)利要求7所述的方法,還包括 如果經(jīng)調(diào)整覆蓋區(qū)具有在預(yù)定區(qū)之外的任何部分,則進一步縮小調(diào)整了視差的字幕,并且將進一步縮小的字幕的視差調(diào)整為不大于在進一步調(diào)整的字幕的覆蓋區(qū)內(nèi)的任何對象的最小視差。
9.根據(jù)權(quán)利要求3所述的方法,還包括 限定預(yù)定區(qū)域和至少一個立體圖像的區(qū)域之間的交叉區(qū);其中所述至少一個立體圖像的區(qū)域中對象的視差至少等于字幕的視差;并且 對字幕應(yīng)用縮放因子和平移量,以在交叉區(qū)內(nèi)產(chǎn)生縮小且平移的字幕; 其中,根據(jù)預(yù)定質(zhì)量準(zhǔn)則來選擇縮放因子和平移量。
10.根據(jù)權(quán)利要求9所述的方法,還包括 將縮小且平移的字幕改變?yōu)榻?jīng)調(diào)整的視差,所述經(jīng)調(diào)整的視差與交叉區(qū)中其他對象的視差的距離在預(yù)定量內(nèi)。
11.根據(jù)權(quán)利要求10所述的方法,其中,所述字幕的經(jīng)調(diào)整的視差不大于交叉區(qū)中其他對象的視差。
12.根據(jù)權(quán)利要求I所述的方法,其中,所述至少一個立體圖像是多個圖像。
13.根據(jù)權(quán)利要求3所述的方法,其中,所述至少一個立體圖像是要與處理后的字幕合成的多個立體圖像,并且所述方法還包括通過以下步驟來確定字幕的視差變化 檢驗所述多個立體圖像的相應(yīng)部分的視差,其中每個立體圖像的相應(yīng)部分與經(jīng)調(diào)整的字幕的經(jīng)調(diào)整覆蓋區(qū)交疊;并且 將經(jīng)調(diào)整的字幕的視差改變?yōu)橹炼嗟扔诿總€立體圖像的每個相應(yīng)部分的最小視差。
14.根據(jù)權(quán)利要求13所述的方法,其中,所述多個立體圖像表示了用于在持續(xù)時間內(nèi)呈現(xiàn)的圖像序列。
15.一種準(zhǔn)備用于立體呈現(xiàn)的字幕的系統(tǒng),包括 第一處理器,被配置用于根據(jù)包括以下至少一個的調(diào)整信息來自動處理字幕縮放因子、平移量和視差變化,并且將處理后的字幕合成到立體圖像中,以產(chǎn)生用于立體呈現(xiàn)的變換立體圖像。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),還包括 第二處理器,被配置用于通過以下操作來確定調(diào)整信息 將字幕的覆蓋區(qū)與立體圖像的預(yù)定區(qū)相比較,并且如果字幕覆蓋區(qū)的任何部分在預(yù)定區(qū)之外,則確定所述調(diào)整信息,以應(yīng)用于字幕來產(chǎn)生經(jīng)調(diào)整字幕,經(jīng)調(diào)整字幕具有完全位于預(yù)定區(qū)內(nèi)的經(jīng)調(diào)整覆蓋區(qū)。
17.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,第一處理器與第二處理器相同。
18.根據(jù)權(quán)利要求16所述的系統(tǒng),第二處理器還被配置用于 基于調(diào)整信息來導(dǎo)出質(zhì)量參數(shù);并且如果質(zhì)量參數(shù)超過預(yù)定值,則產(chǎn)生經(jīng)調(diào)整的字幕。
19.根據(jù)權(quán)利要求15所述的系統(tǒng),還包括存儲器,用于存儲具有合成的字幕的變換立體圖像。
20.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,第一處理器在以下之一中提供數(shù)字電影服務(wù)器,包括機頂盒的消費者設(shè)備、電視監(jiān)視器、視頻錄像機、數(shù)字視頻播放器、個人計算機和移動設(shè)備。
全文摘要
描述了一種準(zhǔn)備用于立體呈現(xiàn)的字幕的方法和系統(tǒng)。該方法允許通過將字幕的初始覆蓋區(qū)與圖像顯示區(qū)相比較來顯示字幕,而不會被刪節(jié)或遮蓋。如果初始覆蓋區(qū)的任何部分位于圖像顯示區(qū)之外,則根據(jù)調(diào)整信息調(diào)整字幕,使得經(jīng)調(diào)整的字幕完全位于圖像顯示區(qū)內(nèi),調(diào)整信息包括以下中的至少一個縮放因子、平移量以及視差變化。此外,可以通過考慮要與字幕一起顯示的下層圖像中的一個或多個對象的視差來調(diào)整字幕的視差。
文檔編號H04N13/00GK102845067SQ201180017612
公開日2012年12月26日 申請日期2011年4月1日 優(yōu)先權(quán)日2010年4月1日
發(fā)明者威廉·吉本斯·雷德曼 申請人:湯姆森許可貿(mào)易公司