两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

增強的圖像捕獲的制作方法

文檔序號:12290149閱讀:277來源:國知局
增強的圖像捕獲的制作方法與工藝

本申請要求2014年5月21日提交的美國臨時專利申請62/001,327的優(yōu)先權(quán),其全部內(nèi)容在此通過引用并入。

本申請涉及同日提交的美國專利申請(Motorola案卷號CS42367,CS42701、CS42702、CS42704和CS42741)。

技術(shù)領(lǐng)域

本公開總體上涉及靜態(tài)圖像和視頻捕獲,以及更具體地,涉及數(shù)字圖像處理。



背景技術(shù):

平均來說,人們由于不滿意,丟棄大量他們拍攝的照片。在很多情況下,這是由于在圖像捕獲的瞬間主體在眨眼、移動(也即,太模糊)、或未微笑。在另外的情況中,攝影師在捕獲瞬間無意地移動了圖像捕獲設(shè)備(例如,由于不穩(wěn)定的手或者由于設(shè)備的無意識旋轉(zhuǎn))。一些圖片被丟棄是因為圖像捕獲設(shè)置不合適(例如,設(shè)置未適配于暗光場景)。

附圖說明

盡管附加權(quán)利要求具體地提出本技術(shù)的特征,這些技術(shù)與它們的目標(biāo)和優(yōu)點一起,可以從下述具體實施方式結(jié)合附圖中被最好地理解,其中附圖:

圖1A是本技術(shù)可以被實踐的典型環(huán)境的概述。

圖1B是支持本技術(shù)中的某些技術(shù)的典型網(wǎng)絡(luò)的概述。

圖2是用于選擇和呈現(xiàn)所捕獲的“最優(yōu)”靜態(tài)圖像的典型方法的流程圖。

圖3是用于捕獲“感興趣的”視頻的典型方法的流程圖。

圖4是用于選擇所捕獲的“最優(yōu)”靜態(tài)圖像和用于捕獲“感興趣的”視頻的典型方法的流程圖。

圖5是用于輔助圖像捕獲設(shè)備的遠(yuǎn)程服務(wù)器的典型方法的流程圖。

圖6是用于通知用戶“更優(yōu)”的靜態(tài)圖像或“感興趣”的視頻可用的典型方法的流程圖。

圖7是用于在所捕獲的圖像中檢測水平線且隨后使用所檢測的水平線的典型方法的流程圖;以及

圖8是示出典型圖像捕獲設(shè)備或服務(wù)器的各個組件的原理圖。

具體實施方式

轉(zhuǎn)向附圖,其中,相似的附圖標(biāo)記指的是相似的元件,本公開的技術(shù)被圖示為在合適的環(huán)境實現(xiàn)。下文的描述基于權(quán)利要求的實施例,且不應(yīng)考慮到未在本文中明確描述的替選實施例而被理解為限制權(quán)利要求。

發(fā)明人相信攝影師除了得到可能的最優(yōu)照片之外,想要多于一張照片以捕獲該瞬間,且在一些情況中,想要與靜態(tài)圖片相關(guān)聯(lián)的幾秒鐘的視頻。這隨后應(yīng)該被完成,無需攝影師花費時間在靜態(tài)捕獲模式和視頻捕獲模式之間切換。

本公開的技術(shù)的方面提供了在捕獲命令被接收的瞬間(例如,在“快門”按鈕被按下時)的幾秒鐘內(nèi)拍攝的“最優(yōu)”的圖片。此外,在同樣的時刻附近,若干秒的視頻被捕獲,且對用戶可獲取。更特別地,在一些實施例中,若干靜態(tài)的圖像被自動地(也即,無需用戶輸入)捕獲。這些圖像被比較以找到“最優(yōu)”的圖片,“最優(yōu)”的圖片被呈現(xiàn)給攝影師供考慮。視頻也被自動地捕獲且被分析以判斷在捕獲命令的時刻附近是否存在動作場景或者其他的運動內(nèi)容。如果分析揭露任何感興趣的事情,隨后,視頻剪輯被呈現(xiàn)給攝影師。視頻剪輯可以被裁剪以匹配靜態(tài)捕獲場景,且移除暫態(tài)的部分。在進一步的實施例中,通過增強曝光控制,更優(yōu)的暗光圖片被提供。基于運動分析,更高精度的水平線檢測可以被提供。

為了更詳細(xì)的分析,首先轉(zhuǎn)向圖1A。在示例環(huán)境100中,攝影師102(在本討論中有時也被稱作“用戶”)使用他的相機104以拍攝“場景”106的靜態(tài)圖像。在這個示例中,攝影師102想拍攝一張捕獲了他的朋友108的快照。

攝影師102實際上看到的視野被描述為110,在圖1A的下半部被放大。特別地,當(dāng)攝影師102按下“捕獲”按鈕(由于歷史的原因也被稱為“快門”)時,相機104捕獲圖像,且將捕獲的圖像顯示在取景器顯示器112中。到此為止,對曾經(jīng)用智能電話或者用具有大的取景器顯示器112的相機拍攝照片的任何人而言,這應(yīng)該非常熟悉。然而,在圖1A的示例中,相機104也向攝影師102顯示“通知圖標(biāo)”114。盡管支持該圖標(biāo)114的詳細(xì)的功能在下文被詳盡地討論,簡而言之,圖標(biāo)114告訴攝影師102相機104相信或者它捕獲到一張比在取景器顯示器112中顯示的“更優(yōu)”的靜態(tài)圖像,或者它已捕獲到攝影師102可能感興趣的視頻。

圖1B介紹網(wǎng)絡(luò)116(例如,互聯(lián)網(wǎng))和遠(yuǎn)程服務(wù)器118。下文的討論示出它們可以怎樣被使用以詳細(xì)敘述圖1A的示例情景。圖1B也視覺地證明“相機”104不需要實際上是專用的相機這一點:它可以是任意圖像捕獲設(shè)備,包括攝像機、平板式計算機、智能電話等。為了清晰的原因,本討論中繼續(xù)將圖像捕獲設(shè)備104稱為“相機”。

圖2呈現(xiàn)了用于增強靜態(tài)圖像捕獲的特定的技術(shù)的方法。在步驟200,相機104捕獲若干靜態(tài)圖像。作為示例,考慮攝影師102將相機104置于“取景器”模式。在這種模式下,相機的取景器112顯示被相機104“看到”的圖像。攝影師102可以明確地命令相機104進入該模式,或相機104能夠在其確定該模式被期望時(例如,通過監(jiān)視相機的當(dāng)前位置和觀察攝影師102的行為)自動進入該模式。

在任何情況,相機104自動地(也即,盡管仍然在取景器模式且不響應(yīng)于來自攝影師102的明確命令)捕獲若干靜態(tài)圖像,例如在幾秒的時間段內(nèi)每秒鐘五張。這些捕獲的靜態(tài)圖像被相機104存儲。

由于拍攝這么多圖像,存儲的儲存器通常成為問題。在一些實施例中,圖像存儲在循環(huán)緩沖區(qū)中(可選擇的步驟,202),循環(huán)緩沖區(qū)保存靜態(tài)圖像比如十秒鐘。因為循環(huán)緩沖區(qū)的容量有限,緩沖區(qū)可以連續(xù)地刷新,最新的照片替代緩沖區(qū)中最早的圖像。因此,緩沖區(qū)存儲若干捕獲的靜態(tài)圖像,時間范圍從最新的圖像到最早的,緩沖區(qū)中的圖像的數(shù)量取決于緩沖區(qū)的大小。在一些實施例中,選擇過程(見下文對步驟208的討論)在包含在循環(huán)緩沖區(qū)中的圖像集合上被連續(xù)地執(zhí)行。不太好的圖像(被下文討論的技術(shù)判斷)被丟棄,進一步在循環(huán)緩沖區(qū)中釋放空間,且僅保留在過去比如三秒鐘內(nèi)捕獲的“最優(yōu)”的圖像。即使在這種情況中,與丟棄的圖像相關(guān)聯(lián)的元數(shù)據(jù)被保留以用于審查。

注意在步驟200中圖像的捕獲率可以是可被攝影師102配置的,或可以取決于對攝影師的先前的行為的分析,或甚至取決于對所捕獲的圖像本身的分析。例如,如果一個圖像與另外一個的比較指示所捕獲場景中的顯著量的移動,則相機104可能聚焦在運動事件,且這應(yīng)該增加它的捕獲率。捕獲率也可以取決于對相機104可用的資源。因此,如果相機的電池電量低,則它可以降低捕獲率以節(jié)約能源。在極端的情況下,當(dāng)資源緊缺時,自動捕獲的技術(shù)可以被關(guān)閉。

在步驟204(通常地,當(dāng)相機104繼續(xù)自動捕獲靜態(tài)圖像時),攝影師102向相機104給出捕獲命令。如前述,這可以由攝影師102按下相機104上的快門按鈕造成。(通常,捕獲命令可以是用于捕獲一個靜態(tài)圖像的命令或用于捕獲視頻的命令。)

(為了本討論,當(dāng)相機104接收到捕獲命令時,其暫時退出取景器模式且進入“捕獲”模式。一旦所請求的靜態(tài)圖像(或視頻,在下文被討論)被捕獲到,相機104通常重新進入取景器模式且繼續(xù)按照步驟200自動捕獲圖像。)

與步驟200中的技術(shù)不相似,傳統(tǒng)的相機停留在取景器模式而不捕獲圖像,直至它們接收到捕獲命令。它們隨后捕獲當(dāng)前圖像且存儲它。然而,按照本公開動作的相機104即使當(dāng)它依然在取景器模式時,已經(jīng)正在捕獲和存儲圖像(步驟200和202)。思考本技術(shù)的一個方法是認(rèn)為步驟204的捕獲命令根本不是命令,而是由攝影師102給予相機104的指示,指示攝影師102對他在取景器顯示器112中正在觀看的某些東西感興趣。相機104隨后相應(yīng)地動作(也即,其根據(jù)圖2的流程圖的剩余部分行動)。

步驟206在下文結(jié)合對步驟214的討論被討論。

在步驟208,相機104審查它已捕獲的圖像(其可能包括略微早于或略微晚于捕獲命令被接收時被捕獲的圖像)且選擇“最優(yōu)”的一個(或在一些實施例中,“最優(yōu)”的若干個)。(在一些實施例中,該選擇過程在被部分處理的、或“原始的”圖像上執(zhí)行)。在該分析過程中,很多不同的因素可以被審查。如前述,捕獲命令可以被考慮為攝影師102對他看到的東西感興趣的指示。因此,在捕獲命令和特定的圖像被捕獲之間的非常短的時間間隔意味著該特定的圖像有可能是攝影師102想要記錄的東西,且因此,該時間間隔是確定哪個圖像是“最優(yōu)”的因素。

不同的實施例在決定捕獲的圖像中哪個是“最優(yōu)”的時使用不同的信息集合。除與攝影師的捕獲命令的時間接近度之外,一些實施例使用運動傳感器數(shù)據(jù)(來自相機104上的加速度計、陀螺儀、定向、或GPS接收器)(例如,當(dāng)該圖像被捕獲的時候相機104是否正在移動?)、面部檢測信息(面部檢測、姿勢、笑容和眨眼檢測)(也即,容易檢測的面部通常導(dǎo)致好的快照)、像素幀統(tǒng)計信息(例如,亮度的統(tǒng)計信息:梯度平均,圖像間差別)、活動檢測、來自相機104上其他傳感器的數(shù)據(jù)、以及場景分析。有時可用的進一步的信息可以包括攝影師102聲明的偏好、攝影師102的過去的行為(例如,該攝影師102傾向于保存具有顯著面部圖像的圖片)、以及隱私設(shè)置(例如,不要保存具有不在相機104的聯(lián)系人列表中的人的顯著的面部的照片)。同樣通??捎玫氖窍鄼C104元數(shù)據(jù)和相機狀態(tài)信息。所有這樣的數(shù)據(jù)可以被引入相機104且作為與所捕獲的圖像相關(guān)聯(lián)的元數(shù)據(jù)被存儲。

這些元數(shù)據(jù)也可以包括所捕獲的圖像的降低分辨率的版本,其可以被用于在所捕獲的場景內(nèi)運動檢測。運動檢測提供用于“最優(yōu)”圖片選擇(和所捕獲的視頻的分析,見下文討論)的信息,以及提高圖像捕獲體驗的其他特征。

統(tǒng)計信息和運動檢測結(jié)果也可以被曝光流程使用以通過例如改變曝光參數(shù)和閃光燈,提高在暗光下捕獲的圖像的質(zhì)量。當(dāng)在暗光下存在運動且來自相機104的閃光燈可用時,閃光燈可以被控制,使得多個圖像可以在恰當(dāng)?shù)钠毓庀卤徊东@且隨后被分析以選擇最優(yōu)曝光。

無論捕獲的“最優(yōu)”圖像被怎樣選擇,在步驟210中最優(yōu)圖像被呈現(xiàn)給攝影師102。存在若干可能方法來做這樣做。很多實施例旨在從攝影師的視角完全“顯然”,也即攝影師102簡單地“按下(snap)”快門且被呈現(xiàn)被選擇的最優(yōu)圖像,無論該圖像是不是在快門命令時刻實際捕獲的圖像。

再次考慮圖1A的情景。當(dāng)攝影師102按下快門按鈕時(步驟204),取景器顯示器112如圖1A所示。清晰地,攝影師102想要他的朋友108的面部的圖片。系統(tǒng)可以審查從比如捕獲命令被接收的一秒鐘之前到一秒鐘之后所捕獲的圖像、分析它們、且選擇最優(yōu)的一個。此處,這可以是聚焦的、其中朋友108正看著相機104、眼睛睜開等的圖像。當(dāng)攝影師102按下快門按鈕時,最優(yōu)圖像被呈現(xiàn)給攝影師102,即使在按快門的確切時刻捕獲的圖像并不是這么好。

略微復(fù)雜些的用戶接口向攝影師102呈現(xiàn)快門命令被接收時捕獲的圖像(如傳統(tǒng)的一樣)且隨后,如果該圖像不是最優(yōu)可用的,向攝影師102呈現(xiàn)“更優(yōu)”的圖像可用的指示(圖1A中的114)供攝影師考慮。再次考慮圖1A中的情景,可能他的朋友108在捕獲命令的時刻眨眼。“眨眼的”圖像被呈現(xiàn)給攝影師102,但指示114被點亮以示出另外的、可能更優(yōu)的圖像可用供攝影師審查。

用戶接口上的其他變化是可能的。在給定情況下使用哪個的選擇可以基于攝影師102做出的設(shè)置、基于對攝影師的過去行為的分析(例如,他是否是“快照游客”,或他是否表現(xiàn)得更像有經(jīng)驗的攝影師?)、且基于捕獲的場景的分析。

在可選擇的步驟212,如有必要,所選擇的圖像被進一步處理,且被復(fù)制到更永久的儲存器區(qū)域。

在一些實施例中,與所捕獲的圖像相關(guān)聯(lián)的元數(shù)據(jù)(可能包括攝影師102最后對圖像做了什么)被發(fā)送(步驟214)到遠(yuǎn)程服務(wù)器設(shè)備(圖1B的118)。遠(yuǎn)程服務(wù)器118的工作在下文關(guān)于圖5被更詳細(xì)地討論,但是簡要地,遠(yuǎn)程服務(wù)器118分析潛在地來自多個圖像捕獲設(shè)備104的信息,尋找趨勢和“最優(yōu)實踐”。其隨后封裝其學(xué)習(xí)到的東西,且向相機104發(fā)送推薦(步驟206)。當(dāng)相機104在步驟208中選擇圖像時,自由地使用這些推薦。

圖3呈現(xiàn)用于增強圖像捕獲的其他方法,這次是用于增強視頻圖像捕獲。圖3的方法可以獨立于或結(jié)合于圖2的方法被實行。

在步驟300,當(dāng)相機104在取景器模式時(也即,如前文所述,當(dāng)相機104未接收到用于捕獲視頻的明確的指令時),相機104捕獲視頻。正如靜態(tài)圖片捕獲,視頻捕獲的參數(shù)可以被改變以反映相機104上可用的資源(例如,電池、存儲的儲存器)。

在一些實施例中,所捕獲的視頻在此時僅是“原始的”、未處理的圖像的時間序列。(如后面有必要,這些原始圖像可以隨后被進一步處理:見下文對步驟312的討論)。前述針對靜態(tài)圖像的儲存器問題針對視頻被加劇,因此,再一次,循環(huán)緩沖區(qū)被推薦用于將視頻按照其被捕獲的樣子存儲(步驟302)。最近的視頻圖像(也被稱為“幀”)替代最早的,使得在任何時刻,循環(huán)緩沖區(qū)具有例如最近的二十秒的所捕獲的視頻。

可選擇地,捕獲命令在步驟304被接收。如前述,其不被看作實際命令,而是作為攝影師102給予相機104的指示,指示攝影師102對他在取景器顯示器112中看到的一些東西感興趣。

無論捕獲命令是否已被接收,所捕獲的視頻被連續(xù)地分析(步驟308)以判斷它是否“是感興趣的”。盡管攝影師102能夠通過按下快門指示他的興趣,另外于(或替代于)此,其他的信息能夠被使用,諸如活動檢測、幀內(nèi)和幀間運動、以及面部檢測。作為示例,活動的突然沖擊與清晰可辨認(rèn)的面部的結(jié)合可以指示感興趣的場景。正如靜態(tài)圖像捕獲,攝影師102的偏好、過去的行為、以及隱私設(shè)置等也能夠以機器學(xué)習(xí)的意義被使用以了解該攝影師102認(rèn)為什么是感興趣的。

如果所捕獲的視頻的片段(也被稱為“剪輯”)已被發(fā)現(xiàn)潛在地是感興趣的(例如,如果視頻剪輯的“感興趣得分”超過設(shè)定閾值),則在步驟308,這被通知給攝影師102。攝影師102可以隨后審查所指示的視頻剪輯以判斷是否他也認(rèn)為它是感興趣的。如果是的,則視頻剪輯如必要地被進一步處理(例如,通過應(yīng)用視頻壓縮技術(shù))且被復(fù)制到長期儲存器(步驟312)。

作為改進,感興趣的的視頻剪輯的定界可以使用前述的相同的分析技術(shù)以及應(yīng)用運動傳感器數(shù)據(jù)而被確定。作為示例,剪輯的起始點可以被設(shè)定為略早于感興趣的事情開始出現(xiàn)。

同樣正如靜態(tài)圖像實施例,元數(shù)據(jù)可以被發(fā)送到遠(yuǎn)程服務(wù)器118(步驟314)?;诒贿h(yuǎn)程服務(wù)器118執(zhí)行的分析的推薦和改進的操作參數(shù)可以被接收(步驟306)且被用于步驟308的分析。

注意從前文描述中,在一些實施例和在一些情景中,相機104捕獲和呈現(xiàn)視頻而不離開取景器模式。也即,相機104無需曾接收任意要求這么做的明確的命令而查看場景、定界感興趣的視頻剪輯、且將這些視頻剪輯通知攝影師102。在其他的實施例中,這些視頻捕獲和分析技術(shù)可以明確地被攝影師102調(diào)用或禁用。

如前文在圖3的討論的介紹中提及的,圖2的靜態(tài)圖像捕獲增強技術(shù)可以與圖3的視頻圖像捕獲增強技術(shù)合并。圖4與一些感興趣的改進一起呈現(xiàn)這樣的合并。

再次考慮圖1的場景。相機104在取景器模式,捕獲靜態(tài)圖像(步驟400,如按照圖2的步驟200)和視頻(步驟408,如圖3的步驟300)兩者。在合適的條件下,系統(tǒng)呈現(xiàn)所捕獲的最優(yōu)靜態(tài)圖像(步驟406)和感興趣的視頻(步驟410)兩者以供攝影師考慮(可能使用步驟402的捕獲命令的時刻以選擇和分析所捕獲的圖像和幀)。

即使靜態(tài)圖像和視頻幀能夠在同時被捕獲,圖4的改進將圖像穩(wěn)定技術(shù)應(yīng)用到所捕獲的視頻但不應(yīng)用到所捕獲的靜態(tài)圖像(步驟412)。與為靜態(tài)圖像和視頻兩者做出同樣處理的任意已知的“妥協(xié)”系統(tǒng)相比,這提供了更優(yōu)的視頻和更優(yōu)的靜態(tài)圖像二者。

在另一個改進中,最優(yōu)靜態(tài)圖像的選擇(步驟406)可以部分地取決于對視頻的分析(步驟410)且反之亦然??紤]高運動的體育場景。因為視頻能最好地示出動作,最好從分析視頻確定最重要的場景。由此,最感興趣的瞬間的時刻被確定。該確定可以改變最優(yōu)靜態(tài)圖像的選擇過程。因此,在當(dāng)運動員踢出勝利的射門得分時的瞬間拍攝的靜態(tài)圖像可以被選擇為最優(yōu)圖像,即使其他的因素可能需要被妥協(xié)(例如,在該圖像中運動員的臉不清晰可見)。在其他方面,視頻剪輯可以僅因為其包括極好的人面部視角而被確定為是感興趣的,即使此人在視頻中未作任何不尋常的事情。

特殊地,在靜態(tài)圖像選擇中使用的所有元數(shù)據(jù)能夠與在視頻分析和定界中使用的所有元數(shù)據(jù)結(jié)合使用。結(jié)合的元數(shù)據(jù)集合能夠隨后被用于選擇最優(yōu)靜態(tài)圖像和確定視頻剪輯是否是感興趣的兩者。

圖4的方法也能夠包括在遠(yuǎn)程服務(wù)器118的使用(步驟404和414)中的改進。這些改進在下文參照圖5被討論。

遠(yuǎn)程服務(wù)器118的操作的方法在圖5中被圖示。如前文所討論,服務(wù)器118接收與靜態(tài)圖像選擇相關(guān)聯(lián)的元數(shù)據(jù)(步驟500;也見圖2的步驟214和圖4的步驟414)。同樣的服務(wù)器118也可以接收與分析視頻相關(guān)聯(lián)的元數(shù)據(jù)以判斷是否視頻是感興趣的(步驟504;也見圖3的步驟314和圖4的步驟414)。服務(wù)器118能夠分別地分析這兩個數(shù)據(jù)集合(步驟508)且向不同的圖像捕獲設(shè)備104提供靜態(tài)圖像選擇推薦(步驟510)和視頻分析推薦(步驟510)。

然而,在一些實施例中,遠(yuǎn)程服務(wù)器118可以做更多。首先,除分析元數(shù)據(jù)之外,如果圖像捕獲設(shè)備104使該數(shù)據(jù)內(nèi)容對遠(yuǎn)程服務(wù)器118可用(步驟502和506),其可以進一步分析數(shù)據(jù)本身(也即,實際捕獲的靜態(tài)圖像和視頻)。利用元數(shù)據(jù)和捕獲的內(nèi)容,服務(wù)器118能夠執(zhí)行與由圖像捕獲設(shè)備104它們自己在本地執(zhí)行的同樣類型的選擇和分析(見圖2的步驟208;圖3的步驟308和310;和圖4的步驟406和410)。不是簡單地提供用于事后評審本地設(shè)備104的手段,而是服務(wù)器118能夠比較它自己的選擇和感興趣得分與那些在本地生成的,且因此改進其技術(shù)以更好地匹配在圖像捕獲設(shè)備104的通常群體(general population)中的那些。

進一步,圖像捕獲設(shè)備104能夠告訴遠(yuǎn)程服務(wù)器118攝影師102剛剛對選中的靜態(tài)圖像和認(rèn)為是感興趣的視頻剪輯做了什么(步驟502和506)。再次,服務(wù)器118能夠以此來進一步提高它的推薦模型。作為示例,如果攝影師102經(jīng)常頻繁地丟棄被前述技術(shù)選中為最優(yōu)的靜態(tài)圖像,則顯然這樣的技術(shù)需要被提高。服務(wù)器118可以能夠比較實際被攝影師102保留的圖像和被系統(tǒng)選中的圖像,且通過在大量群體集合中分析,更好地學(xué)習(xí)怎樣選擇“最優(yōu)”圖像。

更進一步,遠(yuǎn)程服務(wù)器118能夠分析靜態(tài)圖像選擇元數(shù)據(jù)(且,如果可用,靜態(tài)圖像本身和攝影師對靜態(tài)圖像的最終處置)與視頻分析元數(shù)據(jù)(以及,如果可用,視頻剪輯本身與攝影師對所捕獲的視頻的最終處置)一起。這相似于前述關(guān)于圖4討論的交叉授粉(cross-pollination)觀念:也即,通過合并靜態(tài)圖像和視頻的分析,服務(wù)器118能夠進一步提高其針對選擇靜態(tài)圖像和針對分析視頻剪輯兩者的推薦。此處可用的特定的方法論從模式分析和機器學(xué)習(xí)中易知。

總之,如果遠(yuǎn)程服務(wù)器118被給予對關(guān)于多個圖像捕獲設(shè)備104的選擇和分析的信息的訪問,則從處理該信息,服務(wù)器118能夠或者一般地、或者定制于特定的攝影師102和情景,提供更好的推薦。

圖6呈現(xiàn)用于適用于當(dāng)前討論的技術(shù)的用戶接口的方法。用戶接口功能的多數(shù)已在前面被討論,因此只有幾點在此處被詳細(xì)討論。

在步驟600,相機104可選擇地進入取景器模式,其中相機104顯示它在取景器顯示器112中看到的內(nèi)容。如前文參考圖2提到的,攝影師102可以明確地命令相機104進入該模式,或相機104能夠在當(dāng)它確定該模式被期望的時候自動地進入該模式。

在步驟602的第一實施例中,攝影師102按下快門鍵(也即,向相機104提交圖像捕獲命令),相機104瞬間地進入圖像捕獲模式,在取景器顯示器112顯示捕獲的圖像,且隨后重新進入取景器模式。在第二實施例中,攝影師將相機104置于另一個模式(例如,“相冊”模式),其中相機104顯示已經(jīng)捕獲的圖像,包括自動捕獲的圖像。

如前文所討論,該顯示的圖片可以是直接響應(yīng)于圖像捕獲命令而捕獲的圖像,也可以是通過上述技術(shù)選中的“更優(yōu)”的圖像。如果存在所捕獲的圖像優(yōu)于所顯示的那個,則這被通知給攝影師102(步驟604)。通知可以是視覺的(例如,通過圖1A的圖標(biāo)114)、聽覺的、或者甚至是觸覺的。在一些情況中,通知是更優(yōu)的圖像本身的小的版本。如果攝影師102點擊該小的版本,則完全的圖像在取景器顯示器112中被呈現(xiàn)以供他考慮。當(dāng)相機104在相冊模式時,通過以某種方式高亮它們,攝影師102能夠被通知哪個圖像“更優(yōu)”,例如通過以明顯的邊界環(huán)繞它們或者首先示出它們。

同時,如果前述技術(shù)捕獲了認(rèn)為感興趣的視頻剪輯,不同的用戶通知可以被發(fā)布。再一次,若干類型的通知是可能的,包括來自視頻的小的定格(或甚至是視頻本身的呈現(xiàn))。

其他的用戶接口是可能的。盡管前述用于選擇靜態(tài)圖像和用于分析視頻剪輯的技術(shù)相當(dāng)復(fù)雜,它們允許非常簡單的用戶接口,在一些情況中,接口對攝影師102完全顯然(例如,當(dāng)攝影師102按下快門按鈕時,僅示出所捕獲的最優(yōu)的靜態(tài)圖像)。更復(fù)雜的用戶接口適合于更有經(jīng)驗的攝影師102。

圖7呈現(xiàn)能夠與任意前述技術(shù)一起使用的改進。第一圖像(靜止圖像或視頻的幀)在步驟700被捕獲??蛇x擇地,附加的圖像在步驟702被捕獲。

在步驟704,第一圖像被分析(例如,尋找水平或豎直線)。同時,來自相機104的運動傳感器數(shù)據(jù)被分析以嘗試確定第一圖像的水平線。

一旦水平線已被檢測到,它可以被用作在選擇其他圖像時的輸入,其他圖像在接近于第一圖像的時刻被捕獲。作為示例,所檢測的水平線可以顯示當(dāng)圖像被捕獲時相機104以怎樣的水平被持有,且這可以是確定是否該圖像優(yōu)于另一個圖像的因素。另外,當(dāng)后期處理圖像以針對無意識轉(zhuǎn)動將其旋轉(zhuǎn)到水平或以其它方式調(diào)整它們時,所檢測的水平線可以被使用。

圖8示出典型相機104或服務(wù)器118的主要組件。相機104可以是例如智能電話、平板電腦、個人計算機、電子書、或?qū)S孟鄼C。服務(wù)器118可以是個人計算機、計算服務(wù)器、或計算服務(wù)器的協(xié)作組。

相機104或服務(wù)器118的中央處理單元(“CPU”)800包括一個或多個處理器(也即,微處理器、控制器等的任何)或處理器和存儲器系統(tǒng),其處理計算機可執(zhí)行指令以控制設(shè)備104、118的操作。具體地,CPU 800支持前文討論的、在圖1到圖7中示出的本公開的方面。設(shè)備104、118可以伴隨結(jié)合處理和控制電路被實現(xiàn)的軟件、硬件、固件、和固定邏輯電路的組合被實現(xiàn),處理和控制電路通常在802被識別。盡管未示出,設(shè)備104、118可以包括在設(shè)備104、118內(nèi)部耦合不同的組件的系統(tǒng)總線或數(shù)據(jù)轉(zhuǎn)移系統(tǒng)。系統(tǒng)總線可以包括不同的總線結(jié)構(gòu)的任意組合,諸如存儲器總線或存儲器控制器、外圍總線、通用串行總線、以及處理器或利用任意不同的總線體系結(jié)構(gòu)的局部總線。

相機104或服務(wù)器118也包括一個或多個啟用數(shù)據(jù)儲存器的存儲器設(shè)備804(包括參考圖2至圖4描述的循環(huán)緩沖區(qū)),其示例包括隨機存取存儲器,非易失性存儲器(例如,只讀存儲器、閃存、可擦除可編程只讀存儲器、和電可擦除可編程只讀存儲器)、和磁盤儲存器設(shè)備。磁盤儲存器設(shè)備可以被實現(xiàn)為任意類型的磁性或者光學(xué)儲存器設(shè)備,諸如硬盤驅(qū)動、可記錄或可寫入光盤(disc)、任意類型的數(shù)字通用光盤等。設(shè)備104、118也可以包括大容量儲存器介質(zhì)設(shè)備。

存儲器系統(tǒng)804提供數(shù)據(jù)存儲機制以存儲設(shè)備數(shù)據(jù)812、其他類型的信息和數(shù)據(jù)、和不同的設(shè)備應(yīng)用810。操作系統(tǒng)806可以在存儲器804內(nèi)部被維護為軟件指令且被CPU800執(zhí)行。設(shè)備應(yīng)用810也可以包括設(shè)備管理器,例如任意形式的控制應(yīng)用或軟件應(yīng)用。實用程序808可以包括信號處理和控制模塊、相機104或服務(wù)器118的特定組件的本機代碼、特定組件的硬件抽象層等。

相機104或服務(wù)器118也可以包括處理音頻數(shù)據(jù)且控制音頻系統(tǒng)816(其可以包括例如揚聲器)的音頻處理系統(tǒng)814。視覺處理系統(tǒng)818處理圖形命令和視覺數(shù)據(jù)且控制顯示系統(tǒng)820,顯示系統(tǒng)820可以包括例如顯示屏幕112。音頻系統(tǒng)816和顯示系統(tǒng)820可以包括處理、顯示、或以其它方式顯現(xiàn)音頻、視頻、顯示、或圖像數(shù)據(jù)的任意設(shè)備。顯示數(shù)據(jù)和音頻信號可以經(jīng)由被介質(zhì)數(shù)據(jù)端口822表示的射頻鏈路、S-video鏈路、高清晰多媒體接口(High-Definition Multimedia Interface)、復(fù)合視頻鏈路、分量視頻鏈路、數(shù)字視頻接口、模擬音頻連接、或其它類似的通信鏈路被通信到音頻組件或顯示組件。在一些實施方式中,音頻系統(tǒng)816和顯示系統(tǒng)820是在設(shè)備104、118外部的組件。替選地(例如,在蜂窩電話中),這些系統(tǒng)816、820是設(shè)備104、118的集成的組件。

相機104或服務(wù)器118可以包括通信接口,通信接口包括啟用有線或無線通信的通信收發(fā)器824。示例收發(fā)器824包括符合不同的電氣和電子工程師協(xié)會(“IEEE”)802.15標(biāo)準(zhǔn)的無線個人區(qū)域網(wǎng)無線電、符合任意不同的IEEE 802.11標(biāo)準(zhǔn)的無線局域網(wǎng)無線電、符合第三代合作伙伴項目標(biāo)準(zhǔn)的無線廣域網(wǎng)蜂窩無線電、符合不同的IEEE 802.16標(biāo)準(zhǔn)的無限城域網(wǎng)無線電、以及有限局域網(wǎng)以太收發(fā)器。

相機104或服務(wù)器118也可以包括一個或多個數(shù)據(jù)輸入端口826,經(jīng)由數(shù)據(jù)輸入端口826任意類型的數(shù)據(jù)、媒體內(nèi)容、或輸入可以被接收,諸如用戶可選輸入(例如,從鍵盤、從觸摸感應(yīng)輸入屏幕、或從另一個用戶輸入設(shè)備)、短信、音樂、電視內(nèi)容、記錄的視頻內(nèi)容、以及任意其他類型的從任意內(nèi)容或數(shù)據(jù)源接收的音頻、視頻或圖形數(shù)據(jù)。數(shù)據(jù)輸入端口826可以包括通用串行總線端口、同軸電纜端口、以及其他串行或并行的針對閃存、儲存器磁盤等的連接器(包括內(nèi)部連接器)。這些數(shù)據(jù)輸入端口826可以被用于耦合設(shè)備104、118到組件、外圍、或諸如麥克風(fēng)或相機的附件。

最后,相機104或服務(wù)器118可以包括任意數(shù)量的“其他傳感器”828。這些傳感器828可以包括例如加速度計、GPS接收器、指南針、磁場傳感器等。

本討論的剩余部分呈現(xiàn)可以在某些實施方式中使用的選擇和流程的細(xì)節(jié)。盡管非常特定,這些細(xì)節(jié)被給予使得讀者可以更全面地理解前文討論的廣泛概念。這些實施方式選擇不旨在以任何方式限制要求的發(fā)明的范圍。

很多技術(shù)可以被使用以評估靜態(tài)圖像,以選擇“最優(yōu)”的一個(圖2的步驟208)。針對包括面部的圖像,一個實施例基于銳度和曝光計算圖像得分且為面部特征計算分離的得分。

首先,面部識別技術(shù)被應(yīng)用于所捕獲的圖像以判斷是否他們中很多包括面部。如果是的,則被捕獲的場景被評估為“面部”場景。如果場景不是面部場景,則銳度/曝光得分被其本身使用以選擇最優(yōu)圖像。另一方面,針對面部場景,如果可用于評估的圖像(也即,合理地接近于捕獲命令的時刻的所有被捕獲的圖像的集合)具有非常相似的銳度/曝光得分(例如,得分在特定于所使用的硬件的相似度閾值內(nèi)相等),則最優(yōu)圖像僅基于面部得分被選擇。

對于面部場景,當(dāng)圖像集合在其銳度/曝光得分上具有顯著差別時,則最優(yōu)圖像是具有最高的組合得分的那個,組合得分同時基于銳度/曝光得分和面部得分二者。組合得分可以是兩個得分的總和或加權(quán)總和:

picturescore(i)=mFEscore(i)+totalfaces(i)

可以使用針對圖像中所有像素的Sobel梯度測量的平均值和被分析的圖像與前一刻的圖像之間的平均像素差異,計算銳度/曝光得分。僅亮度數(shù)據(jù)被使用在這些計算中。幀梯度度量和幀差異度量按照下述被計算:

其中:

W=圖像寬度;

H=圖像高度;

Sobel_x=利用Sobel Gx算子的圖像的卷積結(jié)果:

以及

Sobel_x=利用Sobel Gy算子的圖像的卷積結(jié)果:

針對在在捕獲瞬間附近的N個圖像的循環(huán)圖像緩沖區(qū)中的每個圖像(i),使用Sobel值及其最小值來計算銳度/曝光得分:

針對如果圖像中所有像素值的平均值不在正常曝光范圍內(nèi)或如果聚焦?fàn)顟B(tài)指示圖像未聚焦的任意圖像,mFEscore被設(shè)置為0??捎玫膱D像集合的銳度/曝光得分值隨后被歸一化到比如0到100的范圍,以當(dāng)面部場景被檢測到時與面部得分結(jié)合使用。

當(dāng)至少一個面部被檢測到時,針對圖像的面部得分被計算。對每個面部,得分由所檢測的笑容得分、眼睛睜開得分、面部定向得分的加權(quán)總和構(gòu)成。作為示例:

笑容:取值范圍從1到100,針對大笑有大的取值,針對沒有笑容有小的取值。

眼睛睜開:取值范圍從1到100,針對大睜的眼睛有小的取值,針對閉上的眼睛(例如,眨眼)有大的取值。每個眼睛分別提供取值。分別的眨眼檢測器也可以被使用。

面部定向(凝視(gaze)):從看向正面的0度到看向側(cè)面的+/-45的角度。

流程使用面部檢測引擎值且為每個面部參數(shù)創(chuàng)造歸一化的得分,如下:

笑容得分:使用來自引擎的笑容值;隨后如下所示,為N個可用圖像的集合,歸一化到1至100的范圍:

眼睛睜開得分:使用眨眼檢測器和連續(xù)幀之間眼睛變化參數(shù),檢測眨眼或半睜的眼睛的存在;當(dāng)眨眼或半睜的眼睛被檢測到時,圖像得分為0。對于剩余的圖像,使用雙眼取值的平均值計算得分,且以相似于針對笑容而描述的方式,被歸一化到該范圍。在分析中的N個圖像中眼睛睜開最大時,取得最大得分。

面部定向得分(凝視):針對正向凝視使用最大得分,當(dāng)面部向側(cè)面看時減少得分。

對圖像中的每個面部,面部得分作為加權(quán)總和被計算:

facescore=α*smile+β*eyes+π*gaze

如果圖像中存在多于一個面部,則所有面部得分的平均值或加權(quán)平均值可以被使用以為該圖像計算總面部得分。用于計算總面部得分的權(quán)重可以關(guān)聯(lián)于面部大小,使得更大的面部對總面部得分具有更高的得分貢獻。在另一個實施例中,權(quán)重與通過位置或通過一些面部識別引擎確定的面部優(yōu)先級相關(guān)。針對具有M個面部的圖像i,總面部得分則可以被計算為:

如前文所討論的,面部得分可以隨后與銳度/曝光得分合并(如合適),且具有最高得分的圖像被選為“最優(yōu)”圖像。作為改進,在一些實施例中,選中的圖像隨后與“捕獲的”圖像對比(也即,在最接近捕獲命令時刻的時刻捕獲的圖像)。如果這些圖像太相似,則僅有的所捕獲的圖像被呈現(xiàn)給用戶。這個考慮具有普遍適用性,因為研究已示出當(dāng)選中的“最優(yōu)”圖像與捕獲的圖像的差別相當(dāng)小時,攝影師不會更喜歡選中的“最優(yōu)”圖像。

正如選擇“最優(yōu)”圖像,很多技術(shù)可以被應(yīng)用于確定捕獲的視頻是否“是感興趣的”。通常,視頻分析流程實時運行,不斷將視頻幀標(biāo)記為感興趣的或非感興趣的。另外,視頻分析確定感興趣的視頻剪輯在哪里起始和結(jié)束。在視頻分析中有用的一些量度包括感興趣的區(qū)域、運動向量(“MV”)、設(shè)備運動、面部信息和幀統(tǒng)計信息。這些度量按照幀被計算且關(guān)聯(lián)于幀。

在一些實施例中,設(shè)備運動檢測流程合并來自陀螺儀、加速度計、和磁力計的數(shù)據(jù)以計算設(shè)備移動和設(shè)備位置,可能使用互補濾波器或卡爾曼(Kalman)濾波器。結(jié)果按照下述被分類:

NO_MOTION(無運動)指的是設(shè)備既未移動也未經(jīng)歷僅僅小水平的手抖;

INTENTIONAL_MOTION(有意運動)指的是設(shè)備已被有意識地移動(例如,攝影師在搖攝);以及

UNINTENTIONAL_MOTION(無意運動)指的是設(shè)備經(jīng)歷了非旨在作為向圖像捕獲系統(tǒng)的輸入的大的運動(例如,設(shè)備掉落、被拉出口袋等)。

通過比較計算的位置的連續(xù)值,設(shè)備在三維空間軸的運動被表征:

如果(所有3個軸的位置變化量<NO_MOTION_THRESHOLD(無運動閾值))

設(shè)備運動狀態(tài)=NO_MOTION

如果(一個軸的位置變化量<INTENTIONAL_MOTION_THRESHOLD(有意運動閾值)&&另外兩個軸的位置變化量<NO_MOTION_THRESHOLD(無運動閾值)&&發(fā)生在幀序列中)

設(shè)備運動狀態(tài)=INTENTIONAL_MOTION

如果(任意軸的位置變化量>UNINTENTIONAL_MOTION_THRESHOLD(無意運動閾值))

設(shè)備運動狀態(tài)=UNINTENTIONAL_MOTION

設(shè)備運動狀態(tài)隨后關(guān)聯(lián)于圖像被存儲。

與找到幀之間的(幀間)運動相對,運動估計找到在幀內(nèi)部的(幀內(nèi))運動?;趬K的運動估計方案使用絕對差異和(“SAD”)作為主要成本度量。其他實施例可以使用目標(biāo)跟蹤。通用運動估計方程包括:

s(x,y,l),其中0≤x,y,≤N-1

其中

S(x,y,l)是指定像素定位的函數(shù);

(l)=候選幀

(k)=參考幀;以及

(vx,vy)是關(guān)于(i,j)的運動向量位移。

運動估計過程將每個N×N的候選塊與過去的參考幀相比較,且計算候選塊的像素位移。在每個位移位置,SAD被計算。產(chǎn)生最小SAD值的位置代表有最低畸變的位置(基于SAD成本度量)。

一旦針對每個N×N塊原始向量被計算,向量被濾波以獲得幀內(nèi)運動。在一個示例性方法中:

運動利用預(yù)測的運動向量被估計;

中值濾波器被應(yīng)用到運動向量;

運動向量被附加地濾波,由于以下原因:

||MV||>靜態(tài)運動閾值;或

||MV||>動態(tài)運動閾值;或

協(xié)同零SAD(Collocated zero SAD)>(所有塊的)平均零SAD(mean zero SAD);或

塊SAD<大SAD閾值;或

亮度方差>低塊活動(low-block-activity)閾值;

創(chuàng)建遮蔽區(qū)域(例如,在矩形幀中內(nèi)切最大正菱形,隨后在菱形中內(nèi)切最大規(guī)則矩形(“內(nèi)含矩形”));以及

計算:

Diamond_Count=num(菱形區(qū)域中的MV))/num(幀中的MV);以及

Inner_Rectangle_Count=num(內(nèi)含矩形中的MV))/num(菱形區(qū)域中的MV)

每個視頻幀基于諸如幀內(nèi)運動、亮度曝光值、設(shè)備運動、Sobel梯度得分和面部運動的量度,被表征為“感興趣的”(或不感興趣的)。這些量度被加權(quán)以說明每個量度的優(yōu)先級。

內(nèi)部幀運動:計算自Diamond_Count和Inner_Rectangle_Count率。

亮度曝光:計算自像素數(shù)據(jù),且針對曝光過度或不足的圖像,權(quán)重更少。

Sobel梯度得分:計算自像素數(shù)據(jù),且針對遠(yuǎn)離每個幀的Sobel得分的時間平均值的Sobel得分,權(quán)重更少。

設(shè)備運動:使用設(shè)備運動狀態(tài),且針對UNINTENTIONAL_MOTION,權(quán)重更少。

面部運動:運動向量由針對每個面部所檢測的位置被計算。針對每個面部的更大的運動向量,權(quán)重更少。

將這些放在一起:

如果motion_frame_score(運動幀得分)超過閾值,則幀被包括到“序列計算”中。序列計算計算具有感興趣的信息的幀的數(shù)量的總和,且與序列得分閾值對比。如果序列得分超過閾值,則場景被標(biāo)記為感興趣的視頻剪輯,且被永久存儲(圖3的步驟312)。

在視頻剪輯被存儲之前,起始和結(jié)束點被計算?;谠O(shè)備運動,定界符的第一水平被應(yīng)用。流程在視頻中尋找設(shè)備被標(biāo)記為NO_MOTION的片段且標(biāo)記起始和結(jié)束點。作為二次核對,流程也在每個幀中檢查幀內(nèi)運動,且在片段內(nèi)部標(biāo)記沒有相機運動的子片斷以指示感興趣的運動何時在視頻中出現(xiàn)。具有感興趣的幀內(nèi)運動的第一幀是視頻剪輯的新的起始,且視頻中在捕獲之后具有感興趣的運動的最后一幀結(jié)束視頻剪輯。在一些實施例中,剪輯被延展以在感興趣的部分之前和之后捕獲少量時間。

水平線檢測(見圖7和所附文本)處理圖像幀和傳感器數(shù)據(jù)以找到具有最平坦水平線的幀。如果沒有圖標(biāo)包括0度(閾值范圍內(nèi))的水平線,則圖像被旋轉(zhuǎn)和裁剪以創(chuàng)建具有水平的水平線的圖像。豎直線也可以被用于檢測水平線。

在一些實施例中,每個幀到來時,下述流程被連續(xù)執(zhí)行。對每個圖像:

將來自運動傳感器的角度位置關(guān)聯(lián)到圖像;

在圖像上應(yīng)用高斯模糊濾波器,隨后應(yīng)用邊緣檢測濾波器(例如,使用Canny檢測濾波器);

應(yīng)用圖像處理以找到圖像中的線段(例如,使用Hough線段變換)。對每個找到的線段:

關(guān)于設(shè)備的0度定向(即,水平的)計算線段的角度;以及

保留這樣的線段:

在一些角度閾值內(nèi)的;以及

在一些長度閾值內(nèi)的;

找到最長的線段(被稱為“最大線段”)、最大線段的起始和結(jié)束的位置、以及最大線段的角度。(用極坐標(biāo)和笛卡爾坐標(biāo)以及用線性方程存儲線段信息很重要)。

在流程的這個位置,每個圖像包括對應(yīng)于以下參數(shù)的元數(shù)據(jù):最大線段的長度、最大線段相對于水平線的角度、最大線段的線性方程、以及設(shè)備定向(也即,設(shè)備相對于來自運動傳感器的圖像平面的角度)。

對每個圖像系列,通過考慮,移除絕對差異(設(shè)備定向角度減去最大線段角度)大于閾值的圖像。這允許物理的運動傳感器信息結(jié)合像素信息一起被使用以確定該角度。

為每個圖像找到“感興趣的區(qū)域”。為了做到這個,延伸圖像中的最大線段到圖像的兩個邊界。感興趣的區(qū)域是以圖像的右側(cè)和左側(cè)為邊界的包括最大線段的最小矩形。

接下來通過找到在相關(guān)圖像的感興趣區(qū)域之間最大覆蓋的區(qū),尋找“參考區(qū)域”。這幫助驗證每個最大線段實際上是同樣的水平線,但是在不同的圖像中以不同的角度被捕獲。通過考慮移除最大線段落在參考區(qū)域之外的圖像。

最后,對相關(guān)圖像,選擇在參考區(qū)域中的最大線段具有最接近0度定向的角度(也即,最接近水平的)的圖像。以此作為檢測的水平線。如果必要,也即,如果選中的圖像的角度大于某閾值,則使用計算的角度旋轉(zhuǎn)該圖像并且裁剪并放大圖像。

鑒于本討論的原則可以被應(yīng)用到很多可能的實施例,應(yīng)認(rèn)識到此處關(guān)于附圖描述的實施例僅意味著示例性,且不應(yīng)被理解成限制本權(quán)利要求的范圍。因此,如此處描述的技術(shù)將所有這樣的實施例看作在下述權(quán)利要求及其等價物的范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
遵化市| 昌黎县| 安阳市| 类乌齐县| 疏附县| 宁夏| 寿阳县| 牡丹江市| 吉首市| 蒲江县| 翼城县| 昌宁县| 上虞市| 阜新市| 嘉定区| 台湾省| 迁安市| 鹤峰县| 丰县| 神池县| 永善县| 信宜市| 封丘县| 汉川市| 类乌齐县| 宁陵县| 上栗县| 平乐县| 东宁县| 沐川县| 金华市| 金寨县| 大理市| 仪征市| 定边县| 米脂县| 天全县| 绩溪县| 资中县| 囊谦县| 辽源市|