本技術(shù)涉及圖像處理領(lǐng)域,尤其涉及一種圖像抓拍方法、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在電子設(shè)備的相機(jī)使用過(guò)程中,用戶通常希望拍攝到特定場(chǎng)景下的圖像(下文稱(chēng)為“精彩時(shí)刻”)。當(dāng)前,電子設(shè)備提供了“連拍”和“自動(dòng)抓拍”功能,但是由于人的反應(yīng)時(shí)延以及電子設(shè)備的傳輸時(shí)延等問(wèn)題,用戶往往難以拍得真正的精彩時(shí)刻。這極大地降低了用戶的使用體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種圖像抓拍方法、設(shè)備及存儲(chǔ)介質(zhì),旨在用戶在拍照過(guò)程中,對(duì)目標(biāo)場(chǎng)景發(fā)生的精彩時(shí)刻進(jìn)行抓拍,提升抓拍準(zhǔn)確度,提升用戶的使用體驗(yàn)。
2、第一方面,本技術(shù)實(shí)施例提供一種圖像抓拍方法,應(yīng)用于電子設(shè)備,所述方法包括:響應(yīng)于圖像抓拍指令,獲取預(yù)覽視頻流和場(chǎng)景描述文本;對(duì)所述預(yù)覽視頻流進(jìn)行預(yù)處理,得到圖像幀集合;基于所述場(chǎng)景描述文本對(duì)所述圖像幀集合進(jìn)行場(chǎng)景分類(lèi),得到所述圖像幀集合對(duì)應(yīng)的場(chǎng)景標(biāo)簽;基于所述場(chǎng)景標(biāo)簽從預(yù)設(shè)引導(dǎo)參數(shù)集合中確定引導(dǎo)參數(shù),所述引導(dǎo)參數(shù)包括引導(dǎo)圖片和引導(dǎo)文本;將所述引導(dǎo)圖片和所述引導(dǎo)文本分別與所述圖像幀集合中的每一幀圖像進(jìn)行匹配,得到每一幀圖像的圖文匹配得分和圖圖匹配得分;根據(jù)每一幀圖像的圖文匹配得分和圖圖匹配得分,從所述圖像幀集合中確定候選精彩圖像集合;將所述引導(dǎo)圖片和所述引導(dǎo)文本進(jìn)行特征融合得到目標(biāo)特征;計(jì)算所述候選精彩圖像集合中每一幀圖像與所述目標(biāo)特征的相似度;根據(jù)所述相似度從所述候選精彩圖像集合中篩選出精彩時(shí)刻圖像,所述精彩時(shí)刻圖像為候選精彩圖像集合中相似度最高的圖像幀。
3、其中,預(yù)覽視頻流可以是參見(jiàn)圖10,手機(jī)響應(yīng)于用戶的圖像抓拍指令開(kāi)啟圖像抓拍功能后,手機(jī)通過(guò)攝像頭獲取目標(biāo)場(chǎng)景的視頻流。
4、其中,場(chǎng)景描述文本可以是參見(jiàn)圖7,用戶通過(guò)“選擇場(chǎng)景”選項(xiàng)輸入的。場(chǎng)景描述文本可以是用戶對(duì)目標(biāo)場(chǎng)景的一段描述,以及對(duì)期望獲取到的抓拍圖像的描述。
5、在一些可能的實(shí)現(xiàn)方式中,場(chǎng)景描述文本可以是用戶提前輸入的,例如引導(dǎo)文本;手機(jī)在獲取到預(yù)覽視頻流后,通過(guò)與場(chǎng)景描述文本進(jìn)行匹配得到場(chǎng)景標(biāo)簽。
6、其中,由于預(yù)覽視頻流中可能存在大量重復(fù)的視頻幀,因此還需要對(duì)預(yù)覽視頻流解碼后進(jìn)行抽幀的預(yù)處理操作,從而提升后續(xù)數(shù)據(jù)處理效率。
7、其中,預(yù)設(shè)引導(dǎo)參數(shù)集合中的引導(dǎo)參數(shù)可以是用戶提前輸入的,也可以是本技術(shù)實(shí)施例方法對(duì)應(yīng)的系統(tǒng)模塊初始化時(shí)置入的。預(yù)設(shè)引導(dǎo)參數(shù)集合中包括用戶期望得到的部分場(chǎng)景圖片以及描述文本。
8、其中,將引導(dǎo)圖片與圖像幀集合中的每一幀圖像,輸入至下述實(shí)施例中的圖像-圖像匹配模型中,即得到圖像幀集合中每一幀圖像的圖圖匹配得分。
9、其中,將引導(dǎo)文本與圖像幀集合中的每一幀圖像,輸入至下述實(shí)施例中的圖像-文本匹配模型中,即可得到圖像幀集合中每一幀圖像的圖文匹配得分。
10、其中,對(duì)引導(dǎo)圖像和引導(dǎo)文本進(jìn)行特征融合的步驟,可以是先對(duì)引導(dǎo)圖像進(jìn)行特征提取,然后將提取到的圖像特征與引導(dǎo)文本的特征進(jìn)行融合,得到目標(biāo)特征。
11、由此,在用戶開(kāi)啟圖像抓拍功能后,通過(guò)獲取目標(biāo)場(chǎng)景的預(yù)覽視頻流以及用戶輸入的場(chǎng)景描述文本,基于用戶輸入的場(chǎng)景描述文本對(duì)獲取到的預(yù)覽視頻流進(jìn)行場(chǎng)景分類(lèi),將分類(lèi)得到場(chǎng)景標(biāo)簽與預(yù)設(shè)引導(dǎo)參數(shù)集合進(jìn)行策略匹配,確定引導(dǎo)參數(shù),將引導(dǎo)參數(shù)與預(yù)覽視頻流進(jìn)行匹配,得到每一幀圖像的圖圖匹配得分和圖文匹配得分,從而確定候選精彩圖像集合,將基于引導(dǎo)參數(shù)進(jìn)行特征融合得到的目標(biāo)特征與候選精彩圖像集合中的每一幀圖像進(jìn)行相似度計(jì)算,將相似度最高的候選精彩圖像輸出為精彩時(shí)刻圖像。從而實(shí)現(xiàn)了對(duì)目標(biāo)場(chǎng)景的精彩時(shí)刻的精準(zhǔn)抓拍,提升了用戶的使用體驗(yàn)。
12、根據(jù)第一方面,所述根據(jù)所述相似度從候選精彩圖像集合中篩選出精彩時(shí)刻圖像,還包括:連續(xù)獲取多張所述精彩時(shí)刻圖像,比較每張精彩時(shí)刻圖像的所述相似度,將相似度最高的精彩時(shí)刻圖像輸出為最終的精彩時(shí)刻圖像。
13、其中,可以將獲取一張精彩時(shí)刻圖像的過(guò)程看作為一個(gè)計(jì)算周期,在對(duì)目標(biāo)場(chǎng)景中精彩時(shí)刻圖像抓拍時(shí),為了提高抓拍的準(zhǔn)確度,還可以通過(guò)連續(xù)獲取多個(gè)計(jì)算周期內(nèi)的精彩時(shí)刻圖像,并比較每張精彩時(shí)刻圖像的相似度,通過(guò)相似度確定最終的精彩時(shí)刻圖像。從而在時(shí)間軸上對(duì)圖像抓拍方法進(jìn)行優(yōu)化。
14、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,所述比較每張精彩時(shí)刻圖像的所述相似度,將相似度最高的精彩時(shí)刻圖像輸出為最終的精彩時(shí)刻圖像,還包括:基于已訓(xùn)練的美學(xué)評(píng)價(jià)模型對(duì)多張所述精彩時(shí)刻圖像進(jìn)行評(píng)分,將美學(xué)評(píng)分最高的所述精彩時(shí)刻圖像輸出為最終的精彩時(shí)刻圖像。
15、其中,已訓(xùn)練的美學(xué)評(píng)價(jià)模型可以對(duì)圖像進(jìn)行多個(gè)指標(biāo)的評(píng)價(jià),示例性的,這些指標(biāo)包括但不限于構(gòu)圖、色彩、光線、曝光、立意等。
16、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,所述根據(jù)每一幀圖像的圖文匹配得分和圖圖匹配得分,從所述圖像幀集合中確定候選精彩圖像集合,包括:將所述圖文匹配得分和所述圖圖匹配得分都大于預(yù)設(shè)閾值的多張圖像幀,確定為所述候選精彩圖像集合。
17、其中,預(yù)設(shè)閾值可以是根據(jù)實(shí)際需求設(shè)定的。
18、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,所述根據(jù)每一幀圖像的圖文匹配得分和圖圖匹配得分,從所述圖像幀集合中確定候選精彩圖像集合,還包括:基于所述圖文匹配得分和圖圖匹配得分,在同一坐標(biāo)系中構(gòu)建圖文匹配得分曲線和圖圖匹配得分曲線,所述坐標(biāo)系統(tǒng)為圖像幀-相似度坐標(biāo)系;獲取所述圖文匹配得分曲線和所述圖圖匹配得分曲線的交叉點(diǎn);基于所述交叉點(diǎn)對(duì)所述圖圖得分曲線進(jìn)行截取,將截取得到圖圖得分線段對(duì)應(yīng)的多張圖像幀確定為所述候選精彩圖像集合。
19、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,基于所述交叉點(diǎn)對(duì)所述圖圖得分曲線進(jìn)行截取,將截取得到圖圖得分線段對(duì)應(yīng)的多張圖像幀確定為候選精彩圖像集合之后,包括:根據(jù)預(yù)設(shè)波峰突出度閾值,對(duì)所述圖圖得分線段進(jìn)行過(guò)濾,將過(guò)濾后的圖圖得分線段對(duì)應(yīng)的多張圖像幀確定為候選精彩圖像集合。
20、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,根據(jù)預(yù)設(shè)波峰突出度閾值,對(duì)所述圖圖得分線段進(jìn)行過(guò)濾,還包括:根據(jù)預(yù)設(shè)預(yù)設(shè)波峰突出度閾值和波峰寬度閾值,對(duì)所述圖圖得分線段過(guò)濾。
21、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,所述基于所述場(chǎng)景描述文本對(duì)所述圖像幀集合進(jìn)行場(chǎng)景分類(lèi),得到所述圖像幀集合對(duì)應(yīng)的場(chǎng)景標(biāo)簽,包括:將所述場(chǎng)景描述文本和所述圖像幀集合輸入至預(yù)訓(xùn)練的多標(biāo)簽分類(lèi)模型進(jìn)行標(biāo)簽分類(lèi),得到所述圖像幀集合對(duì)應(yīng)的一個(gè)或多個(gè)場(chǎng)景標(biāo)簽。
22、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,在所述基于用戶觸發(fā)的圖像抓拍指令,獲取預(yù)覽視頻流和場(chǎng)景描述文本之前,所述方法還包括:顯示第一界面,所述第一界面包括相機(jī)應(yīng)用圖標(biāo);檢測(cè)到對(duì)于所述相機(jī)應(yīng)用圖標(biāo)的第一點(diǎn)擊操作;響應(yīng)于所述第一點(diǎn)擊操作,顯示第二界面,所述第二界面包括抓拍開(kāi)啟圖標(biāo);檢測(cè)到對(duì)所述抓拍開(kāi)啟圖標(biāo)的第二點(diǎn)擊操作;響應(yīng)于所述第二點(diǎn)擊操作,在所述第二界面中顯示場(chǎng)景選擇欄;檢測(cè)到完成對(duì)所述場(chǎng)景選擇欄的第三點(diǎn)擊操作;響應(yīng)于所述第三點(diǎn)擊操作,發(fā)送圖像抓拍指令,在所述第二界面中顯示預(yù)覽圖像。
23、關(guān)于該部分的具體實(shí)現(xiàn)細(xì)節(jié)可以參見(jiàn)實(shí)施例中針對(duì)于圖6和圖7的描述部分,此處暫不贅述。
24、根據(jù)第一方面,或者以上第一方面的任意一種實(shí)現(xiàn)方式,響應(yīng)于所述第二點(diǎn)擊操作,在所述第二界面中顯示場(chǎng)景選擇欄,還包括:響應(yīng)于所述第二點(diǎn)擊操作,在所述第二界面找那個(gè)顯示場(chǎng)景定義選項(xiàng);檢測(cè)到對(duì)所述場(chǎng)景定義選項(xiàng)的第四點(diǎn)擊操作;響應(yīng)于所述第四點(diǎn)擊操作,顯示第三界面,所述第三界面包括第一輸入控件和第二輸入控件,所述第一輸入控件用于添加所述引導(dǎo)文本,所述第二輸入控件用于添加所述引導(dǎo)圖片。
25、關(guān)于該部分的具體實(shí)現(xiàn)細(xì)節(jié)可以參見(jiàn)實(shí)施例中針對(duì)于圖7和圖8的描述部分,此處暫不贅述。
26、第二方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備。該電子設(shè)備包括:存儲(chǔ)器和處理器,存儲(chǔ)器和處理器耦合;存儲(chǔ)器存儲(chǔ)有程序指令,程序指令由處理器執(zhí)行時(shí),使得所述電子設(shè)備執(zhí)行第一方面或第一方面的任意可能的實(shí)現(xiàn)方式中的方法的指令。
27、第三方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀介質(zhì),用于存儲(chǔ)計(jì)算機(jī)程序,該計(jì)算機(jī)程序包括用于執(zhí)行第一方面或第一方面的任意可能的實(shí)現(xiàn)方式中的方法的指令。
28、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序包括用于執(zhí)行第一方面或第一方面的任意可能的實(shí)現(xiàn)方式中的方法的指令。
29、第五方面,本技術(shù)實(shí)施例提供了一種芯片,該芯片包括處理電路、收發(fā)管腳。其中,該收發(fā)管腳、和該處理電路通過(guò)內(nèi)部連接通路互相通信,該處理電路執(zhí)行第一方面或第一方面的任一種可能的實(shí)現(xiàn)方式中的方法,以控制接收管腳接收信號(hào),以控制發(fā)送管腳發(fā)送信號(hào)。