本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及視頻封面的提供方法及裝置。
背景技術(shù):
我們?cè)谝曨l網(wǎng)站中看視頻時(shí),會(huì)在相關(guān)網(wǎng)頁(yè)中看到每個(gè)視頻都有一個(gè)視頻封面,視頻封面對(duì)應(yīng)圖片的質(zhì)量高低是吸引用戶點(diǎn)擊視頻的重要因素,尤其對(duì)于當(dāng)下比較火的短視頻而言,視頻封面對(duì)應(yīng)圖片的質(zhì)量尤為重要。
現(xiàn)有視頻封面的選取方案,通常是按照固定時(shí)間點(diǎn)(比如,將一個(gè)視頻按時(shí)長(zhǎng)平均分割為若干份子視頻,將每份子視頻開始播放的時(shí)間點(diǎn)作為固定時(shí)間點(diǎn),等等),從該視頻中截取圖片作為視頻封面的候選圖片以供用戶從中選擇,但是如此獲得的視頻封面的圖片經(jīng)常會(huì)出現(xiàn)模糊、離焦等問題,或者畫面過于簡(jiǎn)單、不含有有意義的物體或?qū)ο蟮取?/p>
隨著深度機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展,以及深度機(jī)器學(xué)習(xí)技術(shù)在圖像和語音的識(shí)別處理方面取得的巨大進(jìn)展,為了解決上述選取視頻封面方案中的問題,YouTube提出了的基于深度機(jī)器學(xué)習(xí)技術(shù)的視頻縮略圖自動(dòng)生成方案,可采用深度神經(jīng)網(wǎng)絡(luò)(DNN,Deep Neural Network),將用戶上傳的作為視頻封面的圖片作為“高質(zhì)量”訓(xùn)練集,將從視頻文件中隨機(jī)截取的圖片作為“低質(zhì)量”訓(xùn)練集,然后預(yù)先使用所述“高質(zhì)量”訓(xùn)練集和“低質(zhì)量”訓(xùn)練集進(jìn)行基于DNN的機(jī)器學(xué)習(xí)模型的訓(xùn)練,以得到訓(xùn)練好的DNN機(jī)器學(xué)習(xí)模型。在視頻縮略圖生成過程中,可先從視頻文件中隨機(jī)截取圖片(比如,一秒截取一幀),然后使用上述預(yù)先訓(xùn)練好的DNN機(jī)器學(xué)習(xí)模型對(duì)截取到的圖片進(jìn)行打分,再?gòu)牡梅肿罡叩膱D片(可能是若干幅)中選取最好的一幅圖片來作為視頻封面。經(jīng)過人工評(píng)估,也即通過評(píng)估人來對(duì)比DNN機(jī)器學(xué)習(xí)模型產(chǎn)生的視頻封面與按照固定時(shí)間點(diǎn)來截取圖片的方案所產(chǎn)生的視頻封面,65%的人認(rèn)為DNN機(jī)器學(xué)習(xí)模型產(chǎn)生的視頻封面的圖片更好。
但是,此種方案也會(huì)存在以下不足之處:
首先,直接將用戶上傳的圖片作為“高質(zhì)量”訓(xùn)練集,將從視頻中按照固定時(shí)間點(diǎn)截取的圖片作為“低質(zhì)量”訓(xùn)練集,會(huì)引入大量的“臟數(shù)據(jù)”也就是說,用戶上傳的圖片中可能會(huì)存在很多質(zhì)量不好的圖片,從視頻中按照固定時(shí)間點(diǎn)截取的圖片中也可能會(huì)存在很多質(zhì)量不錯(cuò)的圖片,因此,這種包含“臟數(shù)據(jù)”的訓(xùn)練集,會(huì)直接導(dǎo)致訓(xùn)練出的機(jī)器學(xué)習(xí)模型達(dá)不到很好的分類效果;
其次,當(dāng)視頻文件時(shí)長(zhǎng)較長(zhǎng)時(shí),此種截圖方式,會(huì)使得截取到的圖片的重復(fù)度比較高,最后提供給用戶的視頻封面圖片很有可能是一些重復(fù)度比較高的圖片。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)?zhí)峁┝艘曨l封面的提供方法及裝置,不但可保證不遺漏視頻文件中的所有重要場(chǎng)景,又可降低提供的視頻封面候選圖片中的圖片重復(fù)度,提升候選圖片的質(zhì)量,更便于用戶從中選取到更為適合的視頻封面。
本申請(qǐng)?zhí)峁┝巳缦路桨福?/p>
一種視頻封面的提供方法,包括:
接收用戶上傳的視頻文件,根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換關(guān)鍵幀并對(duì)所述場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取;
通過預(yù)先訓(xùn)練好的用于圖片分類的機(jī)器學(xué)習(xí)模型為截取到的圖片進(jìn)行打分并排序;
根據(jù)排序?qū)⒌梅指叩念A(yù)置幅數(shù)圖片作為視頻封面的候選圖片提供給用戶,以便用戶從所述候選圖片中進(jìn)行視頻封面的選擇。
可選的,還包括:
接收用戶對(duì)所述候選圖片中任一圖片的選擇指令;
將用戶選擇的圖片確定為視頻封面。
可選的,根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換關(guān)鍵幀并對(duì)所述場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取,包括:
判斷視頻文件中相鄰兩幀內(nèi)容變化是否超出預(yù)置的變化閾值;
將超出預(yù)置變化閾值的幀確定為場(chǎng)景變換關(guān)鍵幀;
對(duì)場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取,并將截取到的圖片組成場(chǎng)景變換關(guān)鍵幀圖片集合。
可選的,對(duì)用于圖片分類的機(jī)器學(xué)習(xí)模型的訓(xùn)練,包括:
確定用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù);
將所述圖片數(shù)據(jù)在卷積神經(jīng)網(wǎng)絡(luò)CNN的機(jī)器學(xué)習(xí)模型中做迭代訓(xùn)練,并在迭代訓(xùn)練過程中調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,以在CNN機(jī)器學(xué)習(xí)模型的基礎(chǔ)上得到用于圖片分類的CNN機(jī)器學(xué)習(xí)模型;
對(duì)所述用于圖片分類的CNN機(jī)器學(xué)習(xí)模型進(jìn)行評(píng)估;
若評(píng)估通過,則訓(xùn)練結(jié)束并將所述用于圖片分類的CNN機(jī)器學(xué)習(xí)模型作為訓(xùn)練好的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型。
可選的,還包括:
若評(píng)估未通過,則對(duì)用于圖片分類的CNN機(jī)器學(xué)習(xí)模型中采用算法的參數(shù)進(jìn)行調(diào)整,以便將所述圖片數(shù)據(jù)在參數(shù)調(diào)整后的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型中繼續(xù)做迭代訓(xùn)練,并在迭代訓(xùn)練過程中調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,直至得到的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型評(píng)估通過。
可選的,所述確定用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù),包括:
獲取基礎(chǔ)圖片數(shù)據(jù)集;
獲取基礎(chǔ)圖片數(shù)據(jù)集中圖片的色彩特征參數(shù)值;
根據(jù)所述色彩特征參數(shù)值將基礎(chǔ)圖片數(shù)據(jù)集中不符合預(yù)置條件的圖片去除,以獲得用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
可選的,所述基礎(chǔ)圖片數(shù)據(jù)集包括:含有用戶上傳圖片的第一數(shù)據(jù)集及含有按預(yù)置時(shí)間間隔隨機(jī)截取的圖片的第二數(shù)據(jù)集;
所述色彩特征參數(shù)值包括色調(diào)值、飽和度值及亮度值;
根據(jù)所述色彩特征參數(shù)值將基礎(chǔ)圖片數(shù)據(jù)集中不符合預(yù)置條件的圖片去除,以獲得用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù),包括:
根據(jù)預(yù)置的色彩特征權(quán)重,對(duì)每幅圖片的色彩特征參數(shù)值做加權(quán)和計(jì)算,以獲得每幅圖片對(duì)應(yīng)的色彩特征數(shù)值;
將所述第一數(shù)據(jù)集中色彩特征數(shù)值低于第一預(yù)置分值的圖片及所述第二數(shù)據(jù)集中色彩特征數(shù)值高于第二預(yù)置分值的圖片進(jìn)行去除,分別獲得第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集,以作為用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
可選的,所述基礎(chǔ)圖片數(shù)據(jù)集包括:含有用戶上傳圖片的第一數(shù)據(jù)集及含有按預(yù)置時(shí)間間隔隨機(jī)截取的圖片的第二數(shù)據(jù)集;
所述色彩特征參數(shù)值包括色調(diào)值、飽和度值及RGB值;
根據(jù)所述色彩特征參數(shù)值將基礎(chǔ)圖片數(shù)據(jù)集中不符合預(yù)置條件的圖片去除,以獲得用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù),包括:
將所述第一數(shù)據(jù)集中色調(diào)值低于第一預(yù)置色調(diào)閾值的圖片及所述第二數(shù)據(jù)集中色調(diào)值高于第二預(yù)置色調(diào)閾值的圖片進(jìn)行去除;
將所述第一數(shù)據(jù)集中飽和度值低于第一預(yù)置飽和度閾值的圖片及所述第二數(shù)據(jù)集中飽和度值高于第二預(yù)置飽和度閾值的圖片進(jìn)行去除;
根據(jù)所述RGB值將所述第一數(shù)據(jù)集中的黑白圖片進(jìn)行去除;
將第一數(shù)據(jù)集以及第二數(shù)據(jù)集中保留下來的圖片分別確定為第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集,以作為用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
可選的,在將所述第一數(shù)據(jù)集中色彩特征數(shù)值低于第一預(yù)置分值的圖片及所述第二數(shù)據(jù)集中色彩特征數(shù)值高于第二預(yù)置分值的圖片進(jìn)行去除之后,還包括:
分別對(duì)第一數(shù)據(jù)集及第二數(shù)據(jù)集中剩余圖片之間的相似度進(jìn)行判斷,并根據(jù)判斷結(jié)果從相似度達(dá)到預(yù)置相似度閾值的圖片中選取一幅圖片進(jìn)行保留,以便將第一數(shù)據(jù)集及第二數(shù)據(jù)集中保留下來的圖片分別作為所述第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集。
一種視頻封面的提供裝置,包括:
截圖單元,用于接收用戶上傳的視頻文件,并根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換關(guān)鍵幀并對(duì)所述場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截??;
打分單元,用于通過預(yù)先訓(xùn)練好的用于圖片分類的機(jī)器學(xué)習(xí)模型為截取到的圖片進(jìn)行打分并排序;
候選圖片提供單元,用于根據(jù)排序?qū)⒌梅指叩念A(yù)置幅數(shù)圖片作為視頻封面的候選圖片提供給用戶,以便用戶從所述候選圖片中進(jìn)行視頻封面的選擇。
可選的,還包括:
指令接收單元,用于接收用戶對(duì)所述候選圖片中任一圖片的選擇指令;
視頻封面確定單元,用于將用戶選擇的圖片確定為視頻封面。
可選的,所述截圖單元,具體用于:
判斷視頻文件中相鄰兩幀內(nèi)容變化是否超出預(yù)置的變化閾值;
將超出預(yù)置變化閾值的幀確定為場(chǎng)景變換關(guān)鍵幀;
對(duì)場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取,并將截取到的圖片組成場(chǎng)景變換關(guān)鍵幀圖片集合。
根據(jù)本申請(qǐng)?zhí)峁┑木唧w實(shí)施例,本申請(qǐng)公開了以下技術(shù)效果:
通過本申請(qǐng)實(shí)施例,當(dāng)接收到用戶上傳的視頻文件后,可根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換幀,并對(duì)所述場(chǎng)景變換幀對(duì)應(yīng)的圖片進(jìn)行截取,然后可通過預(yù)先訓(xùn)練好的用于圖片分類的機(jī)器學(xué)習(xí)模型為截取到的圖片進(jìn)行打分并排序,再根據(jù)排序?qū)⒌梅指叩念A(yù)置幅數(shù)圖片作為視頻封面的候選圖片提供給用戶,以便用戶從所述候選圖片中進(jìn)行視頻封面的選擇。以此,既可保證不遺漏視頻文件中的所有重要場(chǎng)景,又可降低提供的視頻封面候選圖片中的圖片重復(fù)度,提升候選圖片的質(zhì)量,更便于用戶從中選取到更為適合的視頻封面。
當(dāng)然,實(shí)施本申請(qǐng)的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本申請(qǐng)實(shí)施例提供的方法流程圖;
圖2是本申請(qǐng)實(shí)施例提供的方法中對(duì)用于圖片分類的機(jī)器學(xué)習(xí)模型的訓(xùn)練流程圖;
圖3-1至圖3-3是本申請(qǐng)實(shí)施例提供的方法中的實(shí)驗(yàn)數(shù)據(jù)示意圖;
圖4是本申請(qǐng)實(shí)施例提供的裝置示意圖。
具體實(shí)施方式
下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
參看圖1,本申請(qǐng)實(shí)施例首先提供了一種視頻封面的提供方法,可以包括以下步驟:
S101,接收用戶上傳的視頻文件,并根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換關(guān)鍵幀并對(duì)所述場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取。
通常情況下,視頻網(wǎng)站不但能夠?qū)⑵鋵?duì)應(yīng)服務(wù)器中內(nèi)置的視頻文件提供給用戶觀看,還可以在接收到任一用戶上傳的視頻文件后提供給用戶觀看。在本實(shí)施例中,當(dāng)接收到用戶上傳的視頻文件之后,可先確定視頻文件中的場(chǎng)景變換情況(也可以理解為鏡頭發(fā)生切換的情況),在本實(shí)施例中,比如可獲得視頻文件中相鄰幀的內(nèi)容變化情況,判斷相鄰兩幀內(nèi)容變化是否超出預(yù)置的變化閾值,并且把超出預(yù)置變化閾值的幀確定為場(chǎng)景變換關(guān)鍵幀,然后可對(duì)確定的場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取,并可進(jìn)一步將截取到的所有圖片組成場(chǎng)景變換關(guān)鍵幀圖片集合,以在后續(xù)步驟中使用,以此來保證不遺漏視頻文件中場(chǎng)景變換時(shí)的場(chǎng)景(也可認(rèn)為是重要場(chǎng)景),又可降低截取到圖片的重復(fù)度。
在實(shí)際應(yīng)用中,也可通過視頻文件中的碼率變化來判斷視頻文件中的場(chǎng)景變換情況,然后根據(jù)場(chǎng)景變換情況從視頻文件中進(jìn)行圖片的截取,以得到場(chǎng)景變換時(shí)對(duì)應(yīng)的截圖,通過此種截圖方式,可盡可能的保證不遺漏視頻文件中所有重要場(chǎng)景,又可降低截取到圖片的重復(fù)度。
此外,也可以使用其他方式來確定視頻文件中的場(chǎng)景變換情況,例如我們還可以通過圖片的灰度直方圖特征、尺度不變特征變換(SIFT,Scale-Invariant Feature Transform)特征等對(duì)視頻文件中圖片的相似度進(jìn)行判斷,比如,可先按照預(yù)置的頻率截取圖片(比如,2秒一幀等),然后根據(jù)現(xiàn)有關(guān)于判斷圖片相似度的技術(shù)對(duì)截取到的圖片之間的相似度進(jìn)行判斷,根據(jù)判斷結(jié)果對(duì)相似度高(比如相似度達(dá)到預(yù)設(shè)的相似度值)的圖片只保留一張,這樣也可達(dá)到確定視頻文件中的場(chǎng)景變化情況的目的。
S102,通過預(yù)先訓(xùn)練好的用于圖片分類的機(jī)器學(xué)習(xí)模型為截取到的圖片進(jìn)行打分并排序。
參看圖2所示,在本實(shí)施例中,對(duì)用于圖片分類的機(jī)器學(xué)習(xí)模型的訓(xùn)練過程,可包括如下步驟:
步驟1,確定用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
本實(shí)施例中,可使用深度機(jī)器學(xué)習(xí)模型(其中包括有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí).不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型不同),比如可采用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network),一種深度的有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型,當(dāng)然,根據(jù)實(shí)際需要也可采用其他適合的深度機(jī)器學(xué)習(xí)模型。
通常情況下,用于機(jī)器學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)可分為三個(gè)部分:訓(xùn)練數(shù)據(jù)集(training data),測(cè)試數(shù)據(jù)集(testing data),驗(yàn)證數(shù)據(jù)集(validation data),這三部分?jǐn)?shù)據(jù)的比例可設(shè)置為80%,10%,10%。對(duì)于有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型來說,獲取用于訓(xùn)練的數(shù)據(jù)是最重要的環(huán)節(jié)之一,高質(zhì)量的數(shù)據(jù)是機(jī)器學(xué)習(xí)模型訓(xùn)練的關(guān)鍵。
基于此,在具體實(shí)現(xiàn)時(shí),為了確定用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù),可先獲取基礎(chǔ)圖片數(shù)據(jù)集,其中,所述基礎(chǔ)圖片數(shù)據(jù)集可包括:含有用戶上傳圖片的第一數(shù)據(jù)集及含有按預(yù)置時(shí)間間隔隨機(jī)截取的圖片的第二數(shù)據(jù)集。
在現(xiàn)有視頻網(wǎng)站中,視頻封面有兩個(gè)主要產(chǎn)生渠道:一個(gè)是上傳視頻的用戶自己上傳一張圖片作為視頻封面,再一個(gè)是前述的系統(tǒng)按預(yù)置時(shí)間間隔隨機(jī)截取圖片并從中選取若干幅圖片提供給用戶選擇,用戶從中選取一幅圖片作為視頻封面。一方面,用戶自己上傳的圖片一般都是精心挑選的質(zhì)比較好的圖片,但是其中也不排除會(huì)存在一些看上去并不是很好的圖片,我們可以將此類圖片作為第一數(shù)據(jù)集(也可理解為是質(zhì)量相對(duì)高的數(shù)據(jù)集);另一方面,系統(tǒng)由于是以隨機(jī)方式截取圖片,基于此,提供給用戶做選擇的圖片質(zhì)量會(huì)良莠不齊,但是其中也不排除會(huì)存在一些質(zhì)量不錯(cuò)的圖片,我們可以將此類圖片做為第二數(shù)據(jù)集(也可以理解為質(zhì)量相對(duì)低的數(shù)據(jù)集),在本實(shí)施例中,我們可以將第一數(shù)據(jù)集及第二數(shù)據(jù)集確定為用于機(jī)器學(xué)習(xí)模型訓(xùn)練的基礎(chǔ)圖片數(shù)據(jù)。
在獲取到上述基礎(chǔ)圖片數(shù)據(jù)后,可進(jìn)一步獲取基礎(chǔ)圖片數(shù)據(jù)集中圖片的色彩特征參數(shù)值(比如可包括色調(diào)值、飽和度值、亮度值、RGB值等),然后可根據(jù)所述色彩特征參數(shù)值將基礎(chǔ)圖片數(shù)據(jù)集中不符合預(yù)置條件的圖片去除,以獲得用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
視頻封面的選取是一項(xiàng)主觀性很強(qiáng)的工作,沒有一個(gè)客觀的評(píng)判準(zhǔn)則,一張圖片的質(zhì)量好壞,往往與人的主觀因素相關(guān)較大,不同的人會(huì)有不同的觀點(diǎn)和偏好,比如豐富的色彩、醒目的人或物體、圖片的清晰度、對(duì)比度、飽和度等等都是影響一幅圖片好壞的因素。
因此,在一種實(shí)現(xiàn)方式中,我們可先獲取基礎(chǔ)圖片數(shù)據(jù)集中圖片的色彩特征參數(shù)值,該色彩特征參數(shù)值可包括HSV(Hue(色調(diào)),Saturation(飽和度),Luminence(亮度))值等,然后可通過獲取到的色調(diào)值、飽和度值、亮度值等來計(jì)算圖片的色彩特征數(shù)值,比如可包括圖片的顏色飽和度、明亮度、對(duì)比度等色彩特征數(shù)值。當(dāng)然,根據(jù)實(shí)際需要,也可以通過獲取HSL(Hue(色相),Saturation(飽和度),Luminence(亮度))值等來替換上述HSV值,以進(jìn)行后續(xù)步驟。
我們可預(yù)先根據(jù)以往的經(jīng)驗(yàn)對(duì)上述色彩特征參數(shù)值進(jìn)行色彩特征權(quán)重設(shè)置,比如:色彩飽和度權(quán)重為0.7、亮度權(quán)重為1、色調(diào)值權(quán)重為0.8,等等。然后,我們就可以根據(jù)預(yù)先設(shè)置的色彩特征權(quán)重,對(duì)每幅圖片對(duì)應(yīng)的色彩特征參數(shù)值進(jìn)行加權(quán)和計(jì)算,以得到每幅圖片對(duì)應(yīng)的的色彩特征數(shù)值,也就是說,每幅圖片對(duì)應(yīng)一個(gè)色彩特征數(shù)值。
接下來,可根據(jù)每幅圖片的色彩特征數(shù)值,將所述第一數(shù)據(jù)集中色彩特征數(shù)值低于第一預(yù)置分值的圖片(色彩特征數(shù)值較低的、質(zhì)量不好的圖片)進(jìn)行去除,以獲得第一類型數(shù)據(jù)集(比如可為高質(zhì)量數(shù)據(jù)),以及將所述第二數(shù)據(jù)集中色彩特征數(shù)值高于第二預(yù)置分值的圖片(色彩特征數(shù)值較高的、質(zhì)量不錯(cuò)的圖片)進(jìn)行去除,以獲得第二類型數(shù)據(jù)集(比如可為低質(zhì)量數(shù)據(jù)),并可將第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集作為用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
在另一種實(shí)現(xiàn)方式中,我們可先獲取基礎(chǔ)圖片數(shù)據(jù)集中圖片的色彩特征參數(shù)值,該色彩特征參數(shù)值可包括Hue(色調(diào))值,Saturation(飽和度)值,RGB((Red(紅),Green(綠),Blue(藍(lán)))值,然后可分別通過獲取到的色調(diào)值、飽和度值、RGB值對(duì)不符合預(yù)置條件的圖片去除。
在具體實(shí)現(xiàn)時(shí),可將所述第一數(shù)據(jù)集中色調(diào)值低于第一預(yù)置色調(diào)閾值的圖片及所述第二數(shù)據(jù)集中色調(diào)值高于第二預(yù)置色調(diào)閾值的圖片進(jìn)行去除,也即,將第一數(shù)據(jù)集中色調(diào)相對(duì)較差的圖片及第二數(shù)據(jù)集中色調(diào)相對(duì)較好的圖片進(jìn)行去除,以減少第一數(shù)據(jù)集及第二數(shù)據(jù)集中的圖片數(shù)量,進(jìn)而降低機(jī)器學(xué)習(xí)模型訓(xùn)練的運(yùn)算量,減少運(yùn)算時(shí)間,提升運(yùn)算速度,同時(shí)還可提升第一數(shù)據(jù)集及第二數(shù)據(jù)集中圖片的質(zhì)量。
然后,還可將所述第一數(shù)據(jù)集中飽和度值低于第一預(yù)置飽和度閾值的圖片及所述第二數(shù)據(jù)集中飽和度值高于第二預(yù)置飽和度閾值的圖片進(jìn)行去除,也即,將第一數(shù)據(jù)集中色彩飽和度相對(duì)較差的圖片及第二數(shù)據(jù)集中色彩飽和度相對(duì)較好的圖片進(jìn)行去除,以減少第一數(shù)據(jù)集及第二數(shù)據(jù)集中的圖片數(shù)量,進(jìn)而降低機(jī)器學(xué)習(xí)模型訓(xùn)練的運(yùn)算量,減少運(yùn)算時(shí)間,提升運(yùn)算速度,同時(shí)還可提升第一數(shù)據(jù)集及第二數(shù)據(jù)集中圖片的質(zhì)量。
此外,為了進(jìn)一步提升第一數(shù)據(jù)集中的圖片質(zhì)量,該第一數(shù)據(jù)集圖片中的黑白圖片(也可認(rèn)為是純灰度圖片)并非我們想要保留的,也就是說,黑白圖片并不是我們想要提供給用戶作為視頻封面的圖片,因此,根據(jù)所述RGB值將所述第一數(shù)據(jù)集中的黑白圖片進(jìn)行去除,也就是將第一數(shù)據(jù)集中不包含色度信息(比如,RGB中三個(gè)分量值均為0或RGB中三個(gè)分量值均為255等)的黑白圖片進(jìn)行去除,以此,可減少第一數(shù)據(jù)集中的圖片數(shù)量,進(jìn)而降低機(jī)器學(xué)習(xí)模型訓(xùn)練的運(yùn)算量,減少運(yùn)算時(shí)間,提升運(yùn)算速度,同時(shí)還可提升第一數(shù)據(jù)集中圖片的質(zhì)量。
然后,將第一數(shù)據(jù)集以及第二數(shù)據(jù)集中保留下來的圖片分別確定為第一類型數(shù)據(jù)集(即高質(zhì)量數(shù)據(jù)集)及第二類型數(shù)據(jù)集(即低質(zhì)量數(shù)據(jù)集),以作為用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
以此,可“清洗”掉現(xiàn)有技術(shù)中訓(xùn)練集中的“臟數(shù)據(jù)”(也就是不符合預(yù)置條件的圖片),包括用戶上傳的圖片中的質(zhì)量不好的圖片及系統(tǒng)隨機(jī)截取的圖片中質(zhì)量不錯(cuò)的圖片,以解決由于存在“臟數(shù)據(jù)”而導(dǎo)致訓(xùn)練出的機(jī)器學(xué)習(xí)模型達(dá)不到理想分類效果的問題。
在實(shí)際應(yīng)用中,為了進(jìn)一步降低機(jī)器學(xué)習(xí)模型訓(xùn)練的運(yùn)算量,在根據(jù)預(yù)置的色彩特征權(quán)重,對(duì)每幅圖片的色彩特征參數(shù)值做加權(quán)和計(jì)算之前,還可將每幅圖片的尺寸調(diào)整為預(yù)置尺寸。
由于系統(tǒng)截取到的圖片尺寸可能是比較大的,因此,可以在計(jì)算加權(quán)和之前對(duì)圖片進(jìn)行resize操作以統(tǒng)一調(diào)整圖片的長(zhǎng)寬比例,以符合機(jī)器學(xué)習(xí)模型的要求,比如,圖片的原始尺寸為1000*2000,可通過resize操作將其尺寸調(diào)整為100*200,此操作可僅改變圖片大小,而不會(huì)使圖片變形失真,以此,可有效減少機(jī)器學(xué)習(xí)模型訓(xùn)練的運(yùn)算量,提升運(yùn)算速度。
在實(shí)際應(yīng)用中,由于系統(tǒng)隨機(jī)截取到的圖片中會(huì)存在一些相似度很高的圖片,我們還可將相似度過高的圖片僅保留一張,以提高用于訓(xùn)練的數(shù)據(jù)集中圖片的質(zhì)量,并減少數(shù)據(jù)集中的圖片數(shù)量。
在本實(shí)施例中,可在將所述第一數(shù)據(jù)集中色彩分值低于第一預(yù)置分值的圖片及所述第二數(shù)據(jù)集中色彩分值高于第二預(yù)置分值的圖片進(jìn)行去除之后,對(duì)第一數(shù)據(jù)集及第二數(shù)據(jù)集中剩余圖片之間的相似度進(jìn)行判斷,比如可通過圖片的灰度直方圖特征來判斷圖片之間的相似度,具體的,可先獲取各圖片的像素?cái)?shù)據(jù)并生成各圖片的直方圖數(shù)據(jù),然后對(duì)各圖片的直方圖數(shù)據(jù)進(jìn)行歸一化處理,再使用巴氏系數(shù)算法對(duì)直方圖數(shù)據(jù)進(jìn)行計(jì)算,最終得出各圖片相似度值,其值范圍可在[0,1]之間,其中,0可表示極其不同,1可表示極其相似(或相同),可根據(jù)獲得到的各圖片的相似度值進(jìn)行相似度判斷。
然后,可根據(jù)判斷結(jié)果從相似度達(dá)到預(yù)置相似度閾值(比如相似度值不小于0.8)的圖片中選取一幅圖片進(jìn)行保留,也就是說,在相似度高的圖片中僅保留一幅(即其他幅圖片都去除),以便將第一數(shù)據(jù)集及第二數(shù)據(jù)集中保留下來的圖片分別作為所述第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集,以此,可進(jìn)一步第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集中圖片的數(shù)量,并且可保證第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集中圖片特征覆蓋的全面性,可進(jìn)一步提高用于訓(xùn)練的數(shù)據(jù)集質(zhì)量,減少圖片數(shù)量,進(jìn)而可降低機(jī)器學(xué)習(xí)模型訓(xùn)練的運(yùn)算量,提升運(yùn)算速度。
步驟2,將所述圖片數(shù)據(jù)在預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)CNN的機(jī)器學(xué)習(xí)模型中做迭代訓(xùn)練,并在迭代訓(xùn)練過程中調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,以在預(yù)先訓(xùn)練好的CNN機(jī)器學(xué)習(xí)模型的基礎(chǔ)上得到用于圖片分類的CNN機(jī)器學(xué)習(xí)模型。
對(duì)于大數(shù)據(jù)集的機(jī)器學(xué)習(xí)模型的訓(xùn)練往往需要很長(zhǎng)的時(shí)間,因此,我們可加入遷徙學(xué)習(xí)的思想,可采用Inception-v3定義的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行遷移學(xué)習(xí),其中,Inception-v3是用來訓(xùn)練2012年ImageNet的Large Visual Recognition Challenge數(shù)據(jù)集,這是計(jì)算機(jī)視覺領(lǐng)域的一類標(biāo)準(zhǔn)任務(wù),其可把整個(gè)圖像集分為1000個(gè)類別,Inception-v3的top5錯(cuò)誤率是3.46%。
在具體實(shí)現(xiàn)時(shí),可在已訓(xùn)練好的Inception-v3定義的CNN機(jī)器學(xué)習(xí)模型中,通過不斷的迭代訓(xùn)練及對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)值的調(diào)整,以得到符合需要的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型,以增加模型的可擴(kuò)展性和靈活性。
步驟3,對(duì)所述CNN機(jī)器學(xué)習(xí)模型進(jìn)行評(píng)估。
在本實(shí)施例中,首先,可通過上述10%的驗(yàn)證數(shù)據(jù)集進(jìn)行評(píng)估,但是,這種評(píng)估方法可能無法得知CNN機(jī)器學(xué)習(xí)模型是否有過擬合的情況,有可能出現(xiàn)在驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率很高,但在實(shí)際應(yīng)用中效果并不理想的問題,以最終影響CNN機(jī)器學(xué)習(xí)模型對(duì)圖片分類的準(zhǔn)確率。
因此,還可進(jìn)行人工評(píng)估,比如可隨機(jī)選取一個(gè)視頻文件,并從視頻文件中隨機(jī)截取若干幅圖片(比如100幅等),通過CNN機(jī)器學(xué)習(xí)模型對(duì)這100幅圖片進(jìn)行打分并進(jìn)行排序,然后,選取得分高的幾幅(比如得分序列中的前8幅)圖片與得分低的幾幅(比如得分序列中的后8幅)圖片進(jìn)行比較,也即將模型打分最高的幾張圖片和打分最低的幾張圖片進(jìn)行比較,通過比較結(jié)果對(duì)CNN機(jī)器學(xué)習(xí)模型進(jìn)行評(píng)估。
在上述人工評(píng)估的基礎(chǔ)上,還可以進(jìn)行二次人工評(píng)估,比如,可任意選取一個(gè)視頻文件,可以按預(yù)置時(shí)間間隔(比如每2秒一次)截取幾幅圖片(比如8幅圖片),將該隨機(jī)截取的8幅圖片與上述第一次人工評(píng)估過程中選取的得分最高的8幅圖片進(jìn)行比較,通過比較結(jié)果對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行再次評(píng)估。
以此,以先通過驗(yàn)證數(shù)據(jù)集進(jìn)行評(píng)估,再通過兩次人工評(píng)估的方式,可避免機(jī)器學(xué)習(xí)模型過擬合的情況,以實(shí)現(xiàn)對(duì)CNN機(jī)器學(xué)習(xí)模型進(jìn)行更為有效的評(píng)估,得到理想的評(píng)估效果,進(jìn)而保證CNN機(jī)器學(xué)習(xí)模型對(duì)圖片分類的準(zhǔn)確率。
步驟4,若評(píng)估通過,比如可為通過驗(yàn)證數(shù)據(jù)集進(jìn)行評(píng)估的精度可以達(dá)到第一預(yù)置百分比(比如該第一預(yù)置百分比為85%),且通過人工評(píng)估認(rèn)為通過CNN機(jī)器學(xué)習(xí)模型打分后得到的高分圖片更適合做為視頻封面的比例可以達(dá)到第二預(yù)置百分比(比如該第二預(yù)置百分比為90%),即為評(píng)估通過,則訓(xùn)練結(jié)束并將所述CNN機(jī)器學(xué)習(xí)模型作為訓(xùn)練好的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型。
步驟5,若評(píng)估未通過,比如可為通過驗(yàn)證數(shù)據(jù)集進(jìn)行評(píng)估的精度未達(dá)到第一預(yù)置百分比,且通過人工評(píng)估認(rèn)為通過CNN機(jī)器學(xué)習(xí)模型打分后得到的高分圖片更適合做為視頻封面的比例未達(dá)到第二預(yù)置百分比),即為評(píng)估未通過。
此種情況下,則可對(duì)CNN機(jī)器學(xué)習(xí)模型所采用算法的參數(shù)進(jìn)行調(diào)整,具體可根據(jù)訓(xùn)練過程的收斂度、訓(xùn)練的準(zhǔn)確度等情況進(jìn)行調(diào)整,比如可使用google的TensorBoard直觀的得到神經(jīng)網(wǎng)絡(luò)是否收斂的情況,其中,Tensorboard為Tensorflow的圖形化、可視化工具,Tensorboard可顯示Tensorflow中由tensor和flow構(gòu)成的靜態(tài)圖,以及訓(xùn)練過程中精度、偏差等分析的動(dòng)態(tài)圖等。
對(duì)于上述算法參數(shù)的調(diào)整,主要是對(duì)學(xué)習(xí)速率(learning rate)、批處理大小(batch size)、迭代次數(shù)(step)等參數(shù)的調(diào)整。比如,在參數(shù)調(diào)整過程中,如果學(xué)習(xí)速率過大,可能會(huì)使得卷積神經(jīng)網(wǎng)絡(luò)不收斂,處于震蕩狀態(tài),此時(shí)需要減小學(xué)習(xí)速率;如果學(xué)習(xí)速率過小,收斂速度較慢,較多的迭代次數(shù)才能使得卷積神經(jīng)網(wǎng)絡(luò)達(dá)到局部極值,此時(shí)可設(shè)置較大的迭代次數(shù)或增加學(xué)習(xí)速率;另外,批處理大小也會(huì)影響到收斂情況,也可通過對(duì)批處理大小的調(diào)整以調(diào)整收斂情況。也就是說,可通過TensorBoard查看學(xué)習(xí)的詳細(xì)情況,分析機(jī)器學(xué)習(xí)模型中所采用算法的參數(shù)設(shè)置不合理的地方并進(jìn)行相應(yīng)的調(diào)整,通過參數(shù)調(diào)整過程,以使得機(jī)器學(xué)習(xí)模型最終收斂并提升訓(xùn)練準(zhǔn)確率。
在參數(shù)調(diào)整后,將所述圖片數(shù)據(jù)在算法參數(shù)調(diào)整后的CNN機(jī)器學(xué)習(xí)模型中繼續(xù)做迭代訓(xùn)練,并在迭代訓(xùn)練過程中調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,直至得到的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型評(píng)估通過。
S103,根據(jù)排序?qū)⒌梅指叩念A(yù)置幅數(shù)圖片作為視頻封面的候選圖片提供給用戶,以便用戶從所述候選圖片中進(jìn)行視頻封面的選擇。
其中,排序可以為升序(得分從低到高)或降序(分?jǐn)?shù)從高到低),在本實(shí)施例中,可選用以降序進(jìn)行排序,可從序列的最前部選取得分高的預(yù)置幅數(shù)圖片(比如序列中的前8幅)作為視頻封面的候選圖片提供給用戶,以便用戶從這8幅圖片中選取一幅圖片作為視頻封面。
在具體實(shí)現(xiàn)時(shí),當(dāng)用戶對(duì)上述候選圖片中(也就是上述8幅圖片中)任一圖片進(jìn)行點(diǎn)擊操作時(shí),即為接收到用戶對(duì)所述圖片的選擇指令,可根據(jù)所述選擇指令,將用戶選擇的圖片確定為視頻文件的視頻封面。
本發(fā)明人在研發(fā)過程中進(jìn)行了大量的實(shí)驗(yàn),按照上述對(duì)機(jī)器學(xué)習(xí)模型的迭代訓(xùn)練方法得到了6版用于圖片打分的CNN機(jī)器學(xué)習(xí)模型,通過驗(yàn)證數(shù)據(jù)集進(jìn)行評(píng)估的精度達(dá)到89.9%,通過人工評(píng)估認(rèn)為通過CNN機(jī)器學(xué)習(xí)模型打分后得到的高分圖片更適合做為視頻封面的比例達(dá)到93.3%,通過CNN機(jī)器學(xué)習(xí)模型打分并提供的圖片具有清晰度高、對(duì)比度好、色彩鮮艷豐富、含有有意義的對(duì)象(人物或物體等)等特點(diǎn),比傳統(tǒng)的視頻封面選取方法更加高質(zhì)高效。
參看圖3-1至3-3為發(fā)明人試驗(yàn)的部分對(duì)比圖(其中顏色并未示出),在圖3-1至3-3中,上方8幅圖片為打分最高的8幅圖片,下方為同一視頻中打分最低的8幅圖片。
通過本申請(qǐng)實(shí)施例,當(dāng)接收到用戶上傳的視頻文件后,可根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換關(guān)鍵幀并對(duì)所述場(chǎng)景變換幀對(duì)應(yīng)的圖片進(jìn)行截取,然后可通過預(yù)先訓(xùn)練好的用于圖片分類的機(jī)器學(xué)習(xí)模型為截取到的圖片進(jìn)行打分并排序,再根據(jù)排序?qū)⒌梅指叩念A(yù)置幅數(shù)圖片作為視頻封面的候選圖片提供給用戶,以便用戶從所述候選圖片中進(jìn)行視頻封面的選擇。以此,既可保證不遺漏視頻文件中的所有重要場(chǎng)景,又可降低提供的視頻封面候選圖片中的圖片重復(fù)度,提升候選圖片的質(zhì)量,更便于用戶從中選取到更為適合的視頻封面。
與前述實(shí)施例中提供的視頻封面的提供方法相對(duì)應(yīng),本申請(qǐng)實(shí)施例還提供了一種視頻封面的提供裝置,參見圖4,該裝置可以包括:
截圖單元41,用于接收用戶上傳的視頻文件,并根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換關(guān)鍵幀并對(duì)所述場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取。
在具體實(shí)現(xiàn)時(shí),所述截圖單元41,可具體用于:
判斷視頻文件中相鄰兩幀內(nèi)容變化是否超出預(yù)置的變化閾值;
將超出預(yù)置變化閾值的幀確定為場(chǎng)景變換關(guān)鍵幀;
對(duì)場(chǎng)景變換關(guān)鍵幀對(duì)應(yīng)的圖片進(jìn)行截取,并將截取到的圖片組成場(chǎng)景變換關(guān)鍵幀圖片集合。
打分單元42,用于通過預(yù)先訓(xùn)練好的用于圖片分類的機(jī)器學(xué)習(xí)模型為截取到的圖片進(jìn)行打分并排序。
候選圖片提供單元43,用于根據(jù)排序?qū)⒌梅指叩念A(yù)置幅數(shù)圖片作為視頻封面的候選圖片提供給用戶,以便用戶從所述候選圖片中進(jìn)行視頻封面的選擇。
此外,所述裝置,還可包括:
指令接收單元,用于接收用戶對(duì)所述候選圖片中任一圖片的選擇指令;
視頻封面確定單元,用于將用戶選擇的圖片確定為視頻文件的視頻封面。
在本實(shí)施例中,對(duì)所述打分單元42中使用的用于圖片分類的機(jī)器學(xué)習(xí)模型的訓(xùn)練過程,可包括如下步驟:
步驟1,確定用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
在具體實(shí)現(xiàn)時(shí),可先獲取基礎(chǔ)圖片數(shù)據(jù)集,所述基礎(chǔ)圖片數(shù)據(jù)集包括:含有用戶上傳圖片的第一數(shù)據(jù)集及含有按預(yù)置時(shí)間間隔隨機(jī)截取的圖片的第二數(shù)據(jù)集。
然后,可獲取基礎(chǔ)圖片數(shù)據(jù)集中圖片的色彩特征參數(shù)值,比如包括所述色彩特征參數(shù)值包括色調(diào)值、飽和度值、亮度值、RGB值等,再根據(jù)所述色彩特征參數(shù)值將基礎(chǔ)圖片數(shù)據(jù)集中不符合預(yù)置條件的圖片去除,以獲得用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
在一種實(shí)現(xiàn)方式中,可在獲取基礎(chǔ)圖片數(shù)據(jù)集中圖片的色彩特征參數(shù)值后,該色彩特征參數(shù)值可包括HSV(Hue(色調(diào)),Saturation(飽和度),Luminence(亮度)值,根據(jù)預(yù)置的色彩特征權(quán)重,對(duì)每幅圖片的色彩特征參數(shù)值做加權(quán)和計(jì)算,以獲得每幅圖片對(duì)應(yīng)的色彩特征數(shù)值,然后將所述第一數(shù)據(jù)集中色彩特征數(shù)值低于第一預(yù)置分值的圖片及所述第二數(shù)據(jù)集中色彩特征數(shù)值高于第二預(yù)置分值的圖片進(jìn)行去除,分別獲得第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集,以作為用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
在另一種實(shí)現(xiàn)方式中,比如,可在獲取基礎(chǔ)圖片數(shù)據(jù)集中圖片的色彩特征參數(shù)值后,該色彩特征參數(shù)值可包括Hue(色調(diào))值,Saturation(飽和度)值,RGB((Red(紅),Green(綠),Blue(藍(lán)))值,將所述第一數(shù)據(jù)集中色調(diào)值低于第一預(yù)置色調(diào)閾值的圖片及所述第二數(shù)據(jù)集中色調(diào)值高于第二預(yù)置色調(diào)閾值的圖片進(jìn)行去除,接下來再將所述第一數(shù)據(jù)集中飽和度值低于第一預(yù)置飽和度閾值的圖片及所述第二數(shù)據(jù)集中飽和度值高于第二預(yù)置飽和度閾值的圖片進(jìn)行去除。
然后,還可根據(jù)所述RGB值將所述第一數(shù)據(jù)集中的黑白圖片進(jìn)行去除,也就是將第一數(shù)據(jù)集中不包含色度信息(比如,RGB中三個(gè)分量值均為0或RGB中三個(gè)分量值均為255等)的黑白圖片進(jìn)行去除,進(jìn)一步提高數(shù)據(jù)中圖片的質(zhì)量,降低模型訓(xùn)練的運(yùn)算量,減少計(jì)算時(shí)間,提升運(yùn)算速度。
最后,將第一數(shù)據(jù)集以及第二數(shù)據(jù)集中保留下來的圖片分別確定為第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集,以作為用于機(jī)器學(xué)習(xí)模型訓(xùn)練的圖片數(shù)據(jù)。
此外,為了進(jìn)一步降低模型訓(xùn)練的運(yùn)算量,提升運(yùn)算速度,還可在根據(jù)預(yù)置的色彩特征權(quán)重,對(duì)每幅圖片的色彩特征參數(shù)值做加權(quán)和計(jì)算之前,將每幅圖片的尺寸調(diào)整為預(yù)置尺寸,以將每幅圖片都調(diào)整為模型要求的尺寸。
由于在第一數(shù)據(jù)集及第二數(shù)據(jù)集中可能存在一些相似度很高的圖片,為了提高數(shù)據(jù)集中數(shù)據(jù)的質(zhì)量,減少圖片數(shù)量,降低模型訓(xùn)練的運(yùn)算量,進(jìn)而提升運(yùn)算速度,還可在將所述第一數(shù)據(jù)集中色彩分值低于第一預(yù)置分值的圖片及所述第二數(shù)據(jù)集中色彩分值高于第二預(yù)置分值的圖片進(jìn)行去除之后,對(duì)第一數(shù)據(jù)集及第二數(shù)據(jù)集中剩余圖片之間的相似度進(jìn)行判斷,并根據(jù)判斷結(jié)果從相似度達(dá)到預(yù)置相似度閾值的圖片中選取一幅圖片進(jìn)行保留,以便將第一數(shù)據(jù)集及第二數(shù)據(jù)集中保留下來的圖片分別作為所述第一類型數(shù)據(jù)集及第二類型數(shù)據(jù)集,以此,可得到重復(fù)度低、質(zhì)量更好的數(shù)據(jù)集。
步驟2,將所述圖片數(shù)據(jù)在預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)CNN的機(jī)器學(xué)習(xí)模型中做迭代訓(xùn)練,并在迭代訓(xùn)練過程中調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,以在預(yù)先訓(xùn)練好的CNN機(jī)器學(xué)習(xí)模型的基礎(chǔ)上得到用于圖片分類的CNN機(jī)器學(xué)習(xí)模型。
其中,所述卷積神經(jīng)網(wǎng)絡(luò)可為Inception-v3定義的卷積神經(jīng)網(wǎng)絡(luò)。
步驟3,對(duì)所述CNN機(jī)器學(xué)習(xí)模型進(jìn)行評(píng)估。
步驟4,若評(píng)估通過,則訓(xùn)練結(jié)束并將所述用于圖片分類的CNN機(jī)器學(xué)習(xí)模型作為訓(xùn)練好的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型;
步驟5,評(píng)估未通過,則對(duì)用于圖片分類的CNN機(jī)器學(xué)習(xí)模型中采用算法的參數(shù)進(jìn)行調(diào)整,以便將所述圖片數(shù)據(jù)在參數(shù)調(diào)整后的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型中繼續(xù)做迭代訓(xùn)并在迭代訓(xùn)練過程中調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值,直至得到的用于圖片分類的CNN機(jī)器學(xué)習(xí)模型評(píng)估通過。
通過本申請(qǐng)實(shí)施例,當(dāng)接收到用戶上傳的視頻文件后,可根據(jù)視頻文件中相鄰幀內(nèi)容的變化情況確定場(chǎng)景變換關(guān)鍵幀并對(duì)所述場(chǎng)景變換幀對(duì)應(yīng)的圖片進(jìn)行截取,然后可通過預(yù)先訓(xùn)練好的用于圖片分類的機(jī)器學(xué)習(xí)模型為截取到的圖片進(jìn)行打分并排序,再根據(jù)排序?qū)⒌梅指叩念A(yù)置幅數(shù)圖片作為視頻封面的候選圖片提供給用戶,以便用戶從所述候選圖片中進(jìn)行視頻封面的選擇。以此,既可保證不遺漏視頻文件中的所有重要場(chǎng)景,又可降低提供的視頻封面候選圖片中的圖片重復(fù)度,提升候選圖片的質(zhì)量,更便于用戶從中選取到更為適合的視頻封面。
通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)。基于這樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)或系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的系統(tǒng)及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
以上對(duì)本申請(qǐng)所提供的視頻封面的提供方法及裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。