本發(fā)明涉及視覺問答領(lǐng)域,尤其是涉及了一種在視覺問答場景中提高問題前提可信度的方法。
背景技術(shù):
針對圖像內(nèi)容自主貼上圖像標簽或主題文字,是近年來備受關(guān)注的課題,尤其在產(chǎn)生海量圖像的今天,完全依照人眼去辨別圖像內(nèi)容并分類是個不可能的任務,因此如何利用先驗知識給特定圖像內(nèi)容貼上主題標簽,并且在視覺問答上準確回答出問題的關(guān)鍵所在,是值得考量的事情。如果能在非人眼勞動下成功將圖像內(nèi)容回答出來,將對工程學和視覺產(chǎn)業(yè)帶來極高的意義和經(jīng)濟價值,尤其在背景寬廣、物體稀疏如深海遠洋之地,如能準確地匯總實時航行信息、驗證遙感測繪圖像、合理規(guī)劃勘探任務等方面具有巨大的潛能與效益。
在傳統(tǒng)方法中,視覺問答并不考慮問題的合理性,即便問題與圖像內(nèi)容無關(guān),機器也會給出一個認為最相關(guān)的答案。例如圖像中是一只紅色的獵犬,當問題是“圖中的鴨子顏色是什么”的時候,答案依然“紅色”。視覺問答傳統(tǒng)方法無法給出對問題中前提信息的正誤判斷,給答案的精確度和意義造成了不良影響。
本發(fā)明提出了一種獨熱編碼和深度學習編碼的新框架。提取問題中前提信息,構(gòu)造問題相關(guān)性預測及解釋數(shù)據(jù)庫,對問題圖像對(ii,qi)進行二元分類,鑒定圖像ii是否存在問題qi中的前提信息,然后在獨熱編碼的基礎上,使用vgg網(wǎng)絡和長短期記憶網(wǎng)絡分別對圖像ii和問題qi進行編碼,并將其輸入到多層感知器進行預測。本發(fā)明可以處理不同場景中多種目標物體及其關(guān)系,提供一個編碼方法來計算圖像配對距離,同時提高了問題前提信息的可信度。
技術(shù)實現(xiàn)要素:
針對解決在視覺問答領(lǐng)域中問題前提可信度低的問題,本發(fā)明的目的在于提供一種在視覺問答場景中提高問題前提可信度的方法,提出了一種獨熱編碼和深度學習編碼的新框架。
為解決上述問題,本發(fā)明提供一種基于視頻數(shù)據(jù)的人體動作分析方法,其主要內(nèi)容包括:
(一)前提信息提??;
(二)問題相關(guān)性預測數(shù)據(jù)庫;
(三)問題相關(guān)性檢測;
(四)視覺問答的數(shù)據(jù)擴張。
其中,所述的前提信息提取,使用語義元祖圖片標題評價標準來提取問題中的前提信息,具體為:
(1)該評價標準將一個問題的句子轉(zhuǎn)換成一個場景表示;
(2)在轉(zhuǎn)換過程中禁用代詞消解和動詞還原;
(3)去除如“照片”、“圖像”等關(guān)鍵字詞。
進一步地,所述的問題相關(guān)性預測數(shù)據(jù)庫,包括問題相關(guān)性原則、數(shù)據(jù)庫構(gòu)成和數(shù)據(jù)庫集成。
進一步地,所述的問題相關(guān)性原則,為改變在傳統(tǒng)視覺問答上,被提問的圖像會強行根據(jù)題目進行不同程度的回答,即便問題與該圖像毫無關(guān)系的局面,因此從問題相關(guān)性入手,建立問題相關(guān)性預測及解釋數(shù)據(jù)庫,具體為:
(1)對自然問題q,當圖像與它相關(guān)時,用i+表示,當圖像與它無關(guān)時,用i-表示;
(2)為確保數(shù)據(jù)庫更加現(xiàn)實與具有挑戰(zhàn),跟自然問題q無關(guān)的圖像只具備一個錯誤前提;
(3)通過vgg深度學習網(wǎng)絡在imagenet上的訓練權(quán)值,計算不相關(guān)圖像與源圖像i+的視覺距離,確保它們之間視覺上相似但可作為前提信息區(qū)分度困難的例子。
進一步地,所述的數(shù)據(jù)庫構(gòu)成,利用現(xiàn)有的標題圖片數(shù)據(jù)庫和visualgenome標簽數(shù)據(jù)庫,根據(jù)三個判斷題目前提信息的次序來進行數(shù)據(jù)庫的建構(gòu):
(1)對于第一類前提,即進行標題存在判斷的前提,利用80類數(shù)據(jù)庫的標題圖片,可以單純從圖像標題上就能檢查出前提的存在與否;
(2)對于第二類前提,即進行屬性物體存在判斷的前提,利用visualgenome標簽數(shù)據(jù)庫,由于標簽不完全覆蓋圖像內(nèi)容,因此在沒有更嚴格的約束條件下,標簽之間不相互排斥,來確保只存在一個錯誤的前提;
(3)對于第三類前提,即進行圖像物體關(guān)系判斷的前提,由于對應圖像之間的內(nèi)容間缺乏獨立性,因此需要人為填補更多的標簽及標題,可在上述數(shù)據(jù)庫中實現(xiàn);
(4)在建構(gòu)好的數(shù)據(jù)庫中取出問題圖像對,即具有正確標題前提信息的圖像i+和只有一個錯誤條標題前提信息的i′,首先提取第一類、第二類前提信息,對每一個前提信息,遍歷所有圖像,找出只缺該前提信息的所有圖像,再進行視覺距離的排序,距離最近的問題圖像對可保持不相關(guān)圖像標簽。
進一步地,所述的數(shù)據(jù)庫集成,問題圖像對(i+,q,i-)中如果存在篡改的前提信息,則使得圖像i-對問題q無關(guān),具體地,該圖像庫含有(i+,q,i-)類圖像共102432對,其中11065對為第二類前提信息,剩下的91367對位第一類前提信息,此外,該數(shù)據(jù)庫包含2961個獨一無二的前提和96812個獨一無二的問題;從中,68037個前提信息用于訓練,34395個前提信息用于驗證。
進一步地,所述的問題相關(guān)性檢測,包括相關(guān)性預測和相關(guān)性解釋。
進一步地,所述的相關(guān)性預測,對于問題圖像對(ii,qi),只考慮一個二元預測任務:問題qi是否與圖像ii相關(guān),這需要將問題及圖像進行編碼,具體地,在獨熱編碼的基礎上,使用vgg網(wǎng)絡對圖像ii進行編碼,使用長短期記憶網(wǎng)絡對問題qi進行編碼,將編碼流串聯(lián)起來輸入到多層感知器進行預測。
進一步地,所述的相關(guān)性解釋,在視覺問答系統(tǒng)中,糾正問題的錯誤比強行回答錯誤的問題要更為重要,由此衍生對錯誤提問的報告,具體地,給定一個問題圖像對(ii,qi),目標在于鑒定圖像ii是否存在問題qi中的前提信息,同樣地,在獨熱編碼的基礎上,使用vgg網(wǎng)絡對圖像ii進行編碼,使用長短期記憶網(wǎng)絡對問題qi進行編碼,將編碼流串聯(lián)起來輸入到多層感知器進行預測。
進一步地,所述的視覺問答的數(shù)據(jù)擴張,在視圖上已經(jīng)有先驗知識的情況下,從視覺問答系統(tǒng)的訓練集合中基于問題的前提信息產(chǎn)生簡單的、模板化的新問題,所有被搜集起來的問題圖像對都會經(jīng)過視覺正常的人眼觀察并提問,也會被視作已經(jīng)經(jīng)過先驗知識的驗證,然后按照三類前提信息的模板進行問題的填充,尤其涉及物體之間的關(guān)系信息。
附圖說明
圖1是本發(fā)明一種在視覺問答場景中提高問題前提可信度的方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種在視覺問答場景中提高問題前提可信度的方法的示意圖。
圖3是本發(fā)明一種在視覺問答場景中提高問題前提可信度的方法的訓練例子。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種在視覺問答場景中提高問題前提可信度的方法的系統(tǒng)流程圖。主要包括前提信息提取;問題相關(guān)性預測數(shù)據(jù)庫;問題相關(guān)性檢測;視覺問答的數(shù)據(jù)擴張。
其中,前提信息提取,使用語義元祖圖片標題評價標準來提取問題中的前提信息,具體為:
(1)該評價標準將一個問題的句子轉(zhuǎn)換成一個場景表示;
(2)在轉(zhuǎn)換過程中禁用代詞消解和動詞還原;
(3)去除如“照片”、“圖像”等關(guān)鍵字詞。
問題相關(guān)性預測數(shù)據(jù)庫,包括問題相關(guān)性原則、數(shù)據(jù)庫構(gòu)成和數(shù)據(jù)庫集成。
問題相關(guān)性原則,為改變在傳統(tǒng)視覺問答上,被提問的圖像會強行根據(jù)題目進行不同程度的回答,即便問題與該圖像毫無關(guān)系的局面,因此從問題相關(guān)性入手,建立問題相關(guān)性預測及解釋數(shù)據(jù)庫,具體為:
(1)對自然問題q,當圖像與它相關(guān)時,用i+表示,當圖像與它無關(guān)時,用i-表示;
(2)為確保數(shù)據(jù)庫更加現(xiàn)實與具有挑戰(zhàn),跟自然問題q無關(guān)的圖像只具備一個錯誤前提;
(3)通過vgg深度學習網(wǎng)絡在imagenet上的訓練權(quán)值,計算不相關(guān)圖像與源圖像i+的視覺距離,確保它們之間視覺上相似但可作為前提信息區(qū)分度困難的例子。
數(shù)據(jù)庫構(gòu)成,利用現(xiàn)有的標題圖片數(shù)據(jù)庫和visualgenome標簽數(shù)據(jù)庫,根據(jù)三個判斷題目前提信息的次序來進行數(shù)據(jù)庫的建構(gòu):
(1)對于第一類前提,即進行標題存在判斷的前提,利用80類數(shù)據(jù)庫的標題圖片,可以單純從圖像標題上就能檢查出前提的存在與否;
(2)對于第二類前提,即進行屬性物體存在判斷的前提,利用visualgenome標簽數(shù)據(jù)庫,由于標簽不完全覆蓋圖像內(nèi)容,因此在沒有更嚴格的約束條件下,標簽之間不相互排斥,來確保只存在一個錯誤的前提;
(3)對于第三類前提,即進行圖像物體關(guān)系判斷的前提,由于對應圖像之間的內(nèi)容間缺乏獨立性,因此需要人為填補更多的標簽及標題,可在上述數(shù)據(jù)庫中實現(xiàn);
(4)在建構(gòu)好的數(shù)據(jù)庫中取出問題圖像對,即具有正確標題前提信息的圖像i+和只有一個錯誤條標題前提信息的i′,首先提取第一類、第二類前提信息,對每一個前提信息,遍歷所有圖像,找出只缺該前提信息的所有圖像,再進行視覺距離的排序,距離最近的問題圖像對可保持不相關(guān)圖像標簽。
數(shù)據(jù)庫集成,問題圖像對(i+,q,i-)中如果存在篡改的前提信息,則使得圖像i-對問題q無關(guān),具體地,該圖像庫含有(i+,q,i-)類圖像共102432對,其中11065對為第二類前提信息,剩下的91367對位第一類前提信息,此外,該數(shù)據(jù)庫包含2961個獨一無二的前提和96812個獨一無二的問題;從中,68037個前提信息用于訓練,34395個前提信息用于驗證。
相關(guān)性檢測,包括相關(guān)性預測和相關(guān)性解釋。
相關(guān)性預測,對于問題圖像對(ii,qi),只考慮一個二元預測任務:問題qi是否與圖像ii相關(guān),這需要將問題及圖像進行編碼,具體地,在獨熱編碼的基礎上,使用vgg網(wǎng)絡對圖像ii進行編碼,使用長短期記憶網(wǎng)絡對問題qi進行編碼,將編碼流串聯(lián)起來輸入到多層感知器進行預測。
相關(guān)性解釋,在視覺問答系統(tǒng)中,糾正問題的錯誤比強行回答錯誤的問題要更為重要,由此衍生對錯誤提問的報告,具體地,給定一個問題圖像對(ii,qi),目標在于鑒定圖像ii是否存在問題qi中的前提信息,同樣地,在獨熱編碼的基礎上,使用vgg網(wǎng)絡對圖像ii進行編碼,使用長短期記憶網(wǎng)絡對問題qi進行編碼,將編碼流串聯(lián)起來輸入到多層感知器進行預測。
視覺問答的數(shù)據(jù)擴張,在視圖上已經(jīng)有先驗知識的情況下,從視覺問答系統(tǒng)的訓練集合中基于問題的前提信息產(chǎn)生簡單的、模板化的新問題,所有被搜集起來的問題圖像對都會經(jīng)過視覺正常的人眼觀察并提問,也會被視作已經(jīng)經(jīng)過先驗知識的驗證,然后按照三類前提信息的模板進行問題的填充,尤其涉及物體之間的關(guān)系信息。
圖2是本發(fā)明一種在視覺問答場景中提高問題前提可信度的方法的示意圖。如圖所示,可以觀察到這個問題在下面兩幅圖像中都具有一定的物體元素,例如男人、球拍,但右圖沒有握住球拍,因此右圖是跟問題不相關(guān)的。
圖3是本發(fā)明一種在視覺問答場景中提高問題前提可信度的方法的訓練例子。如圖所示,可以觀察到,每一幅圖像篡改一個問題的前提,就能使得這幅圖像與問題變成不相關(guān),達到增強噪聲和提高訓練精度的效果。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。