本公開內(nèi)容主要地涉及表征多媒體內(nèi)容。具體而言,本公開內(nèi)容涉及確定多媒體內(nèi)容的摘要的質(zhì)量,其中摘要和多媒體內(nèi)容二者包括文本和圖像。
背景技術(shù):
多媒體內(nèi)容主要地是指包括不同內(nèi)容形式的某個(gè)組合的數(shù)字內(nèi)容,這些內(nèi)容形式包括文本和圖像(視頻、動(dòng)畫、圖形等)。這樣的多媒體內(nèi)容如此普遍和廉價(jià)以至于用戶經(jīng)常被選擇多媒體內(nèi)容項(xiàng)目進(jìn)行消費(fèi)的過程所淹沒。由于這一點(diǎn),多媒體內(nèi)容的用戶經(jīng)常依賴于多媒體內(nèi)容項(xiàng)目的摘要。這些摘要可以作為替代用于消費(fèi)多媒體內(nèi)容項(xiàng)目或者用來有助于選擇待消費(fèi)的多媒體內(nèi)容項(xiàng)目。因此,多媒體摘要的質(zhì)量可能對(duì)預(yù)期的讀者決策消費(fèi)給定的內(nèi)容項(xiàng)目具有顯著影響。然而,目前沒有用于評(píng)估多媒體摘要的質(zhì)量的適當(dāng)方法。
附圖說明
圖1是圖示根據(jù)本公開內(nèi)容的一個(gè)實(shí)施例的用于確定與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的摘要的質(zhì)量度量的方法的高級(jí)流程圖。
圖2是圖示根據(jù)本公開內(nèi)容的一個(gè)實(shí)施例的用于確定與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的摘要的質(zhì)量度量的方法的具體流程圖。
圖3是根據(jù)本公開內(nèi)容的一個(gè)實(shí)施例的包括質(zhì)量度量確定系統(tǒng)的分布式處理環(huán)境的框圖,該質(zhì)量度量確定系統(tǒng)由通信網(wǎng)絡(luò)遠(yuǎn)程地耦合到給定的用戶的計(jì)算設(shè)備。
圖4是根據(jù)本公開內(nèi)容的一個(gè)實(shí)施例的用于確定多媒體內(nèi)容項(xiàng)目的多媒體摘要的質(zhì)量的質(zhì)量度量確定系統(tǒng)的框圖。
各圖僅出于示例的目的而描繪本公開內(nèi)容的各種實(shí)施例。許多變化、配置和其他實(shí)施例將從以下具體討論中清楚。
具體實(shí)施方式
如先前指出的那樣,沒有用于評(píng)估給定的多媒體摘要的質(zhì)量的技術(shù)。然而,這樣的摘要可能對(duì)預(yù)期的用戶、包括是否消費(fèi)摘要化的數(shù)字內(nèi)容項(xiàng)目的完全版本的用戶決策具有顯著影響。因此,從市場(chǎng)開發(fā)觀點(diǎn)來看,希望有用于評(píng)估多媒體內(nèi)容項(xiàng)目的摘要的質(zhì)量的技術(shù)。例如考慮具有圖像和文本部分二者的數(shù)字文章。如將按照本公開內(nèi)容認(rèn)識(shí)的那樣,在圖像部分與文本部分之間具有高相干性程度的、該文章的摘要可能幫助讀者比假如在圖像部分與文本部分之間缺乏相干性的摘要更快地具有對(duì)文章的更佳理解。在更一般意義上,摘要代表對(duì)應(yīng)多媒體內(nèi)容項(xiàng)目的程度可以被量化為質(zhì)量度量。摘要的質(zhì)量度量然后例如可以用來計(jì)量摘要將在引起對(duì)內(nèi)容項(xiàng)目本身的消費(fèi)時(shí)有效的可能性。盡管一些可用算法可能可用來評(píng)估多媒體內(nèi)容項(xiàng)目的給定的多媒體摘要(或者為了簡(jiǎn)潔而這里簡(jiǎn)稱為“摘要”)的文本部分,但是這樣的算法將無法考慮該摘要的非文本部分。具體而言,用于評(píng)估內(nèi)容的算法將很可能通過比較多媒體內(nèi)容的文本部分中的詞頻與對(duì)應(yīng)摘要中的詞頻來操作。摘要的詞頻與多媒體內(nèi)容項(xiàng)目中的詞頻越相似,質(zhì)量分?jǐn)?shù)就越高。這一類算法的示例包括保留率(該算法可以例如通過將摘要中的獨(dú)特的詞的數(shù)目除以多媒體內(nèi)容項(xiàng)目中的獨(dú)特的詞的數(shù)目來操作)、KL散度(該算法可以例如通過測(cè)量?jī)?nèi)容和對(duì)應(yīng)摘要中的詞頻的分布來操作)、雙語評(píng)估替代(“BLEU”)(該算法確定從一門語言到另一門語言的機(jī)器翻譯文本的質(zhì)量)和用于要點(diǎn)評(píng)估的面向召回率的替代(“ROUGE”)(該算法使用人類生成的摘要作為參考來確定摘要的質(zhì)量)。
然而,如將按照本公開內(nèi)容認(rèn)識(shí)的那樣,以上算法和類似算法如果用來確定多媒體內(nèi)容項(xiàng)目的摘要的質(zhì)量則是不夠的。一個(gè)原因是因?yàn)檫@些算法主要地依賴于詞頻,所以沒有比較摘要的語義含義與多媒體(非文本)內(nèi)容項(xiàng)目的語義含義。這一詞頻方式因此可能即使對(duì)于具有與對(duì)應(yīng)多媒體內(nèi)容項(xiàng)目很不相同的語義含義的摘要仍然有問題地生成高的質(zhì)量度量值。例如考慮多媒體內(nèi)容項(xiàng)目的文本部分的簡(jiǎn)單示例,該多媒體內(nèi)容項(xiàng)目陳述“這個(gè)女孩不喜歡奶酪”。具有陳述“這個(gè)女孩喜歡奶酪”的文本部分的對(duì)應(yīng)摘要將使用詞頻算法具有良好的打分,但是鑒于在該摘要中不存在“不”而不準(zhǔn)確。在另一示例場(chǎng)景中,包括文本部分——該文本部分使用代詞來引用附帶圖像部分——的多媒體內(nèi)容項(xiàng)目可能具有沒有信息的高打分摘要。例如考慮多媒體內(nèi)容項(xiàng)目,該多媒體內(nèi)容項(xiàng)目包括伴隨有文本標(biāo)題“這很好”的襯衫的圖片。假如沒有對(duì)襯衫的圖像部分的分析,可能向陳述“這很好”的摘要給予高的質(zhì)量度量值,因?yàn)樗_切地符合多媒體內(nèi)容項(xiàng)目的文本部分(即在摘要的文本與全文的文本之間有高的相關(guān)性程度)。然而,如果實(shí)際上考慮了圖像,則摘要可能已經(jīng)是“這件襯衫很好”,這是相對(duì)地準(zhǔn)確得多的摘要,因此應(yīng)當(dāng)比僅基于文本的分?jǐn)?shù)打分更高。因此,使用當(dāng)前可用算法,摘要可以被誤導(dǎo)地確定為具有高質(zhì)量分?jǐn)?shù),但是沒有準(zhǔn)確地反映多媒體內(nèi)容項(xiàng)目的語義含義。
為此,這里提供用于通過考慮多媒體內(nèi)容項(xiàng)目的多媒體摘要的文本和非文本組成二者來確定該摘要的質(zhì)量度量的技術(shù)。在一些實(shí)施例中,質(zhì)量度量部分基于摘要和內(nèi)容項(xiàng)目的語義相似性而不是僅基于詞頻。這在一些實(shí)施例中通過使用向量分析標(biāo)識(shí)摘要和多媒體內(nèi)容的語義含義來實(shí)現(xiàn)。比較摘要的向量和多媒體內(nèi)容項(xiàng)目的向量以確定語義相似性。注意文本和非文本項(xiàng)目二者可以容易地由向量代表,由此有助于基于向量的比較。
除了評(píng)定在給定的多媒體內(nèi)容項(xiàng)目與它的多媒體摘要之間的語義含義相似性之外,本技術(shù)還可以包括確定在摘要本身的文本與非文本部分之間的相關(guān)性程度。如將按照本公開內(nèi)容認(rèn)識(shí)的那樣,在摘要的文本與非文本部分之間的高相關(guān)性或者“相干性”程度往往指示更高質(zhì)量的摘要。因此,本公開內(nèi)容的一些實(shí)施例提供用于部分基于確定在用于確定多媒體摘要的質(zhì)量度量的、摘要的圖像部分與摘要的文本部分之間的相干性來確定多媒體內(nèi)容項(xiàng)目的多媒體摘要的質(zhì)量度量的方法?!跋喔尚浴笔侵冈诙嗝襟w摘要的文本部分與多媒體摘要的圖像部分之間的語義含義相似性并且根據(jù)以下描述的方法來確定。在高級(jí)別,確定相干性通過從文本部分的片段和圖像部分的片段二者生成向量并且將向量投影到公共單位空間上來實(shí)現(xiàn)。然后比較投影的向量。在公共單位空間中相互鄰近的向量對(duì)應(yīng)于跨摘要的文本部分和圖像部分二者的語義相似信息,因此對(duì)應(yīng)于在那些部分之間的高相干性程度。注意如果給定的多媒體摘要包括視頻而不是靜止圖像(或者除了靜止圖像之外還包括視頻),則視頻可以視為靜止圖像(或者幀)的匯集,其中以與靜止圖像相同的方式比對(duì)摘要的文本部分分離地評(píng)估每個(gè)圖像。然后,可以計(jì)算個(gè)別比較的平均值或者其他適當(dāng)統(tǒng)計(jì)表示以便提供在文本部分與視頻之間的總相干性程度。為此,這里引用“圖像”旨在于包括視頻內(nèi)容幀。
本公開內(nèi)容的一些實(shí)施例的一個(gè)益處是質(zhì)量度量的提高的準(zhǔn)確性。提高的準(zhǔn)確性有若干原因。一個(gè)原因是本公開內(nèi)容的一些實(shí)施例分析多媒體內(nèi)容項(xiàng)目和對(duì)應(yīng)摘要的文本部分和圖像部分二者。這提高質(zhì)量度量的準(zhǔn)確性,因?yàn)橘|(zhì)量度量因此反映在多媒體內(nèi)容項(xiàng)目和對(duì)應(yīng)摘要的文本部分和圖像部分之間傳達(dá)的語義含義。提高的準(zhǔn)確性的另一原因是一些實(shí)施例分析和并入在摘要的文本部分與摘要的圖像部分之間的相干性。這提高準(zhǔn)確性,因?yàn)檎Z義相似的具有文本部分和圖像部分的摘要將在使用本公開內(nèi)容的實(shí)施例時(shí)產(chǎn)生高質(zhì)量度量。
本公開內(nèi)容的一些實(shí)施例的另一益處是有能力定制對(duì)多媒體質(zhì)量度量的三個(gè)不同貢獻(xiàn)的權(quán)值。具體而言,通過用戶可選擇的系數(shù),根據(jù)一些實(shí)施例,可以根據(jù)用戶偏好對(duì)以下信息內(nèi)容的個(gè)別貢獻(xiàn)進(jìn)行加權(quán):(1)摘要的文本部分相對(duì)于多媒體內(nèi)容的文本部分的信息內(nèi)容(“文本覆蓋”);(2)摘要的圖像部分相對(duì)于多媒體內(nèi)容項(xiàng)目的圖像部分的信息內(nèi)容(“圖像覆蓋”);以及(3)在摘要的文本與圖像之間的相干性。定制一些實(shí)施例以做出對(duì)與話題集合一致或者與用戶選擇的話題和興趣一致的摘要的評(píng)估??梢远ㄖ埔恍?shí)施例以提高在圖像部分、文本部分或者二者的語義含義之間比較的準(zhǔn)確性。
如這里所用,術(shù)語多媒體內(nèi)容項(xiàng)目是指包括文本部分和圖像部分的內(nèi)容項(xiàng)目。圖像部分可以是任何類型的數(shù)字資源(例如電子書、網(wǎng)頁、移動(dòng)應(yīng)用、數(shù)字相片)中的任何格式的靜止圖像或者如先前說明的視頻的幀。文本部分和圖像部分中的每個(gè)部分分別包括文本片段和圖像片段。文本片段是句子、句子的子句、句子中的詞或者字符(即數(shù)、符號(hào)、字母)。圖像片段是圖像的幀或者幀的部分或者在圖像的幀內(nèi)的對(duì)象。文本部分或者文本片段的信息內(nèi)容是指與本身一般地未傳達(dá)含義的詞(例如,連詞和冠詞)對(duì)照的在文本部分或者文本片段中的可以傳達(dá)含義的詞(例如名詞、動(dòng)詞和形容詞)數(shù)目。圖像部分或者圖像片段的信息內(nèi)容是指可以傳達(dá)含義的幀、幀的部分或者在幀內(nèi)的對(duì)象(例如與未聚焦的背景比較的臉部的圖像)。如以上指示的那樣,“相關(guān)性”是指在摘要的文本部分與摘要的圖像部分之間的語義含義相似性。術(shù)語“質(zhì)量”如這里所用是指在摘要的語義含義與對(duì)應(yīng)多媒體內(nèi)容項(xiàng)目的語義含義比較之間的相似性程度。質(zhì)量度量的值越高,摘要和對(duì)應(yīng)多媒體內(nèi)容項(xiàng)目在語義含義上就越接近。
確定質(zhì)量度量的方法
圖1是圖示根據(jù)本公開內(nèi)容的一個(gè)實(shí)施例的用于確定與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的多媒體摘要的質(zhì)量度量的方法100的高級(jí)流程圖。方法100通過接收104多媒體內(nèi)容項(xiàng)目并且也接收108與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的多媒體摘要來開始。如以上呈現(xiàn)的那樣,將方法100應(yīng)用于多媒體內(nèi)容項(xiàng)目和多媒體摘要僅為一個(gè)實(shí)施例。本公開內(nèi)容的其他實(shí)施例適用于包含文本部分和圖像部分中的僅一個(gè)部分或者另一部分的內(nèi)容項(xiàng)目和摘要。
本公開內(nèi)容的一些實(shí)施例然后分析112多媒體內(nèi)容項(xiàng)目和多媒體摘要二者。以下在圖2的上下文中更具體描述分析112。基于分析112,確定116多媒體摘要的質(zhì)量度量。以下也在圖2的上下文中更具體描述質(zhì)量度量及其確定116。
圖2是圖示根據(jù)本公開內(nèi)容的一個(gè)實(shí)施例的用于確定與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的多媒體摘要的質(zhì)量度量的方法200的具體流程圖。為了便于說明,該方法被圖示為包括三個(gè)元步驟(未按特定順序呈現(xiàn)):(1)分析204在多媒體內(nèi)容項(xiàng)目的文本部分的句子與摘要的文本部分的句子之間的語義相似性;(2)分析208在摘要的文本部分的句子與摘要的圖像部分的圖像之間的語義相似性;以及(3)分析212在多媒體內(nèi)容項(xiàng)目的圖像部分的圖像與摘要的圖像部分的圖像之間的語義相似性。為了便于說明,從圖2省略方法100的關(guān)于接受多媒體內(nèi)容項(xiàng)目和多媒體摘要的要素。
方法200的元步驟204圖示用于分析在多媒體內(nèi)容項(xiàng)目的文本部分的句子(或者句子片段)與摘要的文本部分的句子(或者句子片段)之間的相似性的操作。這一分析204操作的功能和益處是確定在多媒體內(nèi)容項(xiàng)目的文本部分與對(duì)應(yīng)摘要的文本部分之間的語義含義可比較的程度。這一分析204通過首先生成216用于多媒體內(nèi)容項(xiàng)目和摘要各自的文本部分中的句子的向量以確定摘要的文本部分是否傳達(dá)與多媒體內(nèi)容項(xiàng)目的文本部分傳達(dá)的語義含義相同(或者相似)的語義含義來實(shí)現(xiàn)。傳達(dá)的語義含義越相似,對(duì)摘要的文本部分的質(zhì)量度量的貢獻(xiàn)就越高。
通過首先使用遞歸自動(dòng)編碼器處理多媒體內(nèi)容項(xiàng)目和摘要二者的文本部分來生成216向量。首先訓(xùn)練編碼矩陣We。We一旦被訓(xùn)練就被用來分析多媒體內(nèi)容項(xiàng)目和對(duì)應(yīng)摘要的句子以提取相應(yīng)語義含義并且在公共單位空間中比較它們(以下更具體描述)。
為了訓(xùn)練編碼矩陣We,遞歸自動(dòng)編碼器首先生成用于至少一個(gè)訓(xùn)練句子的語法解析樹。生成用于在每個(gè)訓(xùn)練句子內(nèi)的每個(gè)詞和子句的語義向量。根據(jù)以下等式1生成解析樹的每個(gè)非端子(即非葉)節(jié)點(diǎn)。
s=f(We[c1,c2]+b) 等式1
在等式1中,s代表非葉節(jié)點(diǎn),We是訓(xùn)練的編碼矩陣,并且c1和c2(更一般地,ci)是詞到向量表示。具體而言,ci包括句子片段,這些句子片段是解析樹的要素。這些句子片段是訓(xùn)練序列中的一個(gè)或者多個(gè)訓(xùn)練序列的子集。等式1中的項(xiàng)b是常數(shù)。函數(shù)f在一個(gè)示例中是在它對(duì)函數(shù)的變量運(yùn)算時(shí)產(chǎn)生在0與1之間的結(jié)果的sigmoid函數(shù)。
對(duì)矩陣We的訓(xùn)練繼續(xù)遞歸自動(dòng)編碼器根據(jù)以下等式2對(duì)于多媒體內(nèi)容項(xiàng)目和對(duì)應(yīng)摘要的每個(gè)句子重建在解析樹中的每個(gè)節(jié)點(diǎn)之下的要素。
[x1′∶y1′]=f(Wdy2+b) 等式2
等式2描述基于矩陣Wd對(duì)句子y2的運(yùn)算輸出多個(gè)向量(從向量x1’到y(tǒng)1’),該輸出后續(xù)地用sigmoid函數(shù)f來處理。
在完成對(duì)矩陣We的訓(xùn)練時(shí),然后使用訓(xùn)練的矩陣We來生成和使用解析樹的根的向量表示作為句子的表示向量。針對(duì)每個(gè)句子生成的向量然后用于計(jì)算在多媒體內(nèi)容項(xiàng)目的句子與摘要的對(duì)應(yīng)句子之間的余弦相似性。根據(jù)以下等式3基于余弦相似性確定在多媒體內(nèi)容項(xiàng)目的文本部分和摘要的文本部分的句子之間的相似性ST(u,v)。
等式3
在等式3中,和分別是摘要(u)的文本部分和多媒體內(nèi)容項(xiàng)目(v)的文本部分的文本片段的向量表示。余弦相似性量化在多媒體內(nèi)容項(xiàng)目和摘要的句子的文本部分之間的語義含義相似性,該相似性如以下更具體描述的那樣然后以后用作對(duì)多媒體摘要質(zhì)量度量的貢獻(xiàn)。
方法200的元步驟208圖示用于分析在摘要的文本部分和摘要的附帶圖像部分的句子之間的相似性的操作。這一分析204操作的功能和益處是確定在摘要的文本部分和摘要的附帶圖像部分之間的語義含義彼此對(duì)應(yīng)的程度。在文本與附帶圖像之間有越多語義相似性,多媒體摘要的質(zhì)量就越高。
在與以上描述的過程類似的過程中,以與通過引用整體合并于此的Karpathy等人描述的方法(Deep Fragment Embeddings for Bidirectional Image Sentence Mapping,Neural Information Processing Systems,2014,pp.1889-1897.)相似的方法來生成224與摘要的圖像內(nèi)容和文本內(nèi)容對(duì)應(yīng)的向量。首先描述用于生成摘要的圖像部分的向量的過程。
用于生成224與摘要的圖像部分對(duì)應(yīng)的向量的過程包括首先標(biāo)識(shí)圖像部分的可能與摘要相關(guān)的片段。通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)自動(dòng)編碼器來標(biāo)識(shí)片段,該深度神經(jīng)網(wǎng)絡(luò)自動(dòng)編碼器然后應(yīng)用于圖像以提取相關(guān)圖像部分。在高級(jí)別,這一過程通過從圖像提取像素值并且個(gè)別地或者在關(guān)聯(lián)組中使用像素值以標(biāo)識(shí)在圖像內(nèi)的與圖像中的對(duì)象對(duì)應(yīng)的更高組織級(jí)別來實(shí)現(xiàn)。
一旦標(biāo)識(shí)圖像片段,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(RCNN)用來生成與標(biāo)識(shí)的圖像片段中的每個(gè)圖像片段對(duì)應(yīng)的向量。在一個(gè)實(shí)施例中,RCNN如通過引用整體合并于此的Girshick等人描述(參見Rich Feature Hierarchies for Accurate Object Detection and Semantic segmentation,Computer Vision and Pattern Recognition,2014)的那樣生成與每個(gè)標(biāo)識(shí)的片段對(duì)應(yīng)的4096維向量。4096維向量代表在計(jì)算資源的消耗與輸出質(zhì)量之間的方便折衷。由于4096等于212,因此它被方便地應(yīng)用于二進(jìn)制數(shù)據(jù)位??梢允褂酶途S空間,但是在特征之間有更少判別。也可以使用更高維空間,但是計(jì)算資源的消耗增加。
標(biāo)識(shí)在任何兩個(gè)向量之間的交點(diǎn)?;谂c圖像的與摘要語義相關(guān)的部分對(duì)應(yīng)的圖像片段之一的可能性選擇為其生成向量的片段的子集。在一些實(shí)施例中,基于使用向量確定的分類進(jìn)一步限制標(biāo)識(shí)的片段以減少任何圖像片段在分析的后續(xù)步驟中的過度表示風(fēng)險(xiǎn)。
使用以上在元步驟204的要素216的內(nèi)容中描述的過程來生成224與摘要的文本部分對(duì)應(yīng)的向量。
然后通過矩陣變換將圖像向量和句子向量投影到公共單位空間上。已經(jīng)訓(xùn)練用來將向量變換到公共單位空間上的矩陣,從而語義相似要素,無論在圖像部分還是在文本部分中,都被對(duì)應(yīng)地投影在公共單位空間的反映語義相似性的區(qū)域上。
將向量投影到公共單位空間上的一個(gè)益處是減少無關(guān)信息對(duì)于確定語義相似性的影響。例如,如生成的向量可以包括與圖像或者文本部分的語義含義不相關(guān)的外部信息(例如顏色、紋理、形狀)。通過將向量映射到公共單位空間,減少這種外部信息的影響。
然后根據(jù)以下等式4確定向量與摘要的圖像和文本部分的余弦相似性。
等式4
在這一等式中,和是使用以上描述的方法獲得的、摘要的文本部分u的文本片段和摘要的圖像部分p的圖像片段的向量表示。
方法200的元步驟212圖示在一個(gè)實(shí)施例中用于分析在摘要的圖像部分與多媒體內(nèi)容項(xiàng)目的圖像部分之間的相似性的操作。如以上在元步驟208的上下文中說明的那樣,針對(duì)圖像確定向量并且將向量投影到公共單位空間上。根據(jù)以下等式5確定基于生成的向量在圖像之間的余弦相似性。
等式5
在等式5中,和分別是摘要和多媒體內(nèi)容項(xiàng)目的圖像部分的圖像片段p和q的向量表示。
已經(jīng)如以上在方法200中描述的那樣生成用于多媒體內(nèi)容項(xiàng)目和對(duì)應(yīng)摘要的各種要素的相似性分?jǐn)?shù),如圖1中所示和如以下更具體描述的那樣確定116多媒體質(zhì)量度量。
確定多媒體摘要度量
再次參照?qǐng)D1,以下描述用于使用在分析112(和對(duì)應(yīng)方法200)中確定的信息來確定116質(zhì)量度量的過程,該質(zhì)量度量量化在摘要與多媒體內(nèi)容項(xiàng)目的語義含義之間的相似性程度。
根據(jù)以下等式6確定多媒體摘要質(zhì)量度量。
MuSQ=f(ICtext,ICimage,Cohtotal) 等式6
其中MuSQ是多媒體質(zhì)量摘要度量,ICtext是描述摘要的文本部分中的相對(duì)于多媒體內(nèi)容項(xiàng)目的文本部分的比例信息量的度量,ICimage是摘要的圖像部分中的相對(duì)于多媒體內(nèi)容項(xiàng)目的圖像部分的比例信息量。等式6中和如在本公開內(nèi)容中的別處使用的項(xiàng)“f”代表通用函數(shù)而不是具體函數(shù)。Cohtotal是在摘要的文本部分與摘要的圖像部分之間的“相干性”。相干性反映在摘要的文本部分與摘要的圖像部分之間的語義相似性程度而更高的數(shù)反映在摘要的文本與圖像之間的更多語義相似性。在一個(gè)實(shí)施例中,如以下在等式7中所示,等式6是其變量的非遞減求和。
MuSQ=A·ICtext+B·ICimage+C·Cohtotal 等式7
在等式7中,A、B和C是用來改變每個(gè)變量對(duì)MuSQ的相對(duì)貢獻(xiàn)的正的常數(shù)。
以下在等式8中定義ICtext。
MuSQ=A·ICtext+B·ICimage+C·Cohtotal 等式8
在等式8中,ST是以上在等式3中定義的,并且Rv是可能對(duì)多媒體內(nèi)容項(xiàng)目的文本部分的語義含義(以上稱為“信息內(nèi)容”)有貢獻(xiàn)的項(xiàng)或者詞的數(shù)目。也就是說,Rv是文本部分的文本片段中的名詞、動(dòng)詞、形容詞、副詞和代詞的詞計(jì)數(shù)。在確定Rv時(shí)省略冠詞、連詞等。
對(duì)于多媒體內(nèi)容項(xiàng)目的給定的文本片段v對(duì)在摘要的文本部分中存在的文本片段u取“max”函數(shù)?!癿ax”函數(shù)的結(jié)果是在摘要S中存在的文本片段v的最大表示?!癿ax”函數(shù)也防止摘要中的冗余句子增加質(zhì)量度量分?jǐn)?shù),因?yàn)閮H與多媒體內(nèi)容項(xiàng)目最相關(guān)的摘要句子或者片段對(duì)度量有貢獻(xiàn)。換而言之,使用這一函數(shù)有助于關(guān)于特定語義從多媒體內(nèi)容項(xiàng)目中的多個(gè)句子之中選擇有最多信息內(nèi)容的句子。這提高包括多媒體內(nèi)容的更多樣覆蓋的摘要的分?jǐn)?shù),因?yàn)橹貜?fù)句子對(duì)分?jǐn)?shù)無貢獻(xiàn)(或者貢獻(xiàn)更少),其中代表多樣話題的句子和圖像被打分為貢獻(xiàn)更多信息內(nèi)容。
“max”函數(shù)的結(jié)果與句子的信息內(nèi)容Rv相乘。在等式8中包括信息內(nèi)容Rv輔助選擇與具有標(biāo)識(shí)的類型的“信息”詞的更低計(jì)數(shù)的更少信息的句子比較而言傳達(dá)更多信息(在名詞、形容詞等數(shù)目方面)的片段。這一量對(duì)在多媒體內(nèi)容項(xiàng)目中存在的所有文本片段v的求和是摘要的文本部分相對(duì)于作為整體的多媒體內(nèi)容項(xiàng)目而言的質(zhì)量指示符。
以下在等式9中定義ICimage。
等式9
如以上在等式5中定義的SI(p,q)表示關(guān)于圖像q(在多媒體內(nèi)容項(xiàng)目中)而言的圖像片段p(在摘要中)的信息內(nèi)容。在一個(gè)實(shí)施例中,SI量化在摘要p中的圖像片段與多媒體內(nèi)容項(xiàng)目q中的對(duì)應(yīng)圖像片段之間的相似性?;谌缫陨厦枋龅哪菢涌蛇x地投影到公共單位空間上的如遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)分析的圖像片段的表示來確定對(duì)SI的量化。項(xiàng)是多媒體內(nèi)容項(xiàng)目的圖像q的信息內(nèi)容。在一個(gè)實(shí)施例中,通過如以上在元步驟208的上下文中描述的那樣將圖像片段q轉(zhuǎn)換成文本(并且具體地為生成224的向量),然后使用以上描述的方法測(cè)量該文本的信息內(nèi)容來確定項(xiàng)的函數(shù)與以上描述的項(xiàng)Rv的函數(shù)相似。
在等式9中,對(duì)于多媒體內(nèi)容項(xiàng)目的給定的圖像片段q對(duì)于在摘要的圖像部分中存在的圖像片段p取最大函數(shù)。結(jié)果是在摘要S的圖像部分中存在的圖像片段q的最大表示。對(duì)在多媒體內(nèi)容項(xiàng)目中存在的所有圖像片段q求和這一量提供摘要的圖像部分如何代表多媒體內(nèi)容項(xiàng)目的指示。
以下在等式10中定義Cohtotal。
等式10
在等式10中,CT,I(u,p)表示在來自摘要S的文本部分的句子(或者文本片段)u與摘要的圖像部分I的圖像片段p之間的相干性。如以上在等式4的上下文中描述的那樣,可以將CT,I投影到公共單位空間上以比較摘要的提取的文本部分和圖像部分的向量。Ru和是如以上定義的文本部分和圖像部分的信息內(nèi)容。
示例系統(tǒng)
圖3是根據(jù)本公開內(nèi)容的一個(gè)實(shí)施例的包括質(zhì)量度量確定系統(tǒng)的分布式處理環(huán)境的框圖,該質(zhì)量度量確定系統(tǒng)由通信網(wǎng)絡(luò)遠(yuǎn)程地耦合到給定的用戶的計(jì)算設(shè)備。圖3中所示分布式處理環(huán)境300包括用戶設(shè)備304、網(wǎng)絡(luò)308和摘要質(zhì)量確定系統(tǒng)312。在其他實(shí)施例中,系統(tǒng)環(huán)境300包括與圖3中所示部件不同的部件和/或附加部件。
用戶設(shè)備304是能夠接收用戶輸入以及經(jīng)由網(wǎng)絡(luò)308傳輸和/或接收數(shù)據(jù)的計(jì)算設(shè)備。在一個(gè)實(shí)施例中,用戶設(shè)備304是計(jì)算機(jī)系統(tǒng),比如桌面型或者膝上型計(jì)算機(jī)。在另一實(shí)施例中,用戶設(shè)備304可以是具有計(jì)算機(jī)功能的設(shè)備,比如個(gè)人數(shù)字助理(PDA)、移動(dòng)電話、平板計(jì)算機(jī)、智能電話或者相似設(shè)備。在一些實(shí)施例中,用戶設(shè)備304是用于消費(fèi)多媒體內(nèi)容項(xiàng)目、與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的摘要和這里描述的用于確定與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的摘要的摘要質(zhì)量度量的方法的移動(dòng)計(jì)算設(shè)備。用戶設(shè)備304被配置為經(jīng)由網(wǎng)絡(luò)308與摘要質(zhì)量確定系統(tǒng)312通信。在一個(gè)實(shí)施例中,用戶設(shè)備304執(zhí)行應(yīng)用,該應(yīng)用允許用戶設(shè)備304的用戶與摘要質(zhì)量確定系統(tǒng)312交互,因此成為專門化的計(jì)算機(jī)器。例如,用戶設(shè)備304執(zhí)行瀏覽器應(yīng)用以實(shí)現(xiàn)經(jīng)由網(wǎng)絡(luò)308在用戶設(shè)備304與摘要質(zhì)量確定系統(tǒng)312之間的交互。在另一實(shí)施例中,用戶設(shè)備304通過在用戶設(shè)備304的原生操作系統(tǒng)(比如或者ANDROIDTM)上運(yùn)行的應(yīng)用編程接口(API)與摘要質(zhì)量確定系統(tǒng)312交互。
用戶設(shè)備304被配置為使用有線和無線通信系統(tǒng)經(jīng)由網(wǎng)絡(luò)308通信,該網(wǎng)絡(luò)可以包括局域網(wǎng)和/或廣域網(wǎng)的任何組合。在一個(gè)實(shí)施例中,網(wǎng)絡(luò)308使用標(biāo)準(zhǔn)通信技術(shù)和/或協(xié)議。因此,網(wǎng)絡(luò)308可以包括使用比如因特網(wǎng)、802.11、全球微波接入可互操作性(WiMAX)、3G、4G、CDMA、數(shù)字用戶線(DSL)等技術(shù)的鏈路。相似地,在網(wǎng)絡(luò)308上使用的聯(lián)網(wǎng)協(xié)議可以包括多協(xié)議標(biāo)簽交換(MPLS)、傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議(TCP/IP)、用戶數(shù)據(jù)報(bào)協(xié)議(UDP)、超文本傳輸協(xié)議(HTTP)、簡(jiǎn)單郵件傳輸協(xié)議(SMTP)和文件傳輸協(xié)議(FTP)。可以使用包括超文本標(biāo)記語言(HTML)或者可擴(kuò)展標(biāo)記語言(XML)的技術(shù)和/或格式來表示通過網(wǎng)絡(luò)308交換的數(shù)據(jù)。此外,可以使用比如安全套接字層(SSL)、傳輸層安全性(TLS)和互聯(lián)網(wǎng)協(xié)議安全性(IPsec)的加密技術(shù)來加密鏈路中的所有或者一些鏈路。
圖4是如圖3中所示的摘要質(zhì)量確定系統(tǒng)312的系統(tǒng)架構(gòu)的框圖。摘要質(zhì)量系統(tǒng)312被配置為在接收到多媒體內(nèi)容和對(duì)應(yīng)摘要時(shí)執(zhí)行以上描述的實(shí)施例中的一些或者所有實(shí)施例以確定質(zhì)量度量,該質(zhì)量度量指示在摘要的總體語義含義與對(duì)應(yīng)多媒體內(nèi)容項(xiàng)目的語義含義之間的相似性程度。摘要質(zhì)量確定系統(tǒng)312包括非瞬態(tài)存儲(chǔ)器416和質(zhì)量度量確定模塊432,以下描述其子部件。
非瞬態(tài)存儲(chǔ)器416被描繪為包括兩個(gè)不同存儲(chǔ)器元件:多媒體內(nèi)容項(xiàng)目存儲(chǔ)庫420和摘要存儲(chǔ)庫524。多媒體內(nèi)容項(xiàng)目存儲(chǔ)庫420存儲(chǔ)多媒體內(nèi)容項(xiàng)目和(可選地存儲(chǔ)包括文本部分或者圖像部分中的僅一個(gè)部分的內(nèi)容項(xiàng)目)用于分析和可選地用于顯示或者傳輸。摘要存儲(chǔ)庫424存儲(chǔ)與多媒體內(nèi)容項(xiàng)目對(duì)應(yīng)的摘要。與多媒體內(nèi)容項(xiàng)目存儲(chǔ)庫420一樣,摘要存儲(chǔ)庫424可以存儲(chǔ)文本摘要、圖像摘要以及包括文本部分和圖像部分二者的多媒體摘要中的任何一項(xiàng)或者多項(xiàng)。無論存儲(chǔ)的內(nèi)容和摘要的性質(zhì)如何,多媒體內(nèi)容項(xiàng)目存儲(chǔ)庫420和摘要存儲(chǔ)庫424與質(zhì)量度量確定模塊432通信。
非瞬態(tài)存儲(chǔ)器416可以包括用于存儲(chǔ)實(shí)施如在本公開內(nèi)容中教導(dǎo)的各種實(shí)施例的數(shù)據(jù)和計(jì)算機(jī)可讀指令和/或軟件的計(jì)算機(jī)系統(tǒng)存儲(chǔ)器或者隨機(jī)存取存儲(chǔ)器,比如持久盤存儲(chǔ)裝置(該持久盤存儲(chǔ)裝置可以包括任何適當(dāng)光或者磁持久存儲(chǔ)設(shè)備,例如RAM、ROM、閃存、USB設(shè)備或者其他基于半導(dǎo)體的存儲(chǔ)介質(zhì))、硬盤驅(qū)動(dòng)器、CD-ROM或者其他計(jì)算機(jī)可讀介質(zhì)。非瞬態(tài)存儲(chǔ)器416也可以包括其他類型的存儲(chǔ)器或者其組合??梢蕴峁┓撬矐B(tài)存儲(chǔ)器416作為系統(tǒng)312的物理元件或者與系統(tǒng)312分離地或者遠(yuǎn)程地提供非瞬態(tài)存儲(chǔ)器416。系統(tǒng)312的非瞬態(tài)存儲(chǔ)器416可以存儲(chǔ)用于實(shí)施各種實(shí)施例的計(jì)算機(jī)可讀和計(jì)算機(jī)可執(zhí)行指令或者軟件,包括多媒體內(nèi)容項(xiàng)目存儲(chǔ)庫420和摘要存儲(chǔ)庫424。
在使用時(shí),質(zhì)量度量確定模塊432與包括多媒體內(nèi)容項(xiàng)目存儲(chǔ)庫420和摘要存儲(chǔ)庫424的非瞬態(tài)存儲(chǔ)器416通信以便接收并且后續(xù)地分析多媒體內(nèi)容項(xiàng)目和對(duì)應(yīng)摘要。質(zhì)量度量確定模塊432包括句子到句子分析器432、句子到圖像分析器436和圖像到圖像分析器440。句子到句子分析器如以上在圖1和2的內(nèi)容中描述的那樣相對(duì)于多媒體內(nèi)容項(xiàng)目的文本部分中的句子分析摘要的文本部分中的句子(或句子片段)的質(zhì)量。句子到圖像分析器如以上在圖1和2的上下文中描述的那樣相對(duì)于摘要的附帶圖像部分分析摘要的文本部分中的句子的質(zhì)量。圖像到圖像分析器如以上在圖1和2的上下文中描述的那樣相對(duì)于對(duì)應(yīng)多媒體內(nèi)容項(xiàng)目的圖像部分分析摘要的圖像部分的圖像部分的質(zhì)量。一旦這些分析器432、436和440中的每個(gè)分析器完成分析,質(zhì)量度量確定模塊接收相應(yīng)分析的輸出以如以上描述的那樣確定摘要質(zhì)量度量。
Web服務(wù)器444經(jīng)由網(wǎng)絡(luò)308將摘要質(zhì)量確定系統(tǒng)312鏈接到用戶設(shè)備304。Web服務(wù)器344供應(yīng)網(wǎng)頁以及其他web有關(guān)內(nèi)容,比如XML等。Web服務(wù)器344可以提供從和向用戶設(shè)備304接收或者傳輸內(nèi)容項(xiàng)目和摘要,從和向用戶設(shè)備接收和傳輸摘要質(zhì)量度量以及以別的方式有助于消費(fèi)內(nèi)容項(xiàng)目的功能。附加地,web服務(wù)器344可以提供用于向原生客戶端設(shè)備操作系統(tǒng)(比如ANDROIDTM、或者RIM)直接地發(fā)送數(shù)據(jù)的應(yīng)用編程接口(API)功能。Web服務(wù)器344也提供用于與用戶設(shè)備304交換數(shù)據(jù)的API功能。
摘要質(zhì)量確定系統(tǒng)312也包括用于執(zhí)行在非瞬態(tài)存儲(chǔ)器416中存儲(chǔ)的計(jì)算機(jī)可讀和計(jì)算機(jī)可執(zhí)行指令或者軟件和用于控制系統(tǒng)硬件的其他程序的至少一個(gè)處理器448??梢赃\(yùn)用虛擬化,從而可以動(dòng)態(tài)地共享摘要質(zhì)量確定系統(tǒng)312中的基礎(chǔ)結(jié)構(gòu)和資源。例如可以提供虛擬機(jī)以操控在多個(gè)處理器上運(yùn)行的過程,從而該過程看來使用僅一個(gè)計(jì)算資源而不是多個(gè)計(jì)算資源。也可以與一個(gè)處理器使用多個(gè)虛擬機(jī)。
示例應(yīng)用
以下兩個(gè)示例定性地描述這里描述的實(shí)施例的應(yīng)用。在第一示例中,多媒體內(nèi)容項(xiàng)目包含兩個(gè)獨(dú)特的句子。第一句子Str1包括獨(dú)特的詞的集合w1。在多媒體內(nèi)容項(xiàng)目中Str1重復(fù)n1次。第二句子Str2包括獨(dú)特的詞的集合w2。在多媒體內(nèi)容項(xiàng)目中Str2重復(fù)n2次。為了便于說明,假設(shè)w1和w2沒有任何共同詞。最后這一假設(shè)數(shù)學(xué)表達(dá)為w1∩w2=φ。此外,對(duì)于這一示例假設(shè)詞計(jì)數(shù)|w1|=5,|w2|=6。在多媒體內(nèi)容項(xiàng)目中Str1重復(fù)的次數(shù)是n1=10,并且在多媒體內(nèi)容項(xiàng)目中Str2重復(fù)的次數(shù)是n2=2。
如果請(qǐng)求僅單個(gè)句子的摘要,則兩個(gè)選項(xiàng)是可能的:僅包含Str1的摘要S1或者僅包含Str2的摘要S2。由于Str1重復(fù)10次,比Str2更頻繁地五次,所以摘要S1是優(yōu)選的,因?yàn)樗东@在原有多媒體內(nèi)容項(xiàng)目中為主的信息。由于w1和w2沒有任何公共詞,所以多媒體內(nèi)容項(xiàng)目中的獨(dú)特的詞的總數(shù)是w1+w2。與多媒體內(nèi)容項(xiàng)目比較的摘要S1和S2中的每個(gè)摘要中的詞的保留率遵循等式11和12:
保留率 等式11
保留率 等式12
保留率算法、比如以上呈現(xiàn)的保留率算法將優(yōu)先地選擇S2,因?yàn)樗哂蟹治龅恼淖罡邤?shù)目的獨(dú)特的詞。保留率算法使這一選擇準(zhǔn)則基于包括更多獨(dú)特的詞的摘要描述多媒體內(nèi)容項(xiàng)目中的更多內(nèi)容這樣的假設(shè)。然而,由于這些方法僅關(guān)注詞計(jì)數(shù),所以忽視顯著語義差異。在這一示例中,保留率會(huì)選擇具有更多獨(dú)特的詞的摘要S2,即使它更少代表多媒體內(nèi)容項(xiàng)目的全部?jī)?nèi)容。
根據(jù)本公開內(nèi)容的實(shí)施例,優(yōu)選如下摘要,該摘要具有作為整體的多媒體內(nèi)容項(xiàng)目的更多信息內(nèi)容和更廣覆蓋(即反應(yīng)貫穿多媒體內(nèi)容項(xiàng)目的不同話題)。與以上保留率示例對(duì)照,考慮應(yīng)用于在摘要1(S1)與摘要2(S2)之間選擇的本公開內(nèi)容的實(shí)施例。等式13和14將本公開內(nèi)容的實(shí)施例應(yīng)用于以上場(chǎng)景。
MuSQ(S1)=n1*w1=10*5=50 等式13
MuSQ(S2)=n2*w2=2*6=12 等式14
在以上示例中,將等式7約化為等式13和14的形式,因?yàn)樵摾齼H包括文本部分,因此將等式7的分析圖像部分(即ICimage和Cohtotal)的變量減少至零。因此,從等式7剩余的僅有項(xiàng)是ICtext項(xiàng)。在這一情況下,ICtext減少至句子中的對(duì)語義含義(Rv)有貢獻(xiàn)的詞的數(shù)目,因?yàn)椤癿ax”項(xiàng)是1。基于上述,本公開內(nèi)容的實(shí)施例會(huì)選擇S1,因?yàn)樗矶嗝襟w內(nèi)容項(xiàng)目(即選擇包括比Str2更頻繁地重復(fù)五次的句子Str1的S1)。
在另一示例中,考慮本公開內(nèi)容的實(shí)施例較KL散度而言的優(yōu)點(diǎn)。適應(yīng)前例,定義摘要S1和S2為S1={Str1,Str2}和S2={Str1,Str1},并且|w1|=5,|w2|=6和w1∩w2=φ。由于S1與僅包括重復(fù)兩次的Str1的S2對(duì)照包括更多信息(即Str1和Str2二者),所以S1是優(yōu)選的摘要。
回顧在以下等式15中定義KL散度。
等式15
在等式13中,qi是摘要中的第i個(gè)詞的出現(xiàn)概率,并且p是原始文檔中的第i個(gè)詞的出現(xiàn)概率。如果KL(S2)<KL(S1),則按照KL散度將選擇摘要S2?;跀?shù)學(xué)的已知應(yīng)用,等式16的比率確定選擇準(zhǔn)則。
等式16
在這一示例中,n1=10并且n2=2,因此n1>4.3*n2。出于這一原因,即使S2具有比S1更少的信息,在這一情況下按照KL散度仍然將選擇S2作為優(yōu)選的摘要。
對(duì)照而言,應(yīng)用本公開內(nèi)容的實(shí)施例,MuSQ(S1)=n1*w1+n2*w2=10*5+2*6=62和MuSQ(S2)=n1*w1=10*5=50。應(yīng)用這一模型,由于信息的多樣性而恰當(dāng)?shù)剡x擇S1作為優(yōu)選的摘要。
更多考慮
如將按照本公開內(nèi)容認(rèn)識(shí)的那樣,可以在任何計(jì)算機(jī)可讀介質(zhì)或者計(jì)算機(jī)程序產(chǎn)品(例如,硬盤驅(qū)動(dòng)器、服務(wù)器、盤或者其他適當(dāng)非瞬態(tài)存儲(chǔ)器或者存儲(chǔ)器集合)上編碼的軟件、比如指令集(例如HTML、XML、C、C++、面向?qū)ο蟮腃、JavaScript、Java、BASIC等)中實(shí)施圖3和4中所示系統(tǒng)的各種模塊和部件、比如句子到句子分析器432、句子到圖像分析器436和圖像到圖像分析器440,該軟件在由一個(gè)或者多個(gè)處理器執(zhí)行時(shí)使在本公開內(nèi)容中提供的各種方法被執(zhí)行。將認(rèn)識(shí)在一些實(shí)施例中,如在本公開內(nèi)容中描述的由用戶計(jì)算系統(tǒng)執(zhí)行的各種功能可以由在不同配置和布置中的相似處理器和/或數(shù)據(jù)庫執(zhí)行,并且描繪的實(shí)施例未旨在于限制。這一示例實(shí)施例的各種部件、包括計(jì)算設(shè)備1000可以被集成到例如一個(gè)或者多個(gè)桌面型或者膝上型計(jì)算機(jī)、工作站、平板、智能電話、游戲控制臺(tái)、機(jī)頂盒或者其他這樣的計(jì)算設(shè)備中。計(jì)算系統(tǒng)的其他典型部件和模塊、比如處理器(例如中央處理單元和協(xié)處理器、圖形處理器等)、輸入設(shè)備(例如鍵盤、鼠標(biāo)、觸摸板、觸摸屏等)和操作系統(tǒng)未被示出但是將是顯而易見的。
已經(jīng)出于示例的目的而呈現(xiàn)公開內(nèi)容的實(shí)施例的前文描述;它未旨在于窮舉或者使權(quán)利要求限于公開的精確形式。相關(guān)領(lǐng)域技術(shù)人員可以認(rèn)識(shí)許多修改和變化按照以上公開內(nèi)容是可能的。
本描述的一些部分在對(duì)信息的操作的算法和符號(hào)表示方面描述實(shí)施例。這些算法描述和表示由數(shù)據(jù)處理領(lǐng)域技術(shù)人員常用來向本領(lǐng)域其他技術(shù)人員有效地傳達(dá)他們的工作的實(shí)質(zhì)。這些操作在功能上、計(jì)算上或者邏輯上描述時(shí)被理解為由計(jì)算機(jī)程序或者等效電路、微代碼等實(shí)施??梢栽谲浖?、固件、硬件或者其任何組合中體現(xiàn)描述的操作。
這里描述的步驟、操作或者過程中的任何步驟、操作或者過程可以單獨(dú)或者與其他設(shè)備組合用一個(gè)或者多個(gè)硬件或者軟件模塊來執(zhí)行或者實(shí)施。在一個(gè)實(shí)施例中,軟件模塊用包括非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品來實(shí)施,該非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)包含可以由計(jì)算機(jī)處理器執(zhí)行的用于執(zhí)行描述的步驟、操作或者過程中的任何或者所有步驟、操作或者過程的計(jì)算機(jī)程序代碼。
示例實(shí)施例
在一個(gè)示例中,一種用于評(píng)估數(shù)字多媒體內(nèi)容項(xiàng)目的摘要的、計(jì)算機(jī)實(shí)施的方法包括接收包括文本部分和圖像部分的多媒體內(nèi)容項(xiàng)目,接收多媒體內(nèi)容的摘要,該摘要包括文本部分和圖像部分,以及確定摘要相對(duì)于多媒體內(nèi)容項(xiàng)目的質(zhì)量度量。該確定包括確定以下內(nèi)容度量中的至少兩個(gè)度量:確定第一內(nèi)容度量,該第一內(nèi)容度量量化摘要的文本部分中的與多媒體內(nèi)容項(xiàng)目的文本部分公共的信息內(nèi)容的量,確定第二內(nèi)容度量,該第二內(nèi)容度量量化摘要的圖像部分中的與多媒體內(nèi)容項(xiàng)目的圖像部分公共的信息內(nèi)容的量,以及確定第三內(nèi)容度量,該第三內(nèi)容度量量化在摘要的文本部分與摘要的圖像部分之間的信息相干性。質(zhì)量度量至少部分基于至少兩個(gè)確定的內(nèi)容度量。在這一示例的一個(gè)實(shí)施例中,確定質(zhì)量度量還包括確定第一內(nèi)容度量、第二內(nèi)容度量和第三內(nèi)容度量的乘積。在這一示例的一個(gè)實(shí)施例中,確定第一內(nèi)容度量包括確定在多媒體摘要的文本部分的至少一個(gè)文本片段和多媒體內(nèi)容項(xiàng)目的至少一個(gè)文本片段的向量表示之間的余弦相似性??梢詫ax函數(shù)應(yīng)用于余弦相似性確定。在這一示例的一個(gè)實(shí)施例中,確定第二內(nèi)容度量包括從摘要的圖像部分生成第一圖像向量和從多媒體內(nèi)容項(xiàng)目的圖像部分生成第二圖像向量。在這一示例的一個(gè)實(shí)施例中,確定第三內(nèi)容度量包括將來自摘要的文本部分的第一文本內(nèi)容向量和來自摘要的圖像部分的第二文本內(nèi)容向量投影到公共單位空間上。在這一示例的一個(gè)實(shí)施例中,確定第三內(nèi)容度量包括確定摘要的文本部分的第一內(nèi)容和摘要的圖像部分的第二內(nèi)容的乘積。
在另一示例中,在包括指令的至少一個(gè)非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)計(jì)算機(jī)程序產(chǎn)品,這些指令在由一個(gè)或者多個(gè)處理器執(zhí)行時(shí)使以上計(jì)算機(jī)實(shí)施的方法被執(zhí)行。
在另一示例中,一種用于評(píng)估數(shù)字多媒體內(nèi)容項(xiàng)目的摘要的系統(tǒng)包括各種模塊、至少一個(gè)處理器和用于根據(jù)以上描述的示例方法確定質(zhì)量度量的至少一個(gè)非瞬態(tài)存儲(chǔ)介質(zhì)。