用于把圖像的說明插入到音頻記錄中的系統(tǒng)和方法

文檔序號(hào)：6779666閱讀：293來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>信息存儲(chǔ)應(yīng)用技術(shù)

專利名稱：用于把圖像的說明插入到音頻記錄中的系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及用于把圖像的說明插入到音頻記錄中的系統(tǒng)和方法。
背景技術(shù)：
以音頻格式記錄講課或演講可以是在直接出席以外傳播信息的方便有效的方式。然而，如果演講包含圖像、圖表和圖形，缺乏視覺內(nèi) 容可能對(duì)于傳送的有效性造成很大的影響。所需要的是用于把圖像的說明插入到音頻記錄中的方法和系統(tǒng)。

發(fā)明內(nèi)容
本發(fā)明涉及用于把圖像的說明插入到音頻記錄中的系統(tǒng)和方法。在實(shí)施例中，方法從通過解密非文本內(nèi)容、匯編任何元標(biāo)記信息、
收集光學(xué)字符識(shí)別(OCR)數(shù)據(jù)等等而解釋圖像開始。然后該方法集合、過濾和優(yōu)先順序化(prioritize)信息，以創(chuàng)建圖像的有用、簡(jiǎn)明的不可見(例如，音頻、文本等等)說明。這個(gè)圖像解釋和說明的結(jié)果在圖像不可得到時(shí)，諸如當(dāng)收聽音頻記錄或聽文本到語(yǔ)音系統(tǒng)讀文本時(shí)增大了不可見內(nèi)容。例如，系統(tǒng)可以解釋常用的呈現(xiàn)和圖形程序，諸如 Microsoft PowerPointTM和VisioTM,并把圖像的說明插入到呈現(xiàn)的音頻記錄中。
一方面，提供了一種把圖像的說明插入到音頻記錄中的方法，包
括解釋圖像和產(chǎn)生包括至少一個(gè)圖像關(guān)鍵字的圖像的文字說明；把音頻記錄解析成多個(gè)音頻剪輯，以及產(chǎn)生每個(gè)音頻剪輯的轉(zhuǎn)錄本 (transcription)，每個(gè)音頻剪輯轉(zhuǎn)錄本包括至少一個(gè)音頻關(guān)鍵字；計(jì)算至少一個(gè)圖像關(guān)鍵字與每個(gè)音頻剪輯的至少一個(gè)音頻關(guān)鍵字的相似性距離；以及選擇具有到至少一個(gè)圖像關(guān)鍵字的最短的相似性距離的音頻剪輯轉(zhuǎn)錄本作為插入圖像的文字說明的位置。
在一個(gè)實(shí)施例中，該方法還包括把圖像的文字說明附加到選擇的音頻剪輯，以產(chǎn)生包括圖像的至少一個(gè)解釋性文字說明的增大的音頻記錄。
在另一個(gè)實(shí)施例中，該方法還包括提供至少一個(gè)解釋圖像的模板，該至少一個(gè)模板包括至少一個(gè)圖像解釋部件，用于產(chǎn)生圖像的文字說明。
在另一個(gè)實(shí)施例中，該方法還包括提供光學(xué)字符識(shí)別(OCR)技術(shù)、邊緣尋找技術(shù)、彩色邊緣尋找技術(shù)、曲線尋找技術(shù)、形狀尋找技術(shù)、和對(duì)比度尋找技術(shù)中的至少一項(xiàng)技術(shù)作為在該至少一個(gè)模板中的圖像解釋部件。
在另一個(gè)實(shí)施例中，該方法還包括把音頻記錄解析為基本上相同長(zhǎng)度的多個(gè)音頻剪輯，以及調(diào)節(jié)每個(gè)音頻剪輯的長(zhǎng)度以在語(yǔ)音的自然停頓處結(jié)束。
在另一個(gè)實(shí)施例中，該方法還包括通過計(jì)算在圖像的至少一個(gè)圖像關(guān)鍵字與音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離而計(jì)算在圖像與音頻剪輯之間的相似性距離。
在另一個(gè)實(shí)施例中，該方法還包括通過計(jì)算在分級(jí)結(jié)構(gòu)語(yǔ)義電子字典中這些關(guān)鍵字之間的路徑長(zhǎng)度而得到在至少一個(gè)圖像關(guān)鍵字與至少一個(gè)音頻關(guān)鍵字之間的相似性距離。
另一方面，提供了一種用于把圖像的說明插入到音頻記錄中的系統(tǒng)，包括解釋裝置，用于解釋圖像和產(chǎn)生包括至少一個(gè)圖像關(guān)鍵字的圖像的文字說明；解析裝置，用于把音頻記錄解析成多個(gè)音頻剪輯, 和產(chǎn)生每個(gè)音頻剪輯的轉(zhuǎn)錄本，每個(gè)音頻剪輯轉(zhuǎn)錄本包括至少一個(gè)音
頻關(guān)鍵字；計(jì)算裝置，用于計(jì)算該至少一個(gè)圖像關(guān)鍵字與每個(gè)音頻剪輯的該至少一個(gè)音頻關(guān)鍵字之間的相似性距離；選擇裝置，用于選擇具有到至少一個(gè)圖像關(guān)鍵字的最短的相似性距離的音頻剪輯轉(zhuǎn)錄本作為插入圖像的文字說明的位置。
在一個(gè)實(shí)施例中，該系統(tǒng)還包括附加裝置，用于把圖像的文字說明附加到選擇的音頻剪輯，以產(chǎn)生包括圖像的至少一個(gè)解釋性文字說明的增大的音頻記錄。
在另一個(gè)實(shí)施例中，該系統(tǒng)還包括至少一個(gè)解釋圖像的模板，該至少一個(gè)模板包括至少一個(gè)圖像解釋部件，用于產(chǎn)生圖像的文字說明。
在另一個(gè)實(shí)施例中，該系統(tǒng)還包括光學(xué)字符識(shí)別(OCR)技術(shù)、邊緣尋找技術(shù)、彩色邊緣尋找技術(shù)、曲線尋找技術(shù)、形狀尋找技術(shù)、和對(duì)比度尋找技術(shù)中的至少一項(xiàng)技術(shù)作為在該至少一個(gè)模板中的圖像解釋部件。
在另一個(gè)實(shí)施例中，該系統(tǒng)被配置成把音頻記錄解析為基本上相同長(zhǎng)度的多個(gè)音頻剪輯，以及調(diào)節(jié)每個(gè)音頻剪輯的長(zhǎng)度以在語(yǔ)音的自然停頓處結(jié)束。
在另一個(gè)實(shí)施例中，該系統(tǒng)被配置成通過計(jì)算在圖像的至少一個(gè) 圖像關(guān)鍵字與音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離而計(jì) 算在圖像與音頻剪輯之間的相似性距離。
在另一個(gè)實(shí)施例中，該系統(tǒng)被配置成根據(jù)在分級(jí)結(jié)構(gòu)語(yǔ)義電子字典中這些關(guān)鍵字之間的路徑長(zhǎng)度，計(jì)算在至少一個(gè)圖像關(guān)鍵字與至少一個(gè)音頻關(guān)鍵字之間的相似性距離。
另一方面，提供了一種用于存儲(chǔ)數(shù)據(jù)處理器代碼的數(shù)據(jù)處理器可讀的媒體，當(dāng)其被裝載到數(shù)據(jù)處理設(shè)備中時(shí)，使得設(shè)備把圖像的說明插入到音頻記錄中，該數(shù)據(jù)處理器可讀的媒體包括用于解釋圖像和產(chǎn)生包括至少一個(gè)圖像關(guān)鍵字的圖像的文字說明的代碼；用于把音頻記錄解析成多個(gè)音頻剪輯，以及產(chǎn)生每個(gè)音頻剪輯的轉(zhuǎn)錄本的代碼，每個(gè)音頻剪輯轉(zhuǎn)錄本包括至少一個(gè)音頻關(guān)鍵字；用于計(jì)算至少一個(gè)圖像關(guān)鍵字與每個(gè)音頻剪輯的至少一個(gè)音頻關(guān)鍵字的相似性距離的代
碼；以及用于選擇具有到至少一個(gè)圖像關(guān)鍵字的最短的相似性距離的音頻剪輯轉(zhuǎn)錄本作為插入圖像的文字說明的位置的代碼。
在一個(gè)實(shí)施例中，該數(shù)據(jù)處理器可讀的媒體還包括用于把圖像的文字說明附加到選擇的音頻剪輯，以產(chǎn)生包括圖像的至少一個(gè)解釋性文字說明的增大的音頻記錄的代碼。
在一個(gè)實(shí)施例中，該數(shù)據(jù)處理器可讀的媒體還包括用于提供至少一個(gè)解釋圖像的模板的代碼，該至少一個(gè)模板包括至少一個(gè)圖像解釋部件，用于產(chǎn)生圖像的文字說明。
在一個(gè)實(shí)施例中，該數(shù)據(jù)處理器可讀的媒體還包括用于提供光學(xué) 字符識(shí)別(OCR)技術(shù)、邊緣尋找技術(shù)、彩色邊緣尋找技術(shù)、曲線尋找技術(shù)、形狀尋找技術(shù)、和對(duì)比度尋找技術(shù)中的至少一項(xiàng)技術(shù)作為在該至少一個(gè)模板中的圖像解釋部件的代碼。
在一個(gè)實(shí)施例中，該數(shù)據(jù)處理器可讀的媒體還包括用于把音頻記錄解析為基本上相同長(zhǎng)度的多個(gè)音頻剪輯，以及調(diào)節(jié)每個(gè)音頻剪輯的長(zhǎng)度以在語(yǔ)音的自然停頓處結(jié)束的代碼。
在一個(gè)實(shí)施例中，該數(shù)據(jù)處理器可讀的媒體還包括用于通過計(jì)算在圖像的至少一個(gè)圖像關(guān)鍵字與音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離而計(jì)算在圖像與音頻剪輯之間的相似性距離的代碼。
在一個(gè)實(shí)施例中，該數(shù)據(jù)處理器可讀的媒體還包括用于通過計(jì)算在分級(jí)結(jié)構(gòu)語(yǔ)義電子字典中這些關(guān)鍵字之間的路徑長(zhǎng)度而得到在至少一個(gè)圖像關(guān)鍵字與至少一個(gè)音頻關(guān)鍵字之間的相似性距離的代碼。
其它方面。

在顯示本發(fā)明的示例性實(shí)施例的圖中圖l是可以提供工作環(huán)境的通用數(shù)據(jù)處理系統(tǒng)的示意圖；圖2是按照實(shí)施例的圖像解釋方法的示意性流程圖；圖3A和3B是按照實(shí)施例的源確定和預(yù)處理方法的示意性流程圖;
圖4顯示按照實(shí)施例的圖像文件處理方法；
圖5A和5B是按照實(shí)施例的部件組裝方法的示意性流程圖6顯示按照實(shí)施例的聲音記錄預(yù)處理方法的示意性流程圖7顯示按照實(shí)施例的圖像插入位置搜索方法的示意性流程圖8顯示按照實(shí)施例的圖像插入方法的示意性流程圖；以及
圖9顯示可以按照本發(fā)明的實(shí)施例識(shí)別和描述的圖像的示意性例子。
具體實(shí)施例方式
如上所述，本發(fā)明涉及用于解釋和描述圖形圖像的系統(tǒng)和方法。
本發(fā)明可以在各種實(shí)施例中被實(shí)踐。適當(dāng)配置的數(shù)據(jù)處理系統(tǒng)和相關(guān)的通信網(wǎng)、設(shè)備、軟件和固件可以提供用于使能這些系統(tǒng)和方法中的一個(gè)或多個(gè)的平臺(tái)。作為例子，圖1顯示通用數(shù)據(jù)處理系統(tǒng)100，其可包括被連接到貯存單元104和隨機(jī)存取存儲(chǔ)器106的中央處理單元 ("CPU，，)102。CPU 102可以處理操作系統(tǒng)101、應(yīng)用程序103和數(shù)據(jù)123。操作系統(tǒng)IOI、應(yīng)用程序103和數(shù)據(jù)123可被存儲(chǔ)在貯存單元104和被裝載到存儲(chǔ)器106,如果需要的話。運(yùn)營(yíng)商107可以通過使用由視頻接口 105連接的視頻顯示器108和由I/O接口109連接的、諸如鍵盤IIO、鼠標(biāo) 112和盤驅(qū)動(dòng)器114那樣的各種輸入/輸出設(shè)備，而與數(shù)據(jù)處理系統(tǒng)IOO 互動(dòng)。以已知的方式，鼠標(biāo)112可被配置成控制在視頻顯示器108上的光標(biāo)的移動(dòng)，以及用鼠標(biāo)按鈕操作在視頻顯示器108上出現(xiàn)的各種圖形用戶界面("GUI")控制。盤驅(qū)動(dòng)器114可被配置成接受數(shù)據(jù)處理系統(tǒng)可讀的媒體116。數(shù)據(jù)處理系統(tǒng)100可以經(jīng)由網(wǎng)絡(luò)接口111形成網(wǎng)絡(luò)的一部分，允許數(shù)據(jù)處理系統(tǒng)lOO與其它適當(dāng)配置的數(shù)據(jù)處理系統(tǒng)(未示出)通信。在本說明書中作為例子顯示的具體配置并不意味著限制。
更一般地，按照一個(gè)實(shí)施例的方法可以包括解釋和描述圖像，以及使得音頻或文本說明與在音頻或文本轉(zhuǎn)錄本中的邏輯插入點(diǎn)同步。
在解釋圖表或圖形時(shí)，圖像圖案(pattern)識(shí)別技術(shù)可被使用來識(shí) 別內(nèi)容。圖像處理技術(shù)可被使用來提取諸如標(biāo)題和附注那樣的文本。
元標(biāo)記技術(shù)可以被作家或被撰稿人使用，這些標(biāo)記可被使用來增大和
標(biāo)準(zhǔn)化翻譯。元標(biāo)記例子例如可包括識(shí)別X和Y軸、圖表類型、圖表的分段、和圖例等等。
過濾技術(shù)也可以被使用來消除某些數(shù)據(jù)(諸如頁(yè)數(shù)、標(biāo)題與頁(yè)腳) 和突出其它信息，諸如圖表標(biāo)題。OCR技術(shù)也可以被使用來確定其它文本內(nèi)容。這個(gè)OCR信息不單可以獲取文本內(nèi)容，還可以獲取位置、取向、文本尺寸和字體等，以及這個(gè)信息可以在下面進(jìn)一步描述的、隨后的過濾和優(yōu)先順序化過程中被使用。
語(yǔ)音識(shí)別技術(shù)可被使用來訪問原先的源上下文，和提取可以幫助描述圖的內(nèi)容和/或幫助把圖像的說明對(duì)準(zhǔn)到原先的源內(nèi)容的信息。翻譯技術(shù)可被利用來從一個(gè)上下文到另一個(gè)上下文重新措辭內(nèi)容，這樣，它更適用于最后的目的。
按照另一個(gè)實(shí)施例，該方法可以相對(duì)于解釋的圖像解析其它源內(nèi) 容，以便對(duì)準(zhǔn)兩種內(nèi)容類型。自然的語(yǔ)言處理和語(yǔ)義電子字典可被使用來測(cè)量在圖像與其它源內(nèi)容之間的語(yǔ)義相似性距離。在其它源內(nèi)容中具有最短的相似性距離的位置可被使用來放置圖像。因?yàn)榇蠖鄶?shù)呈現(xiàn)可遵循邏輯次序，一旦正確的參考點(diǎn)被建立，就更容易把解釋的圖 4象說明放回到呈現(xiàn)中。
對(duì)說明性附加部分的獨(dú)立控制可以允許用戶把這個(gè)方法從原先的源內(nèi)容應(yīng)用到以前的和將來的圖像。這將幫助把譯碼系統(tǒng)對(duì)準(zhǔn)到原先的音頻或文本，然后它們被用作為參考點(diǎn)，以繼續(xù)譯碼和對(duì)準(zhǔn)。對(duì)準(zhǔn) 過程只需要進(jìn)行一次，因?yàn)橛脩艨梢韵螺d呈現(xiàn)的注解版本，而不是分開地下載源和增大信息。
現(xiàn)在參照?qǐng)D2描述說明性方法200。如圖所示，方法200開始，并在方塊202接收一系列圖像(例如，如在呈現(xiàn)中使用的)作為輸入。然后，方法200前進(jìn)到方塊204，對(duì)于每個(gè)圖像，方法200確定圖像類型。在方塊206 ，方法200根據(jù)圖像類型預(yù)處理圖像(如下面參照?qǐng)D3A和3B更詳細(xì)地描述的)，然后，前進(jìn)到判決塊208，以估計(jì)圖像類型確定的成功。在判決塊208，如果回答是否定的，則方法200前進(jìn)到方塊210,以可能
使用元標(biāo)記和圖案映射，進(jìn)一步進(jìn)行預(yù)處理，然后前進(jìn)到方塊212，方法200可以學(xué)習(xí)新的圖案。方法200將這個(gè)新信息返回到方塊204以進(jìn)一步進(jìn)行預(yù)處理。
如果在判決塊208的回答是肯定的，則方法200前進(jìn)到方塊214，方法200處理和生成與圖像有關(guān)的一系列圖像關(guān)鍵字。然后，方法200前進(jìn)到方塊216,方法200可以消除無關(guān)的字(例如，頁(yè)數(shù)、版權(quán)聲明)。然后方法200前進(jìn)到方塊218，方法200根據(jù)圖像關(guān)鍵字生成圖像的說明。然后方法200前進(jìn)到方塊220，方法200確定是否還有圖像。如果是的話，則方法200返回到方塊204和繼續(xù)進(jìn)行。如果沒有的話，則方法 200前進(jìn)到方塊D(圖6)。
圖3A和3B顯示按照實(shí)施例的數(shù)據(jù)源確定和預(yù)處理方法300的示意性流程圖。方法300從方塊302開始，并且在方塊304，接收源數(shù)據(jù)或圖 4象。在判決塊306，方法300確定該源是圖《象文件(例如，jpeg、 pdf)還是數(shù)據(jù)文件(例如，ppt、 vsd)。如果是數(shù)據(jù)文件，則方法300前進(jìn)到方塊308，在其中預(yù)期數(shù)據(jù)文件具有被數(shù)字存儲(chǔ)的附加信息(例如，doc、 ppt、 vsd、 xls、 123等等)。然后方法300前進(jìn)到方塊310，在其中方法 300確定數(shù)據(jù)文件是否包含附加元標(biāo)記，以幫助圖像解釋。如果不包含，則方法300經(jīng)由連接頭C直接前進(jìn)到方塊502。如果是的話，則方法300 前進(jìn)到方塊312，在其中方法300解析和解釋元標(biāo)記。這些元標(biāo)記可以是工業(yè)標(biāo)準(zhǔn)，或?qū)Ｓ糜谠次募愋偷臉?biāo)記。然后方法300前進(jìn)到方塊314 和方塊C(圖5A和5B)。
如果在判決塊306，該源是圖像文件，則方法300前進(jìn)到方塊316(圖 3B)。因?yàn)閳D像文件典型地具有較少的可檢索源數(shù)據(jù)，所以方法300前進(jìn)到方塊318，在其中方法300準(zhǔn)備用于其它類型的解析的圖像文件。這個(gè)準(zhǔn)備可包括例如去傾斜、噪聲減小、信號(hào)對(duì)噪聲平均等等。
然后方法300前進(jìn)到方塊320，在其中從準(zhǔn)備得到的圖案可以與被存儲(chǔ)在圖案文件夾中的圖案或模板進(jìn)行比較，以確定源圖像的可能的類型。例如，圖案或模板匹配可以表示源圖像是條形圖表、圓形圖表、文本表格、線型圖表等等。(可被使用于本方法的、用于圖像分析的各
種技術(shù)在http:〃en.wikipedia.org/wiki/Computer vision中概略地討論。例如，用于噪聲減小的各種方法在 http:〃www.mathtool.net/Java/Image Processing/中描述。圖形圖像處理包括去傾斜、自動(dòng)剪切、自動(dòng)邊界提取以及噪聲失真消除在 http:yVwww.sharewareriver.com/ products/6116.htm中描述。光學(xué)字符識(shí)另'J(OCR)技術(shù)在http:〃www. nuance, com/omnipage/professional/和 http:〃www.csc.liv.ac.uk/~wda2003/Papers/Section IV/Paper 14.pdf中描述。使用對(duì)比度技術(shù)來分段來自圖像的項(xiàng)目在
http:〃www.ph.tn.tudelft.nl/Courses/FIP/noframes/fip-Segmenta.htinl 中描述。圓和曲線確定技術(shù)在
http:〃homepages.inf.ed.ac.uk/cgi/rbf/CVONLINE/entries.pl7TAG382 中描述。圖到數(shù)據(jù)變換線技術(shù)在
http:〃ichemed.chem.wisc.edu/iournal/issues/2003 /Sep/abs1093 2.html 中描述。用于條形圖、圓形圖表等等的彩色邊緣檢測(cè)技術(shù)在 http:〃ai.stanford.edu/ ruzon/compass/color.html中描述。體積確定(用于venn圖、圓形圖表等等)在http:〃www.spl/harvard.edu:8000/ pages/papers/ guttmann /ms/guttmann—rev. html中描述。)
然后方法300前進(jìn)到方塊322,在其中方法300根據(jù)它的可能類型處理源圖像文件。例如，如果源內(nèi)容是條形圖表，則可以檢索用于條形圖表的相應(yīng)模板，以及可以通過使用用于解釋和說明的模板分析其它條形圖表內(nèi)容。
現(xiàn)在參照?qǐng)D4，圖上顯示按照實(shí)施例的圖像文件處理方法400。方法400從方塊402開始，并且前進(jìn)到判決塊404，以確定在圖案文件夾中的圖案是否超過預(yù)定的閾值，假設(shè)已經(jīng)匹配了源圖像文件類型。如果是的話，則方法400前進(jìn)到方塊C(圖5A和5B)。如果不是的話，方法400 前進(jìn)到方塊406,在其中方法400預(yù)處理和比較圖像文件與來自現(xiàn)有的圖案文件夾的"最好適配"的圖案。方法400然后前進(jìn)到判決塊408。
在判決塊408，如果不能滿足最小的閾值，則圖像不能被解釋和描述(例如，圖像可能是抽象油畫或草稿畫的徒手畫)，以及方法400經(jīng)由
連接頭A返回到方塊302。如果在方塊408能滿足最小的閾值，則方法 400前進(jìn)到方塊410。在這個(gè)步驟410，系統(tǒng)可以記錄圖像作為潛在的新圖案，而不用任何進(jìn)一步處理，經(jīng)由連接頭A返回到方塊302。在處理過程的末端，可以再查看一系列潛在的新圖案圖像(例如，通過系統(tǒng)分析)，以及可以生成用于基于圖案的數(shù)據(jù)提取的新模板。這些新模板可被保存在圖案文件夾中，這樣，它們可被使用于下一輪的自動(dòng)過程。
現(xiàn)在參照?qǐng)D5A和5B，圖上顯示按照實(shí)施例的部件組裝方法500的示意性流程圖。方法500從方塊502開始，并且前進(jìn)到判決塊504,在其中方法500確定源文件是圖像文件(例如，jpeg、 pdf)還是數(shù)據(jù)文件(例如，ppt、 vsd)。
如果是數(shù)據(jù)文件，則方法500前進(jìn)到方塊506，在其中方法500應(yīng)用模板來從數(shù)據(jù)中提取內(nèi)容，包括屬性、上下文、數(shù)字值等等。例如，用于x-y曲線圖的模板可以提取信息，諸如標(biāo)題、x軸的名稱、y軸的名稱，在圖表上畫的線的細(xì)節(jié)和用于線的任何標(biāo)簽。將會(huì)看到，模板可以對(duì)于每個(gè)特定類型的數(shù)據(jù)文件畫出草圖，以便提取密鑰信息。
然后方法500前進(jìn)到方塊508，在其中方法500可以構(gòu)建邏輯文本結(jié) 構(gòu)，以及從使用模板提取的數(shù)據(jù)中復(fù)制(populate)它們。例如，為了描述x-y坐標(biāo)圖，文本結(jié)構(gòu)可以包括標(biāo)題、x軸的名稱、y軸的名稱和通過在x-y坐標(biāo)圖上它們的斜率和相對(duì)位置描述直線的文本結(jié)構(gòu)。
然后方法500前進(jìn)到方塊510，在其中方法500可以存儲(chǔ)分段處理的結(jié)果，作為在邏輯結(jié)構(gòu)中可識(shí)別的部件。方法500然后經(jīng)由連接頭A前進(jìn)到方塊A(圖3A)。
圖5B顯示方法500的步驟，如果在判決塊504源文件是圖像文件，方法500前進(jìn)到方塊514，在其中選擇的圖案或模板被使用來把圖像文件分段為部件(例如，圖例、軸、標(biāo)題等等)。
然后，方法500前進(jìn)到方塊516、 518、 520、 522、 524、 526的一個(gè) 或多個(gè)，以解釋圖像文件。例如，在方塊516，方法500可以使用OCR來確定文本內(nèi)容。在方塊518,方法500可以4吏用邊緣尋找才支術(shù)來找出線圖形分量。在方塊520，方法500可以使用彩色邊緣技術(shù)來找出線圖形
分量。在方塊522,方法500可以使用曲線尋找技術(shù)來找出曲線圖形單元。在方塊524，方法500可以使用圓形、橢圓和氣泡尋找技術(shù)來找出 2D圖形分量。在方塊526，方法500可以使用對(duì)比度尋找技術(shù)來找出條形分段、圓形分段等等。
然后方法500前進(jìn)到方塊528,在其中方法500可以解釋每個(gè)找到的目標(biāo)，得出數(shù)字、標(biāo)簽、或其它屬性，諸如從左到右的條形的相對(duì)位置、圓形分段的相對(duì)百分?jǐn)?shù)，等等。
然后方法500前進(jìn)到方塊530，在其中方法500可以評(píng)注(document) 通過應(yīng)用如上所述的一個(gè)或多個(gè)分析技術(shù)而發(fā)現(xiàn)的分段單元。然后方法500前進(jìn)到方塊532,在其中方法500可以協(xié)調(diào)和對(duì)準(zhǔn)部件。方法500 然后前進(jìn)到如上所述的方塊508(圖5A),并繼續(xù)進(jìn)行。
現(xiàn)在參照?qǐng)D6，圖上顯示音頻預(yù)處理方法600的示意性流程圖。方法600從方塊602開始，并且前進(jìn)到判決塊604，以接收音頻記錄作為輸入。然后方法600前進(jìn)到方塊606,在其中方法600把音頻節(jié)目劃分成音頻剪輯的向量，每個(gè)音頻剪輯在語(yǔ)音的自然停頓處結(jié)束，諸如句子的末端，且接近于固定的長(zhǎng)度(例如，30秒)。
然后方法600前進(jìn)到方塊608，在其中方法600對(duì)于每個(gè)音頻剪輯繼續(xù)進(jìn)行。然后方法600前進(jìn)到方塊610,在其中語(yǔ)音識(shí)別技術(shù)可被使用來把音頻剪輯轉(zhuǎn)換成文本。在方塊612，方法600然后可以使用自然語(yǔ) 言解析器，解析轉(zhuǎn)換的文本。方法600然后可以產(chǎn)生名詞詞組向量，其包含從音頻剪輯提取的0到n個(gè)名詞詞組。方法600然后前進(jìn)到方塊616,
典中的字。方法600然后前進(jìn)到方塊618,在其中方法600計(jì)算每個(gè)名詞詞組的重要性數(shù)值，以及去除不太有意義的詞組。然后方法600前進(jìn)到方塊620，在其中方法600產(chǎn)生包含0到n個(gè)關(guān)鍵字的、音頻剪輯的關(guān)鍵字向量。然后方法600前進(jìn)到判決塊622，以確定是否還有音頻剪輯。如果是的話，方法600返回到方塊608,并繼續(xù)進(jìn)行。如果不是的話，方法600經(jīng)由連接頭E前進(jìn)到圖7的方法700。
現(xiàn)在參照?qǐng)D7，圖上顯示按照實(shí)施例的圖像插入位置搜索方法700
的示意性流程圖。方法700從方塊702開始，并且前進(jìn)到方塊704，在其中方法700接收由包含O到n個(gè)關(guān)鍵字的圖像關(guān)鍵字向量代表的預(yù)處理的圖像和由音頻剪輯關(guān)鍵字向量的一個(gè)向量代表的預(yù)處理的音頻節(jié)目 (在每個(gè)音頻剪輯關(guān)鍵字向量代表音頻剪輯的情況下)作為輸入。
然后方法700前進(jìn)到方塊706，在其中方法700對(duì)于在音頻節(jié)目中的每個(gè)音頻剪輯繼續(xù)進(jìn)行。在方塊708，方法700對(duì)于在圖像關(guān)鍵字向量中的每個(gè)關(guān)鍵字繼續(xù)進(jìn)行。然后方法700前進(jìn)到方塊710，在其中方法 700對(duì)于在代表音頻剪輯的音頻關(guān)鍵字向量中的每個(gè)關(guān)鍵字繼續(xù)進(jìn)行。然后方法700前進(jìn)到方塊712，在其中方法700計(jì)算在當(dāng)前的圖像關(guān)鍵字與音頻關(guān)鍵字之間的相似性距離。在步驟714,方法700更新在這個(gè)圖像關(guān)鍵字與音頻關(guān)鍵字之間的最短距離，以及通過返回到方塊710，前進(jìn)到音頻剪輯中的下一個(gè)關(guān)鍵字，如果存在的話。如果不存在，則方法700前進(jìn)到方塊716,在其中方法700指定這個(gè)最短的距離值作為在這個(gè)圖像關(guān)鍵字與音頻剪輯之間的相似性距離。然后方法700前進(jìn)到方塊 718，在其中方法700更新在這個(gè)圖像關(guān)鍵字與音頻剪輯之間的最短距離，以及通過返回到方塊708，前進(jìn)到圖像的下一個(gè)關(guān)鍵字，如果存在的話。如果不存在，則方法700前進(jìn)到方塊720，在其中方法700指定這個(gè)最短的距離值作為在這個(gè)圖像與音頻剪輯之間的相似性距離。
然后方法700前進(jìn)到方塊722，在其中方法700記錄具有最短距離的音頻剪輯，以及通過返回到方塊706，前進(jìn)到下一個(gè)音頻剪輯，如果存在的話。如果不存在，則方法700前進(jìn)到方塊724，在其中方法700識(shí)別具有到圖像的最，豆相似性距離的音頻剪輯作為插入圖像的地方。方法 700然后經(jīng)由連產(chǎn)頭F前進(jìn)到方塊F(圖8)。
現(xiàn)在參照?qǐng)D8，圖上顯示按照實(shí)施例的圖像插入方法800。方法800 從方塊802開始，并且前進(jìn)到方塊804，以接收一系列圖像的輸入，每個(gè)圖像由圖像關(guān)鍵字向量和相應(yīng)的插入點(diǎn)代表。然后方法800前進(jìn)到方塊806，在其中方法800對(duì)于在聲音記錄中的每個(gè)聲音剪輯繼續(xù)進(jìn)行。然后方法800前進(jìn)到方塊808,把這個(gè)聲音剪輯附加到最終得到的圖像說明增大的聲音記錄。
然后方法800前進(jìn)到方塊810,以對(duì)于一系列圖像中的每個(gè)圖^f象繼續(xù)進(jìn)行。然后方法800前進(jìn)到方塊812，以確定圖像是否應(yīng)當(dāng)插入在當(dāng) 前的聲音剪輯后。如果不是的話，則方法800返回到方塊812。如果是的話，則方法800前進(jìn)到方塊814，以通過使用語(yǔ)音生成工具從圖像關(guān) 鍵字生成圖像說明音頻剪輯。然后方法800前進(jìn)到方塊816，在其中方法800把新生成的圖像說明音頻剪輯附加到識(shí)別的插入點(diǎn)。然后方法 800前進(jìn)到判決塊818，以確定是返回到方塊810，還是前進(jìn)到判決塊 812。在判決塊812，方法800確定是返回到方塊806，還是結(jié)束。
正如將會(huì)看到的，上述的方法識(shí)別和以文本與音頻描述圖像，通過使用根據(jù)關(guān)鍵字計(jì)算的相似性距離定位在原先的音頻記錄中適當(dāng)?shù)?插入點(diǎn)，以及把圖像說明插入到適當(dāng)?shù)淖R(shí)別位置。因此，音頻記錄的收聽者看不見的圖像將在被插入到和增大原先的聲音記錄的圖像說明音頻剪輯中被描述。
例子
圖9顯示由Clayton M. Christensen根據(jù)圖表適配和簡(jiǎn)化的、可以通過使用上述方法識(shí)別和描述的圖形圖像900的說明性例子。
例如，在講課的音頻記錄中，講課人可以涉及多個(gè)圖形或圖表，諸如圖9所示的圖形圖像900。在講課的某些點(diǎn)，例如在10:25am的時(shí) 間參考點(diǎn)，講課人可以參考具有標(biāo)題"disruptors，，的圖表。然后，在 10:30 am他可以說"圖形，，和"線"，這可以解釋為他參考線型圖表。他也可以在10:35am具體地說，"為了使圖形筒單，我僅僅描述使用改進(jìn) 方案的能力作為單條線..."。
按照實(shí)施例，系統(tǒng)可以隱藏在10:30am的圖表卯0的解釋說明，這可以如下闡述標(biāo)題"disruptors"， X軸"時(shí)間"，Y軸"性能"。行A 具有約10。的斜率，標(biāo)題為"使用改進(jìn)方案的能力"。行B具有約25。的斜率，標(biāo)題為"革新"。行B在時(shí)間D與行A交叉。行C具有約25G的斜率，標(biāo)題為"disruption",行C在時(shí)間E與行A交叉。
正如將會(huì)看到的，可以解釋諸如圖表900那樣的圖表和提供口頭說明的系統(tǒng)和方法，比起在不提供這樣的信息情況下的系統(tǒng)和方法，可
以給收聽者提供更多的上下文以了解講課。
雖然上面描述了本發(fā)明的各種說明性實(shí)施例，但本領(lǐng)域技術(shù)人員將會(huì)看到，可以作出改變和修改。因此，本發(fā)明的范圍由以下的權(quán)利要求規(guī)定。
權(quán)利要求
1.一種把圖像的說明插入到音頻記錄中的方法，包括解釋圖像和產(chǎn)生包括至少一個(gè)圖像關(guān)鍵字的圖像的文字說明；把音頻記錄解析成多個(gè)音頻剪輯，并且產(chǎn)生每個(gè)音頻剪輯的轉(zhuǎn)錄本，每個(gè)音頻剪輯轉(zhuǎn)錄本包括至少一個(gè)音頻關(guān)鍵字；計(jì)算至少一個(gè)圖像關(guān)鍵字與每個(gè)音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離；以及選擇具有到至少一個(gè)圖像關(guān)鍵字的最短的相似性距離的音頻剪輯轉(zhuǎn)錄本作為插入圖像的文字說明的位置。
2. 根據(jù)權(quán)利要求l的方法，還包括把圖像的文字說明附加到選擇的音頻剪輯，以產(chǎn)生包括圖像的至少一個(gè)解釋性文字說明的增大的音頻"i己錄。
3. 根據(jù)權(quán)利要求l的方法，還包括提供至少一個(gè)解釋圖像的模板，該至少一個(gè)模板包括至少一個(gè)圖像解釋部件，用于產(chǎn)生圖像的文字說明。
4. 根據(jù)權(quán)利要求3的方法，還包括提供光學(xué)字符識(shí)別(OCR)技術(shù)、邊緣尋找技術(shù)、彩色邊緣尋找技術(shù)、曲線尋找技術(shù)、形狀尋找技術(shù)、和對(duì)比度尋找技術(shù)中的至少一項(xiàng)技術(shù)作為在該至少一個(gè)模板中的圖像解釋部件。
5. 根據(jù)權(quán)利要求l的方法，還包括把音頻記錄解析為基本上相同長(zhǎng)度的多個(gè)音頻剪輯，以及調(diào)節(jié)每個(gè)音頻剪輯的長(zhǎng)度以在語(yǔ)音的自然停頓處結(jié)束。
6. 根據(jù)權(quán)利要求l的方法，還包括通過計(jì)算在圖像的至少一個(gè) 圖像關(guān)鍵字與音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離而計(jì) 算在圖像與音頻剪輯之間的相似性距離。
7. 根據(jù)權(quán)利要求6的方法，還包括通過計(jì)算在分級(jí)結(jié)構(gòu)語(yǔ)義電子字典中這些關(guān)鍵字之間的路徑長(zhǎng)度而得到在至少一個(gè)圖像關(guān)鍵字與至少一個(gè)音頻關(guān)鍵字之間的相似性距離。
8. —種用于把圖像的說明插入到音頻記錄中的系統(tǒng)，包括解釋裝置，用于解釋圖像和產(chǎn)生包括至少一個(gè)圖像關(guān)鍵字的圖像的文字說明；解析裝置，用于把音頻記錄解析成多個(gè)音頻剪輯，和產(chǎn)生每個(gè)音頻剪輯的轉(zhuǎn)錄本，每個(gè)音頻剪輯轉(zhuǎn)錄本包括至少一個(gè)音頻關(guān)鍵字；計(jì)算裝置，用于計(jì)算該至少一個(gè)圖像關(guān)鍵字與每個(gè)音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離；以及選擇裝置，用于選擇具有到至少一個(gè)圖像關(guān)鍵字的最短的相似性距離的音頻剪輯轉(zhuǎn)錄本作為插入圖像的文字說明的位置。
9. 根據(jù)權(quán)利要求8的系統(tǒng)，還包括附加裝置，用于把圖像的文字說明附加到選擇的音頻剪輯，以產(chǎn)生包括圖像的至少一個(gè)解釋性文字說明的增大的音頻記錄。
10. 根據(jù)權(quán)利要求8的系統(tǒng)，還包括至少一個(gè)解釋圖像的模板，該至少一個(gè)模板包括至少一個(gè)圖像解釋部件，用于產(chǎn)生圖像的文字說明。
11. 根據(jù)權(quán)利要求10的系統(tǒng)，還包括光學(xué)字符識(shí)別(OCR)技術(shù)、邊緣尋找技術(shù)、彩色邊緣尋找技術(shù)、曲線尋找技術(shù)、形狀尋找技術(shù)、和對(duì)比度尋找技術(shù)中的至少一項(xiàng)技術(shù)作為在該至少一個(gè)模板中的圖像解釋部件。
12. 根據(jù)權(quán)利要求8的系統(tǒng)，其中解析裝置被配置成把音頻記錄解析為基本上相同長(zhǎng)度的多個(gè)音頻剪輯，以及調(diào)節(jié)每個(gè)音頻剪輯的長(zhǎng)度以在語(yǔ)音的自然停頓處結(jié)束。
13. 根據(jù)權(quán)利要求8的系統(tǒng)，其中計(jì)算裝置被配置成通過計(jì)算在圖像的至少一個(gè)圖像關(guān)鍵字與音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離而計(jì)算在圖像與音頻剪輯之間的相似性距離。
14. 根據(jù)權(quán)利要求13的系統(tǒng)，其中系統(tǒng)被配置成根據(jù)在分級(jí)結(jié)構(gòu) 語(yǔ)義電子字典中這些關(guān)鍵字之間的路徑長(zhǎng)度而計(jì)算在至少一個(gè)圖像關(guān) 鍵字與至少一個(gè)音頻關(guān)鍵字之間的相似性距離。
全文摘要
公開了一種用于解釋和描述圖形圖像的系統(tǒng)和方法。在實(shí)施例中，用于把圖像的說明插入到音頻記錄中的方法包括解釋圖像和產(chǎn)生包括至少一個(gè)圖像關(guān)鍵字的圖像的文字說明；把音頻記錄解析成多個(gè)音頻剪輯，和產(chǎn)生每個(gè)音頻剪輯的轉(zhuǎn)錄本，每個(gè)音頻剪輯轉(zhuǎn)錄本包括至少一個(gè)音頻關(guān)鍵字；計(jì)算至少一個(gè)圖像關(guān)鍵字與每個(gè)音頻剪輯的至少一個(gè)音頻關(guān)鍵字之間的相似性距離；以及選擇具有到至少一個(gè)圖像關(guān)鍵字的最短的相似性距離的音頻剪輯轉(zhuǎn)錄本作為插入圖像的文字說明的位置。然后圖像的文字說明可被附加到選擇的音頻剪輯，以產(chǎn)生包括圖像的解釋性文字說明的增大的音頻記錄。
文檔編號(hào)G11B27/031GK101178924SQ200710169269
公開日2008年5月14日申請(qǐng)日期2007年11月8日優(yōu)先權(quán)日2006年11月9日
發(fā)明者宇張, 彼德·C.·伯伊勒申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：彼德.Ｃ．.伯伊勒;張宇
技術(shù)所有人：國(guó)際商業(yè)機(jī)器公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
2、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
3、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
4、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
5、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻設(shè)備圖像隔離相關(guān)技術(shù)

數(shù)字圖像及音視頻處理相關(guān)技術(shù)

音頻圖像相關(guān)技術(shù)

壓縮標(biāo)準(zhǔn)用于音頻壓縮相關(guān)技術(shù)

用于音頻處理的芯片相關(guān)技術(shù)

小波變換用于圖像壓縮相關(guān)技術(shù)

matlab用于圖像處理相關(guān)技術(shù)

用于圖像分割的圖片相關(guān)技術(shù)

小波分析用于圖像分解相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于把圖像的說明插入到音頻記錄中的系統(tǒng)和方法