專利名稱:視頻搜索結(jié)果的展示方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種視頻搜索結(jié)果的展示方法及其系統(tǒng),屬于搜索引擎技術(shù)領(lǐng)域。
技術(shù)背景
過去十幾年以來,人們越來越依賴于互聯(lián)網(wǎng)提供的豐富、快捷、及時(shí)的信息。但是 如何在浩如煙海的信息中找到待搜尋的信息,成為一項(xiàng)迫切需要解決的問題,相應(yīng)地,眾 多的互聯(lián)網(wǎng)搜索引擎及對(duì)應(yīng)的網(wǎng)站應(yīng)運(yùn)而生,這中間的佼佼者包括百度公司的百度搜索 (www. baidu. com)禾口谷歌公司的谷歌搜索(www. google, cn)。
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,用戶可以通過搜索引擎查詢自己需要的視頻文件。例 如,用戶從搜索頁面輸入查詢信息(query),如“武林外傳”,搜索引擎只要在視頻文件的 標(biāo)題或內(nèi)容中搜索到“武林外傳”這幾個(gè)關(guān)鍵詞,均會(huì)被認(rèn)為是與查詢信息相匹配的視頻文 件。這樣導(dǎo)致的問題請(qǐng)參圖1所示,搜索引擎返回的結(jié)果頁面中有不同的第三方視頻鏈接, 而且每集的信息都是散亂的排布于結(jié)果頁面。如果用戶只是想看其中的某一集,就需要從 雜亂的結(jié)果頁面中查找,從而導(dǎo)致用戶查找時(shí)間較長、網(wǎng)絡(luò)流量較大?,F(xiàn)有的搜索系統(tǒng)對(duì)用 戶的要求較高,用戶需要預(yù)先選擇關(guān)鍵詞,而且關(guān)鍵詞的選取至關(guān)重要,因?yàn)椴樵冑|(zhì)量在很 大程度上依賴于關(guān)鍵詞選取的好壞。
與本發(fā)明相關(guān)的現(xiàn)有技術(shù)可參閱2007年11月觀日公開的中國發(fā)明專利第 CN101079033A號(hào),該發(fā)明揭示了一種綜合搜索結(jié)果的排序系統(tǒng)及其方法,所述系統(tǒng)包括數(shù) 據(jù)分析模塊、數(shù)據(jù)庫和排序模塊;所述數(shù)據(jù)分析模塊提供可用于排序算法的數(shù)據(jù)信息,并導(dǎo) 入所述數(shù)據(jù)庫中存儲(chǔ);所述數(shù)據(jù)庫用于存儲(chǔ)數(shù)據(jù)分析模塊提供的數(shù)據(jù)信息,供應(yīng)所述排序 模塊執(zhí)行排序算法時(shí)提取,并存儲(chǔ)所述排序模塊得到的最終排序信息;所述排序模塊用于 根據(jù)所述數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)信息執(zhí)行排序算法,對(duì)所述垂直搜索引擎進(jìn)行排序,并將最 終排序信息存儲(chǔ)到所述數(shù)據(jù)庫中。所述方法包括以下步驟:A.在所述綜合搜索引擎中輸入 檢索詞進(jìn)行搜索,得到全部垂直搜索引擎搜索的結(jié)果;B.所述排序模塊從所述數(shù)據(jù)庫提取 數(shù)據(jù)信息,采取排序算法計(jì)算該次搜索中每種垂直搜索引擎的綜合值;C.對(duì)所述每種垂直 搜索引擎的綜合值進(jìn)行比較,對(duì)所述垂直搜索引擎進(jìn)行排序,并將最終排序信息顯示輸出。
雖然,該現(xiàn)有技術(shù)已經(jīng)揭示了利用排序模塊對(duì)搜索的數(shù)據(jù)信息進(jìn)行排序并最終將 排序信息顯示輸出,然而,僅僅將序列化的數(shù)據(jù)信息展示給用戶,往往還不能夠滿足用戶的 需求,因?yàn)樵谀承┣闆r下即使已經(jīng)序列化的數(shù)據(jù)信息仍不能幫助用戶判斷其真正需要的哪 一個(gè),進(jìn)而導(dǎo)致用戶查找時(shí)間較長、網(wǎng)絡(luò)流量較大。發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種改進(jìn)的視頻搜索結(jié)果的展示方法。
本發(fā)明所要解決的技術(shù)問題還在于提供一種改進(jìn)的視頻搜索結(jié)果的展示系統(tǒng)。
相應(yīng)地,本發(fā)明的一種視頻搜索結(jié)果的展示方法,包括
Si,接收輸入的查詢信息;
S2,挖掘與所述查詢信息相關(guān)的文本信息,并對(duì)所述文本信息按照周期性進(jìn)行排 續(xù);
S3,搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,并從所述預(yù)選圖片中挑選出展示圖 片;
S4,將排序后的所述文本信息及其對(duì)應(yīng)的展示圖片輸出。
作為本發(fā)明的進(jìn)一步改進(jìn),步驟S4中,所述文本信息及其對(duì)應(yīng)的展示圖片輸出至第一結(jié)果頁面。
作為本發(fā)明的進(jìn)一步改進(jìn),在所述第一結(jié)果頁面中,所述文本信息或者所述展示 圖片具有進(jìn)入第二結(jié)果頁面的精確鏈接。
作為本發(fā)明的進(jìn)一步改進(jìn),所述第二結(jié)果頁面包括至少一個(gè)第三方視頻播放頁面 鏈接。
作為本發(fā)明的進(jìn)一步改進(jìn),所述第二結(jié)果頁面是嵌著第三方視頻播放器的頁面。
作為本發(fā)明的進(jìn)一步改進(jìn),所述S3包括圖片去重步驟和展示圖片挑選步驟。
作為本發(fā)明的進(jìn)一步改進(jìn),所述圖片去重步驟包括
接收預(yù)選圖片;
計(jì)算所述預(yù)選圖片與已有的候選展示圖片的方差;
判斷方差是否大于等于設(shè)定閾值;
如果是,則判定為兩張圖片不相似;
如果否,則判定為兩張圖片相似,并刪除其中一張圖片。
作為本發(fā)明的進(jìn)一步改進(jìn),在所述“接收預(yù)選圖片”和“計(jì)算所述預(yù)選圖片與已有 的候選展示圖片的方差”之間,還包括以下步驟
判斷該預(yù)選圖片是否為接收到的第一張預(yù)選圖片;
如果是,則直接運(yùn)用該預(yù)選圖片為候選展示圖片;
如果否,則執(zhí)行“計(jì)算所述預(yù)選圖片與已有的候選展示圖片的方差”步驟。
作為本發(fā)明的進(jìn)一步改進(jìn),所述展示圖片挑選步驟,包括
接收與同一文本信息相對(duì)應(yīng)的候選展示圖片;
判斷所述候選展示圖片是否為單色圖片;
如果均為單色圖片,則挑選一張熵最大的候選展示圖片作為展示圖片;
如果不完全是單色圖片,則過濾單色圖片。
作為本發(fā)明的進(jìn)一步改進(jìn),在“過濾單色圖片”后,還包括
判斷候選展示圖片是否為馬賽克圖片;
如果均為馬賽克圖片,則挑選馬賽克塊最小的一張做為展示圖片;
如果不完全是馬賽克圖片,則過濾掉馬賽克圖片。
作為本發(fā)明的進(jìn)一步改進(jìn),在“過濾掉馬賽克圖片”后,還包括
計(jì)算所述候選展示圖片的熵值;
過濾掉熵值最小的候選展示圖片;
計(jì)算所計(jì)算候選展示圖片的中心區(qū)域和圖片邊緣區(qū)域的邊緣密度比值;
根據(jù)所述邊緣密度比值的結(jié)果設(shè)置加權(quán)因子,計(jì)算清晰度加權(quán)值;
計(jì)算清晰度加權(quán)值和邊緣密度比值的加權(quán)和;
選擇加權(quán)和最大的候選展示圖片作為展示圖片。
作為本發(fā)明的進(jìn)一步改進(jìn),如果查詢信息所對(duì)應(yīng)的是連續(xù)劇,則步驟S2中文本信 息排序?yàn)榘凑账鲞B續(xù)劇的順序進(jìn)行排序。
作為本發(fā)明的進(jìn)一步改進(jìn),步驟S2還包括對(duì)所述連續(xù)劇總集數(shù)的判斷步驟。
相應(yīng)地,本發(fā)明的一種搜索結(jié)果的序列化展示裝置,包括
查詢模塊,用于接收輸入的查詢信息;
挖掘排序模塊,用于挖掘與所述查詢信息相關(guān)的文本信息,并對(duì)所述文本信息按 照周期性進(jìn)行排續(xù);
取圖選圖模塊,用于搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,并從所述預(yù)選圖片 中挑選出展示圖片;以及
展示模塊,用于將排序后的所述文本信息及其對(duì)應(yīng)的展示圖片輸出。
作為本發(fā)明的進(jìn)一步改進(jìn),所述展示模塊將所述文本信息及其對(duì)應(yīng)的展示圖片輸 出至第一結(jié)果頁面。
作為本發(fā)明的進(jìn)一步改進(jìn),在所述第一結(jié)果頁面中,所述文本信息或者所述展示 圖片具有進(jìn)入第二結(jié)果頁面的精確鏈接。
作為本發(fā)明的進(jìn)一步改進(jìn),所述第二結(jié)果頁面包括至少一個(gè)第三方視頻播放頁面 鏈接。
作為本發(fā)明的進(jìn)一步改進(jìn),所述第二結(jié)果頁面是嵌著第三方視頻播放器的頁面。
作為本發(fā)明的進(jìn)一步改進(jìn),所述取圖選圖模塊可將所述預(yù)選圖片去重,得到候選 展示圖片。
作為本發(fā)明的進(jìn)一步改進(jìn),所述取圖選圖模塊可在所述候選展示圖片中挑選出展 示圖片。
作為本發(fā)明的進(jìn)一步改進(jìn),所述取圖選圖模塊包括
取圖子模塊,用于搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片;
選圖子模塊,用于從所述預(yù)選圖片中挑選出所述展示圖片。
作為本發(fā)明的進(jìn)一步改進(jìn),所述挖掘排序模塊包括
判斷單元,用于在文本挖掘的過程中對(duì)文本信息的真?zhèn)芜M(jìn)行判斷。
相較于現(xiàn)有技術(shù),本發(fā)明的有益效果是通過展示序列化的文本信息及其對(duì)應(yīng)的 圖片,可以方便用戶查找,提高用戶查找效率,節(jié)約網(wǎng)絡(luò)流量。
圖1是現(xiàn)有技術(shù)中的搜索結(jié)果頁面示意圖。
圖2是本發(fā)明展示序列化搜索結(jié)果的系統(tǒng)的模塊圖。
圖3是本發(fā)明展示序列化搜索結(jié)果的系統(tǒng)另一種實(shí)施方式的模塊圖。
圖4是本發(fā)明視頻搜索結(jié)果的展示方法的流程圖。
圖5是本發(fā)明視頻搜索結(jié)果的展示方法另一種實(shí)施方式的流程圖。
圖6是本發(fā)明視頻搜索結(jié)果的展示方法再一種實(shí)施方式的流程圖。
圖7是本發(fā)明預(yù)選圖片篩選步驟中的圖片去重步驟的流程圖。
圖8是本發(fā)明預(yù)選圖片篩選步驟中的展示圖片挑選步驟的流程圖。
圖9是利用本發(fā)明視頻搜索結(jié)果的展示方法及其系統(tǒng)所返回的中間頁面示意圖。
具體實(shí)施方式
請(qǐng)參圖2所示,本發(fā)明揭示了一種視頻搜索結(jié)果的展示系統(tǒng),其包括查詢模塊1、 挖掘排序模塊2、取圖選圖模塊3及展示模塊4。
所述查詢模塊1用于接收用戶輸入的查詢信息,例如連續(xù)劇的名稱、周期性視頻 文件的名稱等等。在本實(shí)施方式中為連續(xù)劇“武林外傳”。
所述挖掘排序模塊2用于根據(jù)用戶輸入的查詢信息挖掘出與該查詢信息相關(guān)的 文本信息,并對(duì)所述文本信息按照周期性進(jìn)行排序。
取圖選圖模塊3用于搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,并從所述預(yù)選圖片 中挑選出展示圖片。其中,所述取圖選圖模塊3包括取圖子模塊31及選圖子模塊32。取圖 子模塊31用于搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,而選圖子模塊32用于從所述預(yù)選 圖片中挑選出所述展示圖片,供用戶識(shí)別。
所述展示模塊4用于將序列化排序后的文本信息及其對(duì)應(yīng)的展示圖片向用戶展7J\ ο
以下結(jié)合視頻文件以更好的描述本發(fā)明。請(qǐng)參圖2所示,首先,以視頻文件為連續(xù) 劇“武林外傳”為例,挖掘排序模塊2首先對(duì)各種視頻網(wǎng)站進(jìn)行搜索,通過文本挖掘可以得 到“武林外傳”每一集的相關(guān)資源,例如武林外傳第一集、武林外傳第二集、武林外傳第三 集等等,并將每一集與其對(duì)應(yīng)的URL資源建表存于數(shù)據(jù)庫。通過對(duì)各種視頻網(wǎng)站進(jìn)行搜索 并保存URL資源,能夠充分地利用網(wǎng)絡(luò)資源,不需要將文件的全部內(nèi)容保存到數(shù)據(jù)庫中,以 節(jié)省數(shù)據(jù)庫的容量。通常情形下,視頻文件的檔案較大,如果將各種視頻文件的全部內(nèi)容都 保存到數(shù)據(jù)庫中,則需要數(shù)據(jù)庫具備很大的容量,并且維護(hù)起來也非常不便。所述挖掘排序 模塊2對(duì)每一集的相關(guān)資源進(jìn)行聚類,按照連續(xù)劇每一集的順序進(jìn)行排列。
取圖子模塊31用于根據(jù)挖掘排序模塊2所搜集到的文本信息,從各種視頻網(wǎng)站中 查找與集數(shù)相對(duì)應(yīng)的所有預(yù)選圖片,并將URL資源對(duì)應(yīng)的預(yù)選圖片建表存于數(shù)據(jù)庫中。由 于不同的視頻網(wǎng)站對(duì)同一集連續(xù)劇所展示出來的預(yù)選圖片往往是不同的,所以,取圖子模 塊31可以從不同的視頻網(wǎng)站搜集各種不同的預(yù)選圖片。當(dāng)然,通過設(shè)定程序,可以對(duì)數(shù)據(jù) 庫中的文本信息、預(yù)選圖片、及URL資源進(jìn)行定期更新。
選圖子模塊32用于從所述預(yù)選圖片中挑選出所述展示圖片。即是對(duì)挖掘到的視 頻每一集選取合適的展示圖片,并將每一集與該集相對(duì)應(yīng)的展示圖片關(guān)聯(lián)后建表存于數(shù)據(jù) 庫。由于取圖子模塊31搜集到的預(yù)選圖片是各種各樣的,有的是片頭、有的是片尾、有的是 模糊的、有的是色彩暗淡的、有的是清楚且色彩亮麗的、有的是內(nèi)容空洞的等等。當(dāng)然,這些 預(yù)選圖片中也極可能存在相互重復(fù)的。總之,這些預(yù)選圖片中并不是都是適合展示的。為 了挑選出適合的展示圖片,所述選圖子模塊32通過一定的算法將重復(fù)的預(yù)選圖片刪除,該 算法將在下面結(jié)合圖7進(jìn)行具體說明。由于每一集的片頭及每一集的片尾的預(yù)選圖片均比 較近似,用戶難以通過這些預(yù)選圖片對(duì)該集的內(nèi)容做區(qū)分,因此,選圖子模塊32 —般情況 下不會(huì)將每一集的片頭及片尾作為最終選取的展示圖片。在本實(shí)施方式中,選圖子模塊32 通過一定的算法,將顏色亮麗的圖片作為最終被挑選出來展示給用戶的展示圖片,該算法 將在下面結(jié)合圖8進(jìn)行具體說明。
所述展示模塊4把經(jīng)過序列化排序的文本信息及其對(duì)應(yīng)的展示圖片結(jié)合起來并 展示給用戶。如果用戶明確知道需要尋找的集數(shù),可以通過已經(jīng)排序的集數(shù)迅速找到。如 果用戶不確定需要尋找的集數(shù),可以參考選圖子模塊32所挑選出來的展示圖片,幫助其判 斷需要尋找的是第幾集,進(jìn)而使本發(fā)明展示序列化搜索結(jié)果的系統(tǒng)用戶查找效率較高,節(jié) 約網(wǎng)絡(luò)流量。
請(qǐng)參圖3所示,在本發(fā)明展示序列化搜索結(jié)果的系統(tǒng)另一種實(shí)施方式中,所述挖 掘排序模塊2包括一個(gè)判斷單元21,用于在文本挖掘的過程中對(duì)文本信息的真?zhèn)芜M(jìn)行判 斷。例如該判斷單元21用以在文本挖掘的過程中對(duì)連續(xù)劇“武林外傳”的總集數(shù)進(jìn)行判 斷。當(dāng)然,判斷的方法有很多種,例如通過資源的頭、尾可以對(duì)連續(xù)劇的總集數(shù)進(jìn)行判斷;另 外,也可以根據(jù)挖到的每一集資源的數(shù)目來做判斷,例如“武林外傳”實(shí)際上只有81集,在 81集之前每一集挖到的資源都很多,而第82集的資源突然很少,此時(shí)判斷單元21就可以認(rèn) 為第82集是不真實(shí)的,從而得出“武林外傳”的總集數(shù)為81集。另外,如果某些視頻文件 的出現(xiàn)是周期性的或者具有某些時(shí)間特征,判斷單元21對(duì)于這些視頻文件真實(shí)性的判斷 可以采用如下規(guī)則(1).通過監(jiān)測視頻文件(如連續(xù)劇)的首映時(shí)間,可以判斷凡是在該 首映時(shí)間之前出現(xiàn)的資源都是不真實(shí)的;(2).由于一般連續(xù)劇每集的播放時(shí)間比較類似, 通過設(shè)定算法,可以從播放時(shí)間上排除那些明顯不正確的集數(shù)??傊芷谛砸曨l文件的總 集數(shù)的判斷方式有很多,在此不再贅述。
當(dāng)查詢模塊1接受到用戶輸入的查詢信息為“武林外傳”時(shí),由于相關(guān)資源已經(jīng)事 先被搜索出來且存于數(shù)據(jù)庫中(如前所述),所以挖掘排序模塊2只需要從該數(shù)據(jù)庫中搜索 相關(guān)文本信息并對(duì)這些文本信息進(jìn)行排序。另外,取圖選圖模塊3也只需要從數(shù)據(jù)庫中選 取適合的展示圖片。展示模塊4最終把已經(jīng)序列化排序的文本信息及其展示圖片展示給用 戶即可。在本實(shí)施方式中,所述展示模塊4會(huì)先向用戶返回一個(gè)中間頁面,如圖9所示。該 中間頁面所展示的內(nèi)容包括序列化排序的文本信息及與這些文本信息相對(duì)應(yīng)的展示圖片。 用戶通過序列化排序的文本信息及展示出來的展示圖片,可以很容易的判斷其需要尋找的 集數(shù),使用方便、用戶查找效率高。由于中間頁面顯示的每一集的文本信息或者展示圖片的 后面都隱藏著一個(gè)精確的鏈接,故只需點(diǎn)擊該文本信息或展示圖片,就可以搜索至結(jié)果頁 面。結(jié)果頁面的顯示方式有兩種,一種是包括至少一個(gè)第三方視頻播放頁面鏈接,例如當(dāng)點(diǎn) 擊第一集時(shí),會(huì)出現(xiàn)之前已經(jīng)挖掘到的所有第一集的第三方視頻,可能包含優(yōu)酷的、酷6的 等等;另一種是嵌著第三方視頻播放器的頁面。
當(dāng)然,在其它實(shí)施方式中,當(dāng)查詢模塊1接受到用戶輸入的查詢信息為“武林外 傳”時(shí),挖掘排序模塊2即時(shí)去各種視頻網(wǎng)站進(jìn)行搜索,通過文本挖掘可以得到“武林外傳” 每一集的相關(guān)資源,例如武林外傳第一集、武林外傳第二集、武林外傳第三集等等,并將每 一集與其對(duì)應(yīng)的URL資源建表存于數(shù)據(jù)庫,此外,挖掘排序模塊2對(duì)所搜集到的文本信息進(jìn) 行排序;然后,取圖子模塊31根據(jù)挖掘排序模塊2所搜集到的文本信息,從各種視頻網(wǎng)站中 查找與集數(shù)相對(duì)應(yīng)的所有預(yù)選圖片,并將URL資源對(duì)應(yīng)的預(yù)選圖片建表存于數(shù)據(jù)庫中;選 圖子模塊32再對(duì)挖掘到的視頻每一集選取合適的展示圖片,并將每一集與該集相對(duì)應(yīng)的 展示圖片建表存于數(shù)據(jù)庫;最終,展示模塊4將已經(jīng)序列化排序的文本信息及其展示圖片 展示給用戶即可。通過該動(dòng)作過程,同樣可以實(shí)現(xiàn)本發(fā)明的目的。
請(qǐng)參圖4所示,本發(fā)明還揭示了一種視頻搜索結(jié)果的展示方法,其包括如下步驟
Si,接收用戶輸入的查詢信息,例如連續(xù)劇的名稱、周期性視頻文件的名稱等等。 在本實(shí)施方式中為連續(xù)劇“武林外傳”。
S2,從本地?cái)?shù)據(jù)庫中挖掘出與該查詢信息相關(guān)的文本信息(例如,武林外傳第一 集、武林外傳第二集、武林外傳第三集、及劇情介紹等等),并對(duì)這些文本信息按照周期性進(jìn) 行排續(xù)(在本實(shí)施方式中即對(duì)連續(xù)劇的劇集順序進(jìn)行排序);
S3,從數(shù)據(jù)庫中搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,并從所述預(yù)選圖片中挑 選出展示圖片。由于搜集到的預(yù)選圖片是各種各樣的,有的是片頭、有的是片尾、有的是模 糊的、有的是色彩暗淡的、有的是清楚且色彩亮麗的、有的是內(nèi)容空洞的等等。當(dāng)然,這些預(yù) 選圖片中也極可能存在相互重復(fù)的??傊@些預(yù)選圖片中并不是都是適合展示的。為了 挑選出適合的展示圖片,通過一定的算法將重復(fù)的預(yù)選圖片刪除,該算法將在下面結(jié)合圖7 進(jìn)行具體說明。由于每一集的片頭及每一集的片尾的預(yù)選圖片均比較近似,用戶難以通過 這些預(yù)選圖片對(duì)該集的內(nèi)容做區(qū)分,因此,一般情況下不會(huì)將每一集的片頭及片尾作為最 終選取的展示圖片。在本實(shí)施方式中,通過一定的算法,將顏色亮麗的圖片作為最終被挑選 出來展示給用戶的展示圖片,該算法將在下面結(jié)合圖8進(jìn)行具體說明。
S4,將上述已經(jīng)序列化排序的文本信息及其對(duì)應(yīng)的展示圖片輸出,在本實(shí)施方式 中,序列化排序的文本信息及其對(duì)應(yīng)的展示圖片通過返回給用戶的中間頁面展示出來。
步驟S4中,由于中間頁面顯示的每一集的文本信息或者展示圖片的后面都隱藏 著一個(gè)精確的鏈接,故只需點(diǎn)擊該文本信息或展示圖片,就可以搜索至結(jié)果頁面。結(jié)果頁面 的顯示方式有兩種,一種是包括至少一個(gè)第三方視頻播放頁面鏈接,例如當(dāng)點(diǎn)擊第一集時(shí), 會(huì)出現(xiàn)之前已經(jīng)挖掘到的所有第一集的第三方視頻,可能包含優(yōu)酷的、酷6的等等;另一種 是嵌著第三方視頻播放器的頁面。
步驟S2中,與查詢信息相關(guān)的URL資源及與該URL資源對(duì)應(yīng)的預(yù)選圖片均被建表 存于本地?cái)?shù)據(jù)庫中。在本實(shí)施方式中,所述URL資源及與該URL資源對(duì)應(yīng)的預(yù)選圖片是通 過抓取各種視頻網(wǎng)站數(shù)據(jù)而得到的。
當(dāng)然,在其它實(shí)施方式中,步驟S4可以將上述文本信息及其對(duì)應(yīng)的展示圖片通過 結(jié)果頁面直接展示出來。
請(qǐng)參圖5所示,本發(fā)明視頻搜索結(jié)果的展示方法的另一種實(shí)施方式,其中,在步驟 S2還包括所述視頻連續(xù)劇總集數(shù)的判斷步驟,例如,在文本挖掘的過程中對(duì)連續(xù)劇“武林外 傳”的總集數(shù)進(jìn)行判斷。當(dāng)然,判斷的方法有很多種,例如通過資源的頭、尾可以對(duì)連續(xù)劇的 總集數(shù)進(jìn)行判斷;另外,也可以根據(jù)挖到的每一集資源的數(shù)目來做判斷,例如“武林外傳”實(shí) 際上只有81集,在81集之前每一集挖到的資源都很多,而第82集的資源突然很少,此時(shí)判 斷單元21就可以認(rèn)為第82集是不真實(shí)的,從而得出“武林外傳”的總集數(shù)為81集。另外, 如果某些視頻文件的出現(xiàn)是周期性的或者具有某些時(shí)間特征,對(duì)于這些視頻文件真實(shí)性的 判斷可以采用如下規(guī)則(1).通過監(jiān)測視頻文件(如連續(xù)劇)的首映時(shí)間,可以判斷凡是 在該首映時(shí)間之前出現(xiàn)的資源都是不真實(shí)的;(2).由于一般連續(xù)劇每集的播放時(shí)間比較 類似,通過設(shè)定算法,可以從播放時(shí)間上排除那些明顯不正確的集數(shù)??傊?,周期性視頻文 件的總集數(shù)的判斷方式有很多,在此不再贅述。如果文本信息齊備,則對(duì)這些文本信息進(jìn)行 排序,如果文本信息不齊備,則繼續(xù)挖掘該文本信息。如果連續(xù)劇的某一集資源突然變得很 少,則判斷連續(xù)劇的總集數(shù)為該集對(duì)應(yīng)的數(shù)字減去1。
請(qǐng)參圖6所示,本發(fā)明視頻搜索結(jié)果的展示方法的再一種實(shí)施方式,其包括如下 步驟
Si’,接收用戶輸入的查詢信息,例如連續(xù)劇的名稱、周期性視頻文件的名稱等等。 在本實(shí)施方式中為連續(xù)劇“武林外傳”;
S2’,即時(shí)去各種視頻網(wǎng)站進(jìn)行搜索,并挖掘出與該查詢信息相關(guān)的文本信息(例 如,武林外傳第一集、武林外傳第二集、武林外傳第三集、及劇情介紹等等),并將每一集與 其對(duì)應(yīng)的URL資源建表存于數(shù)據(jù)庫,然后對(duì)這些文本信息進(jìn)行周期性排續(xù)(在本實(shí)施方式 中即對(duì)連續(xù)劇的總集數(shù)進(jìn)行排序);
S3’,根據(jù)S2’步驟所搜集到的文本信息,從各種視頻網(wǎng)站中查找與集數(shù)相對(duì)應(yīng)的 預(yù)選圖片,并將URL資源對(duì)應(yīng)的預(yù)選圖片建表存于數(shù)據(jù)庫中;并通過一定的算法最終選擇 出適當(dāng)?shù)恼故緢D片;由于搜集到的預(yù)選圖片是各種各樣的,有的是片頭、有的是片尾、有的 是模糊的、有的是色彩暗淡的、有的是清楚且色彩亮麗的、有的是內(nèi)容空洞的等等。當(dāng)然,這 些預(yù)選圖片中也極可能存在相互重復(fù)的??傊?,這些預(yù)選圖片中并不是都是適合展示的。為 了挑選出適合的展示圖片,通過一定的算法將重復(fù)的預(yù)選圖片刪除,該算法將在下面結(jié)合 圖7進(jìn)行具體說明。由于每一集的片頭及每一集的片尾的預(yù)選圖片均比較近似,用戶難以 通過這些預(yù)選圖片對(duì)該集的內(nèi)容做區(qū)分,因此,一般情況下不會(huì)將每一集的片頭及片尾作 為最終選取的展示圖片。在本實(shí)施方式中,通過一定的算法,將顏色亮麗的圖片作為最終被 挑選出來展示給用戶的展示圖片,該算法將在下面結(jié)合圖8進(jìn)行具體說明。
S4’,將上述已經(jīng)序列化排序的文本信息及其對(duì)應(yīng)的展示圖片輸出,在本實(shí)施方式 中,序列化排序的文本信息及其對(duì)應(yīng)的展示圖片通過返回給用戶的中間頁面展示出來。
步驟S4’中,由于中間頁面顯示的每一集的文本信息或者展示圖片的后面都隱藏 著一個(gè)精確的鏈接,故只需點(diǎn)擊該文本信息或展示圖片,就可以搜索至結(jié)果頁面。結(jié)果頁面 的顯示方式有兩種,一種是包括至少一個(gè)第三方視頻播放頁面鏈接,例如當(dāng)點(diǎn)擊第一集時(shí), 會(huì)出現(xiàn)之前已經(jīng)挖掘到的所有第一集的第三方視頻,可能包含優(yōu)酷的、酷6的等等;另一種 是嵌著第三方視頻播放器的頁面。
步驟S2’中,與查詢信息相關(guān)的URL資源及與該URL資源對(duì)應(yīng)的預(yù)選圖片均被建 表存于本地?cái)?shù)據(jù)庫中。在本實(shí)施方式中,所述URL資源及與該URL資源對(duì)應(yīng)的預(yù)選圖片是 通過抓取各種視頻網(wǎng)站數(shù)據(jù)而得到的。
當(dāng)然,在其它實(shí)施方式中,步驟S4’可以將上述文本信息及其對(duì)應(yīng)的展示圖片通過 結(jié)果頁面直接展示出來。
步驟S2’還包括所述視頻連續(xù)劇總集數(shù)的判斷步驟,例如,在文本挖掘的過程中對(duì) 連續(xù)劇“武林外傳”的總集數(shù)進(jìn)行判斷。當(dāng)然,判斷的方法有很多種,例如通過資源的頭、尾 可以對(duì)連續(xù)劇的總集數(shù)進(jìn)行判斷;另外,也可以根據(jù)挖到的每一集資源的數(shù)目來做判斷,例 如“武林外傳”實(shí)際上只有81集,在81集之前每一集挖到的資源都很多,而第82集的資源 突然很少,此時(shí)判斷單元21就可以認(rèn)為第82集是不真實(shí)的,從而得出“武林外傳”的總集 數(shù)為81集。另外,如果某些視頻文件的出現(xiàn)是周期性的或者具有某些時(shí)間特征,對(duì)于這些 視頻文件真實(shí)性的判斷可以采用如下規(guī)則(1).通過監(jiān)測視頻文件(如連續(xù)劇)的首映時(shí) 間,可以判斷凡是在該首映時(shí)間之前出現(xiàn)的資源都是不真實(shí)的;(2).由于一般連續(xù)劇每集 的播放時(shí)間比較類似,通過設(shè)定算法,可以從播放時(shí)間上排除那些明顯不正確的集數(shù)??傊?,周期性視頻文件的總集數(shù)的判斷方式有很多,在此不再贅述。如果文本信息齊備,則對(duì) 這些文本信息進(jìn)行排序,如果文本信息不齊備,則繼續(xù)挖掘該文本信息。如果連續(xù)劇的某一 集資源突然變得很少,則判斷連續(xù)劇的總集數(shù)為該集對(duì)應(yīng)的數(shù)字減去1。
前述步驟S3或S3’還包括圖片去重步驟和展示圖片挑選步驟。
請(qǐng)參圖7所示,其中圖片去重步驟,包括
步驟S31,接收預(yù)選圖片;
步驟S32,判斷該預(yù)選圖片是否為接收到的第一張預(yù)選圖片;
如果是,則執(zhí)行步驟S33,直接運(yùn)用該預(yù)選圖片為候選展示圖片;
如果否,則執(zhí)行步驟S34,計(jì)算該預(yù)選圖片與已有的候選展示圖片的方差;
步驟S35,判斷方差是否大于等于設(shè)定閾值;
如果是,執(zhí)行步驟S36,判定為兩張圖片不相似;
如果否,執(zhí)行步驟S37,判定為兩張圖片相似,并刪除其中一張圖片,優(yōu)選地,是刪 除所述預(yù)選圖片。
利用以上算法可以對(duì)圖片進(jìn)行去重,從而將其中重復(fù)的圖片刪除掉。
在圖片去重步驟后,進(jìn)行展示圖片挑選步驟。通常情況下,展示圖片需要能夠體現(xiàn) 視頻主題、畫面干凈清晰、主體內(nèi)容突出。
體現(xiàn)視頻主題方面一個(gè)視頻往往會(huì)描述多個(gè)內(nèi)容實(shí)體,有多個(gè)不同的場景,單靠 一張圖像來代表整個(gè)視頻,要達(dá)到體現(xiàn)視頻主題是比較困難的。所以,在這一方面將重點(diǎn)放 在過濾方面,而不是每個(gè)幀的語義分析上。需要過濾主要包括黑屏、綠屏、整體顏色過暗或 者過亮、虛鏡頭、疊影和馬賽克等。
畫面干凈清晰方面圖像清晰通過清晰度來表示,圖像是否干凈可以用邊緣密度 來判斷。
主題內(nèi)容突出方面通過邊緣密度比值比和視覺黃金區(qū)域等權(quán)重計(jì)算來表達(dá)。
請(qǐng)參圖8所示,展示圖片挑選步驟的流程如下
步驟S301,接收與同一文本信息相對(duì)應(yīng)的候選展示圖片;
步驟S302,過濾單色圖片;即判斷輸入的候選展示圖片是否為單色圖片,如果都 為單色圖片,則挑選一張熵最大的候選展示圖片作為展示圖片,如果不完全是單色的圖片, 則過濾掉單色圖片;
步驟S303,過濾馬賽克圖片;即判斷候選展示圖片是否為馬賽克圖片,如果都是 馬賽克圖片則挑選馬賽克塊最小的一張做為展示圖片,如果不完全是馬賽克圖片,則過濾 掉馬賽克圖片;
步驟S304,計(jì)算候選展示圖片的熵值;
步驟S305,過濾掉熵值最小的候選展示圖片(在本實(shí)施方式中使用K均值算法,過 濾掉熵值最小的候選展示圖片);
步驟S306,計(jì)算邊緣比值密度;在本實(shí)施方式中,利用黃金視覺區(qū)域劃分,計(jì)算候 選展示圖片的中心區(qū)域和圖片邊緣區(qū)域的邊緣密度比值,同時(shí)計(jì)算整個(gè)候選展示圖片的邊 緣密度,去掉部分邊緣密度過高的候選展示圖片;
步驟S307,計(jì)算清晰度;即根據(jù)邊緣密度比值的結(jié)果設(shè)置加權(quán)因子,計(jì)算清晰度 加權(quán)值;
步驟S308,計(jì)算清晰度和邊緣密度比值的加權(quán)和;即使用清晰度和邊緣比值進(jìn)行 加權(quán)計(jì)算;
步驟S309,選擇加權(quán)和最大的候選展示圖片作為展示圖片;即選擇出圖片清晰且 主體內(nèi)容出現(xiàn)在圖片中間部分的候選展示圖片作為展示圖片;
請(qǐng)參圖9所示,相較于現(xiàn)有技術(shù),本發(fā)明通過不直接展現(xiàn)搜索到的第三方視頻鏈 接結(jié)果,而是在用戶輸入查詢信息后,先向用戶返回有視頻排序結(jié)果的中間頁面,通過該中 間頁面的引導(dǎo)到達(dá)嵌入第三方視頻頁面的播放頁面,從而實(shí)現(xiàn)了對(duì)用戶搜索的有順序關(guān)系 的視頻進(jìn)行排序顯示的功能,使用方便、用戶查詢效率較高、網(wǎng)絡(luò)流量較小。
綜上所述,以上僅為本發(fā)明的較佳實(shí)施例而已,不應(yīng)以此限制本發(fā)明的范圍,即凡 是依本發(fā)明權(quán)利要求書及發(fā)明說明書內(nèi)容所作的簡單的等效變化與修飾,皆應(yīng)仍屬本發(fā)明 專利涵蓋的范圍內(nèi)。
權(quán)利要求
1.一種視頻搜索結(jié)果的展示方法,其特征在于,包括如下步驟 Si,接收輸入的查詢信息;S2,挖掘與所述查詢信息相關(guān)的文本信息,并對(duì)所述文本信息按照周期性進(jìn)行排續(xù); S3,搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,并從所述預(yù)選圖片中挑選出展示圖片; S4,將排序后的所述文本信息及其對(duì)應(yīng)的展示圖片輸出。
2.如權(quán)利要求1所述的視頻搜索結(jié)果的展示方法,其特征在于步驟S4中,所述文本 信息及其對(duì)應(yīng)的展示圖片輸出至第一結(jié)果頁面。
3.如權(quán)利要求2所述的視頻搜索結(jié)果的展示方法,其特征在于在所述第一結(jié)果頁面 中,所述文本信息或者所述展示圖片具有進(jìn)入第二結(jié)果頁面的精確鏈接。
4.如權(quán)利要求3所述的視頻搜索結(jié)果的展示方法,其特征在于所述第二結(jié)果頁面包 括至少一個(gè)第三方視頻播放頁面鏈接。
5.如權(quán)利要求3所述的視頻搜索結(jié)果的展示方法,其特征在于所述第二結(jié)果頁面是 嵌著第三方視頻播放器的頁面。
6.如權(quán)利要求1所述的搜索結(jié)果序列化展示方法,其特征在于,所述S3包括圖片去重 步驟和展示圖片挑選步驟。
7.如權(quán)利要求6所述的視頻搜索結(jié)果的展示方法,其特征在于,所述圖片去重步驟包括接收預(yù)選圖片;計(jì)算所述預(yù)選圖片與已有的候選展示圖片的方差;判斷方差是否大于等于設(shè)定閾值;如果是,則判定為兩張圖片不相似;如果否,則判定為兩張圖片相似,并刪除其中一張圖片。
8.如權(quán)利要求7所述的視頻搜索結(jié)果的展示方法,其特征在于,在所述“接收預(yù)選圖 片”和“計(jì)算所述預(yù)選圖片與已有的候選展示圖片的方差”之間,還包括以下步驟判斷該預(yù)選圖片是否為接收到的第一張預(yù)選圖片;如果是,則直接運(yùn)用該預(yù)選圖片為候選展示圖片;如果否,則執(zhí)行“計(jì)算所述預(yù)選圖片與已有的候選展示圖片的方差”步驟。
9.如權(quán)利要求6所述的視頻搜索結(jié)果的展示方法,其特征在于,所述展示圖片挑選步 驟,包括接收與同一文本信息相對(duì)應(yīng)的候選展示圖片; 判斷所述候選展示圖片是否為單色圖片;如果均為單色圖片,則挑選一張熵最大的候選展示圖片作為展示圖片; 如果不完全是單色圖片,則過濾單色圖片。
10.如權(quán)利要求9所述的視頻搜索結(jié)果的展示方法,其特征在于,在“過濾單色圖片” 后,還包括判斷候選展示圖片是否為馬賽克圖片;如果均為馬賽克圖片,則挑選馬賽克塊最小的一張做為展示圖片; 如果不完全是馬賽克圖片,則過濾掉馬賽克圖片。
11.如權(quán)利要求10所述的視頻搜索結(jié)果的展示方法,其特征在于,在“過濾掉馬賽克圖片”后,還包括計(jì)算所述候選展示圖片的熵值; 過濾掉熵值最小的候選展示圖片;計(jì)算所計(jì)算候選展示圖片的中心區(qū)域和圖片邊緣區(qū)域的邊緣密度比值; 根據(jù)所述邊緣密度比值的結(jié)果設(shè)置加權(quán)因子,計(jì)算清晰度加權(quán)值; 計(jì)算清晰度加權(quán)值和邊緣密度比值的加權(quán)和; 選擇加權(quán)和最大的候選展示圖片作為展示圖片。
12.如權(quán)利要求1所述的視頻搜索結(jié)果的展示方法,其特征在于如果查詢信息所對(duì)應(yīng) 的是連續(xù)劇,則步驟S2中文本信息排序?yàn)榘凑账鲞B續(xù)劇的順序進(jìn)行排序。
13.如權(quán)利要求12所述的視頻搜索結(jié)果的展示方法,其特征在于步驟S2還包括對(duì)所 述連續(xù)劇總集數(shù)的判斷步驟。
14.一種視頻搜索結(jié)果的展示系統(tǒng),其特征在于,該系統(tǒng)包括 查詢模塊,用于接收輸入的查詢信息;挖掘排序模塊,用于挖掘與所述查詢信息相關(guān)的文本信息,并對(duì)所述文本信息按照周 期性進(jìn)行排續(xù);取圖選圖模塊,用于搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,并從所述預(yù)選圖片中挑 選出展示圖片;以及展示模塊,用于將排序后的所述文本信息及其對(duì)應(yīng)的展示圖片輸出。
15.如權(quán)利要求14所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于所述展示模塊將所 述文本信息及其對(duì)應(yīng)的展示圖片輸出至第一結(jié)果頁面。
16.如權(quán)利要求15所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于在所述第一結(jié)果頁 面中,所述文本信息或者所述展示圖片具有進(jìn)入第二結(jié)果頁面的精確鏈接。
17.如權(quán)利要求16所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于所述第二結(jié)果頁面 包括至少一個(gè)第三方視頻播放頁面鏈接。
18.如權(quán)利要求16所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于所述第二結(jié)果頁面 是嵌著第三方視頻播放器的頁面。
19.如權(quán)利要求14所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于,所述取圖選圖模塊 可將所述預(yù)選圖片去重,得到候選展示圖片。
20.如權(quán)利要求19所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于,所述取圖選圖模塊 可在所述候選展示圖片中挑選出展示圖片。
21.如權(quán)利要求14或19或20所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于,所述取圖 選圖模塊包括取圖子模塊,用于搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片; 選圖子模塊,用于從所述預(yù)選圖片中挑選出所述展示圖片。
22.如權(quán)利要求14所述的視頻搜索結(jié)果的展示系統(tǒng),其特征在于所述挖掘排序模塊 包括判斷單元,用于在文本挖掘的過程中對(duì)文本信息的真?zhèn)芜M(jìn)行判斷。
全文摘要
本發(fā)明揭示了一種視頻搜索結(jié)果的展示方法,包括S1,接收輸入的查詢信息;S2,挖掘與所述查詢信息相關(guān)的文本信息,并對(duì)所述文本信息按照周期性進(jìn)行排續(xù);S3,搜集與所述文本信息相對(duì)應(yīng)的預(yù)選圖片,并從所述預(yù)選圖片中挑選出展示圖片;S4,將排序后的所述文本信息及其對(duì)應(yīng)的展示圖片輸出。本發(fā)明還揭示了一種視頻搜索結(jié)果的展示系統(tǒng)。相較于現(xiàn)有技術(shù),本發(fā)明的有益效果是通過展示序列化的文本信息及其對(duì)應(yīng)的圖片,可以方便用戶查找,提高用戶查找效率,節(jié)約網(wǎng)絡(luò)流量。
文檔編號(hào)G06F17/30GK102033937SQ20101059676
公開日2011年4月27日 申請(qǐng)日期2010年12月20日 優(yōu)先權(quán)日2010年12月20日
發(fā)明者陳海坤, 馬洪旭 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司