互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法和系統(tǒng),所述方法包括:提取待標(biāo)注視頻中的人臉序列和周邊文本中的人名;以人名為文本關(guān)鍵詞,利用搜索引擎獲得相應(yīng)人物網(wǎng)絡(luò)圖像集合;計(jì)算人臉序列的重要性得分,人臉序列的兩兩合并推薦得分,以及人臉序列與人物網(wǎng)絡(luò)圖像的相似性,根據(jù)上述性質(zhì),確定標(biāo)注時(shí)予以顯示的人臉序列、人名及人物網(wǎng)絡(luò)圖像;通過多種用戶交互操作,產(chǎn)生相應(yīng)標(biāo)注行為,實(shí)現(xiàn)對視頻中人物的標(biāo)注。本發(fā)明通過挖掘多種與待標(biāo)注視頻及人物相關(guān)的資源,并設(shè)計(jì)友好多樣的用戶交互方式,可簡化標(biāo)注過程,輔助標(biāo)注決策,有效緩解標(biāo)注者不認(rèn)識(shí)待標(biāo)注人物,導(dǎo)致標(biāo)注過程難以進(jìn)行的問題,能夠大幅度提高人物視頻標(biāo)注的效率和精度。
【專利說明】互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及視頻智能分析【技術(shù)領(lǐng)域】,更具體的說,涉及一種互聯(lián)網(wǎng)人物視頻交互 式標(biāo)注方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和視頻在線分享行為的流行,大量專業(yè)和非專業(yè)的視頻被 生產(chǎn)制作出來,上傳到互聯(lián)網(wǎng),并被世界各地的用戶所瀏覽和觀看。由于這類視頻通常嵌入 在互聯(lián)網(wǎng)網(wǎng)頁內(nèi)對外提供在線播放服務(wù),因此被統(tǒng)稱為互聯(lián)網(wǎng)視頻。人是互聯(lián)網(wǎng)視頻最受 關(guān)注的主題之一。視頻網(wǎng)站中有大量熱點(diǎn)視頻涉及到人,特別是名人,此外,名人的名字也 一直是視頻搜索引擎熱門查詢詞的重要組成部分。
[0003] 雖然互聯(lián)網(wǎng)人物視頻廣受關(guān)注,但在大規(guī)?;ヂ?lián)網(wǎng)視頻庫中尋找感興趣的人物視 頻并不是一件容易的事情。目前主流的視頻搜索引擎都是通過文本關(guān)鍵詞匹配的方法實(shí)現(xiàn) 視頻檢索。對人物視頻來說,這種檢索方法存在如下三個(gè)方面的不足:1)互聯(lián)網(wǎng)視頻的周 邊文本(例如標(biāo)題、標(biāo)簽和用戶評論)通常是不完整和帶有噪聲的,有人出現(xiàn)的視頻并不一 定標(biāo)注了該人的名字,與此對應(yīng),標(biāo)注了某人名字的視頻中該人不一定會(huì)出現(xiàn),導(dǎo)致視頻搜 索只能找到一部分相關(guān)的視頻,且檢索結(jié)果中通常存在一定比例的噪聲;2)周邊文本是對 整個(gè)視頻而不是視頻內(nèi)片段的描述,根據(jù)人名直接定位到該人出現(xiàn)的視頻片段仍然是主流 視頻網(wǎng)站目前所不能提供的服務(wù),而這種服務(wù)對用戶瀏覽視頻而言無疑可以提供很大的便 利;3)檢索結(jié)果列表中,出現(xiàn)在前面的視頻通常并不是最相關(guān)的,因?yàn)閮H根據(jù)人名是否出 現(xiàn)難以得到準(zhǔn)確的查詢相關(guān)度判斷。因此,產(chǎn)業(yè)界迫切需要更加智能有效的人物視頻檢索、 瀏覽和排序方法。
[0004] 解決上述問題的一個(gè)關(guān)鍵在于為視頻中出現(xiàn)的人臉標(biāo)注其相應(yīng)的人名。換句話 說,建立視頻中人臉到周邊文本中人名的映射關(guān)系,這一任務(wù)被一般化的稱為人臉標(biāo)注。雖 然人臉檢測和人名識(shí)別已經(jīng)是比較成熟的技術(shù),但人臉標(biāo)注,特別是在人臉角度、面部表 情、光照、遮擋等不受限制情況下的標(biāo)注仍然是一個(gè)極具挑戰(zhàn)的課題。在過去的數(shù)年中,針 對新聞視頻、電影電視劇等特定類型的視頻,已經(jīng)有一些有效的人臉標(biāo)注方法被提出來。這 些方法雖然實(shí)現(xiàn)上各有不同,但基本都采用了多模態(tài)信息融合的技術(shù)路線。首先,它們從 新聞講稿、語音轉(zhuǎn)錄文本或互聯(lián)網(wǎng)等外部渠道獲得視頻所涉及主要人物(如電影的主要角 色)的名字,以及視頻的劇本和字幕文本,通過利用新聞講稿或?qū)R劇本和字幕,得到特定 人物在視頻特定時(shí)間點(diǎn)的說話內(nèi)容。同時(shí)根據(jù)視頻中所檢測人臉的時(shí)間點(diǎn),初步建立人臉 與人名的映射關(guān)系,進(jìn)而利用人臉間的視覺相似性,對這一關(guān)系予以精化從而實(shí)現(xiàn)標(biāo)注。由 于新聞講稿、劇本和字幕文本通常可以提供較為豐富和具體的人名和人物出現(xiàn)線索,且電 影電視劇等涉及的主要人物數(shù)量通常也較為有限,上述方法可以以較高的精度實(shí)現(xiàn)對特定 新聞節(jié)目、電影電視劇中主要人物的全自動(dòng)標(biāo)注。
[0005] 然而,互聯(lián)網(wǎng)視頻不同于電影電視劇?;ヂ?lián)網(wǎng)視頻的網(wǎng)頁上雖然也有一些文本信 息,但這些文本通常數(shù)量有限、不夠準(zhǔn)確、而且沒有得到較好的組織。此外,它們出現(xiàn)在整個(gè) 視頻層次,不像字幕文本那樣帶有時(shí)間戳信息。這些特性決定了上述依賴富文本信息挖掘 的方法難以直接推廣到互聯(lián)網(wǎng)視頻上。此外,互聯(lián)網(wǎng)視頻內(nèi)容包羅萬象,視頻可能涉及的人 物涵蓋社會(huì)生活的方方面面,數(shù)量極多,即使是只關(guān)注其中的名人,其數(shù)量也不是一個(gè)小數(shù) 字。目前,針對大規(guī)模開放式互聯(lián)網(wǎng)視頻的人臉自動(dòng)標(biāo)注工作仍處在預(yù)研階段。由于難以 達(dá)到較好的標(biāo)注效果,目前這方面并沒有成熟的方法和系統(tǒng)面世。
[0006] 隨著海量互聯(lián)網(wǎng)視頻沉淀在視頻網(wǎng)站,且新視頻數(shù)量還在以更快的速度增加,人 物視頻標(biāo)注又成為擺在學(xué)術(shù)界和產(chǎn)業(yè)界面前一個(gè)不得不解決的問題。因此,將人引入到標(biāo) 注環(huán)節(jié),以提高標(biāo)注準(zhǔn)確性為目標(biāo)的交互式標(biāo)注方法開始受到關(guān)注。在對天空、草地,建筑 等一般性視覺概念的標(biāo)注上,目前已經(jīng)有一些有效的交互式標(biāo)注方法被提出來,但這些方 法并不能直接應(yīng)用到區(qū)別標(biāo)注不同人這一課題上來。究其原因,人工標(biāo)注上述一般性的視 覺概念是較為容易實(shí)現(xiàn)的,因?yàn)榇蟛糠謺r(shí)候僅通過常識(shí)即可區(qū)分這些概念,但對區(qū)別標(biāo)注 不同人物來說,即使是經(jīng)驗(yàn)豐富的標(biāo)注者,通常也只認(rèn)識(shí)世界上非常少的人,而人是無法為 自己不認(rèn)識(shí)的人標(biāo)注人名的。若像現(xiàn)有交互式標(biāo)注系統(tǒng)一樣,僅將包含人物的圖像或視頻 幀及(多個(gè))相關(guān)人名提交給標(biāo)注用戶,由于很大可能不認(rèn)識(shí)待標(biāo)注人物,用戶很難像標(biāo)注 一般視覺概念那樣去標(biāo)注人物,即使需要標(biāo)注的都是名人。在交互式人物標(biāo)注特別是視頻 人物標(biāo)注這一方面,目前相關(guān)的成果還非常少見。
[0007] 注意到人在圖像或視頻中看到不認(rèn)識(shí)的人時(shí),為弄清楚他/她是誰,采取的解決 方案通常是:從周邊文本中尋找人名,用找到的人名作為關(guān)鍵詞,利用圖像搜索引擎進(jìn)行 檢索,然后通過比較搜索引擎返回的結(jié)果圖像和所看圖像中的人,得出圖像中人是誰的判 斷。上述方案采用的基于文本關(guān)鍵詞的圖像檢索,雖然目前也有少數(shù)"以圖搜圖"的檢索系 統(tǒng),但由于搜索目標(biāo)是特定人物的圖像,并不要求所有結(jié)果圖像與查詢圖像在視覺上高度 相似,且視頻人臉的視覺表觀變化大、分辨率通常較低,也對"以圖搜圖"系統(tǒng)的精度帶來挑 戰(zhàn),這一任務(wù)上目前主要采取的還是基于文本關(guān)鍵詞的搜索方法。由于通過搜索引擎可以 找到大量的人物圖像特別是名人的,上述方案很多時(shí)候不失為一種有效的幫助用戶了解之 前不認(rèn)識(shí)人物的方法。
[0008] 人的上述做法自然可以借鑒到人物視頻的交互式標(biāo)注方法和系統(tǒng)的設(shè)計(jì)上來。標(biāo) 注者在進(jìn)行人物標(biāo)注時(shí),同樣會(huì)遇到不認(rèn)識(shí)的人而不得不暫停標(biāo)注,通過求助于搜索引擎 等外部工具了解該人,進(jìn)而繼續(xù)推進(jìn)標(biāo)注過程。由于需要在標(biāo)注和搜索比對操作中頻繁切 換,這一過程無疑是低效和繁瑣的。若能通過文本解析和視覺分析技術(shù),提取視頻周邊文本 中的人名,獲取相關(guān)人物網(wǎng)絡(luò)圖像并在標(biāo)注過程中予以相應(yīng)顯示;與此同時(shí),對視頻中的人 臉進(jìn)行分析和處理,并以易于標(biāo)注的方式展現(xiàn)出來,使標(biāo)注者既無需切換到搜索引擎去了 解待標(biāo)注的人物,看到的又是更易加于決策的標(biāo)注方式和經(jīng)過組織并友好呈現(xiàn)的視頻人臉 圖像,這樣無疑可以簡化標(biāo)注過程,顯著提高人物視頻標(biāo)注的效率和精度。然而,在公開的 專利數(shù)據(jù)庫中檢索時(shí)并沒有查詢到專門針對視頻中人物的交互式標(biāo)注方法和系統(tǒng),上述背 景和認(rèn)識(shí)正是本發(fā)明產(chǎn)生動(dòng)機(jī)和原因。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明針對互聯(lián)網(wǎng)人物視頻標(biāo)注時(shí),由于標(biāo)注者極有可能不認(rèn)識(shí)待標(biāo)注人物,導(dǎo) 致標(biāo)注過程難以進(jìn)行的情況,提出一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法及系統(tǒng),通過挖掘 多種與待標(biāo)注視頻及人物相關(guān)的資源,并設(shè)計(jì)友好多樣的用戶交互方式,簡化標(biāo)注過程,輔 助標(biāo)注決策,提1?人物視頻標(biāo)注的效率和精度,進(jìn)而促進(jìn)互聯(lián)網(wǎng)人物視頻的檢索、瀏覽和排 序服務(wù)水平的提升。
[0010] 為實(shí)現(xiàn)上述目的,本發(fā)明提供一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法,包括以下步 驟:
[0011] S1、對待標(biāo)注視頻進(jìn)行分析,提取該視頻中的人臉序列集合和視頻周邊文本中的 人名集合;
[0012] S2、以步驟S1得到的人名集合中的人名為文本關(guān)鍵詞,搜索以獲得與所述人名相 應(yīng)的人物的網(wǎng)絡(luò)圖像集合;
[0013] S3、計(jì)算所述人臉序列的重要性得分、所述人臉序列的兩兩合并推薦得分,以及所 述人臉序列與步驟S2得到的與所述人名相應(yīng)的人物網(wǎng)絡(luò)圖像的相似性得分,并根據(jù)所述 重要性得分、所述兩兩合并推薦得分和所述相似性得分,確定對所述視頻進(jìn)行標(biāo)注時(shí),予以 顯示的人臉序列、人名及人物網(wǎng)絡(luò)圖像;
[0014] S4、根據(jù)步驟S3顯示的人臉序列、人名及人物網(wǎng)絡(luò)圖像,對人臉序列進(jìn)行交互標(biāo) 注,進(jìn)而實(shí)現(xiàn)對所述視頻的標(biāo)注。
[0015] 本發(fā)明還提出一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注系統(tǒng),包括:
[0016] 用于對待標(biāo)注視頻進(jìn)行分析,提取該視頻中的人臉序列集合和視頻周邊文本中的 人名集合的裝置;
[0017] 用于以所述人名集合中的人名為文本關(guān)鍵詞,搜索以獲得與所述人名相應(yīng)的人物 的網(wǎng)絡(luò)圖像集合的裝置;
[0018] 用于計(jì)算所述人臉序列的重要性得分、所述人臉序列的兩兩合并推薦得分,以及 所述人臉序列與所述人名相應(yīng)的人物網(wǎng)絡(luò)圖像的相似性得分,并根據(jù)所述重要性得分、所 述兩兩合并推薦得分和所述相似性得分,確定對所述視頻進(jìn)行標(biāo)注時(shí),予以顯示的人臉序 列、人名及人物網(wǎng)絡(luò)圖像的裝置;
[0019] 用于顯示要標(biāo)注的人臉序列、人名及人物網(wǎng)絡(luò)圖像,對人臉序列進(jìn)行交互標(biāo)注,進(jìn) 而實(shí)現(xiàn)對所述視頻進(jìn)行標(biāo)注的裝置。
[0020] 本發(fā)明通過挖掘多種與待標(biāo)注視頻及人物相關(guān)的有助于標(biāo)注的資源并相應(yīng)設(shè)計(jì) 友好多樣的用戶交互方式,可簡化標(biāo)注過程,輔助標(biāo)注決策,有效緩解標(biāo)注者不認(rèn)識(shí)待標(biāo)注 人物,導(dǎo)致標(biāo)注難以進(jìn)行的問題。利用本發(fā)明,能夠大幅度提高互聯(lián)網(wǎng)人物視頻標(biāo)注的效率 和精度,進(jìn)而促進(jìn)互聯(lián)網(wǎng)人物視頻的檢索、瀏覽和排序服務(wù)水平的提升。
【專利附圖】
【附圖說明】
[0021] 圖1為依照本發(fā)明實(shí)施例的一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法的流程圖;
[0022] 圖2為依照本發(fā)明實(shí)施例的一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注系統(tǒng)截圖及相關(guān)模 塊說明。
【具體實(shí)施方式】
[0023] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0024] 如圖1所示,本發(fā)明的互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法包括以下步驟:
[0025] S1、對視頻進(jìn)行分析,提取該視頻中的人臉序列集合和視頻周邊文本中的人名集 合;
[0026] S2、以步驟S1得到的人名集合中的人名為文本關(guān)鍵詞,搜索以獲得與所述人名相 應(yīng)的人物的網(wǎng)絡(luò)圖像集合;
[0027] S3、計(jì)算所述人臉序列的重要性得分、所述人臉序列的兩兩合并推薦得分,以及所 述人臉序列與步驟S2得到的與所述人名相應(yīng)的人物網(wǎng)絡(luò)圖像的相似性得分,并根據(jù)所述 重要性得分、所述兩兩合并推薦得分和所述相似性得分,確定對所述視頻進(jìn)行標(biāo)注時(shí),予以 顯示的人臉序列、人名及人物網(wǎng)絡(luò)圖像;
[0028] S4、根據(jù)步驟S3顯示的人臉序列、人名及人物網(wǎng)絡(luò)圖像,對人臉序列進(jìn)行交互標(biāo) 注,進(jìn)而實(shí)現(xiàn)對所述視頻的標(biāo)注。
[0029] 根據(jù)本發(fā)明的優(yōu)選實(shí)施例,對視頻進(jìn)行分析,提取該視頻中的人臉序列和視頻周 邊文本中的人名的步驟S1的具體過程為:
[0030] 步驟S11、對所述視頻進(jìn)行鏡頭分割,對每個(gè)得到的鏡頭進(jìn)行人臉檢測和跟蹤,獲 得該鏡頭中的人臉序列,綜合所有鏡頭得到的人臉序列,得到該視頻的人臉序列集合;
[0031] 具體實(shí)施時(shí),首先對待標(biāo)注的互聯(lián)網(wǎng)人物視頻進(jìn)行鏡頭邊界檢測,根據(jù)鏡頭邊界 點(diǎn)將視頻分解為鏡頭集合;然后調(diào)用計(jì)算機(jī)視覺開源庫OpenCV的人臉檢測函數(shù)對每個(gè)鏡 頭進(jìn)行逐幀人臉檢測;接下來,采用基于檢測的跟蹤方法將不同視頻幀上檢測到的屬于同 一個(gè)人的人臉聚集起來,生成人臉序列。對所有鏡頭重復(fù)上述人臉序列的生成過程,得到該 視頻所有檢出的人臉序列集合
【權(quán)利要求】
1. 一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注方法,其特征在于,包括以下步驟: 51、 對待標(biāo)注視頻進(jìn)行分析,提取該視頻中的人臉序列集合和視頻周邊文本中的人名 集合; 52、 以步驟S1得到的人名集合中的人名為文本關(guān)鍵詞,搜索以獲得與所述人名相應(yīng)的 人物的網(wǎng)絡(luò)圖像集合; 53、 計(jì)算所述人臉序列的重要性得分、所述人臉序列的兩兩合并推薦得分,以及所述人 臉序列與步驟S2得到的與所述人名相應(yīng)的人物網(wǎng)絡(luò)圖像的相似性得分,并根據(jù)所述重要 性得分、所述兩兩合并推薦得分和所述相似性得分,確定對所述視頻進(jìn)行標(biāo)注時(shí),予以顯示 的人臉序列、人名及人物網(wǎng)絡(luò)圖像; 54、 根據(jù)步驟S3顯示的人臉序列、人名及人物網(wǎng)絡(luò)圖像,對人臉序列進(jìn)行交互標(biāo)注,進(jìn) 而實(shí)現(xiàn)對所述視頻的標(biāo)注。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S1包括以下步驟: 步驟S11、對所述視頻進(jìn)行鏡頭分割,對每個(gè)得到的鏡頭進(jìn)行人臉檢測和跟蹤,獲得該 鏡頭中的人臉序列,綜合所有鏡頭得到的人臉序列,得到該視頻的人臉序列集合; 步驟S12、獲取所述人臉序列集合中的每個(gè)人臉序列的代表性人臉圖像; 步驟S13、收集視頻周邊文本,從該視頻周邊文本中提取人名。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2包括以下步驟: 步驟S21、以步驟S1得到的人名集合中的人名為文本關(guān)鍵詞,在網(wǎng)絡(luò)上搜索并下載與 所述文本關(guān)鍵詞相關(guān)的圖像; 步驟S22、對所述下載的與所述文本關(guān)鍵詞相關(guān)的圖像進(jìn)行人臉檢測,濾除沒有檢測到 人臉的或檢測到多于一個(gè)人臉的圖像; 步驟S23、對所述人名集合中的所有人名重復(fù)上述步驟S21和步驟S22,得到與所述人 名集合中每個(gè)人名對應(yīng)的人物網(wǎng)絡(luò)圖像集合。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3包括以下步驟: 步驟S31、計(jì)算所述人臉序列集合中每個(gè)人臉序列的顯著性值; 步驟S32、計(jì)算所述人臉序列集合中人臉序列之間的兩兩相似性; 步驟S33、據(jù)步驟S32得到的人臉序列兩兩相似性和標(biāo)注時(shí)的用戶交互信息,計(jì)算人臉 序列的兩兩合并推薦得分; 步驟S34、利用步驟S31得到的人臉序列顯著性值,步驟S32得到的人臉序列兩兩相似 性得分和標(biāo)注時(shí)的用戶交互信息,計(jì)算人臉序列的重要性得分; 步驟S35、計(jì)算所述人臉序列集合中人臉序列與所述人物網(wǎng)絡(luò)圖像集合中的人物網(wǎng)絡(luò) 圖像的相似度,按相似度的高低進(jìn)行排序,得到每個(gè)人臉序列排序后的人名列表以及每個(gè) 人名的K個(gè)最相似人物網(wǎng)絡(luò)圖像。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S31中人臉序列&的顯著性通 過如下公式(1)計(jì)算:
(1) 其中,sizei和durai分別是人臉序列Fi的平均人臉大小和出現(xiàn)時(shí)間長度,sizeθ和 dura0是兩個(gè)根據(jù)經(jīng)驗(yàn)設(shè)置的閾值,分別用來控制人臉大小和出現(xiàn)時(shí)間對顯著性計(jì)算的影 響。
6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S32中人臉序列的兩兩相似性通 過如下公式(2)計(jì)算:
(2) 其中,timee是用來控制出現(xiàn)時(shí)間差值影響的閾值,Atimey是人臉序列Fi和Fj的出 現(xiàn)時(shí)間差值,通過如下公式(3)計(jì)算:
0) 公式(3)中,
和
分別是人臉序列Fi出現(xiàn)的開始時(shí)間和結(jié)束時(shí)間,時(shí)間值 小表明人臉序列出現(xiàn)在視頻的前面(開始)部分; 公式(2)中,COy是表示人臉序列匕和Fj出現(xiàn)時(shí)間是否有重疊的二值函數(shù),若二者有 重疊,則COy = 1,否則COy = 0 ;vs的,匕)是人臉序列Fi和匕的視覺相似性,用兩個(gè)人 臉序列的代表性人臉集合中,最相似的兩個(gè)人臉的相似度表示,其計(jì)算公式為:
(4) 公式(4)中,
是人臉序列匕的第m個(gè)代表性人臉的面部特征向量。
7. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S33中人臉序列的兩兩合并推薦 得分通過如下公式(5)計(jì)算: MS(Fi,FJ) = (l-PM^j) (5) 其中ΡΜμ是表示人臉序列匕和匕的組合是否在標(biāo)注過程中,被用戶"跳過"或標(biāo)注為 "不同";若是則PMy = 1,否則PMy = 0 ;根據(jù)公式(5),相似性高,且在用戶標(biāo)注過程中未 被用戶"跳過"或標(biāo)注為"不同"的人臉序列兩兩組合將被賦予大的兩兩合并推薦得分;基 于此,將所有得分大于等于預(yù)先給定閾值的人臉序列組合按照MS(匕,F(xiàn)p值從高到低排列, 得到兩兩合并推薦得分列表
其中Qk =<匕,匕> #
8. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S34中人臉序列的重要性得分通 過如下公式(6)計(jì)算:
(6) 其中PA是表征人臉序列匕是否在標(biāo)注過程中被用戶"跳過",若是則PA = 1,否則PA =〇;
和
分別是最大最小歸一化后的顯著性Sah和累積相關(guān)性ARy后者定義為:
(7) 其中,Lj是人臉序列Fj標(biāo)注狀態(tài)函數(shù);若Fi已被標(biāo)注,則Lj = 1,否則Lj = 0, 將人臉序列按照重要性得分IS(Fi)從高到低排列,得到重要性得分列表
9. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S35包括以下步驟: 步驟S351、計(jì)算所述人臉序列集合中人臉序列與所述人名集合中人名的兩兩相似性; 步驟S352、根據(jù)步驟S351計(jì)算得到的相似性,對所述人名進(jìn)行排序; 步驟S353、計(jì)算人臉序列相對于每個(gè)人名的K個(gè)最相似人物網(wǎng)絡(luò)圖像。
10. 根據(jù)權(quán)利要求9所述的方法,其特征在于, 所述步驟S351通過如下公式(8)計(jì)算人臉序列匕和人物網(wǎng)絡(luò)圖像集合的相似性, 并用該相似性作為人臉序列匕和人名%的相似性:
(8) 其中
(9)
是人物網(wǎng)絡(luò)圖像集合Cj中第η個(gè)圖像的人臉面部特征向量。
11. 根據(jù)權(quán)利要求10所述的方法,其特征在于, 所述步驟S352對每個(gè)人臉序列匕,根據(jù)vs (匕,Νρ值從高到低對人名進(jìn)行排序,得到人 名序列
12. 根據(jù)權(quán)利要求11所述的方法,其特征在于, 所述步驟S353對每組人臉序列和人名,例如匕和%,根據(jù)
值從高到低對&中 的人物網(wǎng)絡(luò)圖像進(jìn)行排序,保留K個(gè)最相似的圖像,得到與匕和%對應(yīng)的人物網(wǎng)絡(luò)圖像列 表
13. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4包括以下步驟: 步驟S41、初始化標(biāo)注過程涉及的各種資源; 步驟S42、根據(jù)多種用戶交互操作,產(chǎn)生相應(yīng)標(biāo)注行為; 步驟S43、利用標(biāo)簽傳播算法對其它未標(biāo)注人臉序列進(jìn)行標(biāo)注; 步驟S44、對兩兩合并推薦得分列表和重要性得分列表進(jìn)行整理和重排序,決定下一輪 用戶標(biāo)注時(shí)予以呈現(xiàn)的資源; 步驟S45、重復(fù)步驟S42到步驟S44,直至所有未標(biāo)注人臉序列都被標(biāo)注。
14. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述步驟S41包括: 5411、 令
5412、 自動(dòng)標(biāo)注滿足公式(10)所示條件的人臉序列組合% =< Fm,F(xiàn)n >,并將所有已 標(biāo)注組合從RankMS列表中移出 Label (Fj = Label (Fj),if satisfies vs (Fp Fj) > Ts (10) 其中if satisfies表示"若滿足",Ts是表示兩個(gè)人臉序列視覺上是否足夠相似的閾 值; 5413、 從RankB和RankIS中分別取出排名最高的元素% = < Fm,F(xiàn)n >和F」,即當(dāng)前兩兩 合并得分最高的人臉序列組合和重要性得分最高的人臉序列,將這些資源在標(biāo)注系統(tǒng)中予 以顯示; S414、取出Rank(Fj)中排名最高的人名iV/,以及
中的K個(gè)圖像,將這些 資源在標(biāo)注系統(tǒng)中予以顯示。
15. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述步驟S42中多種用戶交互操作包 括:1)將系統(tǒng)顯示的人臉序列組合Qi =< Fm,F(xiàn)n >標(biāo)記為"相同"或"不同"的相似人臉合 并/區(qū)別標(biāo)記操作;2)選擇特定人名標(biāo)記人臉序列Fj的人名-人臉關(guān)聯(lián)標(biāo)記操作;3)選擇 不同人名及其人物網(wǎng)絡(luò)圖像予以顯示的交互操作。
16. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述步驟S42中多種用戶交互操作對應(yīng) 的標(biāo)注行為分別是: 1) 相似人臉合并/區(qū)別標(biāo)記操作對應(yīng)的標(biāo)注行為: a) 若用戶用"相同"選項(xiàng)標(biāo)注%,則令Label (Fm) = Label (Fn),其中Label (Fm)表示人 臉序列Fm對應(yīng)的人名; b) 若用戶用"不同"選項(xiàng)標(biāo)注%,則令Label (Fm)關(guān)Label (Fn),同時(shí)令PMm,n = 1 ; c) 若用戶對%選擇"跳過"選項(xiàng),則令PMm,n = 1 ; 2) 人名-人臉關(guān)聯(lián)標(biāo)記操作對應(yīng)的標(biāo)注行為: a) 若用戶選擇用人名 Nk 標(biāo)記 Fj,則令 ULSets = ULSets\Fj, Label (Fj) = Nk ; b) 若用戶對?」選擇"跳過"選項(xiàng),則令PA」=1 ; 3) 人名及人物網(wǎng)絡(luò)圖像選擇操作對應(yīng)的行為: a) 若用戶點(diǎn)擊"前一個(gè)"選項(xiàng),則令k = k-Ι (當(dāng)k > 1時(shí)),顯示人名W,以及人物網(wǎng) 絡(luò)圖像列表
中的K個(gè)圖像; b) 若用戶點(diǎn)擊"后一個(gè)"選項(xiàng),則令k = k+Ι (當(dāng)k < CN時(shí)),顯示人名,以及人物網(wǎng) 絡(luò)圖像列表
中的Κ個(gè)圖像。
17. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述步驟S43對滿足一定條件的其它未 標(biāo)注人臉序列Fi進(jìn)行自動(dòng)標(biāo)注的具體做法如公式(11)或(12)所示:
if satisfies
(11)
if satisfies
(12) 其中Ts是公式(10)定義的相似度閾值。
18. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述步驟S44根據(jù)標(biāo)注結(jié)果,對RankMS 和RankIS進(jìn)行整理和重排序的具體做法為: 1)整理:在RankMS和RankIS中分別刪除滿足如下公式(13)、(14)或(15)所述條件的 元素 Qi = < Fm, Fn >和 Fj :
if satisfies
(13) RankMS = RankMS\Qi,if satisfies Label (Fm) = Label (Fn) (14) RankIS = RankIS\Fj,if satisfies 7'.,.任 dSt".v (15) 2)重排序:對RankMjPRankIS剩下的元素,利用公式(6)和(5)重新計(jì)算其兩兩合并 推薦得分和重要性得分,并依此重新生成RankB和RankIS,作為下一輪交互標(biāo)注時(shí)資源顯示 的依據(jù)。
19. 一種互聯(lián)網(wǎng)人物視頻交互式標(biāo)注系統(tǒng),其特征在于,包括: 用于對待標(biāo)注視頻進(jìn)行分析,提取該視頻中的人臉序列集合和視頻周邊文本中的人名 集合的裝置; 用于以所述人名集合中的人名為文本關(guān)鍵詞,搜索以獲得與所述人名相應(yīng)的人物的網(wǎng) 絡(luò)圖像集合的裝置; 用于計(jì)算所述人臉序列的重要性得分、所述人臉序列的兩兩合并推薦得分,以及所述 人臉序列與所述人名相應(yīng)的人物網(wǎng)絡(luò)圖像的相似性得分,并根據(jù)所述重要性得分、所述兩 兩合并推薦得分和所述相似性得分,確定對所述視頻進(jìn)行標(biāo)注時(shí),予以顯示的人臉序列、人 名及人物網(wǎng)絡(luò)圖像的裝置; 用于顯示要標(biāo)注的人臉序列、人名及人物網(wǎng)絡(luò)圖像,對人臉序列進(jìn)行交互標(biāo)注,進(jìn)而實(shí) 現(xiàn)對所述視頻進(jìn)行標(biāo)注的裝置。
【文檔編號(hào)】G06F17/30GK104217008SQ201410475211
【公開日】2014年12月17日 申請日期:2014年9月17日 優(yōu)先權(quán)日:2014年9月17日
【發(fā)明者】陳智能, 白錦峰, 馮柏嵐, 黃向生, 徐波 申請人:中國科學(xué)院自動(dòng)化研究所