本發(fā)明提供一種基于用戶觀看圖像過程中的眼動與腦電數(shù)據(jù),確定圖像中的目標(biāo)物體并利用計算機(jī)圖像處理技術(shù)將目標(biāo)物體從圖像中分割出來的方法。具體指當(dāng)用戶觀看計算機(jī)屏幕時,使用眼動跟蹤儀采集用戶的眼動數(shù)據(jù),同時使用腦電記錄儀采集用戶的腦電信號;眼動數(shù)據(jù)用于分析用戶的眼動軌跡;腦電信號用于實(shí)時分析用戶大腦是否處于感興趣狀態(tài);眼動軌跡與用戶大腦狀態(tài)的聯(lián)合分析可以揭示用戶對圖像中哪些區(qū)域感興趣,從而確定圖像中目標(biāo)物體的位置;而后通過圖像處理的超像素分割與合并算法,對用戶感興趣的目標(biāo)物體進(jìn)行分析與分割,將目標(biāo)物體從圖像中分割提取出來,以供搜索、匹配等用途。本發(fā)明屬于認(rèn)知神經(jīng)科學(xué)、信號處理技術(shù)與圖像處理的結(jié)合應(yīng)用,為自動控制技術(shù)領(lǐng)域。
背景技術(shù):
隨著互聯(lián)網(wǎng)時代的來臨,通過文字傳遞信息的方式已經(jīng)被文字、圖像、聲音以及視頻等多媒體的方式所取代。對于人類來講,視覺傳遞的信息占到了絕大多數(shù),圖像已成為這個時代重要的信息載體。針對圖像中目標(biāo)物體的分割近年來涌現(xiàn)出多種多樣的算法。
圖像分割方法中,結(jié)合稀疏近鄰傳播和快速譜聚類的紋理圖像分割等方法使用水平集的分割方法,用能量分析進(jìn)行分割,保證了分割速度但只能應(yīng)用于固定模式的圖像分割,如醫(yī)學(xué)影像的結(jié)構(gòu)類似的專業(yè)領(lǐng)域,不適用于互聯(lián)網(wǎng)上異質(zhì)圖像的分割?;诔袼睾蛨D割優(yōu)化的水平集圖像分割方法使用近鄰聚類的衍生算法進(jìn)行圖像分割,可以更好的保持紋理圖像的區(qū)域一致性,且計算復(fù)雜度低,但不適用于邊界值模糊、灰度相近的圖像分割,同時該方法對閾值非常敏感。
還有一些圖像分割算法利用用戶的交互信息改善圖像中的目標(biāo)分割性能,如GrubCut算法和TouchCut算法 。但是這些算法做圖像中目標(biāo)物體分割的時候,存在許多不足,如需要依賴復(fù)雜的交互信息,需要添加大量的人為標(biāo)注信息;不能很好地處理圖像中目標(biāo)的尺度問題,很難分辨圖像前景與后景的問題。
可見,改進(jìn)交互方式成為提升圖像分割系統(tǒng)性能的一個重要方法。本發(fā)明利用眼動軌跡與腦電數(shù)據(jù)兩種新興的人機(jī)交互方式完成交互過程。與利用鼠標(biāo)鍵盤或和點(diǎn)按觸摸屏的傳統(tǒng)交互方式相比,本發(fā)明直接通過人的眼動與腦電兩種生理信號,開辟了第二條人機(jī)交互通道,實(shí)時快速地將用戶的感興趣區(qū)傳遞給計算機(jī)。這種交互過程自然、對于用戶正在進(jìn)行的工作干擾小,同時交互信息真實(shí)可信。本發(fā)明對于設(shè)計、調(diào)查等行業(yè)有廣闊的應(yīng)用前景。
技術(shù)實(shí)現(xiàn)要素:
圖1是結(jié)合眼動與腦電數(shù)據(jù)的圖像目標(biāo)分割系統(tǒng)的構(gòu)成示意圖。
圖2是結(jié)合眼動與腦電數(shù)據(jù)的圖像目標(biāo)分割系統(tǒng)的算法流程圖。
本發(fā)明的目的是實(shí)現(xiàn)一種新的圖像分割系統(tǒng),利用用戶觀看計算機(jī)屏幕上的圖像時同步采集的眼動與腦電數(shù)據(jù),提取用戶感興趣的目標(biāo)物體信息,改善圖像目標(biāo)分割的性能。本發(fā)明中利用眼動跟蹤儀與腦電記錄儀同步采集眼動與腦電數(shù)據(jù),眼動數(shù)據(jù)中可分析出每個時刻用戶正在看的圖像位置點(diǎn),我們稱之為關(guān)注點(diǎn);同時腦電數(shù)據(jù)可以判斷用戶同一時刻用戶大腦對對看到的圖像區(qū)域的感興趣程度,我們稱之為關(guān)注度。將眼動數(shù)據(jù)與腦電數(shù)據(jù)進(jìn)行聯(lián)合分析后,就可以得到用戶的關(guān)注點(diǎn)與關(guān)注度,確定用戶對圖像中哪些區(qū)域的內(nèi)容感興趣。依靠這種方式用戶提供了圖像中感興趣目標(biāo)物體的區(qū)域或位置信息,我們稱之為目標(biāo)區(qū)域。
在獲得圖像中的目標(biāo)區(qū)域信息后,對觀看的圖像先進(jìn)行超像素分割,然后利用目標(biāo)區(qū)域信息對分割的超像素進(jìn)行合并,合并后將感興趣部分保留,將不感興趣部分剔除,即可實(shí)現(xiàn)圖像中目標(biāo)物體的分割。這種方式的圖像目標(biāo)分割對比傳統(tǒng)的圖像分割方式增加了眼動與腦電數(shù)據(jù)作為監(jiān)督信息,準(zhǔn)確性更高,同時避免了用戶手動需要指定分割區(qū)域、形狀等步驟,可以有效提高分割精度,同時與用戶當(dāng)前進(jìn)行的其它工作互相沒有干擾,在實(shí)際應(yīng)用中目標(biāo)物體的分割結(jié)果更加客觀可靠。
本發(fā)明包括以下幾個模塊:
(1) 眼動與腦電數(shù)據(jù)采集模塊:通過眼動跟蹤儀采集眼動軌跡,通過腦電記錄儀干電極采集腦電數(shù)據(jù),同時加入時間戳,便于眼動數(shù)據(jù)與腦電數(shù)據(jù)的聯(lián)合分析便于眼動數(shù)據(jù)與腦電數(shù)據(jù)同步采集與聯(lián)合分析。
(2) 數(shù)據(jù)聯(lián)合分析模塊:對眼動數(shù)據(jù)進(jìn)行熱點(diǎn)、聚簇分析以得到用戶的視覺關(guān)注點(diǎn)聚類分析以得到用戶的視覺關(guān)注點(diǎn),同時對腦電數(shù)據(jù)進(jìn)行分析獲得用戶的注意力信息同時對腦電數(shù)據(jù)進(jìn)行分析獲得用戶的關(guān)注度,;而后將二者結(jié)合起來,可以獲得用戶在注意力集中的情況下關(guān)注的區(qū)域可以獲得用戶感興環(huán)趣的目標(biāo)物體在圖像中的位置,即用戶真實(shí)關(guān)注的目標(biāo)區(qū)域信息區(qū)域,目標(biāo)區(qū)域信息將用于指導(dǎo)將用戶的關(guān)注信息保存下來以便超像素的合并時使用。
(3) 圖像處理模塊:在采集用戶眼動與腦電信息時在后臺對觀看的圖像首先進(jìn)行材料進(jìn)行超像素分割,當(dāng)獲取到了用戶的注意力并信息后,根據(jù)用戶的目標(biāo)區(qū)域注意力信息進(jìn)行超像素合并,同時剔除不被關(guān)注的圖像內(nèi)容,保留被關(guān)注的圖像內(nèi)容。
本發(fā)明的潛在應(yīng)用有:
(1) 實(shí)現(xiàn)圖像中敏感目標(biāo)的檢測與提取, 可用于視頻或圖像的監(jiān)控,實(shí)現(xiàn)敏感或重要目標(biāo)特體的檢測與提取。
(2)實(shí)現(xiàn)信息檢索與推送,可用于收集用戶觀看圖像或視頻過程中感興趣的內(nèi)容,并據(jù)此從網(wǎng)上檢索類似圖像或視頻并推送給用戶。
(3)提供一種評價的方式,用于評價建筑與廣告等設(shè)計圖像中哪些部分更加吸引人的注意。
(4)用于臨床輔助診斷,對于某些與眼球或精神狀態(tài)相關(guān)疾病的輔助診斷方法,如眼球震顫與精神分裂癥等。
本系統(tǒng)包括三個模塊的具體實(shí)施方式如下:
(1)眼動與腦電數(shù)據(jù)采集模塊
當(dāng)計算機(jī)屏幕上呈現(xiàn)圖像時,眼動與腦電數(shù)據(jù)采集模塊同步記錄眼動與腦電數(shù)據(jù)。眼動數(shù)據(jù)采集使用Tobii公司的X120眼動跟蹤儀,腦電數(shù)據(jù)使用NeuroSky公司的MindWave Mobile便攜式腦電記錄儀。眼動跟蹤儀和腦電記錄議實(shí)時地將采集的數(shù)據(jù)傳輸?shù)酵慌_計算機(jī)。計算機(jī)上的眼動跟蹤儀與腦電記錄儀的驅(qū)動之上實(shí)現(xiàn)了一個數(shù)據(jù)采集的同步模塊,將計算機(jī)實(shí)時接收到的眼動軌跡數(shù)據(jù)與腦電數(shù)據(jù)加上時間戳信息,即在計算機(jī)上給眼動數(shù)據(jù)和腦電數(shù)據(jù)添加同步信息。
(2)數(shù)據(jù)聯(lián)合分析模塊
數(shù)據(jù)聯(lián)合分析模塊是運(yùn)行在計算機(jī)上的數(shù)據(jù)處理程序,主要包括三個部分:數(shù)據(jù)預(yù)處理,關(guān)注點(diǎn)與關(guān)注度分析,目標(biāo)區(qū)域的邊界分析。
數(shù)據(jù)預(yù)處理是對眼動數(shù)據(jù)和腦電數(shù)據(jù)進(jìn)行過濾,包括眼動與腦電數(shù)據(jù)的濾波等去噪聲操作,以及從左、右眼的眼動數(shù)據(jù)中重構(gòu)出用戶觀看計算機(jī)屏幕上的圖像過程中的眼動軌跡等。其中噪聲是眼動跟蹤儀采集的眼動數(shù)據(jù)中包含著的眼跳點(diǎn)以及掃視點(diǎn),這些眼動數(shù)據(jù)會干擾到注視點(diǎn)聚類的結(jié)果,所以要將其濾除。眼動跟蹤儀采集的數(shù)據(jù)是左、右眼分離的數(shù)據(jù),人眼在注視同一物體時的左右眼是存在視差的,這是人類能夠看到三維物體的基礎(chǔ),但是雙眼的視差在注視平面圖像時會對注視點(diǎn)聚類結(jié)果產(chǎn)生影響,所以在數(shù)據(jù)預(yù)處理時要使用雙眼視差配準(zhǔn)算法將雙眼的視差消除掉,得到真實(shí)雙眼注視點(diǎn)的坐標(biāo),結(jié)合時間戳信息重構(gòu)出用戶在觀看計算機(jī)上圖像時的眼動軌跡。
關(guān)注點(diǎn)與關(guān)注度分析包括兩個方面:一方面是對腦電數(shù)據(jù)進(jìn)行節(jié)律波能量分析,計算用戶的關(guān)注度,即每個時刻大腦是否處于感興趣狀態(tài);另一方面是對關(guān)注度較高時刻對應(yīng)的眼動軌跡進(jìn)行聚類分析,確定用戶感興趣的圖像目標(biāo)的位置。
關(guān)注度分析中,為了得到節(jié)律波的能量,首先需要對腦電信號進(jìn)行功率譜估計。本發(fā)明功率譜估計的方法如下:(1)利用滑動窗技術(shù)截取窗內(nèi)數(shù)據(jù),其中子窗的大小為125個點(diǎn)(腦電采樣頻率為256赫茲),子窗間有2/3的重疊;(2)將子窗數(shù)據(jù)補(bǔ)零,擴(kuò)充到256個點(diǎn),再利用周期圖法對每個窗內(nèi)的數(shù)據(jù)進(jìn)行功率譜估計;(3)求出各個子窗功率譜的平均值,這個平均值即為所需的功率譜密度。本發(fā)明根據(jù)各個時刻的功率譜密度求出節(jié)律波的能量,0-100Hz的5個頻段的節(jié)律波能量分別表示為E(δ)、E(θ)、E(α)、E(β)、E(γ)。其中節(jié)律波頻段δ波為0-4Hz,θ波為4-8Hz,α波為8-12Hz,β為12-30Hz,γ為30-100Hz。關(guān)注度可由比值 ( E(α)+E(β) )/E(θ)來進(jìn)行衡量。
關(guān)注點(diǎn)分析中,針對關(guān)注度比較高的眼動軌跡數(shù)據(jù)十分分散的特點(diǎn),使用聚類算法將注視著不同目標(biāo)的眼動軌跡點(diǎn)分開,形成幾個圍繞圖像目標(biāo)的比較眼動軌跡聚集點(diǎn)區(qū)域。本發(fā)明使用一個密度聚類與K-means的混合聚類算法。通過聚類可以將關(guān)注度比較高時刻對應(yīng)的眼動軌跡點(diǎn)分為幾個聚集區(qū),每個聚集區(qū)內(nèi)的眼動軌跡點(diǎn)對應(yīng)著將被分割的圖像目標(biāo),眼動軌跡點(diǎn)的聚集區(qū)即為關(guān)注的目標(biāo)區(qū)域。
目標(biāo)區(qū)域的邊界分析是要初步估計出圖像目標(biāo)的邊界。經(jīng)過聚類的眼動軌跡聚集區(qū)內(nèi)的點(diǎn)已經(jīng)可以區(qū)分出用戶關(guān)注的目標(biāo)物體,但是聚類后軌跡點(diǎn)大多都集中于目標(biāo)物體內(nèi)部,不利于分析目標(biāo)物體的輪廓。本發(fā)明利用凸包算法找到整個聚類對應(yīng)的圖像目標(biāo)的邊緣輪廓。
(3)圖像處理模塊
圖像處理模塊是運(yùn)行在計算機(jī)上的對圖像進(jìn)行處理的程序,包括兩個部分:超像素分割、超像素合并與目標(biāo)圖像分割。
超像素分割指將圖像分割為小像素塊。超像素分割部分本發(fā)明使用了SLIC算法,SLIC算法首先將圖像從RGB顏色空間轉(zhuǎn)換到CIE-Lab顏色空間,將每個像素的(L, a, b)顏色值與(X, Y)坐標(biāo)值作為一個五維向量V[L, a, b, X, Y],兩個像素的相似性就用這個向量距離來衡量。而后通過生成的種子點(diǎn)反復(fù)掃描所有的像素,將每個像素劃分為與其最近的種子同一聚類??梢奡LIC是一種基于顏色和距離進(jìn)行超像素分割的方法,故其分割方式十分類似人的真實(shí)觀看方式,首先在圖像中找到一個關(guān)注點(diǎn),然后從該關(guān)注點(diǎn)出發(fā)擴(kuò)大視野尋找整個感興趣的圖像目標(biāo)。
超像素合并是在眼動與腦電數(shù)據(jù)聯(lián)合分析模塊得到用戶的交互信息,這里的交互信息就是以圖像目標(biāo)的聚集區(qū)表征的關(guān)注目標(biāo)區(qū)域,利用這些交互信息指導(dǎo)超像素合并,將聚集區(qū)中的眼動軌跡點(diǎn)經(jīng)過的超像素塊合并,形成數(shù)量較少的、面積較大的像素塊。
目標(biāo)圖像分割是指超像素合關(guān)得到較大的像素塊后,保留包含著需要分割的完整的圖像目標(biāo)的部分,將多余的部分去除,從而完成圖像目標(biāo)的分割。