本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,尤其涉及一種詞語相似度計算方法及裝置。
背景技術(shù):
詞語相似度計算在自然語言處理、智能檢索、文本聚類、文本分類、自動應(yīng)答、詞義排歧和機器翻譯等領(lǐng)域都有廣泛的應(yīng)用,它是自然語言的基礎(chǔ)研究課題,正在被越來越多的研究人員所關(guān)注。目前,最常用的詞語相似度計算方法是基于語義詞典的詞語相似度計算。常用的語義詞典:在英文方面,具有代表性的有WordNet,F(xiàn)rameNet,Mi ndNet等;在漢語方面,有“知網(wǎng)”(HowNet),“同義詞詞林”,“中文概念詞典”(CCD:Chinese Concept Dictionary)等。該算法即根據(jù)同義詞詞林的編排及語義特點計算兩個詞語之間的相似度。
在傳統(tǒng)的語義詞典構(gòu)建過程中,獲取詞語相似度的方法通常是人工標注。這種方法的主要缺陷有以下三點:
1、為保證語義詞典標注準確性,需要對每一位參加標注的工作人員進行大量的領(lǐng)域相關(guān)知識和標注規(guī)范的培訓(xùn),這些培訓(xùn)將消耗大量的時間和資金;同時由于缺乏詞語相似度的系統(tǒng)標注規(guī)范,在培訓(xùn)結(jié)束后也很難保證標注人員能準確高效地對詞語相似度語料進行標注。
2、由于標注者常常具有不同的語言認識,這將導(dǎo)致不同標注者對同一語料標注時會出現(xiàn)不同甚至是相反的結(jié)果。出現(xiàn)這種情況時,通常需要標注者一起討論決定最終的標注結(jié)果,這一過程往往會消耗標注人員大量的時間與精力,最終會嚴重拖慢標注進程。
3、由于人類語言理解機制的復(fù)雜性,標注者往往很難對自然語言中的詞語對準確地判別其相似度,這通常表現(xiàn)在同一標注者在不同時間標注同一語料時也會出現(xiàn)前后矛盾的情況。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種詞語相似度計算方法及系統(tǒng),旨在提高詞語相似度計算的準確性。
本發(fā)明是這樣實現(xiàn)的,一種詞語相似度計算方法,所述方法包括以下步驟:
步驟S1,收集未標注的詞典,對所述詞典中的詞語進行處理,得到待標注詞語對;
步驟S2,將所述待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀所述待標注詞語對時的腦電信號;
步驟S3,對采集到的腦電信號進行處理,基于處理后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建基于腦電信號標注的詞語相似度語料庫。
本發(fā)明的進一步的技術(shù)方案是,所述步驟S1包括:
選取已有的詞典中的詞語為待標注詞語,對所述待標注詞語進行一對一組合構(gòu)成待標注詞語對。
本發(fā)明的進一步的技術(shù)方案是,所述步驟S2包括:
將同一詞語對多次間隔呈現(xiàn)給標注者,供標注者閱讀,采集標注者每次閱讀所述同一詞語對時的腦電信號,將采集到的標注者每次閱讀所述同一詞語對時的腦電信號與相應(yīng)的詞語對成對存儲。
本發(fā)明的進一步的技術(shù)方案是,所述步驟S3包括以下子步驟:
步驟S31,對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號;
步驟S32,對所述降噪后的腦電信號進行疊加平均處理,得到事件相關(guān)電位,根據(jù)所述事件相關(guān)電位判斷所述詞語對的相似度,依此原理,獲得詞典中所有詞語對的相似度;
步驟S33,計算詞典中所有詞語對的相似度的平均值及方差,根據(jù)所述平均值及方差對詞典中所有詞語對的相似度進行歸一化處理,得到最終的詞語相似度。
本發(fā)明的進一步的技術(shù)方案是,所述步驟S31中采用FASTICA算法對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號。
本發(fā)明還提供了一種詞語相似度計算裝置,所述裝置包括:
收集模塊,用于收集未標注的詞典,對所述詞典中的詞語進行處理,得到待標注詞語對;
采集模塊,用于將所述待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀所述待標注詞語對時的腦電信號;
構(gòu)建模塊,用于對采集到的腦電信號進行處理,基于處理后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建基于腦電信號標注的詞語相似度語料庫。
本發(fā)明的進一步的技術(shù)方案是,所述收集模塊還用于:
選取已有的詞典中的詞語為待標注詞語,對所述待標注詞語進行一對一組合構(gòu)成待標注詞語對。
本發(fā)明的進一步的技術(shù)方案是,所述采集模塊還用于:
將同一詞語對多次呈現(xiàn)給標注者,供標注者閱讀,采集標注者每次閱讀所述同一詞語對時的腦電信號,將采集到的標注者每次閱讀所述同一詞語對時的腦電信號與相應(yīng)的詞語對成對存儲。
本發(fā)明的進一步的技術(shù)方案是,所述構(gòu)建模塊包括:
降噪單元,用于對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號;
疊加平均處理單元,對所述降噪后的腦電信號進行疊加平均處理,得到事件相關(guān)電位,根據(jù)所述事件相關(guān)電位判斷所述詞語對的相似度,依此原理,獲得詞典中所有詞語對的相似度;
歸一化處理單元,計算詞典中所有詞語對的相似度的平均值及方差,根據(jù)所述平均值及方差對詞典中所有詞語對的相似度進行歸一化處理,得到最終的詞語相似度。。
本發(fā)明的進一步的技術(shù)方案是,所述降噪單元還用于采用FASTICA算法對所述采集到的腦電信號進行降噪處理。
本發(fā)明的有益效果是:本發(fā)明提供的詞語相似度計算方法及裝置,通過上述方案:收集未標注的詞典,對所述詞典中的詞語進行處理,得到待標注詞語對;將所述待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀所述待標注詞語對時的腦電信號;對采集到的腦電信號進行分析,基于分析后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建腦電信號標注的詞語相似度語料庫,提高了詞語相似度計算的準確性。
附圖說明
圖1是本發(fā)明本發(fā)明詞語相似度計算方法較佳實施例的流程示意圖;
圖2是本發(fā)明詞語相似度計算方法步驟S3的細化流程示意圖;
圖3是本發(fā)明詞語相似度計算裝置較佳實施例功能模塊示意圖;
圖4是本發(fā)明詞語相似度計算裝置構(gòu)建模塊的細化功能模塊示意圖。
附圖標記:
收集模塊-10;
采集模塊-20;
構(gòu)建模塊-30:降噪單元-301;疊加處理單元-302;歸一化處理單元-303。
具體實施方式
本發(fā)明實施例的解決方案主要是:收集未標注的詞典,對詞典中的詞語進行處理,得到待標注詞語對;將待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀待標注詞語對時的腦電信號;對采集到的腦電信號進行分析,基于分析后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建腦電信號標注的詞語相似度語料庫。
請參照圖1,圖1是本發(fā)明詞語相似度計算方法較佳實施例的流程示意圖,如圖1所示,本發(fā)明詞語相似度計算方法較佳實施例包括以下步驟:
步驟S1,收集未標注的詞典,對詞典中的詞語進行處理,得到待標注詞語對;
目前常用的詞典有《現(xiàn)代漢語詞典》、《現(xiàn)代漢語規(guī)范詞典》以及《漢語大辭典》等,為了得到詞語相似度,本實施例首先將詞典中的詞語進行一對一組合,構(gòu)成待標注的詞語對。其中待標注的詞語對的個數(shù)計算公式為:M=N×(N-1)÷2,其中,M為詞語對的個數(shù),N為詞典中詞語的個數(shù)。
步驟S2,將待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀待標注詞語對時的腦電信號;
目前,獲取詞語相似度的方法通常是采用人工標注的方法,采用人工標注的方法獲取詞語相似度,不僅會消耗大量的時間和資金,并且在不同的時間標注同一語料是也會出現(xiàn)前后矛盾的情形。而采用腦電信號計算詞語相似度能從認知神經(jīng)科學(xué)的角度真實反映標注者的情緒,具有很高的準確性。
因此,本發(fā)明在計算詞語相似度時需要標注者佩戴腦電采集裝置,采集標注者閱讀待標注詞語對時的腦電信號。其中,標注者為佩戴腦電采集裝置閱讀待標注詞語對的用戶。
步驟S3,對采集到的腦電信號進行處理,基于處理后的腦電信號對相應(yīng)的詞語進行相似度標注,構(gòu)建基于腦電信號標注的詞語相似度語料庫。
由于在采集標注者閱讀待標注詞語對的腦電信號的過程中,容易受到設(shè)備噪音、肌點噪音以及眼電噪音等的影響,所以在采集到標注者閱讀待標注詞語對是的腦電信號后,需要對所采集到的腦電信號進行降噪處理,以提高詞語相似度計算的準確性。
具體實施時,為了進一步提高詞語相似度計算的準確性,可以將同一詞語對多次間隔呈現(xiàn)給標注者,供標注者閱讀,將采集到的標注者每次閱讀所述同一詞語對時的腦電信號與相應(yīng)的詞語對成對存儲。其中將同一詞語對呈現(xiàn)給標注者的次數(shù)以及同一詞語對出現(xiàn)的間隔次數(shù)可以根據(jù)實際經(jīng)驗設(shè)定,本實施例中,同一詞語對呈現(xiàn)給標注者的次數(shù)優(yōu)選為25-30次,同一詞語對出現(xiàn)的間隔次數(shù)優(yōu)選為10次。
本實施例通過上述方案:收集未標注的詞典,對詞典中的詞語進行處理,得到待標注詞語對;將待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀待標注詞語對時的腦電信號;對采集到的腦電信號進行分析,基于分析后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建腦電信號標注的詞語相似度語料庫,提高了詞語相似度計算的準確性。
請參照圖2,圖2是基于圖1描述的詞語相似度計算方法中步驟S3的細化流程示意圖。該步驟S3可以包括:
步驟S31,對采集到的標注者每次閱讀同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號;
本實施例可以采用FASTICA算法對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的高信噪比的腦電信號。本實施例中降噪后的腦電信號優(yōu)選為信噪比高于15db的腦電信號。
信噪比,英文名稱叫做SNR或S/N(SIGNAL-NOISE RATIO),又稱為訊噪比。是指一個電子設(shè)備或者電子系統(tǒng)中信號與噪聲的比例。這里面的信號指的是來自設(shè)備外部需要通過這臺設(shè)備進行處理的電子信號,噪聲是指經(jīng)過該設(shè)備后產(chǎn)生的原信號中并不存在的無規(guī)則的額外信號(或稱為信息),并且這種信號并不隨原信號的變化而變化。信噪比的計量單位是dB,其計算方法是10lg(PS/PN),其中PS和PN分別代表信號和噪聲的有效功率,信噪比越高,說明噪聲越小。
獨立成分分析(簡稱ICA)是非常有效的數(shù)據(jù)分析工具,它主要用來從混合數(shù)據(jù)中提取出原始的獨立信號。它作為信號分離的一種有效方法而受到廣泛的關(guān)注。在諸多ICA算法中,固定點算法(簡稱FASTICA)以其收斂速度快、分離效果好被廣泛應(yīng)用于信號處理領(lǐng)域。該算法能很好地從觀測信號中估計出相互統(tǒng)計獨立的、被未知因素混合的原始信號。
步驟S32,對降噪后的腦電信號進行疊加平均處理,得到事件相關(guān)電位,根據(jù)事件相關(guān)電位判斷相應(yīng)詞語的相似度,依此原理,獲得詞典中所有詞語的相似度;
事件相關(guān)電位(ERP)是一種特殊的腦誘發(fā)電位,誘發(fā)電位(Evoked Potentials,EPs),也稱誘發(fā)反應(yīng)(Evoked Response),是指給予神經(jīng)系統(tǒng)(從感受器到大腦皮層)特定的刺激,或使大腦對刺激(正性或負性)的信息進行加工,在該系統(tǒng)和腦的相應(yīng)部位產(chǎn)生的可以檢出的、與刺激有相對固定時間間隔(鎖時關(guān)系)和特定位相的生物電反應(yīng)。廣義上講,事件相關(guān)電位(ERP)包括N400,在事件相關(guān)電位中,N400反映了語言認知功能。
在對降噪后的腦電信號進行疊加平均處理后,在疊加平均后的信號中300ms至500ms范圍內(nèi)計算信號的負向最小值(即負向電位最低值)作為腦電信號的N400電位值。標注者在閱讀不相關(guān)電位時,腦電信號會在閱讀后400ms左右出現(xiàn)一個較大的負值,這個負值在心理學(xué)中被稱為N400電位。N400電位越大說明呈現(xiàn)的詞語對越不相似,N400電位越小說明呈現(xiàn)的詞語對越相似。
依照上述原理,可以得出詞典中所有詞語的相似度。
步驟S33,計算詞典中所有詞語的相似度的平均值及方差,根據(jù)所述平均值及方差對詞典中所有詞語的相似度進行歸一化處理,得到最終的詞語相似度。
通過步驟S32得到詞典中所有詞語的相似度后,計算出所有詞語相似度的平均值以及方差,根據(jù)所有詞語的相似度的平均值以及方差對詞典中所有詞語的相似度進行歸一化處理,得到最終的詞語相似度。其中,歸一化處理的計算公式為:A=(B-C)÷D,其中,A為最終的詞語相似度值,B為詞語的原始相似度,C為所有詞語的相似度平均值,D為方差。
綜上所述,本發(fā)明詞語相似度計算方法通過上述方案:收集未標注的詞典,對所述詞典中的詞語進行處理,得到待標注詞語對;將所述待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀所述待標注詞語對時的腦電信號;對采集到的腦電信號進行分析,基于分析后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建腦電信號標注的詞語相似度語料庫,提高了詞語相似度計算的準確性。
基于上述詞語相似度計算方法,本發(fā)明提供了一種詞語相似度計算裝置。
請參照圖3,圖3是本發(fā)明詞語相似度計算裝置較佳實施例的功能模塊示意圖,如圖3所示,本發(fā)明詞語相似度計算裝置較佳實施例包括:收集模塊10、采集模塊20及采構(gòu)建模塊30。
其中,收集模塊10用于收集未標注的詞典,對詞典中的詞語進行處理,得到待標注詞語對;
目前常用的詞典有《現(xiàn)代漢語詞典》、《現(xiàn)代漢語規(guī)范詞典》以及《漢語大辭典》等,為了得到詞語相似度,本實施例首先將詞典中的詞語進行一對一組合,構(gòu)成待標注的詞語對。其中待標注的詞語對的個數(shù)計算公式為:M=N×(N-1)÷2,其中,M為詞語對的個數(shù),N為詞典中詞語的個數(shù)。
采集模塊20,用于將待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀待標注詞語對時的腦電信號;
目前,獲取詞語相似度的方法通常是采用人工標注的方法,采用人工標注的方法獲取詞語相似度,不僅會消耗大量的時間和資金,并且在不同的時間標注同一語料是也會出現(xiàn)前后矛盾的情形。而采用腦電信號計算詞語相似度能從認知神經(jīng)科學(xué)的角度真實反映標注者的情緒,具有很高的準確性。
因此,本發(fā)明在計算詞語相似度時需要標注者佩戴腦電采集裝置,采集標注者閱讀待標注詞語對時的腦電信號。其中,標注者為佩戴腦電采集裝置閱讀待標注詞語對的用戶。
采構(gòu)建模塊30,用于對采集到的腦電信號進行處理,基于處理后的腦電信號對相應(yīng)的詞語進行相似度標注,構(gòu)建基于腦電信號標注的詞語相似度語料庫。
由于在采集標注者閱讀待標注詞語對的的腦電信號的過程中,容易受到設(shè)備噪音、肌點噪音以及眼電噪音等的影響,所以在采集到標注者閱讀待標注詞語對是的腦電信號后,需要對所采集到的腦電信號進行降噪處理,以提高詞語相似度計算的準確性。
具體實施時,為了進一步提高詞語相似度計算的準確性,可以將同一詞語對多次間隔呈現(xiàn)給標注者,供標注者閱讀,將采集到的標注者每次閱讀所述同一詞語對時的腦電信號與相應(yīng)的詞語對成對存儲。其中將同一詞語對呈現(xiàn)給標注者的次數(shù)以及同一詞語對出現(xiàn)的間隔次數(shù)可以根據(jù)實際經(jīng)驗設(shè)定,本實施例中,同一詞語對呈現(xiàn)給標注者的次數(shù)優(yōu)選為25-30次,同一詞語對出現(xiàn)的間隔次數(shù)優(yōu)選為10次。
本實施例通過上述方案:收集模塊10收集未標注的詞典,對詞典中的詞語進行處理,得到待標注詞語對;采集模塊20將待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀待標注詞語對時的腦電信號;采構(gòu)建模塊30對采集到的腦電信號進行分析,基于分析后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建腦電信號標注的詞語相似度語料庫,提高了詞語相似度計算的準確性。
請參照圖4,圖4是基于圖3描述的詞語相似度計算裝置中采構(gòu)建模塊30的細化功能模塊示意圖。該采構(gòu)建模塊30包括:降噪單元301、疊加處理單元302及歸一化處理單元303。
其中,降噪單元301,用于對采集到的標注者每次閱讀同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號;
本實施例可以采用FASTICA算法對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的高信噪比的腦電信號。本實施例中降噪后的腦電信號優(yōu)選為信噪比高于15db的腦電信號。
信噪比,英文名稱叫做SNR或S/N(SIGNAL-NOISE RATIO),又稱為訊噪比。是指一個電子設(shè)備或者電子系統(tǒng)中信號與噪聲的比例。這里面的信號指的是來自設(shè)備外部需要通過這臺設(shè)備進行處理的電子信號,噪聲是指經(jīng)過該設(shè)備后產(chǎn)生的原信號中并不存在的無規(guī)則的額外信號(或稱為信息),并且這種信號并不隨原信號的變化而變化。信噪比的計量單位是dB,其計算方法是10lg(PS/PN),其中PS和PN分別代表信號和噪聲的有效功率,信噪比越高,說明噪聲越小。
獨立成分分析(簡稱ICA)是非常有效的數(shù)據(jù)分析工具,它主要用來從混合數(shù)據(jù)中提取出原始的獨立信號。它作為信號分離的一種有效方法而受到廣泛的關(guān)注。在諸多ICA算法中,固定點算法(簡稱FASTICA)以其收斂速度快、分離效果好被廣泛應(yīng)用于信號處理領(lǐng)域。該算法能很好地從觀測信號中估計出相互統(tǒng)計獨立的、被未知因素混合的原始信號。
疊加平均處理單元302,用于對降噪后的腦電信號進行疊加平均處理,得到事件相關(guān)電位,根據(jù)事件相關(guān)電位判斷相應(yīng)詞語的相似度,依此原理,獲得詞典中所有詞語的相似度;
事件相關(guān)電位(ERP)是一種特殊的腦誘發(fā)電位,誘發(fā)電位(Evoked Potentials,EPs),也稱誘發(fā)反應(yīng)(Evoked Response),是指給予神經(jīng)系統(tǒng)(從感受器到大腦皮層)特定的刺激,或使大腦對刺激(正性或負性)的信息進行加工,在該系統(tǒng)和腦的相應(yīng)部位產(chǎn)生的可以檢出的、與刺激有相對固定時間間隔(鎖時關(guān)系)和特定位相的生物電反應(yīng)。廣義上講,事件相關(guān)電位(ERP)包括N400,在事件相關(guān)電位中,N400反映了語言認知功能。
在對降噪后的腦電信號進行疊加平均處理后,在疊加平均后的信號中300ms至500ms范圍內(nèi)計算信號的負向最小值(即負向電位最低值)作為腦電信號的N400電位值。標注者在閱讀不相關(guān)電位時,腦電信號會在閱讀后400ms左右出現(xiàn)一個較大的負值,這個負值在心理學(xué)中被稱為N400電位。N400電位越大說明呈現(xiàn)的詞語對越不相似,N400電位越小說明呈現(xiàn)的詞語對越相似。
依照上述原理,可以得出詞典中所有詞語的相似度。
歸一化處理單元303,用于計算詞典中所有詞語的相似度的平均值及方差,根據(jù)所述平均值及方差對詞典中所有詞語的相似度進行歸一化處理,得到最終的詞語相似度。
通過歸一化處理單元303得到詞典中所有詞語的相似度后,計算出所有詞語相似度的平均值以及方差,根據(jù)所有詞語的相似度的平均值以及方差對詞典中所有詞語的相似度進行歸一化處理,得到最終的詞語相似度。其中,歸一化處理的計算公式為:A=(B-C)÷D,其中,A為最終的詞語相似度值,B為詞語的原始相似度,C為所有詞語的相似度平均值,D為方差。
綜上所述,本發(fā)明詞語相似度計算方法通過上述方案:收集模塊10收集未標注的詞典,對所述詞典中的詞語進行處理,得到待標注詞語對;采集模塊20將所述待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀所述待標注詞語對時的腦電信號;采構(gòu)建模塊30對采集到的腦電信號進行分析,基于分析后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建腦電信號標注的詞語相似度語料庫,提高了詞語相似度計算的準確性。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。