1.一種詞語相似度計算方法,其特征在于,所述方法包括以下步驟:
步驟S1,收集未標注的詞典,對所述詞典中的詞語進行處理,得到待標注詞語對;
步驟S2,將所述待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀所述待標注詞語對時的腦電信號;
步驟S3,對采集到的腦電信號進行處理,基于處理后的腦電信號對相應(yīng)的詞語進行相似度標注,構(gòu)建基于腦電信號標注的詞語相似度語料庫。
2.根據(jù)權(quán)利要求1所述的詞語相似度計算方法,其特征在于,所述步驟S1包括:
選取已有的詞典中的詞語為待標注詞語,對所述待標注詞語進行一對一組合構(gòu)成待標注詞語對。
3.根據(jù)權(quán)利要求1所述的詞語相似度計算方法,其特征在于,所述步驟S2包括:
將同一詞語對多次間隔呈現(xiàn)給標注者,供標注者閱讀,采集標注者每次閱讀所述同一詞語對時的腦電信號,將采集到的標注者每次閱讀所述同一詞語對時的腦電信號與相應(yīng)的詞語對成對存儲。
4.根據(jù)權(quán)利要求3所述的詞語相似度計算方法,其特征在于,所述步驟S3包括以下子步驟:
步驟S31,對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號;
步驟S32,對所述降噪后的腦電信號進行疊加平均處理,得到事件相關(guān)電位,根據(jù)所述事件相關(guān)電位判斷相應(yīng)詞語的相似度,依此原理,獲得詞典中所有詞語的相似度;
步驟S33,計算詞典中所有詞語的相似度的平均值及方差,根據(jù)所述平均值及方差對詞典中所有詞語的相似度進行歸一化處理,得到最終的詞語相似度。
5.根據(jù)權(quán)利要求4所述的基于腦電信號的詞向量計算方法,其特征在于,所述步驟S31中采用FASTICA算法對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號。
6.一種詞語相似度計算裝置,其特征在于,所述裝置包括:
收集模塊,用于收集未標注的詞典,對所述詞典中的詞語進行處理,得到待標注詞語對;
采集模塊,用于將所述待標注詞語對呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀所述待標注詞語對時的腦電信號;
構(gòu)建模塊,用于對采集到的腦電信號進行處理,基于處理后的腦電信號對相應(yīng)的詞語對進行相似度標注,構(gòu)建基于腦電信號標注的詞語相似度語料庫。
7.根據(jù)權(quán)利要求6所述的詞語相似度計算裝置,其特征在于,所述收集模塊還用于:
選取已有的詞典中的詞語為待標注詞語,對所述待標注詞語進行一對一組合構(gòu)成待標注詞語對。
8.根據(jù)權(quán)利要求6所述的詞語相似度計算裝置,其特征在于,所述采集模塊還用于:
將同一詞語對多次呈現(xiàn)給標注者,供標注者閱讀,采集標注者每次閱讀所述同一詞語對時的腦電信號,將采集到的標注者每次閱讀所述同一詞語對時的腦電信號與相應(yīng)的詞語對成對存儲。
9.根據(jù)權(quán)利要求8所述的詞語相似度計算方法,其特征在于,所述構(gòu)建模塊包括:
降噪單元,用于對采集到的標注者每次閱讀所述同一詞語對時的腦電信號進行降噪處理,得到降噪后的腦電信號;
疊加平均處理單元,對所述降噪后的腦電信號進行疊加平均處理,得到事件相關(guān)電位,根據(jù)所述事件相關(guān)電位判斷所述詞語對的相似度,依此原理,獲得詞典中所有詞語對的相似度;
歸一化處理單元,計算詞典中所有詞語對的相似度的平均值及方差,根據(jù)所述平均值及方差對詞典中所有詞語對的相似度進行歸一化處理,得到最終的詞語相似度。
10.根據(jù)權(quán)利要求8所述的基于腦電信號的詞向量計算裝置,其特征在于,所述降噪單元還用于采用FASTICA算法對所述采集到的腦電信號進行降噪處理。