两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

詞義消歧方法和系統(tǒng)的制作方法

文檔序號:6577384閱讀:266來源:國知局
專利名稱:詞義消歧方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般地涉及自然語言處理,更具體而言,涉及詞義理解以及詞義消歧方法 和系統(tǒng)。
背景技術(shù)
所謂詞義消歧就是要在特定的上下文環(huán)境中確定多義詞的詞義,其在自然語言處 理、信息檢索、信息抽取、本體集成等領(lǐng)域都有廣泛的應(yīng)用。目前的詞義消歧方法都是針對文本或句子中的目標(biāo)詞匯而進(jìn)行的。一般而言,目 標(biāo)詞匯的文本上下文環(huán)境構(gòu)成區(qū)分詞義的特征空間,具體可能包括目標(biāo)詞匯的臨近詞語、 固定搭配、或根據(jù)句子結(jié)構(gòu)分析而獲得的其他語法特征。已有的詞義消歧方法主要利用來源于文本上下文環(huán)境的語法特征來區(qū)分詞義,當(dāng) 應(yīng)用這些方法對出現(xiàn)在本體或者具有層次結(jié)構(gòu)的概念/類別中的目標(biāo)詞匯進(jìn)行詞義消歧 時,不能取得理想的效果。下面簡要介紹目前現(xiàn)有技術(shù)中已經(jīng)存在的一些相關(guān)技術(shù)。例如,在 Kilgarriff,A.、Rosenzweig, J.等人于 2000 年發(fā)表的文章 “Framework and Results for English SENSEVAL, Computers and theHumanities, 34,,(第 15-48 頁) 中列舉了一些詞義消歧方法,他們主要首先基于語法分析從目標(biāo)詞匯的文本上下文結(jié)構(gòu)中 獲得相應(yīng)的語法特征(主要包括和目標(biāo)詞匯在一定距離窗口之內(nèi)的并現(xiàn)詞匯,固定搭配, 主謂賓結(jié)構(gòu)分析等),進(jìn)而通過統(tǒng)計方法達(dá)到辨別目標(biāo)詞匯詞義的目的。另外,日本專利JP2002-082943描述了一種針對出現(xiàn)在網(wǎng)頁中的命名實(shí)體進(jìn)行語 義消歧方法。其獨(dú)特之處在于除了利用目標(biāo)詞匯所在的網(wǎng)頁中出現(xiàn)的語法特征之外,出現(xiàn) 在和目標(biāo)詞匯所在網(wǎng)頁具有超級鏈接關(guān)系的網(wǎng)頁中的語法特征也被考慮進(jìn)來,實(shí)現(xiàn)命名實(shí) 體的語義消歧。圖1示出該詞義消歧系統(tǒng)的結(jié)構(gòu)框圖,而圖2示出利用圖1所示系統(tǒng)進(jìn)行 詞義消歧的一個示意性實(shí)例。如圖1所示,該詞義消歧系統(tǒng)100由兩部分組成, 即提供存儲的存儲部件和作為主 要處理部件的基于文本上下文的詞義消歧部件?;谖谋旧舷挛牡脑~義消歧部件包括詞匯 輸入裝置101、文本上下文抽取裝置102、基于文本上下文的詞義打分裝置103以及詞義選 擇裝置104。參考圖2所示示例,文本上下文抽取裝置102在進(jìn)行文本上下文抽取時,除了 考慮目標(biāo)詞匯“bass”所在網(wǎng)頁的語法特征之外,還將與目標(biāo)詞匯所在網(wǎng)頁具有超級鏈接關(guān) 系的網(wǎng)頁中的語法特征也考慮進(jìn)來,從而得到完整的文本上下文。例如如圖2所示,得到共 現(xiàn)詞匯“go”、“fish”和“sea”。在得到共現(xiàn)詞匯之后,基于文本上下文的詞義打分裝置103 根據(jù)共現(xiàn)詞匯對目標(biāo)詞匯“bass”在詞典中給出的各種詞義進(jìn)行打分。例如,基于文本上下 文的詞義打分裝置103可以通過計算文本上下文中所有共現(xiàn)詞匯與詞典中每個詞義定義 之間的相似度來作為詞義得分。然后,詞義選擇裝置104可以選擇具有較高相似度得分的 詞義作為正確詞義。例如,在圖2所示示例中,詞義選擇裝置104選擇目標(biāo)詞匯“bass”的 詞義“一種魚”作為最終詞義。這種詞義消歧方法的缺陷在于,從文本上下文中獲得的所有 共現(xiàn)詞匯在最終的詞義打分中具有相同的權(quán)重,而事實(shí)上共現(xiàn)詞匯“go”對詞義打分沒有很強(qiáng)的貢獻(xiàn),甚至對最終的詞義消歧結(jié)果具有負(fù)面作用。但是,不同共現(xiàn)詞匯對于詞義消歧結(jié) 果的影響并未被考慮進(jìn)來。如前所述,目前現(xiàn)有技術(shù)中的詞義消歧方法主要利用來自目標(biāo)詞匯的文本上下文 中的語法特征進(jìn)行詞義的辨別。如果利用這些方法對本體和層次性分類結(jié)構(gòu)中的目標(biāo)詞匯 進(jìn)行語義消歧,由于他們只考慮目標(biāo)詞匯的語法特征,而本體或?qū)哟涡苑诸惸J街兴N(yùn)含 的大量的語義特征沒有被利用,因此造成詞義消歧效果和精度不理想。

發(fā)明內(nèi)容
本發(fā)明旨在解決上述現(xiàn)有詞義消歧方法中存在的諸多問題。根據(jù)本發(fā)明的原理, 首先從本體或?qū)哟位诸惸J街写_定目標(biāo)詞匯所在的概念,以及此概念與其他概念的各種 語義關(guān)系等(即,抽取概念上下文)。然后,根據(jù)目標(biāo)詞匯的概念上下文所蘊(yùn)含的語義特征 針對目標(biāo)詞匯在詞義字典中的詞義進(jìn)行打分排序,其打分排序的結(jié)果作為詞義消歧的主要 依據(jù)。根據(jù)本發(fā)明第一方面,提供了一種利用語義特征進(jìn)行詞義消歧的方法,其包括輸 入目標(biāo)詞匯,其具有多種詞義;從相關(guān)本體抽取所述目標(biāo)詞匯所在的概念以及在本體中的 概念上下文;基于所述概念上下文對所述目標(biāo)詞匯的各種詞義進(jìn)行打分;以及根據(jù)所述打 分結(jié)果選擇所述目標(biāo)詞匯的適當(dāng)詞義。根據(jù)本發(fā)明第二方面,提供了一種利用語義特征進(jìn)行詞義消歧的系統(tǒng),其包括詞 匯輸入裝置,用于輸入目標(biāo)詞匯,其具有多種詞義;概念上下文抽取裝置,用于從相關(guān)本體 抽取所述目標(biāo)詞匯所在的概念以及在本體中的概念上下文;基于概念上下文的詞義打分裝 置,用于基于所述概念上下文對所述目標(biāo)詞匯的各種詞義進(jìn)行打分;以及詞義選擇裝置,用 于根據(jù)所述打分結(jié)果選擇所述目標(biāo)詞匯的適當(dāng)詞義。本發(fā)明提出了利用本體或具有層次結(jié)構(gòu)的分類體系中所蘊(yùn)含的語義信息對其中 的詞匯進(jìn)行語義消歧的方法。由于目標(biāo)詞匯所在的上下文(即概念上下文)中各種相關(guān)語 義特征被考慮進(jìn)來,因此詞義消歧的準(zhǔn)確率得到顯著提高。從下面結(jié)合附圖的詳細(xì)描述中,可以看出本發(fā)明的其他特征和優(yōu)點(diǎn)。注意,本發(fā)明 的范圍并不限于圖中所示的示例或者任何具體的實(shí)施例。


結(jié)合附圖,從下面對本發(fā)明實(shí)施例的詳細(xì)描述,將更好地理解本發(fā)明,附圖中類似 的參考標(biāo)注指示類似的部分,其中圖1是示出根據(jù)現(xiàn)有技術(shù)的詞義消歧系統(tǒng)100的結(jié)構(gòu)框圖;圖2是用于舉例說明圖1所示系統(tǒng)100的工作原理的實(shí)例的示意圖;圖3是示出根據(jù)本發(fā)明實(shí)施例的詞義消歧系統(tǒng)300的結(jié)構(gòu)框圖;圖4是示出圖3所示系統(tǒng)300的工作過程的流程圖;圖5是詳細(xì)示出基于概念上下文的詞義打分裝置的內(nèi)部結(jié)構(gòu)的一個示例的框圖;圖6是詳細(xì)示出基于概念上下文的詞義打分裝置的內(nèi)部結(jié)構(gòu)的另一示例的框圖;圖7是用于舉例說明圖3所示系統(tǒng)300的工作原理的實(shí)例的示意圖;以及圖8是示出將根據(jù)本發(fā)明的基于概念上下文的詞義消歧系統(tǒng)與傳統(tǒng)的基于文本上下文的詞義消歧系統(tǒng)結(jié)合適用的框圖。
具體實(shí)施例方式圖3是示出根據(jù)本發(fā)明實(shí)施例的詞義消歧系統(tǒng)300的結(jié)構(gòu)框圖。如圖1所示系 統(tǒng)100相對照,系統(tǒng)300也可以由兩部分組成,即基于概念上下文的詞義消歧部件與存儲 部件。如圖3所示,作為本發(fā)明的核心,基于概念上下文的詞義消歧部件包括詞匯輸入裝 置301、概念上下文抽取裝置302、基于概念上下文的詞義打分裝置303以及詞義選擇裝置 304。與詞義消歧部件的工作相配合,存儲部件包括多個存儲設(shè)備305-309。圖4是示出圖3所示系統(tǒng)300的工作過程的流程圖。過程400開始于步驟401,其 中詞匯輸入裝置301可以輸入目標(biāo)詞匯w,該目標(biāo)詞匯可以具有多種詞義。在步驟402中, 概念上下文抽取裝置302從相關(guān)本體(例如層次化分類模式)抽取目標(biāo)詞匯w所在的概念 以及在本體中的概念上下文。這里,與目標(biāo)詞匯相關(guān)的本體數(shù)據(jù)或?qū)哟位诸惸J奖淮鎯?在本體/層次化分類模式存儲設(shè)備305中。如本領(lǐng)域技術(shù)人員所公知的,本體是對一個具體領(lǐng)域的顯性的形式化描述,其包 含此領(lǐng)域包含的類別(如計算機(jī)安全產(chǎn)品領(lǐng)域中的防火墻為這個領(lǐng)域的一個抽象概念類 別)、實(shí)體(如一個具體的防火墻產(chǎn)品)、屬性描述(如防火墻的各種屬性參數(shù)等),以及相應(yīng)類別、實(shí)體、屬性之間的各種關(guān)系(如一個具體的防火墻產(chǎn)品是一個防火墻概念的具體 實(shí)例,防火墻是一類計算機(jī)安全產(chǎn)品)等。層次化分類模式是一種應(yīng)用廣泛的顯性但非形 式化的本體。如Yahoo Directory,0DP的開放目錄等。這些形式化或者非形式化本體在實(shí) 際的應(yīng)用過程中,特別是在進(jìn)行計算機(jī)處理的過程中,在很多情況下需要對其所涉及到的 各種關(guān)于概念,實(shí)體,和屬性等自然語言的描述名稱中包含的詞匯進(jìn)行詞義的消歧。具體的 應(yīng)用場景可能包括信息檢索過程中需要對檢索詞的擴(kuò)展,兩個本體的集成等。類別,實(shí)體, 屬性等統(tǒng)稱為概念。返回圖4,基于抽取出的概念上下文,在步驟403中,基于概念上下文的詞義打分 裝置303對目標(biāo)詞匯的在詞典中的各種詞義Iw1, w2,...wn}進(jìn)行打分。在得到各個詞義的 得分之后,在步驟404中,詞義選擇裝置304根據(jù)詞義得分選擇目標(biāo)詞匯的適當(dāng)詞義。至此, 過程400結(jié)束。為了進(jìn)一步說明根據(jù)本發(fā)明的詞義消歧系統(tǒng)300的工作原理,下面對基于概念上 下文的詞義消歧部件中所包含的主要組件進(jìn)行說明。<概念上下文抽取裝置>如圖3所示,概念上下文抽取裝置302用于抽取目標(biāo)詞匯w所在的概念及其在層 次化分類模式或者本體中的概念上下文。包含目標(biāo)詞匯的概念及其與本體或?qū)哟位诸惸?式中所包含的其他概念之間的各種語義關(guān)系構(gòu)成了此目標(biāo)詞匯的概念上下文。概念上下文 中蘊(yùn)含了大量的用于目標(biāo)詞匯語義消歧的語法和語義特征。語法特征例如包括與目標(biāo)詞匯同時出現(xiàn)在同一個概念中的其他的共現(xiàn)詞匯構(gòu)成 其上下文詞匯表,如“語義網(wǎng)”中,“語義”和“網(wǎng)”互相構(gòu)成對方的上下文詞匯。語義特征蘊(yùn)含在和包含目標(biāo)詞匯的概念以某種關(guān)系(如兄弟概念,子概念,父親 概念等)聯(lián)系在一起的所有其他概念中。如對于一個具有層次關(guān)系的概念樹中包含“互聯(lián) 網(wǎng)”這一概念,其包含“語義網(wǎng)”為其子概念,同時還有一個距離“互聯(lián)網(wǎng)”具有較遠(yuǎn)語義關(guān)系的概念如“服裝”,這樣在對“互聯(lián)網(wǎng)”這個概念中的詞匯進(jìn)行語義消歧時,“語義網(wǎng)”和“月艮 裝”都可以看作是其概念上下文信息,但是根據(jù)語義距離的遠(yuǎn)近,在最后的詞義打分中,他 們將賦予不同的權(quán)重。這種不同的權(quán)重指定的主要根據(jù)就是語義特征中的關(guān)系劃分。關(guān)于 概念權(quán)重的利用將在下文中詳細(xì)描述。
<基于概念上下文的詞義打分裝置>基于概念上下文的詞義打分裝置303根據(jù)目標(biāo)詞匯的概念上下文所蘊(yùn)含的語義 特征對該目標(biāo)詞匯在詞典中定義的各個詞義進(jìn)行打分。根據(jù)抽取得到的概念上下文,可以 設(shè)計多種利用語義特征來對參考詞典中給出的關(guān)于目標(biāo)詞匯的多個詞義進(jìn)行打分的方法。 這里參考圖5和圖6給出利用語義特征進(jìn)行詞義打分的兩種示例。當(dāng)然,圖5和圖6所示 出的詞義打分方法僅僅是作為示例給出的,而不應(yīng)被視為對本發(fā)明范圍的限制。本領(lǐng)域技 術(shù)人員在閱讀本發(fā)明說明書之后容易想到其他基于語義特征的詞義打分方法都可以被相 應(yīng)的用于實(shí)現(xiàn)本發(fā)明的目的。首先,圖5詳細(xì)示出基于概念上下文的詞義打分裝置303的一個示例。如圖所示, 基于概念上下文的詞義打分裝置303例如可以包括共現(xiàn)詞匯搜索單元501、權(quán)重確定單元 502、相關(guān)度計算單元503和加權(quán)單元504。在該示例中,利用概念上下文中的各種語義關(guān) 系可以對和目標(biāo)詞匯共現(xiàn)的(出現(xiàn)在不同鄰近的概念中)的上下文詞匯賦予不同的權(quán)重, 繼而實(shí)現(xiàn)利用概念上下文中的語義特征來實(shí)現(xiàn)高質(zhì)量的詞義打分。這顯然區(qū)別于現(xiàn)有技術(shù) 中的傳統(tǒng)方法,在傳統(tǒng)的語義消歧方法中,一般共現(xiàn)詞匯具有相同的權(quán)重,例如前面參考圖 2所論述的。具體地,對于出現(xiàn)在概念名稱中的目標(biāo)詞匯w來說,共現(xiàn)詞匯搜索單元501首先從 其概念上下文中搜索出所有共現(xiàn)詞匯Ia1, a2, ...am},所述共現(xiàn)詞匯ai(i = 1,2, . . . m)是 出現(xiàn)在目標(biāo)詞匯w的鄰近概念中的上下文詞匯。針對共現(xiàn)詞匯搜索單元501所搜索出m個 共現(xiàn)詞匯 (i = 1,2,. . . m),詞義打分算法可以通過如下流程來實(shí)現(xiàn)(A)對于每個共現(xiàn)詞匯 ,權(quán)重確定單元502可以通過某種語義路徑長短的計算 來獲得該共現(xiàn)詞匯 在最終語義消歧過程中的相應(yīng)權(quán)重W (ai);(B)基于詞義詞典中給出的目標(biāo)詞匯w的每種詞義w」(j = 1,2, ...η)的詞義定 義,相關(guān)度計算單元503計算該詞義Wi與每個共現(xiàn)詞匯 的相關(guān)度R( /ai)。具體地,相 關(guān)度的計算可以采取如下算法(1)針對共現(xiàn)詞匯 在詞典中具有的每種詞義α丨(1 = 1,2,. . . r),計算詞義Wj與 該詞義α丨之間的相關(guān)度 丨);并且(2)對詞義Wj相對于共現(xiàn)詞匯%的各種詞義的相關(guān)度求和,以作為詞義Wj與該共 現(xiàn)詞匯 之間的相關(guān)度,即滅 (C)進(jìn)而,加權(quán)單元504得到每個詞義%相對于所有共現(xiàn)詞匯的相關(guān)度 由加權(quán)單元504針對每個詞義Wj計算出的相關(guān)度Rank (Wj)可以作為該詞義Wj的 得分被存儲到詞義得分存儲設(shè)備308中。圖6詳細(xì)示出基于概念上下文的詞義打分裝置303的另一個示例。在該示例中,通過將概念上下文中的層次結(jié)構(gòu)/圖結(jié)構(gòu)和語義詞典中給出的詞義層次結(jié)構(gòu)進(jìn)行匹配計算, 來達(dá)到詞義打分的目的。如圖6所示,在該示例中,基于概念上下文的詞義打分裝置303包 括概念子層次結(jié)構(gòu)提取單元601、詞義參考層次結(jié)構(gòu)提取單元602和相似匹配單元603。利用圖6所示的詞義打分方法,首先,概念子層次結(jié)構(gòu)提取單元601可以從相關(guān)本 體中提取出以目標(biāo)詞匯w為中心的、對應(yīng)于目標(biāo)詞匯的概念上下文的子層次結(jié)構(gòu)。目標(biāo)詞 匯的概念上下文通常是本體或者層次化分類模式的一個子集,并且目標(biāo)詞匯位于這個子集 的中心。然后,詞義參考層次結(jié)構(gòu)提取單元602從詞典中提取與目標(biāo)詞匯的每種詞義Wj相 對應(yīng)的詞義參考層次結(jié)構(gòu)。提供詞義定義的參考詞典一般可以包含一個或者多個描述詞義 之間層次關(guān)系的層次化結(jié)構(gòu),一般一個詞義的定義存在于一個或者多個這樣的層次化結(jié)構(gòu) 中。綜合兩方面的層次結(jié)構(gòu),相似匹配單元603將從本體中提取出的對應(yīng)于目標(biāo)詞匯的概 念上下文的子層次結(jié)構(gòu)與詞典中對應(yīng)于每種詞義%的詞義參考層次結(jié)構(gòu)進(jìn)行圖匹配以計 算在拓?fù)浣Y(jié)構(gòu)上的相似度,并以此作為該詞義 對應(yīng)的得分。圖7示出根據(jù)本發(fā)明的詞義消歧系統(tǒng)的工作原理的一個示意性實(shí)例。與圖2所示 根據(jù)現(xiàn)有技術(shù)的實(shí)例相對照,根據(jù)本發(fā)明的詞義消歧系統(tǒng)從與目標(biāo)詞匯相對應(yīng)的本體中提 取出概念上下文,并基于概念上下文對目標(biāo)詞匯的各種詞義進(jìn)行打分。具體打分方法可以 參見上述參考圖5和圖6所描述的方法。在圖7所示示例中,雖然“go away”中的“go”與 “saltwaterbass”在概念上下文中具有某種語義關(guān)系,但因語義路徑較長,使得其在最終詞 義打分中具有較低權(quán)重。這樣,可以消除其在詞義消歧中的負(fù)面效果。由基于概念上下文的詞義打分裝置303計算出的各個詞義的得分可以隨后被存 儲到詞義得分存儲設(shè)備308中。例如,假設(shè)對于具有3個詞義的目標(biāo)詞匯w來說,其3個詞 義的分值可以分別為0. 86,0. 43和0. 28。<詞義選擇裝置>詞義選擇裝置304根據(jù)目標(biāo)詞匯不同詞義的得分選擇具有相應(yīng)概念上下文的目 標(biāo)詞匯所具有的適當(dāng)詞義。這里,詞義選擇裝置304可以基于多種詞義選擇策略來進(jìn)行詞 義選擇。例如,詞義選擇裝置304可以只選擇具有最高分值的詞義作為目標(biāo)詞匯的準(zhǔn)確詞 義??商鎿Q地,詞義選擇裝置304也可以選擇得分高于某個閾值的所有詞匯作為目標(biāo)詞匯 的準(zhǔn)確詞義。另外,詞義選擇裝置304也可以根據(jù)某種策略來動態(tài)地選擇準(zhǔn)確詞義例如, 如果目標(biāo)詞匯的詞義比較多,則選擇的準(zhǔn)確詞義也相應(yīng)較多,而如果目標(biāo)詞匯的詞義比較 少,則選擇的準(zhǔn)確詞義也相應(yīng)較少。由詞義選擇裝置304所選擇的詞義可以被存儲到所選詞義存儲設(shè)備309中,作為 針對具有特定概念上下文的目標(biāo)詞匯所確定的詞義。本發(fā)明所提出的基于概念上下文的詞義消歧方法可以與現(xiàn)有技術(shù)中已經(jīng)存在的 基于文本上下文的詞義消歧方法結(jié)合使用,以提高詞義消歧結(jié)果的精度。圖8是示出將基 于概念上下文的詞義消歧系統(tǒng)與傳統(tǒng)的基于文本上下文的詞義消歧系統(tǒng)結(jié)合適用的系統(tǒng) 框圖。在圖8中,除了根據(jù)本發(fā)明的基于概念上下文的詞義消歧系統(tǒng) 基本配置之外,還 包括基于文本上下文的詞義打分裝置801和綜合打分裝置802?;谖谋旧舷挛牡脑~義打 分裝置801可以利用基于文本上下文的傳統(tǒng)詞義消歧方法對目標(biāo)詞匯的每種詞義(j = 1,2, ...η)進(jìn)行打分。綜合打分裝置802針對每種詞義= 1,2, ...n),將基于概念上下文的詞義打分裝置303計算出的得分作為第一打分結(jié)果Rankl (Wj),并將基于文本上下文 的詞義打分裝置801計算出的得分作為第二打分結(jié)果Rank2 (Wj),并計算所述詞義 的綜 合得分 Rank (Wj) = 0Rankl(Wj) + (l-e)Rank2(Wj),其中 θ 為預(yù)定權(quán)重,0< θ < 1。該綜 合得分Rank(Wp被存儲到詞義得分存儲設(shè)備308中以用于詞義選擇。以上參考附圖詳細(xì)描述了根據(jù)本發(fā)明的詞義消歧方法和系統(tǒng)的具體實(shí)施例。本發(fā)明提出了利用本體或具有層次結(jié)構(gòu)的分類體系中所蘊(yùn)含的語義信息對其中的詞匯進(jìn)行語 義消歧的方法。由于目標(biāo)詞匯所在的上下文(即概念上下文)中各種相關(guān)語義特征被考慮 進(jìn)來,因此詞義消歧的準(zhǔn)確率得到顯著提高。雖然上面雖然已經(jīng)描述了根據(jù)本發(fā)明的具體實(shí)施例,但是,本發(fā)明并不限于圖中 示出的特定配置和處理。另外,為了簡明起見,這里省略對已知方法技術(shù)的詳細(xì)描述。在上 述實(shí)施例中,描述和示出了若干具體的步驟作為示例。但是,本發(fā)明的方法過程并不限于所 描述和示出的具體步驟,本領(lǐng)域的技術(shù)人員可以在領(lǐng)會本發(fā)明的精神之后,作出各種改變、 修改和添加,或者改變步驟之間的順序。本發(fā)明的元素可以實(shí)現(xiàn)為硬件、軟件、固件或者它們的組合,并且可以用在它們的 系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實(shí)現(xiàn)時,本發(fā)明的元素是被用于執(zhí)行所需 任務(wù)的程序或者代碼段。程序或者代碼段可以存儲在機(jī)器可讀介質(zhì)中,或者通過載波中攜 帶的數(shù)據(jù)信號在傳輸介質(zhì)或者通信鏈路上傳送?!皺C(jī)器可讀介質(zhì)”可以包括能夠存儲或傳輸 信息的任何介質(zhì)。機(jī)器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲器設(shè)備、ROM、閃存、可擦 除ROM(EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由 諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計算機(jī)網(wǎng)絡(luò)被下載。本發(fā)明可以以其他的具體形式實(shí)現(xiàn),而不脫離其精神和本質(zhì)特征。例如,特定實(shí)施 例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此,當(dāng)前的 實(shí)施例在所有方面都被看作是示例性的而非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非上述描述定義,并且,落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在 本發(fā)明的范圍之中。
權(quán)利要求
一種利用語義特征進(jìn)行詞義消歧的方法,包括輸入目標(biāo)詞匯w,其具有多種詞義{w1,w2,...wn};從相關(guān)本體抽取所述目標(biāo)詞匯所在的概念以及在本體中的概念上下文;基于所述概念上下文對所述目標(biāo)詞匯的各種詞義進(jìn)行打分;以及根據(jù)所述打分結(jié)果選擇所述目標(biāo)詞匯的適當(dāng)詞義。
2.如權(quán)利要求1所述的方法,其中所述本體具有層次化分類模式。
3.如權(quán)利要求1所述的方法,其中對所述目標(biāo)詞匯的每種詞義=1,2,...η)進(jìn)行 打分的步驟包括根據(jù)所述概念上下文中的語義關(guān)系搜索與所述目標(biāo)詞匯w相關(guān)的共現(xiàn)詞匯{a” ,...\},所述共現(xiàn)詞匯 (1 = l,2,...m)是出現(xiàn)在所述目標(biāo)詞匯的鄰近概念中的上下文 詞匯;針對每個所述共現(xiàn)詞匯根據(jù)該共現(xiàn)詞匯與所述目標(biāo)詞匯之間的語義路徑長短,對 該共現(xiàn)詞匯賦予一權(quán)重W (ai);基于詞典中給出的詞義定義,計算所述目標(biāo)詞匯的每種詞義 與每個共現(xiàn)詞匯% (i = l,2,...m)之間的相關(guān)度R(WjAii);以及計算每種詞義%相對于所有共現(xiàn)詞匯Ia1, a2, . . . aj的總相關(guān)度樹巧) 作為該詞義Wj對應(yīng)的得分。 /=1
4.如權(quán)利要求3所述的方法,其中所述計算詞義%與每個共現(xiàn)詞匯%之間的相關(guān)度 R(WjAii)的步驟包括針對共現(xiàn)詞匯 在詞典中具有的每種詞義< (1 = 1,2,. . . r),計算詞義Wj與該詞義< 之間的相關(guān)度并且對詞義%相對于所述共現(xiàn)詞匯%的各種詞義的相關(guān)度求和,以作為詞義Wj與共現(xiàn)詞匯 之間的相關(guān)度,即
5.如權(quán)利要求1所述的方法,其中對所述目標(biāo)詞匯的每種詞義=1,2,...η)進(jìn)行 打分的步驟包括從所述本體中提取出以所述目標(biāo)詞匯為中心的、對應(yīng)于所述目標(biāo)詞匯的概念上下文的 子層次結(jié)構(gòu);從詞典中提取與所述目標(biāo)詞匯的每種詞義%相對應(yīng)的詞義參考層次結(jié)構(gòu);以及 將從所述本體中提取出的對應(yīng)于所述目標(biāo)詞匯的概念上下文的子層次結(jié)構(gòu)與詞典中 對應(yīng)于每種詞義%的詞義參考層次結(jié)構(gòu)進(jìn)行圖匹配以計算在拓?fù)浣Y(jié)構(gòu)上的相似度,作為該 詞義%對應(yīng)的得分。
6.如權(quán)利要求1所述的方法,還包括以基于所述概念上下文計算出的每種詞義= 1,2, ...η)的得分作為第一打分結(jié) 果 Rankl (Wj);利用基于文本上下文的傳統(tǒng)詞義消歧方法對所述詞義%計算第二打分結(jié)果 Rank2 (Wj);以及計算所述詞義Wj的綜合得分Rank (Wj) = θ Rankl (Wj) + (1_ θ ) Rank2 (Wj),其中θ是預(yù)定權(quán)重,O < θ < 1。
7.如權(quán)利要求1所述的方法,其中所述選擇目標(biāo)詞匯的適當(dāng)詞義的步驟包括 選擇分值大于一預(yù)定閾值的詞義作為所述適當(dāng)詞義。
8.如權(quán)利要求7所述的方法,其中所選詞義的數(shù)目與所述目標(biāo)詞匯在詞典中所有詞義 的數(shù)目成比例。
9.一種利用語義特征進(jìn)行詞義消歧的系統(tǒng),包括詞匯輸入裝置,用于輸入目標(biāo)詞匯《,其具有多種詞義{Wl,W2,...Wn}; 概念上下文抽取裝置,用于從相關(guān)本體抽取所述目標(biāo)詞匯所在的概念以及在本體中的 概念上下文;基于概念上下文的詞義打分裝置,用于基于所述概念上下文對所述目標(biāo)詞匯的各種詞 義進(jìn)行打分;以及詞義選擇裝置,用于根據(jù)所述打分結(jié)果選擇所述目標(biāo)詞匯的適當(dāng)詞義。
10.如權(quán)利要求9所述的系統(tǒng),其中所述基于概念上下文的詞義打分裝置包括 共現(xiàn)詞匯搜索單元,用于根據(jù)所述概念上下文中的語義關(guān)系搜索與所述目標(biāo)詞匯w相關(guān)的共現(xiàn)詞匯{a1; a2, ...am},所述共現(xiàn)詞匯ai(i = 1,2, . . . m)是出現(xiàn)在所述目標(biāo)詞匯的 鄰近概念中的上下文詞匯;權(quán)重確定單元,用于針對每個所述共現(xiàn)詞匯ai;根據(jù)該共現(xiàn)詞匯與所述目標(biāo)詞匯之間 的語義路徑長短,對該共現(xiàn)詞匯賦予一權(quán)重W (ai);相關(guān)度計算單元,用于基于詞典中給出的詞義定義,計算所述目標(biāo)詞匯的每種詞義 WjU = 1,2,...η)與每個共現(xiàn)詞匯 (1 = l,2,...m)之間的相關(guān)度R(WjAii);以及加權(quán)單元,用于計算每種詞義%相對于所有共現(xiàn)詞匯{a” a2, . . . affl}的總相關(guān)度 ),作為該詞義對應(yīng)的得分。
11.如權(quán)利要求9所述的系統(tǒng),其中所述基于概念上下文的詞義打分裝置包括概念子層次結(jié)構(gòu)提取單元,用于從所述本體中提取出以所述目標(biāo)詞匯為中心的、對應(yīng) 于所述目標(biāo)詞匯的概念上下文的子層次結(jié)構(gòu);詞義參考層次結(jié)構(gòu)提取單元,用于從詞典中提取與所述目標(biāo)詞匯的每種詞義%相對應(yīng) 的詞義參考層次結(jié)構(gòu);以及相似匹配單元,用于將從所述本體中提取出的對應(yīng)于所述目標(biāo)詞匯的概念上下文的子 層次結(jié)構(gòu)與詞典中對應(yīng)于每種詞義%的詞義參考層次結(jié)構(gòu)進(jìn)行圖匹配以計算在拓?fù)浣Y(jié)構(gòu) 上的相似度,作為該詞義%對應(yīng)的得分。
12.如權(quán)利要求9所述的系統(tǒng),還包括基于文本上下文的詞義打分裝置,用于利用基于文本上下文的傳統(tǒng)詞義消歧方法對所 述目標(biāo)詞匯的每種詞義乂 (j = 1,2,... η)進(jìn)行打分;以及綜合打分裝置,用于針對每種詞義= 1,2, ... η),輸入所述基于概念上下文的詞 義打分裝置計算出的得分,作為第一打分結(jié)果Rankl (^),輸入所述基于文本上下文的詞 義打分裝置計算出的得分,作為第二打分結(jié)果Rank2 (Wj),并計算所述詞義Wj的綜合得分 Rank(Wj) = θ Rankl (Wj) + (1-θ ) Rank2 (Wj),其中 θ 預(yù)定權(quán)重,0< θ < 1。
全文摘要
本發(fā)明提出了詞義消歧方法和系統(tǒng)。本發(fā)明所提出的方法利用本體或具有層次結(jié)構(gòu)的分類體系中所蘊(yùn)含的語義信息對其中的目標(biāo)詞匯進(jìn)行語義消歧,該方法包括輸入目標(biāo)詞匯w,其具有多種詞義{w1,w2,...wn};從相關(guān)本體抽取目標(biāo)詞匯所在的概念以及在本體中的概念上下文;基于概念上下文對目標(biāo)詞匯的各種詞義進(jìn)行打分;以及根據(jù)打分結(jié)果選擇目標(biāo)詞匯的適當(dāng)詞義。根據(jù)本發(fā)明,由于目標(biāo)詞匯所在的上下文(即概念上下文)中各種相關(guān)語義特征被考慮進(jìn)來,因此詞義消歧的準(zhǔn)確率得到顯著提高。
文檔編號G06F17/27GK101840397SQ20091012945
公開日2010年9月22日 申請日期2009年3月20日 優(yōu)先權(quán)日2009年3月20日
發(fā)明者劉博 , 李建強(qiáng), 趙彧 申請人:日電(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
驻马店市| 乌兰浩特市| 自治县| 丹寨县| 云和县| 阳高县| 黄冈市| 清原| 广灵县| 通化县| 平邑县| 渭南市| 大安市| 潮州市| 昔阳县| 上饶市| 长子县| 孟津县| 玉溪市| 马关县| 策勒县| 石柱| 忻州市| 比如县| 麦盖提县| 河东区| 左权县| 双流县| 贡嘎县| 肃北| 思茅市| 巴东县| 南阳市| 福鼎市| 曲阳县| 渭源县| 大新县| 嘉鱼县| 平原县| 西吉县| 张家界市|