本發(fā)明涉及語義網(wǎng)絡(luò)
技術(shù)領(lǐng)域:
,具體涉及一種確定關(guān)鍵詞上下文窗口的混合方法。
背景技術(shù):
:自從進入21世紀以來,全球的互聯(lián)網(wǎng)行業(yè)進入了一個高速發(fā)展的新時期,各種新技術(shù)不斷涌現(xiàn)出來。作為聯(lián)系計算機與人之間重要技術(shù)的自然語言處理也取得了長足的發(fā)展。國內(nèi)外對詞語語義相似度的計算方法大體可以分為兩類:第一,基于語義詞典的詞語語義相似度計算方法,這種方法簡單有效、易于理解,但是它依賴于比較完備的按照概念間結(jié)構(gòu)層次關(guān)系組織的大型語義詞典;第二,基于語料庫的詞語語義相似度計算方法,這種方法利用大規(guī)模語料庫,將詞語的上下文信息作為語義相似度計算的參照依據(jù)?;谡Z料庫的方法建立在兩個詞語語義相似當且僅當它們處于相似的上下文環(huán)境中這一假設(shè)的基礎(chǔ)上。詞語的上下文是語料庫語言學(xué)中自然語言知識獲取和解決自然語言處理中多種實際應(yīng)用問題依靠的資源和基礎(chǔ),但上下文“窗口”開多大為宜,為克服當前僅憑主觀經(jīng)驗或通過某一特定應(yīng)用問題中最終結(jié)果正確率界定上下文有效范圍的不足以及關(guān)鍵詞左右窗口中的句子成分關(guān)系對上下文有效窗口界定的影響,本發(fā)明提供一種確定關(guān)鍵詞上下文窗口的混合方法。技術(shù)實現(xiàn)要素:針對當前僅憑主觀經(jīng)驗或通過某一特定應(yīng)用問題中最終結(jié)果正確率界定上下文有效范圍的不足以及關(guān)鍵詞左右窗口中的句子成分關(guān)系對上下文有效窗口界定的影響,本發(fā)明提供一種確定關(guān)鍵詞上下文窗口的混合方法。為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:步驟1:初始化統(tǒng)計方法模塊,即語料庫或文本。步驟2:將關(guān)鍵詞C輸入初始化統(tǒng)計方法模塊或文本中。步驟3:分別求解關(guān)鍵詞C相鄰的上下文本中每個位置的權(quán)重貢獻值weight′(C,Cij∈(1,2,…2n))。步驟4:對關(guān)鍵詞C語境中上下文詞位置的權(quán)重貢獻值weight′(C,Cij∈(1,2,…2n))進行歸一化曲線處理。步驟5:基于上下文信息損失量計算關(guān)鍵詞C語境中上下文窗口的左右窗口n值。步驟6:在步驟5關(guān)鍵詞C語境中上下文窗口的左右窗口n值條件下,基于上下文成分關(guān)系計算關(guān)鍵詞語境中上下文窗口的左右窗口n′左、n′右值。本發(fā)明有益效果是:1、對上下文語境有效范圍的確定提供了非常有價值的定量化的描述,克服了前人主觀描述的不足。2、上下文對關(guān)鍵詞的描述能力相對位置由近及遠逐漸遞減,符合人們一般認識。3、為更好的解決詞語、句子相似度計算提供了極為有價值的理論基礎(chǔ)。4、權(quán)重貢獻值weight(C,Cij∈(1,2,…2n))的線性與信噪比要更好,易于后續(xù)計算簡便。5、權(quán)重貢獻值weight(C,Cij∈(1,2,…2n))的歸一化曲線準確率更高。6、考慮了關(guān)鍵詞左右窗口中的句子成分關(guān)系對上下文有效窗口界定的影響。附圖說明表1-j映射到weight(C,Cij∈(1,2,…2n))的離散表格圖1一種確定關(guān)鍵詞上下文窗口的混合方法結(jié)構(gòu)流程圖圖2上下文位置權(quán)重貢獻值離散圖與歸一化處理后的連續(xù)函數(shù)f(-j)曲線圖具體實施方式針對當前僅憑主觀經(jīng)驗或通過某一特定應(yīng)用問題中最終結(jié)果正確率界定上下文有效范圍的不足以及關(guān)鍵詞左右窗口中的句子成分關(guān)系對上下文有效窗口界定的影響,結(jié)合圖1對本發(fā)明進行了詳細說明,其具體實施步驟如下:步驟1:初始化統(tǒng)計方法模塊,即語料庫或文本。步驟2:將關(guān)鍵詞C輸入初始化統(tǒng)計方法模塊或文本中。步驟3:分別求解關(guān)鍵詞C相鄰的上下文本中每個位置的相對權(quán)重貢獻值weight′(C,Cij∈(1,2,…2n)),需先知位置信息Jsx、關(guān)鍵詞權(quán)重值weight(C)與上下文位置權(quán)重值weight(C,Cij∈(1,2,…2n)),其具體計算過程如下:3.1)先假設(shè)關(guān)鍵詞C上下文語境的位置信息Jsx在一定規(guī)模語料庫的基礎(chǔ)上,選取一定規(guī)模和具有一定覆蓋面的關(guān)鍵詞,并從語料中提取每個關(guān)鍵詞C上下文左右各n個位置的上下文詞語構(gòu)成其“關(guān)鍵詞上下文矩陣Jsx”,其矩陣如下所示:上式矩陣行i∈(1,2,…,m),i為第i個上下文語境,列j∈(1,2,…,n)為關(guān)鍵詞上下文左邊n個位置,列j∈(n+1,n+2,…,n+n)為關(guān)鍵詞上下文右邊n個位置。Cij為第i個上下文語境中第幾個位置詞。3.2)計算關(guān)鍵詞C在語料庫或文本中的權(quán)重值weight(C)上式P(Ci)為在第i語境中關(guān)鍵詞C的概率值,關(guān)鍵詞所在語境的個數(shù)為m,EC為關(guān)鍵詞C在m個語境中權(quán)重的均值。3.3)計算每個上下文位置對關(guān)鍵詞C的權(quán)重值weight(C,Cij∈(1,2,…2n))上式weight(C,Cij∈(1,2,…2n))分別為第i語境中位置為j時的上下文詞對關(guān)鍵詞的權(quán)重貢獻值,p(C/Cij∈(1,2,…2n)為每個上下文位置已知對應(yīng)的關(guān)鍵詞C的條件統(tǒng)計概率,這個基于語料庫可以很容易統(tǒng)計出,Ej∈(1,2,…2n)為各語境下每個上下文位置已知對應(yīng)的關(guān)鍵詞C的條件統(tǒng)計概率p(C/Cij∈(1,2,…2n)的平均值。上式m為語料庫或文本中含關(guān)鍵詞的語境數(shù)量。3.4)求解關(guān)鍵詞C相鄰的上下文本中每個位置的相對權(quán)重貢獻值weight′(C,Cij∈(1,2,…2n))綜上所述,有下式:weight′(C,Cij∈(1,2,…2n))=-log2|weight(C)-weight(C,Cij∈(1,2,…2n))|步驟4:對關(guān)鍵詞C語境中上下文詞位置的權(quán)重貢獻值weight′(C,Cij∈(1,2,…2n))進行歸一化曲線處理,需對上下文詞位置j進行歸一化處理以及誤差點丟棄,其具體描述過程如下:4.1)先對關(guān)鍵詞語境中的上下文詞位置j進行歸一化處理以關(guān)鍵詞為原點,上下文詞位置距離關(guān)鍵詞的相對距離如下式:上式左邊位置相對距離為負值,右邊位置相對距離為正值。4.2)利用相對誤差法對誤差點丟棄上述左右位置相對距離d為自變量橫坐標x,根據(jù)上述步驟3得到的為對應(yīng)weight′(C,Cij∈(1,2,…2n))為縱坐標值,其為一離散圖,連接一條包含點最多的直線——即參考直線,如下:ax+by+c=0計算不在這條直線上的點(x′,y′)到它的距離:設(shè)置誤差邊界條件:d>θ當滿足上述邊界條件則丟棄這一點(x′,y′),反之,連接成曲線。4.3)歸一化曲線根據(jù)自變量橫坐標d可得兩條曲線,即f(-j)、f(j′-n)。例如:表1上下文位置(-j)-1-2-3-4-5-6-7-8-9weight′(C,Cij∈(1,2,…2n))2.181.991.871.771.601.501.301.201.10其曲線圖2所示:根據(jù)圖2的數(shù)據(jù)可得令x=-jf(-j)=ax3+bx2+cx+d同理可得令x′=j(luò)′-nf(j′-n)=a′(x′)3+b′(x′)2+c′x′+d′步驟5:基于上下文信息損失量計算關(guān)鍵詞語境中上下文窗口的左右窗口n值,其具體計算過程如下:上式P左為左邊窗口允許的一個信息損失量的邊界條件,α為用戶允許的一個閾值,只有滿足這個邊界條件,就可以確定左邊窗口的n值。同理右邊窗口的確定,有下式:上式P右為右邊窗口允許的一個信息損失量的邊界條件,α為用戶允許的一個閾值,只有滿足這個邊界條件,就可以確定右邊窗口的n值。這里左窗口的n值大小不一定等于右邊窗口大小,主要根據(jù)上兩式計算可得。步驟6:在步驟5關(guān)鍵詞C語境中上下文窗口的左右窗口n值條件下,基于上下文成分關(guān)系計算關(guān)鍵詞語境中上下文窗口的左右窗口n′左、n′右值。在經(jīng)過關(guān)鍵詞所在句法分析后,得到基于上下文信息損失量下的左右窗口內(nèi)句子的各個成分信息,這里使用句子中的主謂、動賓、定中、狀中4大主要成分關(guān)系,將這4大關(guān)系出現(xiàn)在句子中的次數(shù)構(gòu)成一個向量,叫做成分關(guān)系向量這里有m個語境,則會有m個成分關(guān)系向量即兩兩利用余弦定理:找到余弦角最小的兩個語境,假設(shè)其左右窗口值分別為(n1′,n2′)、(n1″,n2″)則上下文窗口的左右窗口n′值為:n′左=min(n1′n1″)n′右=min(n2′,n2″)上式n′左為最終關(guān)鍵詞左窗口值,n′右為最終關(guān)鍵詞右窗口值。一種確定關(guān)鍵詞上下文窗口的混合方法,其偽代碼計算過程如下:輸入:關(guān)鍵詞C,初始化語料庫或文本,θ誤差邊界值,α信息損失量邊界閾值輸出:得到關(guān)鍵詞C上下文本的左右窗口值n′左、n′右。當前第1頁1 2 3