两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法

文檔序號:6557968閱讀:196來源:國知局
專利名稱:一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機語言處理及信息檢索技術(shù)領(lǐng)域,具體涉及一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法。
背景技術(shù)
文檔相似性度量是文本信息處理領(lǐng)域的一個核心問題,很多文本應(yīng)用包括文檔聚類、文檔檢索、文檔過濾等,都依賴于文檔相似性的精確度量。目前已經(jīng)有許多文檔相似性度量方法被提出和應(yīng)用,例如余弦度量法(cosinemeasure)、Jaccard度量法、Dice度量法(參考文獻(xiàn)W.B.Frakes and R.Baeza-YatesInformation Retrieval,Data Structure and Algorithms,1992)、基于信息論的方法(參考文獻(xiàn)J.A.Aslam and M.FrostAnInformation-theoretic Measure for Document Similarity.In Proceedingsof SIGIR 2003)等,其中應(yīng)用最廣的是余弦度量法。
在以下文獻(xiàn)中記載了文檔相似性度量方法Dice度量法作者W.B.Frakes and R.Baeza-Yates,著作名稱Information Retrieval,Data Stfucture and Algorithms,出版日期1992年。
基于信息論的方法作者J.A.Aslam、M.Frost,題目AnInformation-theoretic Measure for Document Similarity,期刊名稱Proceedings of SIGIR’2003,出版日期2003年。
基于最優(yōu)匹配的考慮文檔結(jié)構(gòu)的方法作者X.J.Wan,Y.X.Peng,題目A New Retrieval Model Based on TextTiling for Document SimilaritySearch,期刊名稱Journal of Computer Science and Technology,出版日期2005年。
現(xiàn)有的文檔相似性度量方法都是基于向量空間模型。在向量空間模型中,文檔被看作一個詞袋,并被表示為一個向量,詞袋中的每一個詞被表示為該向量的一維,向量的每一維對應(yīng)的權(quán)值為其所代表的詞的tf×idf值,tf為該詞在文檔中出現(xiàn)的頻率,idf為該詞的倒排文檔頻率。一般通過log(N/n)來計算某個詞的idf,其中N為文檔集合中的文檔總數(shù),n為文檔集合中出現(xiàn)過該詞的文檔數(shù)目。
得到文檔的向量表示之后,余弦度量法(cosine measure)是通過以下余弦公式計算得到兩文檔的相似度值simcosine(x,y)=xρ·yρ|xρ|×|yρ|]]>其中 和 分別是文檔x和y的向量表示,·表示向量的點積,“||”表示取模計算。其他度量方法與余弦度量法的主要區(qū)別在于采用了不同的計算公式。
在以上文檔相似性度量方法中,文檔被壓縮成向量表示,因此失去了文檔自身的結(jié)構(gòu)信息,即丟失了詞語在文檔各個部分的分布信息。極端情況下,兩個表示為同一向量的文檔可以由不同的句子所組成,而使用現(xiàn)有的度量方法將這兩個文檔分別與某個給定文檔計算相似度時,計算結(jié)果會得到相同的相似度,但是實際上由于這兩個文檔是由不同的句子組成,這兩個文檔與給定文檔之間應(yīng)該具有不同的相似度值。因此,現(xiàn)有的度量方法的精確度不高。
為了克服以上文檔相似性度量方法的缺點,基于最優(yōu)匹配的考慮文檔結(jié)構(gòu)的方法則假定每一個文檔都由圍繞一個中心主題的若干個子主題組成,每一個子主題反映在文檔上為一個文本塊,也就是一組反映某個子主題的詞串或句子。詞在子主題上不同的分布情況將會影響文檔之間的相似性。對于兩個文檔來說,詞在子主題上的分布越相似,這兩個文檔之間相似程度越高。該方法利用文本分析技術(shù)得到文檔子主題序列之后,對兩個文檔對應(yīng)的子主題序列建立一個帶權(quán)二部圖,然后對此帶權(quán)二部圖通過Kuhn-Munkres算法(也叫匈牙利算法The Hungarian Method)求解最優(yōu)匹配,所得到的最優(yōu)匹配進(jìn)行規(guī)范化后即得這兩個文檔的相似度值。實驗表明了該方法相對傳統(tǒng)方法的優(yōu)越性。
但以上基于文檔結(jié)構(gòu)的方法存在一個缺點,那就是所采用的最優(yōu)匹配模型只允許一個文檔的一個子主題對應(yīng)于另一個文檔的一個子主題,也就是只允許文檔子主題之間的一一對應(yīng)?,F(xiàn)實應(yīng)用中,一個子主題應(yīng)該能和多個子主題相似,也就是說不同子主題之間應(yīng)該允許多對多的對應(yīng)關(guān)系,從而允許一個文檔中的某個子主題對應(yīng)于另一個文檔中的多個子主題。為了克服以上缺點,我們提出了利用線性規(guī)劃中的運輸問題對相似性度量問題建模,通過求解貨物運輸距離(Earth Mover’s Distance)來獲得文檔之間的相似度值。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種新的基于允許文檔子主題多對多匹配的文檔相似性度量方法,能夠更準(zhǔn)確地計算文檔之間的相似性,并具有更好的魯棒性。
為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案是一種新的基于文檔結(jié)構(gòu)的文檔相似性度量方法,包括以下步驟(1)對于需要比較的兩個文檔A和B,分別使用文檔結(jié)構(gòu)分析方法得出每個文檔的子主題序列;(2)根據(jù)文檔A和B的子主題結(jié)構(gòu)信息構(gòu)建一個帶權(quán)二部圖G,其中每個頂點帶有自身的權(quán)重,任兩個分屬A和B的子主題之間利用傳統(tǒng)相似性度量方法計算語義距離;進(jìn)一步,按以下方式對A和B建立一個帶權(quán)二部圖G.令A(yù)={(ta1,wa1),(ta2,wa2),...,(tam,wam}表示文檔A對應(yīng)的子主題結(jié)構(gòu),其中tai代表文檔A中的一個子主題,也就是一個文本塊,權(quán)重wai代表子主題tai中文本的所有詞語的數(shù)量;令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文檔B對應(yīng)的子主題結(jié)構(gòu),其中tbi代表文檔B中的一個子主題,也就是一個文本塊,權(quán)重wbi代表子主題tbi中文本的所有詞語的數(shù)量;令D={dij}為子主題之間的距離矩陣,其中dij表示子主題tai和tbi之間的語義距離,在這里,dij=1-sij,其中Sij為子主題tai和tbi所對應(yīng)的文本塊之間的余弦相似度值;令G={A,B,D}為根據(jù)A,B,D建立的加權(quán)圖,V=AYB為點集,D={dij}為邊集。
進(jìn)一步,所述的步驟(2)中計算兩個子主題之間語義距離的相似性度量方法為余弦度量法、Jaccard度量法或Dice度量法。
(3)在建立的帶權(quán)圖G中,根據(jù)求解線性規(guī)劃的方法求解下面這個貨物運輸距離EMD(A,B)尋找一個流動F={fij},其中表示子主題tai和tbi之間的流動,使得下面的總耗費最小WORK(A,B,F)=Σi=1mΣj=1nfijdij]]>并且滿足下面的的約束條件(a)fij≥01≤i≤m 1≤j≤n
(b)Σj=1nfij≤wai,1≤i≤m]]>(c)Σi=1mfij≤wbj,1≤j≤n]]>(d)Σi=1mΣj=1nfij=min(Σi=1mwai,Σj=1nwbj)]]>約束(a)只允許詞語從A向B流動,反之則不成立;約束(b)限制A中某個子主題能夠發(fā)送的詞語數(shù)量最多為其對應(yīng)的權(quán)重;約束(c)限制B中某個子主題能夠接受的詞語數(shù)量最多為其對應(yīng)的權(quán)重;約束(d)使得盡可能從A移動最多數(shù)量的詞語到B。
求得最優(yōu)流動F之后,貨物運輸距離(Earth Mover’s Distance)定義為規(guī)范化的工作耗費,根據(jù)下式計算得到EMD(A,B)=Σi=1mΣj=1nfijdijΣi=1mΣj=1nfij]]>進(jìn)一步,所述的求解線性規(guī)劃的方法為單純形算法,包括以下步驟①通過形式變換和添加松弛變量,將該問題轉(zhuǎn)化為標(biāo)準(zhǔn)線性規(guī)劃形式Min WORK(A,B,F)=Σi=1mΣj=1nfijdij]]>s.t.Σj=1nfij+xi=wai,1≤i≤m]]>Σi=1mfij+yj=wbj,1≤j≤n]]>Σi=1mΣj=1nfij=min(Σi=1mwai,Σj=1nwbj)]]>fij≥0,xi≥0,yj≥0,1≤i≤m,1≤j≤n]]>其中fij,xi,yj為變量;②計算上面標(biāo)準(zhǔn)線性規(guī)劃的初始基可行解,如果當(dāng)前基可行解是最優(yōu)解,那么輸出該解,算法終止;否則轉(zhuǎn)③;③根據(jù)典式尋找新的基可行解,新的基與原有的基只有一個變量不同,將該變量用新挑選的變量替換,即得新基;④如果當(dāng)前基可行解是最優(yōu)解,或者循環(huán)次數(shù)達(dá)到預(yù)先規(guī)定的數(shù)目,算法停止,輸出當(dāng)前解,否則轉(zhuǎn)③;求得最優(yōu)流動F之后,貨物運輸距離(Earth Mover’s Distance)定義為規(guī)范化的工作耗費,根據(jù)下式計算得到
EMD(A,B)=Σi=1mΣj=1nfijdijΣi=1mΣj=1nfij.]]>(4)得到貨物運輸距離EMD(A,B)之后,通過下式計算文檔A與B之間的相似度值SimEMD(A,B)=1-EMD(A,B)其中,所述的文檔結(jié)構(gòu)分析方法為文本塊分割方法(TextTiling)。
其中,所述的文檔結(jié)構(gòu)分析方法為聚類方法。
本發(fā)明的效果在于本發(fā)明提出的基于貨物運輸距離的文檔相似性度量方法,自然地將單個子主題之間的相似度值擴展到文檔之間的相似度值,允許子主題之間滿足一定約束條件下的多對多匹配,也就是允許子主題之間的部分匹配,克服了利用最優(yōu)匹配只允許子主題只見一對一的全部匹配這個缺點,從而提高了文檔相似性判斷的準(zhǔn)確度及其魯棒性。


圖1是本發(fā)明所述方法的流程圖;圖2是使用本發(fā)明提出的方法進(jìn)行文檔相似搜索的示意圖;圖3是使用本發(fā)明提出的方法進(jìn)行文檔聚類的示意圖;圖4是文檔子主題結(jié)構(gòu)的例子;圖5是一個文檔子主題之間多對多匹配的例子;圖6是不同文檔分析方法基礎(chǔ)上最優(yōu)匹配方法和本發(fā)明的MAP對比圖;圖7是不同文檔分析方法基礎(chǔ)上最優(yōu)匹配方法和本發(fā)明的P@5對比圖;圖8是不同文檔分析方法基礎(chǔ)上最優(yōu)匹配方法和本發(fā)明的P@10對比圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步的描述。
如圖4所示,每一個文檔都由圍繞一個中心主題的若干個子主題組成,每一個子主題反映在文檔上為一個文本塊,也就是一組反映某個子主題的詞串或句子。獲得文檔子主題的方法有多種,例如文本塊分割方法和句子聚類方法等,本發(fā)明優(yōu)選實施例一,采用文本塊分割方法(TextTiling)對文檔結(jié)構(gòu)進(jìn)行分析,流程如圖1所示包括以下步驟1、讀入需要比較的兩個文檔X和Y,對于需要比較的兩個文檔X和Y,分別使用文本塊分割方法(TextTiling)得出每個文檔的子主題序列X={x1,x2,...,xn}和Y={y1,y2,...ym},具體步驟為①對讀入的文檔X進(jìn)行分詞,每20個詞劃分成1個詞串,詞串的大小可根據(jù)需要選擇。
②為每兩個詞串之間的位置通過下列方法計算一個相似度值對于詞串i和詞串i+1之間的位置,計算由詞串i-k到詞串i組成的文本塊與由詞串i+1到i+k+1組成的文本塊之間的余弦相似度值,這個值就是詞串i和詞串i+1之間位置的相似度值xi,然后對每一個位置的相似度值利用其兩側(cè)位置的相似度值的平均值進(jìn)行平滑處理。其中k通常為6。
③對每兩個詞串i和i+1之間的位置計算其深度值si=(xi-1-xi)+(xi+1-xi),深度值越大,越有可能成為子主題分界點。只保留si>0的位置,對這些位置按照深度值從大到小排序。如果某個位置的深度值大于s-σ/2(其中s為平均深度值,σ位深度值的標(biāo)準(zhǔn)差),那么這個位置為一個子主題的分界點。所有的子主題分界點確定之后,就能得到文檔X的子主題序列{x1,x2,...,xn},如圖4所示,文檔被劃分為一個子主題序列。
對文檔Y同樣進(jìn)行①-③步驟處理,得到文檔Y的子主題序列{y1,y2,...ym};2、根據(jù)文檔A和B的子主題結(jié)構(gòu)信息構(gòu)建一個帶權(quán)二部圖G,其中每個頂點帶有自身的權(quán)重,任兩個分屬A和B的子主題之間利用傳統(tǒng)相似性度量方法計算語義距離;按以下方式對A和B建立一個帶權(quán)圖G.令A(yù)={(ta1,wa1),(ta2,wa2),...,(tam,wam}表示文檔A對應(yīng)的子主題結(jié)構(gòu),其中tai代表文檔A中的一個子主題,也就是一個文本塊,權(quán)重wai代表子主題tai中文本的所有詞語的數(shù)量;令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文檔B對應(yīng)的子主題結(jié)構(gòu),其中tbi代表文檔B中的一個子主題,也就是一個文本塊,權(quán)重wbi代表子主題tbi中文本的所有詞語的數(shù)量;令D={dij}為子主題之間的距離矩陣,其中dij表示子主題tai和tbi之間的語義距離,在這里,dij=1-sij,其中Sij為子主題tai和tbi所對應(yīng)的文本塊之間的余弦相似度值;令G={A,B,D}為根據(jù)A,B,D建立的加權(quán)圖,V=AYB為點集,D={dij}為邊集。
3、在建立的帶權(quán)圖G中,我們利用單純形算法求解下面這個運輸問題尋找一個流動F={fij},其中表示子主題tai和tbi之間的流動,使得下面的總耗費最小WORK(A,B,F)=Σi=1mΣj=1nfijdij]]>并且滿足下面的的約束條件(a)fij≥01≤i≤m1≤j≤n(b)Σj=1nfij≤wai,1≤i≤m]]>(c)Σi=1mfij≤wbj,1≤j≤n]]>(d)Σi=1mΣj=1nfij=min(Σi=1mwai,Σj=1nwbj)]]>約束(a)只允許詞語從A向B流動,反之則不成立;約束(b)限制A中某個子主題能夠發(fā)送的詞語數(shù)量最多為其對應(yīng)的權(quán)重;約束(c)限制B中某個子主題能夠接受的詞語數(shù)量最多為其對應(yīng)的權(quán)重;約束(d)使得盡可能從A移動最多數(shù)量的詞語到B。
單純形算法的主要步驟如下①通過形式變換和添加松弛變量,將該問題轉(zhuǎn)化為標(biāo)準(zhǔn)線性規(guī)劃形式Min WORK(A,B,F)=Σi=1mΣj=1nfijdij]]>s.t.Σj=1nfij+xi=wai,1≤i≤m]]>Σi=1mfij+yj=wbj,1≤j≤n]]>Σi=1mΣj=1nfij=min(Σi=1mwai,Σj=1nwbj)]]>fij≥0,xi≥0,yj≥0,1≤i≤m,1≤j≤n]]>其中fij,xi,yj為變量;②計算上面標(biāo)準(zhǔn)線性規(guī)劃的初始基可行解,如果當(dāng)前基可行解是最優(yōu)解,那么輸出該解,算法終止;否則轉(zhuǎn)③;③根據(jù)典式尋找新的基可行解,新的基與原有的基只有一個變量不同,將該變量用新挑選的變量替換,即得新基;④如果當(dāng)前基可行解是最優(yōu)解,或者循環(huán)次數(shù)達(dá)到預(yù)先規(guī)定的數(shù)目,算法停止,輸出當(dāng)前解,否則轉(zhuǎn)③;求得最優(yōu)流動F之后,貨物運輸距離(Earth Mover’s Distance)定義為規(guī)范化的工作耗費,根據(jù)下式計算得到EMD(A,B)=Σi=1MΣj=1nfijdijΣi=1mΣj=1nfij]]>4、得到貨物運輸距離EMD(A,B)之后,通過下式計算文檔A與B之間的相似度值SimEMD(A,B)=1-EMD(A,B)。
本發(fā)明優(yōu)選實施例二,采用聚類技術(shù)對文檔結(jié)構(gòu)分析,包括以下步驟1、讀入需要比較的兩個文檔X和Y,對于兩個文檔X和Y分別利用聚類方法獲得文檔子主題序列,具體算法步驟為①對讀入的文檔進(jìn)行分詞,并將文檔劃分為n個句子;②計算任意兩個句子之間的余弦相似度值;③采用數(shù)據(jù)聚類方法對句子進(jìn)行聚類,每一類中的所有句子組成的文本塊即為一個子主題。本實施例采用聚集式聚類方法來對句子進(jìn)行聚類,步驟為a.初始每個句子成一類,共有k個類簇;b.現(xiàn)有k個類簇中具有最大相似度值的兩個類簇c1和c2,通過如下公式計算c1和c2之間的相似度值s12s12=Σi=1mΣj=1nsim(pi,pj)m×n]]>其中pi表示c1中的句子,pj表示c2中的句子,sim(pi,pj)表示句子pi和pj之間的余弦相似度值;m,n分別為c1和c2中句子的個數(shù)。
如果c1和c2之間的相似度值s12大于設(shè)定的合并閾值t=0.10,那么合并這兩類成為一個新類,此時類簇個數(shù)k=k-1,如果k=1,則算法終止,否則返回步驟b繼續(xù)進(jìn)行新一輪類簇合并。
如果c1和c2之間的相似度值s12小于等于設(shè)定的合并閾值t=0.10,那么算法終止。
2、按以下方式對A和B建立一個帶權(quán)圖G
令A(yù)={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文檔A對應(yīng)的子主題結(jié)構(gòu),其中tai代表文檔A中的一個子主題,也就是一個文本塊,權(quán)重wai代表子主題tai中文本的所有詞語的數(shù)量。
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn}表示文檔B對應(yīng)的子主題結(jié)構(gòu),其中tbi代表文檔B中的一個子主題,也就是一個文本塊,權(quán)重wbi代表子主題tbi中文本的所有詞語的數(shù)量。
令D={dij}為子主題之間的距離矩陣,其中dij表示子主題tai和tbi之間的語義距離。在這里,dij=1-sij,其中Sij為子主題tai和tbi所對應(yīng)的文本塊之間的余弦相似度值。
令G={A,B,D}為根據(jù)A,B,D建立的加權(quán)圖,V=AYB為點集,D={dij}為邊集。
3、在建立的帶權(quán)圖G中,我們利用單純形算法求解下面這個運輸問題尋找一個流動F={fij},其中表示子主題tai和tbi之間的流動,使得下面的總耗費最小WORK(A,B,F)=Σi=1mΣj=1nfijdij]]>并且滿足下面的的約束條件(a)fij≥01≤i≤m1≤j≤n(b)Σj=1nfij≤wai,1≤i≤m]]>(c)Σi=1mfij≤wbj,1≤j≤n]]>(d)Σi=1mΣj=1nfij=min(Σi=1mwai,Σj=1nwbj)]]>約束(a)只允許詞語從A向B流動,反之則不成立;約束(b)限制A中某個子主題能夠發(fā)送的詞語數(shù)量最多為其對應(yīng)的權(quán)重;約束(c)限制B中某個子主題能夠接受的詞語數(shù)量最多為其對應(yīng)的權(quán)重;約束(d)使得盡可能從A移動最多數(shù)量的詞語到B。
單純形算法的主要步驟如下①通過形式變換和添加松弛變量,將該問題轉(zhuǎn)化為標(biāo)準(zhǔn)線性規(guī)劃形式Min WORK(A,B,F)=Σi=1mΣj=1nfijdij]]>s.t.
Σj=1nfij+xi=wai,1≤i≤m]]>Σi=1mfij+yj=wbj,1≤j≤n]]>Σi=1mΣj=1nfij=min(Σi=1mwai,Σj=1nwbj)]]>fij≥0,xi≥0,yj≥0,1≤i≤m,1≤j≤n]]>其中fij,xi,yi為變量;②計算上面標(biāo)準(zhǔn)線性規(guī)劃的初始基可行解,如果當(dāng)前基可行解是最優(yōu)解,那么輸出該解,算法終止;否則轉(zhuǎn)③;③根據(jù)典式尋找新的基可行解,新的基與原有的基只有一個變量不同,將該變量用新挑選的變量替換,即得新基;④如果當(dāng)前基可行解是最優(yōu)解,或者循環(huán)次數(shù)達(dá)到預(yù)先規(guī)定的數(shù)目,算法停止,輸出當(dāng)前解。否則轉(zhuǎn)③;我們求得最優(yōu)流動F之后,貨物運輸距離(Earth Mover’s Distance)定義為規(guī)范化的工作耗費,根據(jù)下式計算得到EMD(A,B)=Σi=1mΣj=1nfijdijΣi=1mΣj=1nfij]]>4、得到貨物運輸距離EMD(A,B)之后,通過下式計算文檔A與B之間的相似度值SimEMD(A,B)=1-EMD(A,B)。
如圖2所示為利用本發(fā)明進(jìn)行對相似文檔的搜索。如圖3所示為利用本發(fā)明進(jìn)行文檔聚類。
為了驗證本發(fā)明的有效性和魯棒性,采用主題檢測與追蹤(TDT)大會的數(shù)據(jù)(TDT-3)進(jìn)行了比較。在TDT-3數(shù)據(jù)集中一共有120個主題,每個主題下有人工標(biāo)注的若干個文檔。根據(jù)TDT的定義,屬于同一主題中的文檔之間比屬于不同主題之間的文檔之間更相似。對于給定的文檔,通過不同的相似性度量方法從文檔集合中找出最相似的200個文檔,然后將這個列表跟答案比較,根據(jù)效果的好壞來比較各種文檔相似性度量方法,包括最流行的余弦度量法(cosine),Smart系統(tǒng)中的對文檔長度規(guī)范化的向量空間方法PivotedVSM,Okapi系統(tǒng)中的BM25方法以及利用最優(yōu)匹配的考慮文檔結(jié)構(gòu)的方法。采用文檔檢索中常用的前5個結(jié)果中的準(zhǔn)確率P@5,前10個結(jié)果中的準(zhǔn)確率P@10,平均準(zhǔn)確率(MAP)來比較不同相似性度量方法的性能。實驗結(jié)果如表1所示表1.不同相似性度量方法的性能比較

表1的結(jié)果表明,本發(fā)明的方法能夠更好地度量文檔相似性,提高文檔檢索性能,在幾乎所有指標(biāo)上都優(yōu)于傳統(tǒng)方法和基于最優(yōu)匹配的考慮文檔結(jié)構(gòu)的方法。
同時,我們利用不同的文檔分析方法得到的文檔子主題結(jié)構(gòu)作為基礎(chǔ)來對比了基于最優(yōu)匹配的方法和本發(fā)明的方法。圖6、圖7和圖8分別顯示了在不同文檔分析方法得到文檔子主題結(jié)構(gòu)的基礎(chǔ)上利用最優(yōu)匹配的方法和本發(fā)明的方法的性能對比。所示的圖6、圖7和圖8中,OM為最優(yōu)匹配的方法,EMD為本發(fā)明的方法。TextTiling表示根據(jù)文本塊分割方法得到文檔子主題結(jié)構(gòu),cluster(0.005)表示利用句子聚類的方法得到文本子主題結(jié)構(gòu),0.005為聚類合并閾值,其余類似。
從圖中可以看出,本發(fā)明的方法(EMD)的性能在不同文檔分析基礎(chǔ)上表現(xiàn)比較穩(wěn)定,性能沒有大幅波動,但是基于最優(yōu)匹配的方法(OM)則表現(xiàn)不穩(wěn)定,基于文本塊分割方法獲得的文檔子主題時表現(xiàn)較好,基于句子聚類方法獲得的文檔子主題時表現(xiàn)則較差,性能波動明顯。可見本發(fā)明提出的基于貨物運輸距離的文檔相似性度量方法,自然地將單個子主題之間的相似度值擴展到文檔之間的相似度值,允許子主題之間滿足一定約束條件下的多對多匹配,如圖5所示,也就是允許子主題之間的部分匹配,克服了利用最優(yōu)匹配只允許子主題只見一對一的全部匹配這個缺點,從而提高了文檔相似性判斷的準(zhǔn)確度及其魯棒性。
本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法,該方法包括以下步驟(1)對于待比較的兩個文檔A和B,利用文檔結(jié)構(gòu)分析方法分別得到所述兩個文檔A和B的子主題結(jié)構(gòu);(2)根據(jù)文檔A和B的子主題結(jié)構(gòu)信息構(gòu)建一個帶權(quán)二部圖G,其中每個頂點帶有自身的權(quán)重,任兩個分屬A和B的子主題之間利用傳統(tǒng)相似性度量方法計算語義距離;(3)在建立的帶權(quán)圖G中,根據(jù)求解線性規(guī)劃的方法求解其貨物運輸距離EMD(A,B);(4)根據(jù)1-EMD(A,B)得到文檔A和B之間的相似度值。
2.如權(quán)利要求1所述的一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法,其特征在于,所述的步驟(1)中文檔結(jié)構(gòu)分析方法為文本塊分割方法。
3.如權(quán)利要求1所述的一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法,其特征在于,所述的步驟(1)中文檔結(jié)構(gòu)分析方法為聚類方法。
4.如權(quán)利要求1所述的改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法,其特征在于,所述的步驟(2)中頂點的權(quán)重為該頂點表示的文本中詞語的數(shù)量。
5.如權(quán)利要求1所述的一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法,其特征在于,所述的步驟(2)中按以下方式對A和B建立一個帶權(quán)二部圖G令A(yù)={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文檔A對應(yīng)的子主題結(jié)構(gòu),其中tai代表文檔A中的一個子主題,也就是一個文本塊,權(quán)重wai代表子主題tai中文本的所有詞語的數(shù)量;令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文檔B對應(yīng)的子主題結(jié)構(gòu),其中tbi代表文檔B中的一個子主題,也就是一個文本塊,權(quán)重wbi代表子主題tbi中文本的所有詞語的數(shù)量;令D={dij}為子主題之間的距離矩陣,其中dij表示子主題tai和tbi之間的語義距離,在這里,dij=1-sij,其中Sij為子主題tai和tbi所對應(yīng)的文本塊之間的余弦相似度值;令G={A,B,D}為根據(jù)A,B,D建立的加權(quán)圖,V=AYB為點集,D={dij}為邊集。
6.如權(quán)利要求1、2、3、4或5所述的一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法,其特征在于,所述的步驟(2)中計算兩個子主題之間語義距離的相似性度量方法為余弦度量法、Jaccard度量法或Dice度量法。
7.如權(quán)利要求1、2、3、4或5所述的一種改進(jìn)的基于文檔結(jié)構(gòu)的文檔相似性度量方法,其特征在于,所述的步驟(3)中求解線性規(guī)劃的方法為單純形算法,包括以下步驟①通過形式變換和添加松弛變量,將該問題轉(zhuǎn)化為標(biāo)準(zhǔn)線性規(guī)劃形式Min WORK(A,B,F)=Σi=1mΣj=1nfijdij]]>s.t.Σj=1nfij+xi=wai]]>1≤i≤mΣi=1mfij+yj=wbj]]>1≤j≤nΣi=1mΣj=1nfij=min(Σi=1mwai,Σj=1nwbj)]]>fij≥0,xi≥0,yj≥0 1≤i≤m 1≤j≤n其中fij,xi,yj為變量;②計算上面標(biāo)準(zhǔn)線性規(guī)劃的初始基可行解,如果當(dāng)前基可行解是最優(yōu)解,那么輸出該解,算法終止;否則轉(zhuǎn)③;③根據(jù)典式尋找新的基可行解,新的基與原有的基只有一個變量不同,將該變量用新挑選的變量替換,即得新基;④如果當(dāng)前基可行解是最優(yōu)解,或者循環(huán)次數(shù)達(dá)到預(yù)先規(guī)定的數(shù)目,算法停止,輸出當(dāng)前解,否則轉(zhuǎn)③;求得最優(yōu)流動F之后,貨物運輸距離(Earth Mover’s Distance)定義為規(guī)范化的工作耗費,根據(jù)下式計算得到EMD(A,B)=Σi=1mΣj=1nfijdijΣi=1mΣj=1nfij.]]>
全文摘要
本發(fā)明涉及一種改進(jìn)的基于文檔子主題結(jié)構(gòu)的文檔相似性度量方法,屬于語言的計算機處理和信息檢索技術(shù)領(lǐng)域。針對傳統(tǒng)相似性度量方法丟失了詞語在文檔各個部分的分布信息這個缺點以及利用最優(yōu)匹配的基于文檔子主題結(jié)構(gòu)的方法只允許子主題之間一對一匹配的缺點。本發(fā)明所述的方法利用文檔結(jié)構(gòu)分析方法分別得到所述兩個文檔A和B的子主題結(jié)構(gòu),然后通過構(gòu)建一個帶權(quán)二部圖G并根據(jù)求解線性規(guī)劃的方法求解其貨物運輸距離EMD(A,B),最后根據(jù)1-EMD(A,B)得到文檔A和B之間的相似度值。本發(fā)明允許文檔子主題之間在一定約束條件下進(jìn)行多對多匹配,從而提高了文檔相似性判斷的準(zhǔn)確度,同時,該方法具有更好的魯棒性。
文檔編號G06F17/27GK1828610SQ200610072588
公開日2006年9月6日 申請日期2006年4月13日 優(yōu)先權(quán)日2006年4月13日
發(fā)明者萬小軍, 彭宇新, 楊建武, 吳於茜, 陳曉鷗 申請人:北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正技術(shù)研究院有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
龙海市| 封丘县| 靖州| 锡林郭勒盟| 鄂托克旗| 精河县| 福安市| 屯留县| 深州市| 吉林省| 崇文区| 枣阳市| 遂昌县| 永宁县| 清徐县| 崇礼县| 鄯善县| 隆安县| 河池市| 玉田县| 顺平县| 东台市| 上林县| 讷河市| 宕昌县| 钟祥市| 连云港市| 浦北县| 祁门县| 井冈山市| 上高县| 右玉县| 鄂尔多斯市| 安仁县| 阿拉善左旗| 和静县| 崇仁县| 桦南县| 普兰店市| 神池县| 宁南县|