两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于文檔結構的文檔相似性度量方法

文檔序號:6650227閱讀:259來源:國知局
專利名稱:基于文檔結構的文檔相似性度量方法
技術領域
本發(fā)明涉及一種文檔結構相似性度量的數據處理方法。
背景技術
文檔相似性度量是文本信息處理領域的一個核心問題,很多文本應用包括文檔聚類、文檔檢索、文檔過濾等,都依賴于文檔相似性的精確度量。目前已經有許多文檔相似性度量方法被提出和應用,例如余弦度量法(cosine measure)、Jaccard度量法、Dice度量法(參考文獻W.B.Frakes andR.Baeza-YatesInformation Retrieval,Data Structure and Algorithms,1992)、基于信息論的方法(參考文獻J.A.Aslam and M.FrostAnInformation-theoretic Measure for Document Similarity.In Proceedings ofSIGIR 2003)等,其中應用最廣的是余弦度量法。
在以下文獻中記載了文檔相似性度量方法Dice度量法作者W.B.Frakes and R.Baeza-Yates,著作名稱Information Retrieval,Data Structure and Algorithms,出版日期1992年。
基于信息論的方法作者J.A.Aslam、M.Frost,題目AnInformation-theoretic Measure for Document Similarity,期刊名稱Proceedings of SIGIR’2003,出版日期2003年。
現有的文檔相似性度量方法都是基于向量空間模型。在向量空間模型中,文檔被看作一個詞袋,并被表示為一個向量,詞袋中的每一個詞被表示為該向量的一維,向量的每一維對應的權值為其所代表的詞的tf×idf值,tf為該詞在文檔中出現的頻率,idf為該詞的倒排文檔頻率。一般通過log(N/n)來計算某個詞的idf,其中N為文檔集合中的文檔總數,n為文檔集合中出現過該詞的文檔數目。
得到文檔的向量表示之后,余弦度量法(cosine measure)是通過以下余弦公式計算得到兩文檔的相似度值simcosine(x,y)=x→·y→|x→|×|y→|]]>其中 和 分別是文檔x和y的向量表示,·表示向量的點積,“||”表示取模計算。其他度量方法與余弦度量法的主要區(qū)別在于采用了不同的計算公式。
在以上文檔相似性度量方法中,文檔被壓縮成向量表示,因此失去了文檔自身的結構信息,即丟失了詞語在文檔各個部分的分布信息。極端情況下,兩個表示為同一向量的文檔可以由不同的句子所組成,而使用現有的度量方法將這兩個文檔分別與某個給定文檔計算相似度時,計算結果會得到相同的相似度,但是實際上由于這兩個文檔是由不同的句子組成,這兩個文檔與給定文檔之間應該具有不同的相似度值。因此,現有的度量方法的精確度不高。
每一個文檔都由圍繞一個中心主題的若干個子主題組成,每一個子主題反映在文檔上為一個文本塊,也就是一組反映某個子主題的詞串或句子。詞在子主題上不同的分布情況將會影響文檔之間的相似性。對于兩個文檔來說,詞在子主題上的分布越相似,這兩個文檔之間相似程度越高。在計算文檔之間的相似度時,可以使用圖論的最優(yōu)匹配的算法,例如Kuhn-Munkres算法(也叫匈牙利算法The Hungarian Method)。
在以下文獻中記載了Kuhn-Munkres算法作者W.S.Xiao著作Graph Theory and Its Algorithms,出版日期1993年。

發(fā)明內容
針對上述現有的文檔相似性度量方法中存在的問題和不足,本發(fā)明的目的是提供一種基于文檔結構的文檔相似性度量方法,能夠更準確地計算文檔之間的相似性。
本發(fā)明是這樣實現的一種基于文檔結構的文檔相似性度量方法,包括以下步驟(1)對于需要比較的兩個文檔X和Y,分別使用文檔結構分析方法得出每個文檔的子主題序列X={x1,x2,...,xn}和Y={y1,y2,...ym};(2)對文檔X的子主題序列中的每一子主題xi,分別與文檔Y子主題序列中的每一子主題yi利用相似性度量方法計算相似度值wij;(3)對步驟(1)得到的兩個文檔的子主題序列及步驟(2)得到的相似度wij,建立一個帶權二部圖G={X,Y,E},其中點集X,Y分別為兩個文檔中的子主題序列,邊集E中的邊eij聯系子主題xi和yj,該邊的權重wij為步驟(2)算得到的xi和yi的相似度值;(4)對帶權二部圖G={X,Y,E}求解最優(yōu)匹配,對最優(yōu)匹配的總權值進行規(guī)范化處理,即得到文檔X與Y的相似度值。
其中,所述的文檔結構分析方法為文本塊分割方法(TextTiling)。
其中,所述的文檔結構分析方法為聚類方法。
其中,所述的相似性度量方法為余弦度量法(cosine measure)。
其中,所述的相似性度量方法為Jaccard度量法。
其中,所述的相似性度量方法為Dice度量法其中,所述的相似性度量方法為基于信息論的方法。
其中,所述的求解最優(yōu)匹配的方法為Kuhn-Munkres算法。
本發(fā)明提出的基于文檔結構的文檔相似性度量方法,解決了現有文檔相似性度量技術中丟失了詞語在文檔各個部分的分布信息的問題,提高了文檔相似性判斷的準確度。


圖1是本發(fā)明流程示意圖;圖2是使用本發(fā)明提出的方法進行文檔相似搜索的示意圖;圖3是使用本發(fā)明提出的方法進行文檔聚類的示意圖;圖4是文檔子主題結構的例子;圖5所示是一個最優(yōu)匹配的例子。
具體實施例方式
每一個文檔都由圍繞一個中心主題的若干個子主題組成,每一個子主題反映在文檔上為一個文本塊,也就是一組反映某個子主題的詞串或句子。詞在子主題上不同的分布情況將會影響文檔之間的相似性。對于兩個文檔來說,詞在子主題上的分布越相似,這兩個文檔之間相似程度越高。
本發(fā)明優(yōu)選實施例一,采用文本塊分割方法(TextTiling)對文檔結構進行分析,流程如圖1所示包括以下步驟1、讀入需要比較的兩個文檔X和Y,對于需要比較的兩個文檔X和Y,分別使用文本塊分割方法(TextTiling)得出每個文檔的子主題序列X={x1,x2,...,xn}和Y={y1,y2,...ym},具體步驟為①對讀入的文檔X進行分詞,每20個詞劃分成1個詞串,詞串的大小可根據需要選擇。
②為每兩個詞串之間的位置通過下列方法計算一個相似度值對于詞串i和詞串i+1之間的位置,計算由詞串i-k到詞串i組成的文本塊與由詞串i+1到i+k+1組成的文本塊之間的余弦相似度值,這個值就是詞串i和詞串i+1之間位置的相似度值xi,然后對每一個位置的相似度值利用其兩側位置的相似度值的平均值進行平滑處理。其中k通常為6。
③對每兩個詞串i和i+1之間的位置計算其深度值si=(xi-1-xi)+(xi+1-xi),深度值越大,越有可能成為子主題分界點。只保留si>0的位置,對這些位置按照深度值從大到小排序。如果某個位置的深度值大于s-σ/2(其中s為平均深度值,σ位深度值的標準差),那么這個位置為一個子主題的分界點。所有的子主題分界點確定之后,就能得到文檔X的子主題序列{x1,x2,...,xn},如圖4所示,文檔被劃分為一個子主題序列。
對文檔Y同樣進行①-③步驟處理,得到文檔Y的子主題序列{y1,y2,...ym};2、對文檔X的子主題序列中的每一子主題xi,分別與文檔Y的每一子主題yi利用余弦度量法計算相似度值wij;
3、建立一個帶權二部圖G={X,Y,E},其中點集X,Y分別為兩個文檔中的子主題序列,邊集E中的邊eij聯系子主題xi和yj,該邊的權重wij為步驟(2)算得到的xi和yj的相似度值;4、如圖5所示,對帶權二部圖G采用Kuhn-Munkres算法求解最優(yōu)匹配,得到最優(yōu)匹配的總權重optmatch(X,Y),包括以下步驟①給出初始標號,l(xi)=maxjeij;l(yi)=0;i=1,2...,t;j=1,2.....,t;其中t=max(n,m);②求出邊集El={(xi,yi)|l(xi)+l(yj)=eij}、Gl=(X,Y,Rl)及Gl中的一個匹配M;③如M已飽和X的所有結點,則M即是G的最優(yōu)匹配,計算結束,否則進行下一步;④在X中找一M非飽和點x0,令A←{x0},B←φ,A,B是兩個集合;⑤若NGl(A)=B,]]>則進行第⑨步,否則進行下一步,其中,NGl(A)⊆Y,]]>是與A中結點鄰接的結點集合;⑥找一結點y∈NGl(A)-B;]]>⑦若y是M飽和點,則找出y的配對點z,令A←A∪{z},B←B∪{y},轉第⑤步,否則進行下一步;⑧存在一條從x0到y的可增廣路徑P,令M←ME(P),轉第③步;⑨按下式計算a值a=minxi∈A,yj∉NGl(A){l(xi)+l(yj)-eij},]]>修改標號
根據l′求El′及Gl′⑩l←l′,Gl←Gl′,轉第⑥步。
5、對最優(yōu)匹配的總權重按照下式進行規(guī)范化處理,從而得到文檔X和Y之間的相似度值simnormized(X,Y)=optmatch(X,Y)min(length(X),length(Y))]]>其中optmatch(X,Y)表示求得的最優(yōu)匹配的總權重,length(X)表示文檔中子主題的個數,min(length(X),length(Y))為返回length(X)和length(Y)之中的較小的值。
本發(fā)明優(yōu)選實施例二,采用聚類技術對文檔結構分析,包括以下步驟1、讀入需要比較的兩個文檔X和Y,對于兩個文檔X和Y分別利用聚類方法獲得文檔子主題序列,具體算法步驟為①對讀入的文檔進行分詞,并將文檔劃分為n個句子;②計算任意兩個句子之間的余弦相似度值;③采用數據聚類方法對句子進行聚類,每一類中的所有句子組成的文本塊即為一個子主題。本實施例采用聚集式聚類方法來對句子進行聚類,步驟為a.初始每個句子成一類,共有k個類簇;b.現有k個類簇中具有最大相似度值的兩個類簇c1和c2,通過如下公式計算c1和c2之間的相似度值s12s12=Σi=1mΣj=1nsim(pi,pj)m×n]]>
其中pi表示c1中的句子,pj表示c2中的句子,sim(pi,pj)表示句子pi和pj之間的余弦相似度值;m,n分別為c1和c2中句子的個數。
如果c1和c2之間的相似度值s12大于設定的合并閾值t=0.10,那么合并這兩類成為一個新類,此時類簇個數k=k-1,如果k=1,則算法終止,否則返回步驟b繼續(xù)進行新一輪類簇合并。
如果c1和c2之間的相似度值s12小于等于設定的合并閾值t=0.10,那么算法終止。
2、對文檔X的子主題序列中的每一子主題xi,分別與文檔Y的每一子主題yj利用余弦度量法計算相似度值wij;3、建立一個帶權二部圖G={X,Y,E},其中點集X,Y分別為兩個文檔中的子主題序列,邊集E中的邊eij聯系子主題xi和yj,該邊的權重wij為步驟(2)算得到的xi和yj的相似度值wij;4、如圖5所示,對帶權二部圖G采用Kuhn-Munkres算法求解最優(yōu)匹配,得到最優(yōu)匹配的總權重optmatch(X,Y),包括以下步驟①給出初始標號,l(xi)=maxjeij;l(yj)=o;i=1,2...,t;j=1,2.....,t;其中t=max(n,m)②求出邊集El={xi,yj)|l(xi)+l(yj)=eij}、Gl=(X,Y,El)及Gl中的一個匹配M;③如M已飽和X的所有結點,則M即是G的最優(yōu)匹配,計算結束,否則進行下一步;④在X中找一M非飽和點x0,令A←{x0},B←φ,A,B是兩個集合;⑤若NGl(A)=B,]]>則進行第⑨步,否則進行下一步,其中,NGl(a)⊆Y,]]>是與A中結點鄰接的結點集合;⑥找一結點y∈NGl(A)-B;]]>⑦若y是M飽和點,則找出y的配對點z,令A←A∪{z},B←B∪{y},轉第⑤步,否則進行下一步;⑧存在一條從x0到y的可增廣路徑P,令M←ME(P),轉第③步;⑨按下式計算a值a=minxi∈A,yj∉NGl(A){l(xi)+l(yj)-eij},]]>修改標號 根據l′求El′及Gl′⑩l←l′,Gl←Gl′,轉第⑥步。
5、對最優(yōu)匹配的總權重按照下式進行規(guī)范化處理,從而得到文檔X和Y之間的相似度值simnormized(X,Y)=optmatch(X,Y)min(length(X),length(Y))]]>其中optmatch(X,Y)表示求得的最優(yōu)匹配的總權重,length(X)表示文檔中子主題的個數,min(length(X),length(Y))為返回length(X)和length(Y)之中的較小的值。
如圖2所示為利用本發(fā)明進行對相似文檔的搜索。如圖3所示為利用本發(fā)明進行文檔聚類。
為了驗證本發(fā)明的有效性,采用主題檢測與追蹤(TDT)大會的數據(TDT-3)進行了比較。在TDT-3數據集中一共有120個主題,每個主題下有人工標注的若干個文檔。根據TDT的定義,屬于同一主題中的文檔之間比屬于不同主題之間的文檔之間更相似。對于給定的文檔,通過不同的相似性度量方法從文檔集合中找出最相似的200個文檔,然后將這個列表跟答案比較,根據效果的好壞來比較各種文檔相似性度量方法,包括最流行的余弦度量法(cosine),Smart系統中的對文檔長度規(guī)范化的向量空間方法PivotedVSM,Okapi系統中的BM25方法。采用文檔檢索中常用的前5個結果中的準確率P@5,前10個結果中的準確率P@10,平均準確率(AverageP)來比較不同相似性度量方法的性能。實驗結果如表1所示表1.不同相似性度量方法的性能比較

實驗表明,本發(fā)明的方法能夠更好地度量文檔相似性,提高文檔檢索性能,在三個指標上都優(yōu)于傳統方法。
權利要求
1.一種基于文檔結構的文檔相似性度量方法,其特征在于,該方法包括以下步驟(1)對于待比較的兩個文檔X和Y,利用文檔結構分析方法分別得到所述兩個文檔X和Y的子主題序列{x1,x2,...,xn}和{y1,y2,...ym};(2)對文檔X的子主題序列中的每一子主題xi,分別與文檔Y子主題序列中的每一子主題yj利用相似性度量方法計算相似度值wij;(3)對步驟(1)得到的兩個文檔的子主題序列及步驟(2)得到的相似度值wij,建立一個帶權二部圖G={X,Y,E},其中點集X、Y分別為兩個文檔中的子主題序列,邊集E中的邊eij聯系子主題xi和yj,該邊的權重wij為步驟(2)算得到的xi和yj的相似度值;(4)對帶權二部圖G={X,Y,E}求解最優(yōu)匹配,對最優(yōu)匹配的總權值進行規(guī)范化處理,即得到文檔X與Y的相似度值。
2.根據權利要求1所述的基于文檔結構的文檔相似性度量方法,其特征在于,所述的步驟(1)中文檔結構分析方法為文本塊分割方法。
3.根據權利要求1所述的基于文檔結構的文檔相似性度量方法,其特征在于,所述的步驟(1)中文檔結構分析方法為聚類方法。
4.根據權利要求1所述的基于文檔結構的文檔相似性度量方法,其特征在于,所述的步驟(2)中相似性度量方法為余弦度量法。
5.根據權利要求1所述的基于文檔結構的文檔相似性度量方法,其特征在于,所述的步驟(2)中相似性度量方法為Jaccard度量法。
6.根據權利要求1所述的基于文檔結構的文檔相似性度量方法,其特征在于,所述的步驟(2)中相似性度量方法為Dice度量法。
7.根據權利要求1所述的基于文檔結構的文檔相似性度量方法,其特征在于,所述的步驟(2)中相似性度量方法為基于信息論的方法。
8.根據權利要求1所述的基于文檔結構的文檔相似性度量方法,其特征在于,所述的步驟(4)中求解最優(yōu)匹配所使用的方法為Kuhn-Munkres算法。
全文摘要
本發(fā)明公開了一種基于文檔結構的文檔相似性度量方法,涉及一種自然語言的處理方法。針對度量方法中丟失了詞語在文檔各個部分的分布信息,本發(fā)明提出的方法包括以下步驟(1)對于需要比較的兩個文檔X和Y,分別使用文檔結構分析方法找出每個文檔的子主題序列;(2)利用相似性度量方法計算任意兩個分別屬于不同文檔的子主題之間的相似度值;(3)對步驟(1)及步驟(2)得到的子主題序列及子主題之間的相似度值,建立一個帶權二部圖G={X,Y,E};(4)對帶權二部圖G={X,Y,E}求解最優(yōu)匹配,對最優(yōu)匹配的總權值進行規(guī)范化處理,即得到文檔X與Y的相似度值。本發(fā)明提出的方法,提高了文檔相似性判斷的準確度。
文檔編號G06F17/27GK1959671SQ20051011741
公開日2007年5月9日 申請日期2005年10月31日 優(yōu)先權日2005年10月31日
發(fā)明者萬小軍, 彭宇新, 楊建武, 吳於茜, 陳曉鷗 申請人:北大方正集團有限公司, 北京北大方正技術研究院有限公司, 北京大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
额济纳旗| 色达县| 井研县| 贞丰县| 宣化县| 莱西市| 房产| 盈江县| 黄石市| 治县。| 福建省| 原阳县| 秦皇岛市| 临汾市| 遵义市| 上栗县| 盘锦市| 城步| 东兰县| 星子县| 宜都市| 石楼县| 鸡东县| 晋江市| 武乡县| 平和县| 龙南县| 留坝县| 五河县| 象州县| 石狮市| 铁力市| 安丘市| 手游| 田东县| 麻栗坡县| 昭通市| 漯河市| 武鸣县| 大庆市| 华安县|