專利名稱:利用摘要來分類顯示頁的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
說明的技術(shù)通常涉及自動地分類信息。
背景技術(shù):
許多搜索引擎服務(wù),例如Google和Overture,為搜索提供了通過網(wǎng)絡(luò)可以訪問的信息。這些搜索引擎服務(wù)允許用戶去搜索用戶感興趣的顯示頁,例如網(wǎng)頁。在用戶提交了包括檢索項的搜索請求后,搜索引擎服務(wù)識別可能與那些檢索項相關(guān)的網(wǎng)頁。為了快速識別相關(guān)的網(wǎng)頁,搜索引擎服務(wù)可以保存網(wǎng)頁的關(guān)鍵詞的映射。這種映射可以通過“爬行”網(wǎng)頁(也就是萬維網(wǎng))生成,用來識別每個網(wǎng)頁的關(guān)鍵詞。為了爬行該網(wǎng)絡(luò),搜索引擎服務(wù)可以利用根網(wǎng)頁目錄來識別所有通過那些根網(wǎng)頁可以訪問的網(wǎng)頁。任何特定的網(wǎng)頁的關(guān)鍵詞能夠利用各種公知的信息檢索技術(shù)來識別,例如識別標(biāo)題的詞、在網(wǎng)頁的元數(shù)據(jù)中提供的詞、高亮的詞等等。搜索引擎服務(wù)可以根據(jù)每個匹配的接近、網(wǎng)頁普及(例如Google的PageRank)等等,生成相關(guān)分?jǐn)?shù)來指出網(wǎng)頁的信息與搜索請求有多么的相關(guān)。搜索引擎服務(wù)接著根據(jù)它們的排序的順序,顯示給用戶到那些網(wǎng)頁的鏈接。
盡管搜索引擎服務(wù)可以返回許多網(wǎng)頁作為搜索結(jié)果,以排序順序出現(xiàn)的網(wǎng)頁,可能很難使用戶來實際發(fā)現(xiàn)那些用戶特別感興趣的網(wǎng)頁。由于第一個出現(xiàn)的網(wǎng)頁可能被定向到流行的主題,對模糊的主題感興趣的用戶可能為了發(fā)現(xiàn)感興趣的網(wǎng)頁,需要瀏覽搜索結(jié)果的許多的頁。為了使用戶更容易地發(fā)現(xiàn)感興趣的網(wǎng)頁,搜索結(jié)果的網(wǎng)頁可以根據(jù)網(wǎng)頁的某些分類或類別,以分級的組織來出現(xiàn)。例如,如果用戶提交“court battles”的搜索請求,搜索結(jié)果可以包括分類為運動相關(guān)的或法律相關(guān)的網(wǎng)頁。用戶可能更喜歡一開始顯示網(wǎng)頁的分類列表,這樣用戶能夠選擇感興趣的網(wǎng)頁的分類。例如,可能首先為用戶出現(xiàn)已經(jīng)被分類為運動相關(guān)的和法律相關(guān)的搜索結(jié)果的網(wǎng)頁的指示。用戶能夠接著選擇法律相關(guān)的分類來查看法律相關(guān)的網(wǎng)頁。相反的,由于運動相關(guān)的網(wǎng)頁比法律相關(guān)的網(wǎng)頁更流行,如果最流行的網(wǎng)頁首先出現(xiàn),用戶可能要瀏覽許多網(wǎng)頁來發(fā)現(xiàn)法律相關(guān)的網(wǎng)頁。
手工分類當(dāng)前可用的成百萬的網(wǎng)頁是不切實際的。盡管自動分類技術(shù)已經(jīng)被用來分類基于文本的內(nèi)容,但那些技術(shù)通常不適于網(wǎng)頁的分類。網(wǎng)頁具有包括有干擾的內(nèi)容的組織,例如廣告或?qū)Ш綑?,不是與網(wǎng)頁首要主題直接相關(guān)的。因為傳統(tǒng)的基于文本的分類技術(shù)在分類網(wǎng)頁時,將利用這樣的有干擾的內(nèi)容,這些技術(shù)將導(dǎo)致產(chǎn)生網(wǎng)頁的不正確的分類。
希望具有一種用于網(wǎng)頁的分類技術(shù),會根據(jù)網(wǎng)頁在網(wǎng)頁的首要主題上的分類,并且只給出網(wǎng)頁的有干擾的內(nèi)容的很小的影響。
發(fā)明概述一種根據(jù)自動生成的顯示頁的摘要來分類顯示頁的分類和摘要系統(tǒng)。在一個實施例中,網(wǎng)頁分類系統(tǒng)利用網(wǎng)頁摘要系統(tǒng)來生成網(wǎng)頁的摘要。網(wǎng)頁的摘要可以包括與網(wǎng)頁首要主題最接近相關(guān)的網(wǎng)頁的句子。摘要系統(tǒng)可以組合多種摘要技術(shù)的好處來識別代表網(wǎng)頁首要主題的網(wǎng)頁的句子。一旦生成了摘要,分類系統(tǒng)可以應(yīng)用傳統(tǒng)的對摘要的分類技術(shù)來分類網(wǎng)頁。
附圖的簡要說明附
圖1是說明在一個實施例中的分類系統(tǒng)和摘要系統(tǒng)的組件的方框圖。
附圖2是說明在一個實施例中的分類網(wǎng)頁組件的處理的流程圖。
附圖3是說明在一個實施例中的摘要網(wǎng)頁組件的處理的流程圖。
附圖4是說明在一個實施例中的計算分?jǐn)?shù)組件的處理的流程圖。
附圖5是說明在一個實施例中的計算Luhn分?jǐn)?shù)組件的處理的流程圖。
附圖6是說明在一個實施例中的計算潛在語義分析分?jǐn)?shù)組件的處理的流程圖。
附圖7是說明在一個實施例中的計算內(nèi)容主體分?jǐn)?shù)組件的處理的流程圖。
附圖8是說明在一個實施例中的計算指導(dǎo)分?jǐn)?shù)組件的處理的流程圖。
附圖9是說明在一個實施例中的組合分?jǐn)?shù)組件的處理的流程圖。
詳細(xì)說明提供了一種根據(jù)顯示頁的自動生成的摘要來分類顯示頁的方法和系統(tǒng)。在一個實施例中,網(wǎng)頁分類系統(tǒng)利用網(wǎng)頁摘要系統(tǒng)來生成網(wǎng)頁的摘要。網(wǎng)頁的摘要可以包括與網(wǎng)頁首要主題最接近相關(guān)的網(wǎng)頁的句子。一旦生成了摘要,分類系統(tǒng)可以應(yīng)用傳統(tǒng)的對摘要的分類技術(shù)來分類網(wǎng)頁。摘要系統(tǒng)可以組合多種摘要技術(shù)的好處來識別代表網(wǎng)頁首要主題的網(wǎng)頁的句子。在一個實施例中,摘要系統(tǒng)或者單獨地或者組合地利用Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù),來生成摘要。摘要系統(tǒng)利用每種摘要技術(shù)來生成網(wǎng)頁的每個句子的摘要技術(shù)特定分?jǐn)?shù)。摘要系統(tǒng)接著組合句子的摘要技術(shù)特定分?jǐn)?shù),來生成那個句子的全面分?jǐn)?shù)。摘要系統(tǒng)選擇具有最高的全面分?jǐn)?shù)的網(wǎng)頁的句子,來形成網(wǎng)頁的摘要。分類系統(tǒng)可以利用傳統(tǒng)的分類技術(shù),例如 Bayesian分類器或支持向量裝置,根據(jù)由摘要系統(tǒng)生成的摘要,來識別網(wǎng)頁的分類。以這種方式,網(wǎng)頁能夠根據(jù)自動生成的網(wǎng)頁的摘要來自動地分類。
在一個實施例中,摘要系統(tǒng)利用Luhn摘要技術(shù)的修改版,生成網(wǎng)頁的每個句子的Luhn分?jǐn)?shù)。Luhn摘要技術(shù),根據(jù)在句子中的“重要詞”生成句子的分?jǐn)?shù)。為了生成句子的分?jǐn)?shù),Luhn摘要技術(shù)識別由重要詞括起來的句子的一部分,重要詞是不止某個不重要詞的數(shù)目分離的。Luhn摘要技術(shù)根據(jù)包括在用在括起來的部分中的詞的數(shù)目除的括起來的部分的重要詞的數(shù)目的平方的比率,計算句子的分?jǐn)?shù)。(見H.P.Luhn的The Automatic Creation of Literature Abstracts,2 IBMJ.OF RES.& DEV.No.2,159-65(1958年4月)。)摘要系統(tǒng)通過為每個分類定義重要詞的收集,來修改Luhn摘要技術(shù)。例如,運動相關(guān)的分類可以具有包括“球場”、“籃球”和“運動”的重要詞的收集,反之法律相關(guān)的分類可以具有包括“法院”、“律師”和“罪犯刀的重要詞的收集。摘要系統(tǒng)可以根據(jù)已經(jīng)預(yù)分類的網(wǎng)頁的訓(xùn)練集來識別重要詞的收集。摘要系統(tǒng)可以選擇在網(wǎng)頁上使用最頻繁的詞,具有作為那個分類的重要詞的收集的某個分類。摘要系統(tǒng)也可以從收集中去除某個可能表示有干擾的內(nèi)容的無用詞。當(dāng)記分網(wǎng)頁的句子時,修改的Luhn摘要技術(shù)計算每個分類的分?jǐn)?shù)。摘要技術(shù)接著平均分?jǐn)?shù)高于閾值的每個分類的分?jǐn)?shù),給每個句子一組合的Luhn分?jǐn)?shù)。摘要系統(tǒng)可以選擇具有最高的Luhn分?jǐn)?shù)的句子來形成摘要。
在一個實施例中,摘要系統(tǒng)利用潛在語義分析摘要技術(shù)來生成網(wǎng)頁的每個句子的潛在語義分析分?jǐn)?shù)。潛在語義分析摘要技術(shù)利用奇異值分解來生成每個句子的分?jǐn)?shù)。摘要系統(tǒng)生成網(wǎng)頁的詞句矩陣,包括每個詞句組合的加權(quán)檢索項頻率值。矩陣可以如下表示A=U∑VT(1)其中A代表該詞句矩陣,U是列是左奇異向量的列標(biāo)準(zhǔn)正交矩陣,∑是對角線元素是以遞降順序存儲的非負(fù)奇異值的對角線矩陣,以及V是列是右奇異向量的標(biāo)準(zhǔn)正交矩陣。在將矩陣分解為U、∑和V后,摘要系統(tǒng)利用右奇異向量來生成句子的分?jǐn)?shù)。(見Y.H.Gong&X.Liu的Generic Text SummarizationUsing Relevance Measure and Latent Semantic Analysis,in PROC.OF THE 24THANNUAL INTERNATIONAL ACM SIGIR,新奧爾良,路易斯安那,19-25(2001)。)摘要系統(tǒng)可以選擇第一右奇異向量,并選擇具有在該向量中的索引值的句子。摘要系統(tǒng)接著給那個句子最高分?jǐn)?shù)。摘要系統(tǒng)接著選擇第二右奇異向量,并給在那個在該向量中具有最高索引值的句子第二最高分?jǐn)?shù)。摘要系統(tǒng)接著以同樣的方式繼續(xù)來生成其它句子的分?jǐn)?shù)。摘要系統(tǒng)可以選擇具有最高分?jǐn)?shù)的句子來形成網(wǎng)頁的摘要。
在一個實施例中,摘要系統(tǒng)利用內(nèi)容主體摘要技術(shù)來生成網(wǎng)頁的每個句子的內(nèi)容主體分?jǐn)?shù)。內(nèi)容主體摘要技術(shù)識別網(wǎng)頁的內(nèi)容主體,并給在內(nèi)容主體中的句子高分?jǐn)?shù)。為了識別網(wǎng)頁的內(nèi)容主體,內(nèi)容主體摘要技術(shù)識別基本對象,并合成網(wǎng)頁的對象?;緦ο笫遣荒鼙贿M(jìn)一步劃分的最小的信息區(qū)域。例如,在HTML中,基本對象是在兩個標(biāo)簽或嵌入對象中的非可破壞元素。合成對象是基本對象集或組合來執(zhí)行函數(shù)的其它合成對象。在識別對象后,摘要系統(tǒng)將對象歸類到類別中,例如信息、導(dǎo)航、交互、裝飾或特殊函數(shù)。信息類別是為了表示內(nèi)容信息的對象,導(dǎo)航類別是為了表示導(dǎo)航向?qū)У膶ο?,交互類別是為了表示用戶交互的對象(例如輸入域),裝飾類別是為了表示裝飾的對象,以及特殊函數(shù)類別是為了表示例如法律信息、聯(lián)系信息、標(biāo)識信息等的信息的對象。(見J.L.Chen等人的Function-based Object Model Towards Website Adaptation,PROC.OF WWW10,香港,中國(2001)。)在一個實施例中,摘要系統(tǒng)通過每個對象的轉(zhuǎn)化的文檔頻率索引(也就是TF*IDF)來建立檢索項頻率。摘要系統(tǒng)接著利用例如余弦相似性的相似性計算來計算在一對對象之間的相似性。如果一對對象間的相似性大于閾值,摘要系統(tǒng)鏈接該一對對象。摘要系統(tǒng)接著識別具有最大鏈接的對象,作為代表網(wǎng)頁的首要主題的核心對象。網(wǎng)頁的內(nèi)容主體是伴隨具有鏈接到核心對象的鏈接的每個對象的核心對象。摘要系統(tǒng)給內(nèi)容主體的每個句子高分?jǐn)?shù),給網(wǎng)頁的每個其它句子低分?jǐn)?shù)。摘要系統(tǒng)可以選擇具有高分?jǐn)?shù)的句子來形成網(wǎng)頁的摘要。
在一個實施例中,摘要系統(tǒng)利用指導(dǎo)摘要技術(shù)來生成網(wǎng)頁的每個句子的指導(dǎo)分?jǐn)?shù)。指導(dǎo)摘要技術(shù)利用訓(xùn)練數(shù)據(jù)來學(xué)習(xí)摘要函數(shù),該函數(shù)可以識別句子是否應(yīng)該被選擇為摘要部分。指導(dǎo)摘要技術(shù)通過特征向量來代表每個句子。在一個實施例中,指導(dǎo)摘要技術(shù)利用在表1中定義的特征,其中fij代表句子i的第i個特征的值。
表1
摘要系統(tǒng)可以利用
Bayesian分類器來學(xué)習(xí)摘要函數(shù)。摘要函數(shù)可以如下表示p(s∈S|f1,f2...f8)=Πj=18(fj|s∈S)p(s∈S)Πj=18p(fj)---(2)]]>其中,p(s∈S)代表摘要的壓縮率(可以為不同的應(yīng)用預(yù)定義),p(fj)是每個特征j的概率,以及p(fj|s∈S)是每個特征j的條件概率。后兩個因數(shù)可以從訓(xùn)練集估算。
在一個實施例中,摘要系統(tǒng)組合Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)的分?jǐn)?shù),來生成全面分?jǐn)?shù)。該分?jǐn)?shù)可以如下組合S=Sluhn+Slsa+Scb+Ssup(3)
其中S代表組合的分?jǐn)?shù),Sluhn代表Luhn分?jǐn)?shù),Slsa乙代表潛在語義分析分?jǐn)?shù),Scb代表內(nèi)容主體分?jǐn)?shù),Ssup代表指導(dǎo)分?jǐn)?shù)。可選的,摘要系統(tǒng)可以應(yīng)用加權(quán)因數(shù)到每個摘要技術(shù)分?jǐn)?shù),使得不是所有的摘要技術(shù)分?jǐn)?shù)相等地加權(quán)。例如,如果Luhn分?jǐn)?shù)被認(rèn)為是對與網(wǎng)頁的首要主題相關(guān)的句子的更精確的反映,Luhn分?jǐn)?shù)的加權(quán)因數(shù)可能是.7,其它分?jǐn)?shù)的加權(quán)因數(shù)每個可能是.1。如果一種摘要技術(shù)的加權(quán)因數(shù)被設(shè)置為零,則摘要系統(tǒng)不使用那種摘要技術(shù)。本領(lǐng)域技術(shù)人員可以認(rèn)識到任何數(shù)目的摘要技術(shù)可以將它們的權(quán)設(shè)置為零。例如,如果1的加權(quán)因數(shù)被用于Luhn分?jǐn)?shù),而0被用于其它分?jǐn)?shù),“組合”分?jǐn)?shù)會簡化Luhn分?jǐn)?shù)。另外,摘要系統(tǒng)會標(biāo)準(zhǔn)化每個摘要技術(shù)分?jǐn)?shù)。摘要系統(tǒng)也會利用摘要技術(shù)分?jǐn)?shù)的非線性組合。摘要系統(tǒng)可以選擇具有最高組合分?jǐn)?shù)的句子來形成網(wǎng)頁的摘要。
在一個實施例中,分類系統(tǒng)利用 Bayesian分類器來根據(jù)它的摘要分類網(wǎng)頁。 Bayesian分類器利用Bayes的規(guī)則,可以如下定義P(cj|di;θ^)=P(cj|θ^)Πk=1nP(wk|cj;θ^)N(wk;di)Σr=1|c|P(cr|θ^)Πk=1nP(wk|cr;θ^)N(wk;di)---(4)]]>其中 可以通過計數(shù)在訓(xùn)練數(shù)據(jù)中出現(xiàn)的每個類別cj的頻率來計算,|C|是類別的數(shù)目,p(wi|cj)是在類cj中出現(xiàn)的詞wi的概率,N(wk,di)是在di中的詞wk出現(xiàn)的數(shù)目,n是在訓(xùn)練數(shù)據(jù)中的詞的數(shù)目。(見在AAAI-98WORFSHOP ON LEARNING FOR TEXT CATEGORIZATION(1998)的A.McCallum & K.Nigam的A Comparison of Event Models for Bayes TextClassification。)由于wi在訓(xùn)練數(shù)據(jù)中會很小,可以使用拉普拉斯平滑來估算它的值。
在一個可選實施例中,分類系統(tǒng)利用支持向量裝置來根據(jù)它的摘要分類網(wǎng)頁。支持向量裝置通過發(fā)現(xiàn)在可能輸入的空間的超表面來操作。超表面試圖通過最大化在最近的正樣本和負(fù)樣本之間的到超表面的距離,來從負(fù)樣本中分離正樣本。這樣允許數(shù)據(jù)的正確分類與訓(xùn)練數(shù)據(jù)相似,而不是相等。各種技術(shù)可以被用來訓(xùn)練支持向量裝置。一種技術(shù)利用連續(xù)的最小最優(yōu)算法,克服了大的二次編程的問題為可以分析解決的一系列小的二次編程的問題。(見在http//research.microsoft.com/~jplatt/smo.html的Sequential Minimal Optimization。)
附圖1是說明了在一個實施例中的分類系統(tǒng)和摘要系統(tǒng)的組件的方框圖。分類系統(tǒng)110包括分類網(wǎng)頁組件111和分類器組件112。摘要系統(tǒng)120包括摘要網(wǎng)頁組件121、排序句子組件122、計算分?jǐn)?shù)組件123和選擇頂部句子組件124。該分類網(wǎng)頁組件利用摘要網(wǎng)頁組件來生成網(wǎng)頁的摘要,接著利用分類器組件來根據(jù)摘要分類網(wǎng)頁。摘要網(wǎng)頁組件利用計算分?jǐn)?shù)組件來計算網(wǎng)頁的每個句子的分?jǐn)?shù)。摘要網(wǎng)頁組件接著利用排序句子組件,根據(jù)句子的分?jǐn)?shù)來排序網(wǎng)頁的句子,利用選擇頂部句子組件來選擇具有最高分?jǐn)?shù)的句子,來形成網(wǎng)頁的摘要。計算分?jǐn)?shù)組件利用計算Luhn分?jǐn)?shù)組件125、計算潛在語義分析分?jǐn)?shù)組件126、計算內(nèi)容主體分?jǐn)?shù)組件127和計算指導(dǎo)分?jǐn)?shù)組件128來生成各種摘要技術(shù)的分?jǐn)?shù)。計算分?jǐn)?shù)絹件接著組合摘要技術(shù)的分?jǐn)?shù)以提供每個句子的全面分?jǐn)?shù)。
其上實現(xiàn)摘要系統(tǒng)的計算設(shè)備可以包括中央處理單元、內(nèi)存、輸入設(shè)備(例如鍵盤和指向設(shè)備)、輸出設(shè)備(例如顯示設(shè)備)和存儲設(shè)備(例如磁盤驅(qū)動器)。內(nèi)存和存儲設(shè)備是可以包含實現(xiàn)摘要系統(tǒng)的指令的計算機可讀媒體。另外,數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可以通過數(shù)據(jù)傳輸介質(zhì),例如作為在通訊鏈接上的信號,而被存儲或傳輸??梢允褂酶鞣N通訊鏈接,例如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)或點對點撥號連接。
摘要系統(tǒng)可以在各種操作環(huán)境中實現(xiàn)。在此描述的操作環(huán)境僅僅是適合的操作環(huán)境的一個例子,并不意味著提出關(guān)于摘要系統(tǒng)的使用的范圍或功能性的任何限制。其它適合使用的公知的計算系統(tǒng)、環(huán)境和配置包括個人計算機、服務(wù)器計算機、手持或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程客戶電子儀器、網(wǎng)絡(luò)PC、小型計算機、大型計算機、包括上面任何系統(tǒng)或設(shè)備的分布式計算環(huán)境及類似的。
摘要系統(tǒng)可以用計算機可執(zhí)行指令的通用上下文來描述,例如,由一個或更多計算機或其它設(shè)備執(zhí)行的程序模塊。通常,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,完成特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。典型地,程序模塊的功能性可以在各種實施例中如期望的組合或分布。
附圖2是說明了在一個實施例中的分類網(wǎng)頁組件的處理的流程圖。組件通過網(wǎng)頁并返回它的分類。在方框201中,組件調(diào)用摘要網(wǎng)頁組件來生成網(wǎng)頁的摘要。在方框202中,組件根據(jù)網(wǎng)頁的摘要,利用例如 Bayesian分類器或支持向量裝置,來分類網(wǎng)頁。組件然后就完成了。
附圖3是說明了在一個實施例中的摘要網(wǎng)頁組件的處理的流程圖。組件通過網(wǎng)頁,計算網(wǎng)頁的每個句子的分?jǐn)?shù),并選擇具有最高分?jǐn)?shù)的句子來形成網(wǎng)頁的摘要。在方框301中,組件調(diào)用計算分?jǐn)?shù)組件來計算每個句子的分?jǐn)?shù)。在方框302中,組件根據(jù)計算的分?jǐn)?shù)來排序句子。在方框303中,組件選擇具有最高分?jǐn)?shù)的句子來形成網(wǎng)頁的摘要。組件接著返回該摘要。
附圖4是說明了在一個實施例中的計算分?jǐn)?shù)組件的處理的流程圖。組件通過網(wǎng)頁,計算網(wǎng)頁的句子的各種摘要技術(shù)分?jǐn)?shù),并根據(jù)那些摘要技術(shù)分?jǐn)?shù)來計算每個句子的組合分?jǐn)?shù)。組件可以選擇地利用僅僅一種摘要技術(shù)或利用摘要技術(shù)的各種組合來計算分?jǐn)?shù)。在方框401中,組件調(diào)用計算Luhn分?jǐn)?shù)組件來計算網(wǎng)頁的每個句子的Luhn分?jǐn)?shù)。在方框402中,組件調(diào)用計算潛在語義分析分?jǐn)?shù)組件來計算網(wǎng)頁的每個句子的潛在語義分析分?jǐn)?shù)。在方框403中,組件調(diào)用計算內(nèi)容主體分?jǐn)?shù)組件來計算網(wǎng)頁的每個句子的內(nèi)容主體分?jǐn)?shù)。在方框404中,組件調(diào)用計算指導(dǎo)分?jǐn)?shù)組件來計算網(wǎng)頁的每個句子的指導(dǎo)分?jǐn)?shù)。在方框405中,組件調(diào)用計算組合分?jǐn)?shù)組件來計算網(wǎng)頁的每個句子的組合分?jǐn)?shù)。組件接著返回該組合分?jǐn)?shù)。
附圖5是說明了一個實施例中的計算Luhn分?jǐn)?shù)組件的處理的流程圖。組件通過網(wǎng)頁并計算通過的網(wǎng)頁的每個句子的Luhn分?jǐn)?shù)。在方框501中,組件選擇網(wǎng)頁的下一個句子。在決定方框502中,如果網(wǎng)頁的所有句子都已經(jīng)被選擇,組件就返回該Luhn分?jǐn)?shù),否則組件在方框503中繼續(xù)。在方框503-509中,組件循環(huán)生成每個分類的選擇的句子的類別分?jǐn)?shù)。在方框503中,組件選擇下一個分類。在決定方框504中,如果所有的分類都已經(jīng)被選擇,組件就在方框510中繼續(xù),否則組件在方框505中繼續(xù)。在方框505中,組件識別由被選擇的分類的重要詞括起來的被選擇的句子的詞。在決定方框506中,如果括起來的詞被識別,組件就在方框507中繼續(xù),否則組件循環(huán)到方框503來選擇下一個分類。在方框507中,組件計數(shù)具有被選擇的句子的括起來的部分的重要詞。在方框508中,組件計數(shù)具有被選擇的句子的括起來的部分的詞。在方框509中,組件計算每個分類的分?jǐn)?shù),作為用詞的計數(shù)除的重要詞的計數(shù)的平方。組件接著循環(huán)到方框503來選擇下一個分類。在方框510中,組件計算每個被選擇的句子的Luhn分?jǐn)?shù),作為用分類的數(shù)目除的類別分?jǐn)?shù)的總和,其中被選擇的句子的括起來的部分被識別(也就是說,被計算的類別分?jǐn)?shù)的平均值)。組件接著循環(huán)到方框501來選擇下一個句子。
附圖6是說明了在一個實施例中的計算潛在語義分析分?jǐn)?shù)組件的處理的流程圖。組件通過網(wǎng)頁并計算通過的網(wǎng)頁的每個句子的潛在語義分析分?jǐn)?shù)。在方框601-603中,組件循環(huán)構(gòu)造網(wǎng)頁的每個句子的檢索項加權(quán)向量。在方框601中,組件選擇網(wǎng)頁的下一個句子。在決定方框602中,如果網(wǎng)頁的所有句子都已經(jīng)被選擇,組件就在方框604中繼續(xù),否則組件在方框603中繼續(xù)。在方框603中,組件構(gòu)造被選擇的句子的檢索項加權(quán)向量,接著循環(huán)到方框601來選擇下一個句子。句子的檢索項加權(quán)向量形成了矩陣,該矩陣被分解為右奇異向量的矩陣。在方框604中,組件完成那個矩陣的奇異值分解,來生成右奇異向量。在方框605-607中,組件根據(jù)右奇異向量來循環(huán)設(shè)置每個句子的分?jǐn)?shù)。在方框605中,組件選擇下一個右奇異向量。在決定方框606中,如果所有的右奇異向量都已經(jīng)被選擇,組件就返回該分?jǐn)?shù)作為潛在語義分析分?jǐn)?shù),否則組件在方框607中繼續(xù)。在方框607中,組件設(shè)置具有被選擇的右奇異向量的最高索引值的句子的分?jǐn)?shù),接著循環(huán)到方框605來選擇下一個右奇異向量。
附圖7是說明了在一個實施例中的計算內(nèi)容主體分?jǐn)?shù)組件的處理的流程圖。組件通過網(wǎng)頁并計算通過的網(wǎng)頁的每個句子的內(nèi)容主體分?jǐn)?shù)。在方框701中,組件識別網(wǎng)頁的基本對象。在方框702中,組件識別網(wǎng)頁的合成對象。在方框703-705中,組件循環(huán)生成每個對象的檢索項頻率/轉(zhuǎn)化的文檔頻率向量。在方框703中,組件選擇下一個對象。在決定方框704中,如果所有的對象都已經(jīng)被選擇,組件就在方框706中繼續(xù),否則組件在方框705中繼續(xù)。在方框705中,組件生成被選擇的對象的檢索項頻率/轉(zhuǎn)化的文檔頻率向量,接著循環(huán)到方框703來選擇下一個對象。在方框706-710中,組件循環(huán)計算在一對對象之間的相似性。在方框706中,組件選擇下一對對象。在決定方框707中,如果所有的對象對都已經(jīng)被選擇,組件就在方框711中繼續(xù),否則組件在方框708中繼續(xù)。在方框708中,組件計算在被選擇的對象對之間的相似性。在決定方框709中,如果該相似性高于相似性的閾值,組件就在方框710中繼續(xù),否則組件循環(huán)到方框706來選擇下一對對象。在方框710中,組件在被選擇的對象對之間添加_鏈接,接著循環(huán)到方框706來選擇下一對對象。在方框711-715中,組件通過識別核心對象和鏈接到該核心對象的所有對象,來識別網(wǎng)頁的內(nèi)容主體。在方框711中,組件識別核心對象為具有最大鏈接到它的數(shù)目的對象。在方框712中,組件選擇網(wǎng)頁的下一個句子。在決定方框713中,如果所有的句子都已經(jīng)被選擇,組件就返回內(nèi)容主體分?jǐn)?shù),否則組件在方框714中繼續(xù)。在決定方框714中,如果句子在鏈接到核心對象的對象中,該句子就在內(nèi)容主體內(nèi),該組件在方框715中繼續(xù),否則組件設(shè)置該被選擇的句子的分?jǐn)?shù)為零,并循環(huán)到方框712來選擇下一個句子。在方框715中,組件設(shè)置被選擇的句子的分?jǐn)?shù)為高分,并循環(huán)到方框712來選擇下一個句子。
附圖8是說明了在一個實施例中的計算指導(dǎo)分?jǐn)?shù)組件的處理的流程圖。組件通過網(wǎng)頁并計算網(wǎng)頁的每個句子的指導(dǎo)分?jǐn)?shù)。在方框801中,組件選擇網(wǎng)頁的下一個句子。在決定方框802中,如果網(wǎng)頁的所有句子都已經(jīng)被選擇,組件就返回指導(dǎo)分?jǐn)?shù),否則組件在方框803中繼續(xù)。在方框803中,組件生成被選擇的句子的特征向量。在方框804中,組件利用生成的特征向量和學(xué)習(xí)的摘要函數(shù),來計算被選擇的句子的分?jǐn)?shù)。組件接著循環(huán)到方框801來選擇下一個句子。
附圖9是說明了在一個實施例中的組合分?jǐn)?shù)組件的處理的流程圖。組件根據(jù)Luhn分?jǐn)?shù)、潛在語義分析分?jǐn)?shù)、內(nèi)容主體分?jǐn)?shù)和指導(dǎo)分?jǐn)?shù),生成網(wǎng)頁的每個句子的組合分?jǐn)?shù)。在方框901中,組件選擇網(wǎng)頁的下一個句子。在決定方框902中,如果所有的句子都已經(jīng)被選擇,組件就返回該組合分?jǐn)?shù),否則組件在方框903中繼續(xù)。在方框903中,組件組合被選擇的句子的分?jǐn)?shù),接著循環(huán)到方框901來選擇下一個句子。
本領(lǐng)域的技術(shù)人員會意識到,盡管在此為了說明的目的,已經(jīng)描述了摘要系統(tǒng)的特定的實施例,可以進(jìn)行各種修改而不偏離本發(fā)明的精神和范圍。本領(lǐng)域的技術(shù)人員會意識到該分類涉及識別與顯示頁相關(guān)的分類或類別的處理。該分類可以被預(yù)定義。要被分類的顯示頁的屬性可以被比作從其它來自已經(jīng)分類的顯示頁的屬性(例如訓(xùn)練集)。根據(jù)比較,顯示頁被分類為其顯示頁屬性與那些被分類的顯示頁屬性相似的分類。相反的,分組涉及從相互相似的顯示頁的顯示頁組的集合中識別的處理。相應(yīng)的,本發(fā)明并不受附加的權(quán)利要求的限制。
權(quán)利要求
1.一種用于分類網(wǎng)頁的計算機系統(tǒng)的方法,該方法包括檢索網(wǎng)頁;自動生成該檢索到的網(wǎng)頁的摘要;以及根據(jù)自動生成的摘要,確定該被檢索到的網(wǎng)頁的分類。
2.如權(quán)利要求1的方法,其中摘要的自動生成包括利用多種摘要技術(shù),計算網(wǎng)頁的每個句子的分?jǐn)?shù)。
3.如權(quán)利要求2的方法,其中每個句子的分?jǐn)?shù)是多種摘要技術(shù)的分?jǐn)?shù)的線性組合。
4.如權(quán)利要求1的方法,其中具有最高分?jǐn)?shù)的句子被選擇來形成摘要。
5.如權(quán)利要求2的方法,其中摘要技術(shù)包括Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)。
6.如權(quán)利要求2的方法,其中摘要技術(shù)包括任意兩種或更多的由Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)組成的摘要技術(shù)的集合。
7.如權(quán)利要求1的方法,其中分類的確定利用 Bayesian分類器。
8.如權(quán)利要求1的方法,其中分類的確定利用支持向量裝置。
9.如權(quán)利要求1的方法,其中摘要的自動生成利用Luhn摘要技術(shù)。
10.如權(quán)利要求1的方法,其中摘要的自動生成利用潛在語義分析摘要技術(shù)。
11.如權(quán)利要求1的方法,其中摘要的自動生成利用內(nèi)容主體摘要技術(shù)。
12.如權(quán)利要求1的方法,其中摘要的自動生成利用指導(dǎo)摘要技術(shù)。
13.一種用于摘要網(wǎng)頁的計算機系統(tǒng)的方法,該方法包括檢索網(wǎng)頁;對于檢索到的網(wǎng)頁的每個句子,分配分?jǐn)?shù)到多種摘要技術(shù)的每一個的句子;以及組合分配到該句子的分?jǐn)?shù),來生成該句子的組合分?jǐn)?shù);以及選擇具有最高組合分?jǐn)?shù)的句子,來形成檢索到的網(wǎng)頁的摘要。
14.如權(quán)利要求13的方法,其中每個句子的組合分?jǐn)?shù)是分配的分?jǐn)?shù)的線性組合。
15.如權(quán)利要求14的方法,其中多種摘要技術(shù)的分配的分?jǐn)?shù)在組合時被不同地加權(quán)。
16.如權(quán)利要求13的方法,其中摘要技術(shù)包括Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)。
17.如權(quán)利要求13的方法,其中摘要技術(shù)包括任意兩種或更多的由Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)組成的摘要技術(shù)的集合。
18.如權(quán)利要求13的方法,其中摘要技術(shù)是其分類具有重要詞的收集的Luhn摘要技術(shù)。
19.如權(quán)利要求18的方法,其中有干擾的詞從收集中被刪除。
20.如權(quán)利要求13的方法,其中摘要技術(shù)是其句子由包括根據(jù)在句子和網(wǎng)頁的元數(shù)據(jù)之間的相似性的特征的特征集合來表示的指導(dǎo)摘要技術(shù)。
21.如權(quán)利要求13的方法,其中摘要技術(shù)是其句子由包括根據(jù)在網(wǎng)頁中被高亮的句子的詞的特征的特征集合來表示的指導(dǎo)摘要技術(shù)。
22.如權(quán)利要求13的方法,其中摘要技術(shù)是其句子由包括根據(jù)在句子中的詞的字體大小的特征的特征集合來表示的指導(dǎo)摘要技術(shù)。
23.如權(quán)利要求13的方法,包括根據(jù)檢索的網(wǎng)頁的摘要,來識別檢索到的網(wǎng)頁的分類。
24.如權(quán)利要求23的方法,其中分類的識別利用 Bayesian分類器。
25.如權(quán)利要求23的方法,其中分類的識別利用支持向量裝置。
26.一種包含用于使計算機系統(tǒng)通過一種方法生成顯示頁的摘要的指令的計算機可讀介質(zhì),包括對于顯示頁的每個句子,根據(jù)多種摘要技術(shù),生成顯示頁的分?jǐn)?shù);以及選擇具有最高生成的分?jǐn)?shù)的句子,來形成顯示頁的摘要。
27.如權(quán)利要求26的計算機可讀介質(zhì),其中每個句子的生成的分?jǐn)?shù)是多種摘要技術(shù)的每一個的分?jǐn)?shù)的組合。
28.如權(quán)利要求27的計算機可讀介質(zhì),其中多種摘要技術(shù)的分?jǐn)?shù)被不同地加權(quán)。
29.如權(quán)利要求26的計算機可讀介質(zhì),其中摘要技術(shù)包括Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)。
30.如權(quán)利要求26的計算機可讀介質(zhì),其中摘要技術(shù)包括任意兩種或更多的由Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)組成的摘要技術(shù)的集合。
31.如權(quán)利要求26的計算機可讀介質(zhì),其中摘要技術(shù)是其分類具有重要詞的收集的Luhn摘要技術(shù)。
32.如權(quán)利要求31的計算機可讀介質(zhì),其中有干擾的詞從收集中被刪除。
33.如權(quán)利要求26的計算機可讀介質(zhì),其中摘要技術(shù)是其句子由包括根據(jù)在句子和顯示頁的元數(shù)據(jù)之間的相似性的特征的特征集合來表示的指導(dǎo)摘要技術(shù)。
34.如權(quán)利要求26的計算機可讀介質(zhì),其中摘要技術(shù)是其句子由包括根據(jù)在顯示頁中被高亮的句子的詞的特征的特征集合來表示的指導(dǎo)摘要技術(shù)。
35.如權(quán)利要求26的計算機可讀介質(zhì),其中摘要技術(shù)是其句子由包括根據(jù)在句子中的詞的字體大小的特征的特征集合來表示的指導(dǎo)摘要技術(shù)。
36.如權(quán)利要求26的計算機可讀介質(zhì),包括根據(jù)顯示頁的摘要,來識別顯示頁的分類。
37.一種用于分類顯示頁的計算機系統(tǒng),包括用于自動生成顯示頁的摘要的裝置;以及用于根據(jù)自動生成的摘要,識別顯示頁的分類的裝置。
38.如權(quán)利要求37的計算機系統(tǒng),其中自動生成摘要的裝置利用多種摘要技術(shù),計算顯示頁的每個句子的分?jǐn)?shù)。
39.如權(quán)利要求38的計算機系統(tǒng),其中每個句子的分?jǐn)?shù)是多種摘要技術(shù)的分?jǐn)?shù)的線性組合。
40.如權(quán)利要求37的計算機系統(tǒng),其中摘要技術(shù)包括Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)。
41.如權(quán)利要求37的計算機系統(tǒng),其中摘要技術(shù)包括任意兩種或更多的由Luhn摘要技術(shù)、潛在語義分析摘要技術(shù)、內(nèi)容主體摘要技術(shù)和指導(dǎo)摘要技術(shù)組成的摘要技術(shù)的集合。
42.如權(quán)利要求41的計算機系統(tǒng),其中顯示頁的每個句子被分配一個多種摘要技術(shù)的分?jǐn)?shù)的組合的分?jǐn)?shù)。
全文摘要
一種根據(jù)自動生成的顯示頁的摘要,來分類顯示頁的方法和系統(tǒng)。網(wǎng)頁分類系統(tǒng)利用網(wǎng)頁摘要系統(tǒng)來生成網(wǎng)頁的摘要。網(wǎng)頁的摘要可以包括與網(wǎng)頁首要主題最接近相關(guān)的網(wǎng)頁的句子。摘要系統(tǒng)可以組合多種摘要技術(shù)的好處來識別代表網(wǎng)頁首要主題的網(wǎng)頁的句子。一旦生成了摘要,分類系統(tǒng)可以應(yīng)用傳統(tǒng)的對摘要的分類技術(shù)來分類網(wǎng)頁。分類系統(tǒng)可以利用傳統(tǒng)的分類技術(shù),例如Nave Bayesian分類器或支持向量裝置,根據(jù)由摘要系統(tǒng)生成的摘要,來識別網(wǎng)頁的分類。
文檔編號G06F17/30GK1758245SQ200510089648
公開日2006年4月12日 申請日期2005年4月30日 優(yōu)先權(quán)日2004年4月30日
發(fā)明者B·章, D·申, H-J·曾, 馬維英, 陳正 申請人:微軟公司