專利名稱:為對(duì)象分類的自動(dòng)確定顯著特點(diǎn)的方法和裝置的制作方法
背景技術(shù):
1.發(fā)明領(lǐng)域本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域。更具體說,本發(fā)明涉及用于將對(duì)象分組的對(duì)象特點(diǎn)的自動(dòng)選擇。
2.背景信息萬維網(wǎng)提供了重要的信息源,估計(jì)已可在線閱覽下載數(shù)十億頁的信息。但為了有效的利用此信息,必需要有一切合實(shí)際的方法用于指引此海量數(shù)據(jù)。
在互聯(lián)網(wǎng)沖浪的初期,發(fā)展了兩種基本方法用于網(wǎng)上搜索。在第一種方法里,根據(jù)由自動(dòng)搜索引擎收集在一起的網(wǎng)頁內(nèi)容產(chǎn)生索引數(shù)據(jù),搜索引擎在網(wǎng)上“爬行以尋找新的獨(dú)特的頁面。然后,此數(shù)據(jù)庫可用各種質(zhì)詢技術(shù)搜索,而且通常數(shù)據(jù)可根據(jù)質(zhì)詢形式的相似性分級(jí)。在第二個(gè)方法中,網(wǎng)頁分組成一分層結(jié)構(gòu),往往以一棵樹的形式呈現(xiàn)。然后當(dāng)順著此分層結(jié)構(gòu)下行時(shí),使用者便作出一系列的選擇,在代表決定點(diǎn)之下的子樹之間顯著區(qū)別的每一級(jí)別上作出兩個(gè)或更多的選擇,最終達(dá)至包含文本和/或多媒體內(nèi)容頁面的葉節(jié)點(diǎn)。
例如,圖1說明一典型的現(xiàn)有技術(shù)分層結(jié)構(gòu)102,其中多個(gè)決定節(jié)點(diǎn)(下稱“節(jié)點(diǎn)”)130-136分層排列成多個(gè)父/或子節(jié)點(diǎn),每一節(jié)點(diǎn)均與一獨(dú)特的學(xué)科類別相聯(lián)系。例如,節(jié)點(diǎn)130為節(jié)點(diǎn)131與132的父節(jié)點(diǎn),而節(jié)點(diǎn)131與132則為節(jié)點(diǎn)130的子節(jié)點(diǎn)。因?yàn)楣?jié)點(diǎn)131與132都是同一節(jié)點(diǎn)(節(jié)點(diǎn)130)的子節(jié)點(diǎn),節(jié)點(diǎn)131與132互為兄弟。在102學(xué)科分層結(jié)構(gòu)中其他的兄弟對(duì)包括節(jié)點(diǎn)133與134,還有節(jié)點(diǎn)135與136。由圖1可見,節(jié)點(diǎn)130形成學(xué)科分層結(jié)構(gòu)102的第一級(jí)137,而節(jié)點(diǎn)131-132形成學(xué)科分層結(jié)構(gòu)102的第二級(jí)138。節(jié)點(diǎn)133-136則形成學(xué)科分層結(jié)構(gòu)102的第三級(jí)139。此外,節(jié)點(diǎn)130被認(rèn)為是學(xué)科分層結(jié)構(gòu)102的根節(jié)點(diǎn),因?yàn)樗皇瞧渌魏喂?jié)點(diǎn)的子節(jié)點(diǎn)。
將網(wǎng)頁分層分類的過程面臨多重挑戰(zhàn)。首先,分層結(jié)構(gòu)的性質(zhì)必須界定。通常這是由專門學(xué)科領(lǐng)域中的專家人工完成的,有點(diǎn)像為圖書館做杜威十進(jìn)制系統(tǒng)的分類。然后這些類別加上說明標(biāo)簽提交出來,以便使用者和分類者在指向此分層結(jié)構(gòu)時(shí)能作出適當(dāng)?shù)臎Q定。然后,例如,以個(gè)別電子文檔形式呈現(xiàn)的內(nèi)容可用在分類系統(tǒng)中人工搜索的方法放進(jìn)多個(gè)類別中去。
近年來人們的注意力已轉(zhuǎn)向這一過程各個(gè)階段的自動(dòng)化?,F(xiàn)已存在從批量文檔中將文檔自動(dòng)分類的系統(tǒng)。例如,某些系統(tǒng)應(yīng)用與文檔有聯(lián)系的關(guān)系字將相似文檔自動(dòng)集合成組群。這些組群又能多次反復(fù)組成超級(jí)組群,從而產(chǎn)生分層結(jié)構(gòu),然而,這些系統(tǒng)需要人工插入關(guān)鍵字,產(chǎn)生的是一個(gè)沒有系統(tǒng)性結(jié)構(gòu)的分層結(jié)構(gòu)。如果此分層結(jié)構(gòu)用于人工搜索,就必須人工檢查子節(jié)點(diǎn)或葉文檔以識(shí)別公共特點(diǎn),從而對(duì)分層結(jié)構(gòu)的節(jié)點(diǎn)貼上標(biāo)簽。
許多分類系統(tǒng)應(yīng)用字列表將文檔分類,通常,顯著字可以預(yù)先界定,也可從正在處理的文檔中選擇,以便更為準(zhǔn)確地表征文檔。一般這些顯著字列表是用對(duì)一組文檔中的每一個(gè)文檔數(shù)全部字的出現(xiàn)頻率來產(chǎn)生。然后根據(jù)一個(gè)或多個(gè)判據(jù)將字從字列表中移出。往往,在一批文檔中出現(xiàn)次數(shù)太少的字被剔除,因?yàn)檫@些字用得太少不足以可靠地區(qū)分類別,但出現(xiàn)得太頻繁的字也要剔除,因?yàn)樵诟黝愇臋n中都要出現(xiàn)。
再者,“無用字”與詞干也往往從特點(diǎn)列表中剔除以更利于顯著特點(diǎn)的確定。無用字包括語言中的普通字,諸如“a”,“the”,“his”與“and”,這些字讓人感覺并不具有語義學(xué)內(nèi)容,詞干則指諸如“-ing”,“-is”與“-able”等詞尾??上?,生成無用字列表與詞干列表是一項(xiàng)語言專業(yè)性的任務(wù),要求有語法、文檔和習(xí)語方面的專業(yè)知識(shí),而這些又是會(huì)隨時(shí)間變化的。因此,就要求有一個(gè)更為靈巧的方法來確定顯著特定。
附圖簡要說明本發(fā)明將通過示例性實(shí)施例來描述,但并無限制,并用
,其中相同的標(biāo)號(hào)表示相似的要素,附圖中圖1說明一包括多個(gè)決定節(jié)點(diǎn)的示例性現(xiàn)有技術(shù)分層結(jié)構(gòu);圖2(A-C)根據(jù)本發(fā)明的一個(gè)實(shí)施例說明顯著特點(diǎn)確定功能的操作流程;圖3根據(jù)一個(gè)實(shí)施例說明本發(fā)明顯著特定確定設(shè)備的應(yīng)用實(shí)例;圖4根據(jù)本發(fā)明的一個(gè)實(shí)施例說明圖3的分類器訓(xùn)練服務(wù)的功能框圖;圖5根據(jù)本發(fā)明的一個(gè)實(shí)施例舉例說明適于用作確定顯著特點(diǎn)的計(jì)算系統(tǒng)。
發(fā)明的詳細(xì)描述下文將描述本發(fā)明的各個(gè)方面。然而,本領(lǐng)域的技術(shù)人員可以清楚,本發(fā)明可以僅用其某些或全部方面而實(shí)施。為便于解釋,專門的數(shù)字、材料與結(jié)構(gòu)均予以闡明以便提供對(duì)本發(fā)明的透徹了解。然而,本領(lǐng)域的技術(shù)人員也清楚,本發(fā)明無需這些細(xì)節(jié)也可實(shí)施。在其他情形,眾所周知的特點(diǎn)予以忽略或簡化,以免說不清楚本發(fā)明。
描述的有些部分以用基于處理器的設(shè)備實(shí)施的操作表達(dá),使用諸如數(shù)據(jù),存貯、選擇、確定、計(jì)算等術(shù)語,與本領(lǐng)域技術(shù)人員通常使用的相符,以便將他們工作的基本內(nèi)容傳給本領(lǐng)域的其它技術(shù)人員。本領(lǐng)域的技術(shù)人員可以理解,數(shù)量可取能貯存,傳輸或者通過基于處理器的設(shè)備中的機(jī)械及電學(xué)元件操控的電學(xué)、磁學(xué)或光學(xué)信號(hào)的形式;而這里處理器一詞包括微處理器、微控制器、數(shù)字信號(hào)處理器等,可以是獨(dú)立的,也可以是輔助的或嵌入式的。
各個(gè)操作按各個(gè)分立步驟依次描述,以便最有助于了解本發(fā)明,然而,描述的順序不應(yīng)理解為意味著這些操作必與順序相關(guān)。實(shí)際上,這些操作無須按所呈現(xiàn)的順序執(zhí)行。再者,描述反復(fù)使用短語“在一個(gè)實(shí)施例中”,但并不一定都指同一實(shí)施例,雖然可以如此。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,從第一個(gè)對(duì)象組中提取一個(gè)或多個(gè)獨(dú)特的特點(diǎn)以形成第一特點(diǎn)集,再從第二個(gè)對(duì)象組中提取一個(gè)或多個(gè)獨(dú)特特點(diǎn)以形成第二特點(diǎn)集。然后在第一特定集的獨(dú)特特點(diǎn)與第二特點(diǎn)集的獨(dú)特特點(diǎn)間采用統(tǒng)計(jì)區(qū)分法產(chǎn)生一分級(jí)特點(diǎn)列表。然后,從這樣得到的分級(jí)特定列表中即可識(shí)別出一組顯著特點(diǎn)。
在一個(gè)實(shí)施例中,顯著特點(diǎn)的確定有利于對(duì)數(shù)據(jù)對(duì)象的有效分類,對(duì)象包括(但不限于)文本文檔、圖象文檔、音頻序與視頻序列,在甚大規(guī)模的分層分類樹中,也在諸如平坦文檔的非分級(jí)數(shù)據(jù)結(jié)構(gòu)中這些數(shù)據(jù)對(duì)象既包括專利格式也包括非專利格式。例如在一文本文檔中,特點(diǎn)可取字的形式,而術(shù)語“字”通常理解為在給定的語言中代表一組字母,具有某種語義學(xué)的意義。更一般地說,一個(gè)特點(diǎn)可以是一個(gè)N-標(biāo)記語法(N-token gram),一個(gè)標(biāo)記就是語言的一個(gè)微小元素,例如,包括英語中的N-字母語法和N-字語法,也包括亞洲語言中的N-表意符語法。又如在音頻序列中,音調(diào)、速度、音延、音高、音量以及諸如此類都可用作對(duì)聲音分類的特點(diǎn),而在視頻序列與靜止圖像中,各個(gè)像素屬性,諸如角度和亮度級(jí)即可用作特點(diǎn)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,一旦一個(gè)特點(diǎn)組從一組(比如說)電子文檔中被識(shí)別出來,然后就可確定出這些特點(diǎn)的一個(gè)子集對(duì)于給定數(shù)據(jù)對(duì)象組的分類而言是顯著的。本文中的術(shù)語“電子文檔”廣泛用于描述一族數(shù)據(jù)對(duì)象,諸如以上所描述的包括一個(gè)或多個(gè)構(gòu)成特點(diǎn)的那一些。雖然電子文檔可包括文本,也同樣可包括音頻和/或視頻內(nèi)容,即可取代文本,也可附加于文本。
特點(diǎn)選擇的判據(jù)一經(jīng)確定(就是說哪些不同文本/音頻/視頻的屬性在數(shù)據(jù)對(duì)象集中用作確定性特點(diǎn)),本發(fā)明的顯著特點(diǎn)確定過程即可實(shí)施。顯著特點(diǎn)確定過程一開始,所考慮的數(shù)據(jù)對(duì)象分成兩組。然后對(duì)這兩組數(shù)據(jù)對(duì)象應(yīng)用代表“實(shí)用可能性”的方程(見方程1),這里0(d)代表一給定數(shù)據(jù)對(duì)象作為第一數(shù)據(jù)對(duì)象組之成員的可能性,P(R|d)代表此數(shù)據(jù)對(duì)象作為此第一組成員的概率,而P(R′|d)則代表此數(shù)據(jù)對(duì)象作為第二組成員的概率。
O(d)=P(R|d)P(R′|d)---(1)]]>因?yàn)閿?shù)據(jù)對(duì)象的人工分組并不提供用于計(jì)算實(shí)用可能性的概率,方程(1)便可充分利用來估計(jì)此值。相應(yīng)的,對(duì)數(shù)函數(shù)連同Baye公式可一起應(yīng)用于方程(1)的兩邊,給出方程(2)logO(d)=logP(d|R)-logP(d|R′)+logP(R)-logP(R′) (2)如此,一數(shù)據(jù)對(duì)象假設(shè)由一組特點(diǎn){Fj}組成;并且Xi要么是1要么是0,分別代表給定特點(diǎn)fi在或者不在一數(shù)據(jù)對(duì)象內(nèi),則logO(d)=Σi[logP(Xi|R)-logP(Xi|R′)]+logP(R)-logP(R′)---(3)]]>因?yàn)閘ogP(R)與logP(R′)都是常數(shù),與數(shù)據(jù)對(duì)象中選作顯著的特點(diǎn)無關(guān),便可規(guī)定一新量g(d)g(d)=Σi[logP(Xi|R)-logP(Xi|R′)]---(4)]]>如設(shè)pi=P(Xi=1/R)代表一給定特點(diǎn)(fi)出現(xiàn)在第一數(shù)據(jù)組中的一個(gè)數(shù)據(jù)對(duì)象中的概率,而qi=P(xi=1/R′)代表給定特點(diǎn)(fi)出現(xiàn)在第二數(shù)據(jù)對(duì)象組中的一個(gè)數(shù)據(jù)對(duì)象中的概率,則經(jīng)代入化簡可得方程(5)g(d)=Σi[Xilogpi(1-qi)qi(1-pi)+Σi[log1-pi1-qi]---(5)]]>因?yàn)榈诙?xiàng)中的求和并不依賴于特點(diǎn)在數(shù)據(jù)對(duì)象中的出現(xiàn)情形,可將之除去而得方程(6)
logpi(1-qi)qi(1-pi)---(6)]]>因?yàn)閷?duì)數(shù)函數(shù)是單調(diào)函數(shù),方程(7)pi(1-qi)qi(1-pi)---(7)]]>的比值最大化即足以使相應(yīng)的對(duì)數(shù)值最大化。根據(jù)本發(fā)明的一項(xiàng)具體體現(xiàn),對(duì)兩組數(shù)據(jù)對(duì)象,對(duì)組合特點(diǎn)列表中的每個(gè)特點(diǎn)應(yīng)用方程(7)以利于顯著特點(diǎn)的識(shí)別。為此,應(yīng)計(jì)算pi,代表在第一數(shù)據(jù)對(duì)象組中至少包含特點(diǎn)fi一次的數(shù)據(jù)對(duì)象數(shù)除以第一數(shù)據(jù)對(duì)象文檔組中數(shù)據(jù)對(duì)象的總數(shù)。同樣,應(yīng)計(jì)算qi,qi代表第二數(shù)據(jù)對(duì)象組中至少包含特點(diǎn)fi一次的數(shù)據(jù)對(duì)象數(shù)除以第二組數(shù)據(jù)對(duì)象組中數(shù)據(jù)對(duì)象的總數(shù)。
圖2(A-C)根據(jù)本發(fā)明的一個(gè)實(shí)施例說明顯著特點(diǎn)確定功能的操作流程。一開始,先檢查第一集數(shù)據(jù)對(duì)象以產(chǎn)生一特點(diǎn)列表,該列表由出現(xiàn)在至少是來自第一數(shù)據(jù)對(duì)象集的一個(gè)或多個(gè)數(shù)據(jù)對(duì)象的獨(dú)特特點(diǎn)組成,見方框210。對(duì)每一個(gè)識(shí)別過的獨(dú)特特點(diǎn),應(yīng)用方程(7)以產(chǎn)生一分組特點(diǎn)列表,見方框220,此分組特點(diǎn)列表中的至少一個(gè)子集選作顯著特點(diǎn),見方框230。顯著特點(diǎn)可包含由分級(jí)特點(diǎn)列表中選出的一個(gè)或多個(gè)相鄰或非相鄰的元素組。在一個(gè)實(shí)施例中,分級(jí)特點(diǎn)列表中的前N個(gè)元素選作顯著的,而N可根據(jù)系統(tǒng)的需要而變化。在另一實(shí)施例中,分級(jí)特點(diǎn)列表中的最后的M個(gè)元素選作顯著的,而M亦根據(jù)系統(tǒng)的需要而變化。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,當(dāng)產(chǎn)生特點(diǎn)列表(見方框210)時(shí),包含在每一個(gè)數(shù)據(jù)對(duì)象組中的數(shù)據(jù)對(duì)象的總數(shù)得以確定,見方框212,對(duì)在至少是第一數(shù)據(jù)對(duì)象組中識(shí)別的每一個(gè)獨(dú)特特點(diǎn),包含此獨(dú)特特點(diǎn)的數(shù)據(jù)對(duì)象總數(shù)亦能確定,見方框214。此外,獨(dú)特特點(diǎn)列表可根據(jù)所需要不同的判據(jù)過濾,見方框216。例如,獨(dú)特特點(diǎn)列表可刪減除去那些并未發(fā)現(xiàn)為不管怎樣出現(xiàn)的次數(shù)最少的數(shù)據(jù)對(duì)象的特點(diǎn),那些短于經(jīng)確定的某一最小長度的特點(diǎn),和/或出現(xiàn)的次數(shù)比配額少的特點(diǎn)也被去除。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,應(yīng)用統(tǒng)計(jì)區(qū)分的方法獲得分級(jí)特點(diǎn)列表,如同就圖2A中的方框220描述的那樣,還進(jìn)一步包括在同2C中說明的那些過程。就是說,在應(yīng)用統(tǒng)計(jì)區(qū)分法(即如方程(7)所示)時(shí)就作出一項(xiàng)決定,即確定在第一個(gè)數(shù)據(jù)對(duì)象集中的哪一些經(jīng)識(shí)別的獨(dú)特特點(diǎn)也出現(xiàn)在第二個(gè)數(shù)據(jù)對(duì)象集中,見方框221,同樣地確定出在第一數(shù)據(jù)對(duì)象集中的哪一些經(jīng)識(shí)別的獨(dú)特特點(diǎn)不出現(xiàn)在第二文檔集中,見方框222。根據(jù)所說明的具體體現(xiàn),當(dāng)通過統(tǒng)計(jì)區(qū)分法(即方程(7))作出決定時(shí),那些確定為只出現(xiàn)在一個(gè)數(shù)據(jù)對(duì)象集中而不出現(xiàn)在其他集中的特點(diǎn)便被在分組特定列表中定為較高的相對(duì)級(jí)別,見方框223,而那些確定為在兩個(gè)數(shù)據(jù)對(duì)象集中都出現(xiàn)的特點(diǎn)則定為相對(duì)較低的級(jí)別,見方框224。有時(shí),根據(jù)包含每一個(gè)相應(yīng)特點(diǎn)的數(shù)據(jù)對(duì)象的總數(shù),分級(jí)特點(diǎn)列表中的特點(diǎn)還可進(jìn)一步分級(jí)。
應(yīng)用示例現(xiàn)參見圖3,在其中根據(jù)一個(gè)實(shí)施例,以一例示出本發(fā)明用于確定顯著特點(diǎn)的設(shè)備。如圖所示,分類器300用來有效地對(duì)數(shù)據(jù)對(duì)象分類,諸如在一大類包括甚大規(guī)模級(jí)別分類樹及平坦文檔格式的數(shù)據(jù)結(jié)構(gòu)中的電子文檔,包括(但不限于)文本文檔,圖像文檔,音頻序列與視頻序列,既包含專利性格式也包含非專利性格式。分類器300包括分類器訓(xùn)練服務(wù)305,用以為訓(xùn)練分類器300根據(jù)從以前已分類過的數(shù)據(jù)分層結(jié)構(gòu)中提取的分類規(guī)則對(duì)新的數(shù)據(jù)對(duì)象分類;也包括分類器分類服務(wù)315用以對(duì)輸入進(jìn)分類器300的新數(shù)據(jù)對(duì)象進(jìn)行分類。
分類器訓(xùn)練服務(wù)305的功能包括聚集功能306,本發(fā)明的顯著特點(diǎn)確定功能308,以及節(jié)點(diǎn)特征化功能309。根據(jù)所示的實(shí)施例,來自前已分類的數(shù)據(jù)分層結(jié)構(gòu)的內(nèi)容在分層結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)處通過聚集功能306聚焦,以同時(shí)形成數(shù)據(jù)的內(nèi)容組與非內(nèi)容組。然后由每個(gè)數(shù)據(jù)組提取特點(diǎn)并用顯著特點(diǎn)確定功能308的方法確定那些特點(diǎn)是顯著的一個(gè)特點(diǎn)子集。節(jié)點(diǎn)特征化功能309用來對(duì)前已分類過的數(shù)據(jù)分層結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)根據(jù)顯著特點(diǎn)特征化,也用以在數(shù)據(jù)貯存310中貯存這些分類特征化,例如,以便為分類器分類服務(wù)315作進(jìn)一步使用。
關(guān)于包括分類器訓(xùn)練設(shè)備305和分類器分類設(shè)備315的分類器300的其他資料在與此同時(shí)提交的編號(hào)為《51026,P004》的美國專利申請(qǐng)書中描述,題為“Very-Large-Scale Automatic Categorizer For Web Content(為網(wǎng)上內(nèi)容的甚大規(guī)模自動(dòng)分類器)”,共同地轉(zhuǎn)讓本申請(qǐng)的受讓人,該申請(qǐng)通過引用完全結(jié)合于此。
分類器訓(xùn)練服務(wù)圖4根據(jù)本發(fā)明的一個(gè)實(shí)施例畫出圖3中的分類訓(xùn)練服務(wù)305的功能方框圖。如圖4所示,前已分類的數(shù)據(jù)分層結(jié)構(gòu)402用以輸入至分類器300的分類訓(xùn)練服務(wù)305。前已分類的數(shù)據(jù)分層結(jié)構(gòu)400代表一個(gè)諸如音頻、視頻和/或文本對(duì)象的數(shù)據(jù)對(duì)象集,這些數(shù)據(jù)對(duì)象前已分類并將其歸入一主題分層結(jié)構(gòu)(通常由人工完成)。前已分類的數(shù)據(jù)分層結(jié)構(gòu)402可以代表一個(gè)或多個(gè)前已經(jīng)web門戶或搜索引擎分類過的電子文檔集。
根據(jù)業(yè)已說明的例子,聚集功能406將來自前已分類的數(shù)據(jù)分層結(jié)構(gòu)402的內(nèi)容聚集至內(nèi)容和非內(nèi)容組,這樣就在分層結(jié)構(gòu)的每個(gè)級(jí)別的兄弟節(jié)點(diǎn)間增加了差別。顯著特點(diǎn)確定功能408的作用是從內(nèi)容與非內(nèi)容數(shù)據(jù)組中提取特點(diǎn)并確定哪些提取的特點(diǎn)(409)可被定為顯著的(409′)。
此外,根據(jù)已說明的例子,圖3中的節(jié)點(diǎn)特征化功能309的作用是對(duì)內(nèi)容及非內(nèi)容數(shù)據(jù)組特征化。在一個(gè)實(shí)施例中,內(nèi)容與非內(nèi)容數(shù)據(jù)是根據(jù)已確定的顯著特點(diǎn)而特征化的。在一個(gè)實(shí)施例中,特征化的結(jié)果貯存在數(shù)據(jù)貯存設(shè)備310中,這可以任何種數(shù)據(jù)結(jié)構(gòu)的形式實(shí)施,諸如數(shù)據(jù)庫、目錄結(jié)構(gòu),或是簡單的查驗(yàn)列表。在本發(fā)明的一個(gè)實(shí)施例中對(duì)每個(gè)節(jié)點(diǎn)分類器的參數(shù)都貯存在一類似于前已分類的數(shù)據(jù)分層結(jié)構(gòu)的文件結(jié)構(gòu)的級(jí)別分類樹中。
計(jì)算機(jī)系統(tǒng)示例圖5說明適于根據(jù)本發(fā)明的一個(gè)實(shí)施例用以確定顯著特點(diǎn)的一例計(jì)算機(jī)系統(tǒng)。如圖所示,計(jì)算機(jī)系統(tǒng)500包括一個(gè)或多個(gè)處理器502及系統(tǒng)存儲(chǔ)器504。此外,計(jì)算機(jī)系統(tǒng)500還包括大容量的存貯設(shè)備506(諸如磁盤、硬驅(qū)、CDROM等)、輸入/輸出設(shè)備508(諸如鍵盤、光標(biāo)控制器等)以及通信接口510(諸如網(wǎng)絡(luò)接口卡、調(diào)制解調(diào)器等)。各部分通過系統(tǒng)總線512相互耦合,系統(tǒng)總線可代表一個(gè)或多個(gè)總線。當(dāng)系統(tǒng)總線512代表多個(gè)總線時(shí),彼此間由一個(gè)或多個(gè)總線橋(未畫出)相連接。
每一個(gè)部分都行使本領(lǐng)域中已知的尋常功能。具體來說,系統(tǒng)存儲(chǔ)器504與大容量存儲(chǔ)設(shè)備506用來貯存實(shí)施本發(fā)明的分類系統(tǒng)的編程指令的一個(gè)工作副本和一個(gè)永久副本。編程指令的永久性副本可在出廠前即加載入大容量存儲(chǔ)設(shè)備506中;或在現(xiàn)場(chǎng)載入,如前所述,通過一分配介質(zhì)(未畫出)或通過通信接口510(來自一分配服務(wù)器(未畫出))加載。這些部分502~512的結(jié)構(gòu)都是已知的,無須進(jìn)一步描述。
結(jié)論和后記因此,由以上描述可見,用以為對(duì)象分類的自動(dòng)確定顯著特點(diǎn)的新方法及裝置已描述出來。雖然本發(fā)明用上述實(shí)施例描述,本領(lǐng)域的技術(shù)人員會(huì)認(rèn)識(shí)到,本發(fā)明并不局限于所描述的實(shí)施例。本發(fā)明亦可用修改和替換方案來實(shí)施,但必須在所附權(quán)利要求書的精神和范圍之內(nèi)。因此本描述應(yīng)認(rèn)為是關(guān)于本發(fā)明的說明性而非約束性描述。
權(quán)利要求
1.一種方法,包括從數(shù)據(jù)對(duì)象的第一內(nèi)容組中提取一個(gè)或多個(gè)獨(dú)特特點(diǎn)以形成第一特點(diǎn)列表;從數(shù)據(jù)對(duì)象文檔的第二非內(nèi)容組中提取一個(gè)或多個(gè)獨(dú)特特點(diǎn)以形成第二特點(diǎn)列表;通過在所述第一特點(diǎn)列表的獨(dú)特特點(diǎn)和所述第二特點(diǎn)列表的獨(dú)特特點(diǎn)間應(yīng)用統(tǒng)計(jì)區(qū)分法產(chǎn)生一分級(jí)特點(diǎn)列表;以及從所述分級(jí)特點(diǎn)列表中識(shí)別出顯著特點(diǎn)集。
2.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)對(duì)象的第一內(nèi)容組和所述數(shù)據(jù)對(duì)象的第二非內(nèi)容組中的每一個(gè)均包含一個(gè)或多個(gè)電子文檔。
3.如權(quán)利要求1所述的方法,其特征在于,還包含確定包含所述數(shù)據(jù)對(duì)象第一內(nèi)容組的第一數(shù)據(jù)對(duì)象總數(shù);以及確定包含所述數(shù)據(jù)對(duì)象第二非內(nèi)容組的第二數(shù)據(jù)對(duì)象總數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,還包含對(duì)形成所述第一特點(diǎn)列表的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)中的每一個(gè)確定所述數(shù)據(jù)對(duì)象第一內(nèi)容組中含有所述第一特點(diǎn)列表中每個(gè)相應(yīng)的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的至少一個(gè)實(shí)例的第一數(shù)據(jù)對(duì)象數(shù);以及對(duì)形成所述第二特點(diǎn)列表的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)中的每一個(gè)確定所述數(shù)據(jù)對(duì)象第二非內(nèi)容組中含有所述第二特點(diǎn)列表中每個(gè)相應(yīng)的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的第二數(shù)據(jù)對(duì)象數(shù)。
5.如權(quán)利要求4所述的方法,其特征在于,產(chǎn)生所述分級(jí)列表包含將不出現(xiàn)在所述第二特點(diǎn)列表中的所述第一特點(diǎn)列表的那些獨(dú)特特點(diǎn)識(shí)別為排它的特點(diǎn);將也出現(xiàn)在所述第二特點(diǎn)列表中的所述第一特點(diǎn)列表的那些獨(dú)特特點(diǎn)識(shí)別為公共特點(diǎn);以及對(duì)所述分級(jí)列表排序,以使與所述公共特點(diǎn)相比,在所述分級(jí)列表中所述排它特點(diǎn)的級(jí)別較高。
6.如權(quán)利要求5所述的方法,其特征在于,還包含對(duì)每一個(gè)所述公共特點(diǎn)應(yīng)用概率性函數(shù)以獲得一結(jié)果矢量,其中,所述概率性函數(shù)包含第一數(shù)據(jù)對(duì)象數(shù)除以所述第一數(shù)據(jù)對(duì)象總數(shù),與所述第二數(shù)據(jù)對(duì)象數(shù)除以所述第二數(shù)據(jù)對(duì)象總數(shù)的比值;以及至少部分地基于所述概率性函數(shù)的結(jié)果矢量對(duì)所述分級(jí)列表中的所述公共特點(diǎn)排序。
7.如權(quán)利要求5所述的方法,其特征在于,基于第一數(shù)據(jù)對(duì)象數(shù)對(duì)所述排它特點(diǎn)進(jìn)一步分級(jí)。
8.如權(quán)利要求1所述的方法,其特征在于,從所述分級(jí)特點(diǎn)列表中識(shí)別出所述顯著特點(diǎn)集包含選擇所述分級(jí)特點(diǎn)列表中前N個(gè)相鄰特點(diǎn)。
9.如權(quán)利要求1所述的方法,其特征在于,從所述分級(jí)特點(diǎn)列表中識(shí)別出所述顯著特點(diǎn)集包含選擇所述分級(jí)特點(diǎn)列表中的最后M個(gè)相鄰特點(diǎn)。
10.如權(quán)利要求1所述的方法,其特征在于,每一個(gè)所述獨(dú)特特點(diǎn)都包含一個(gè)或多個(gè)字母數(shù)字字符的組。
11.如權(quán)利要求1所述的方法,其特征在于,還包含至少部分地基于所述顯著特點(diǎn)集將一新的數(shù)據(jù)對(duì)象分類成與所述數(shù)據(jù)對(duì)象的第一內(nèi)容組及所述數(shù)據(jù)對(duì)象的第二非內(nèi)容組中的一個(gè)的關(guān)系最密切。
12.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)對(duì)象的第一內(nèi)容組包含那些對(duì)應(yīng)于具有多個(gè)節(jié)點(diǎn)的主題分層結(jié)構(gòu)中選出的節(jié)點(diǎn)以及與選出節(jié)點(diǎn)相關(guān)聯(lián)的任何子節(jié)點(diǎn)的數(shù)據(jù)對(duì)象;以及其中,所述數(shù)據(jù)對(duì)象的第二非內(nèi)容組包含那些對(duì)應(yīng)于與選出的節(jié)點(diǎn)相關(guān)聯(lián)的任何兄弟節(jié)點(diǎn)以及與此兄弟節(jié)點(diǎn)相關(guān)聯(lián)的任何子節(jié)點(diǎn)的數(shù)據(jù)對(duì)象。
13.一種識(shí)別顯著特點(diǎn)的方法,所述方法包含識(shí)別作為第一數(shù)據(jù)類的成員的一個(gè)或多個(gè)獨(dú)特特點(diǎn);檢查第二數(shù)據(jù)類以識(shí)別所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)中也是所述第二數(shù)據(jù)類的成員的那些獨(dú)特特點(diǎn),以及所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)中不是所述第二數(shù)據(jù)類的成員的那些獨(dú)特特點(diǎn);產(chǎn)生一分級(jí)獨(dú)特特點(diǎn)列表,此列表有一基于所述第二數(shù)據(jù)類中每一個(gè)所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的成員身份的順序;以及將所述分級(jí)獨(dú)特特點(diǎn)列表的一個(gè)或多個(gè)識(shí)別為顯著的。
14.如權(quán)利要求13所述的方法,其特征在于,還包含對(duì)所述分級(jí)獨(dú)特特點(diǎn)列表中的每一個(gè),確定所述第一數(shù)據(jù)類中包含每個(gè)相應(yīng)的獨(dú)特特點(diǎn)的對(duì)象數(shù)。
15.如權(quán)利要求14所述的方法,其特征在于,產(chǎn)生一分級(jí)列表還包含將所述獨(dú)特特點(diǎn)中不是所述第二數(shù)據(jù)類成員的那些獨(dú)特特點(diǎn)在所述分級(jí)列表中的級(jí)別定為比所述獨(dú)特特點(diǎn)中也是所述第二數(shù)據(jù)類成員的那些獨(dú)特特點(diǎn)的級(jí)別高。
16.如權(quán)利要求15所述的方法,其特征在于,產(chǎn)生一分級(jí)列表還包含將所述獨(dú)特特點(diǎn)中屬于所述第一數(shù)據(jù)類的較多數(shù)目對(duì)象的那些獨(dú)特特點(diǎn)在所述分級(jí)列表中的級(jí)別定為比所述獨(dú)特特點(diǎn)中屬于所述第一數(shù)據(jù)類中較少數(shù)目對(duì)象的那些獨(dú)特特點(diǎn)的級(jí)別高。
17.如權(quán)利要求13所述的方法,其特征在于,識(shí)別為顯著的包含從所述分級(jí)獨(dú)特特點(diǎn)列表中選出前N個(gè)連續(xù)的特點(diǎn)集。
18.如權(quán)利要求13所述的方法,其特征在于,識(shí)別為顯著的包含從所述分級(jí)獨(dú)特特點(diǎn)列表中選出最后M個(gè)連續(xù)的特點(diǎn)。
19.一種裝置,包含一在其中貯存有多個(gè)編程指令的存儲(chǔ)介質(zhì),所述指令被設(shè)計(jì)成實(shí)現(xiàn)類名服務(wù)的多個(gè)功能,用以向數(shù)據(jù)對(duì)象提供類名,包括第一一個(gè)或多個(gè)功能,以便從數(shù)據(jù)對(duì)象的第一內(nèi)容組中提取一個(gè)或多個(gè)獨(dú)特特點(diǎn)以形成第一特點(diǎn)列表,從數(shù)據(jù)對(duì)象的第二非內(nèi)容組中提取一個(gè)或多個(gè)獨(dú)特特點(diǎn)以形成第二特點(diǎn)列表,通過在所述第一特點(diǎn)列表的獨(dú)特特點(diǎn)與所述第二特點(diǎn)列表的獨(dú)特特點(diǎn)之間應(yīng)用統(tǒng)計(jì)區(qū)分法來產(chǎn)生一分級(jí)特點(diǎn)列表,以及從所述分級(jí)特點(diǎn)列表中識(shí)別出一顯著特點(diǎn)集;以及一與所述存儲(chǔ)介質(zhì)耦合的處理器,用以執(zhí)行所述編程指令。
20.如權(quán)利要求19所述的裝置,其特征在于,所述數(shù)據(jù)對(duì)象第一內(nèi)容組與所述數(shù)據(jù)對(duì)象第二非內(nèi)容組中的每一個(gè)都包含一個(gè)或多個(gè)數(shù)據(jù)對(duì)象。
21.如權(quán)利要求19所述的裝置,其特征在于,所述多個(gè)指令還包含指令,以便確定包含所述數(shù)據(jù)對(duì)象第一內(nèi)容組的第一數(shù)據(jù)對(duì)象總數(shù),以及確定包含所述數(shù)據(jù)對(duì)象第二非內(nèi)容組的第二數(shù)據(jù)對(duì)象總數(shù)。
22.如權(quán)利要求19所述的裝置,其特征在于,所述多個(gè)指令還包含指令,以便對(duì)形成所述第一特點(diǎn)列表的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的每一個(gè),確定所述數(shù)據(jù)對(duì)象第一內(nèi)容組中包含所述第一特點(diǎn)列表的每個(gè)相應(yīng)的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的至少一個(gè)實(shí)例的第一數(shù)據(jù)對(duì)象數(shù),以及對(duì)形成所述第二特點(diǎn)列表的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的每一個(gè),確定所述數(shù)據(jù)對(duì)象第二非內(nèi)容組中包含所述第二特定列表的每個(gè)相應(yīng)的所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的至少一個(gè)實(shí)例的第二數(shù)據(jù)對(duì)象數(shù)。
23.如權(quán)利要求20所述的裝置,其特征在于,產(chǎn)生所述分級(jí)列表的所述多個(gè)指令包含指令,以便將所述第一特點(diǎn)列表中不出現(xiàn)在所述第二特點(diǎn)列表中的那些獨(dú)特特點(diǎn)識(shí)別為排它特點(diǎn),將所述第一特點(diǎn)列表中也出現(xiàn)在所述第二特點(diǎn)列表中的那些獨(dú)特特點(diǎn)識(shí)別為公共特點(diǎn),以及對(duì)所述分級(jí)列表排序,以使所述排它特點(diǎn)與所述公共特點(diǎn)相比,在所述分級(jí)列表中級(jí)別更高。
24.如權(quán)利要求23所述的裝置,其特征在于,所述多個(gè)指令還包含指令,以便對(duì)所述公共特點(diǎn)的每一個(gè)應(yīng)用概率性函數(shù)以獲得一結(jié)果矢量,其中,所述概率性函數(shù)包含第一數(shù)據(jù)對(duì)象數(shù)除以所述第一數(shù)據(jù)對(duì)象總數(shù),與所述第二文檔數(shù)除以所述第二數(shù)據(jù)對(duì)象總數(shù)之比,以及至少部分地基于所述概率性函數(shù)的結(jié)果矢量對(duì)所述分級(jí)列表中的所述公共特點(diǎn)排序。
25.如權(quán)利要求23所述的裝置,其特征在于,基于第一數(shù)據(jù)對(duì)象數(shù)對(duì)所述排它特點(diǎn)進(jìn)一步分級(jí)。
26.如權(quán)利要求19所述的裝置,其特征在于,用以從所述分級(jí)特點(diǎn)列表中識(shí)別出所述顯著特點(diǎn)集的所述多個(gè)指令還包含用以選出所述分級(jí)特點(diǎn)列表中前N個(gè)相鄰的特點(diǎn)的指令。
27.如權(quán)利要求19所述的裝置,其特征在于,用以從所述分級(jí)特點(diǎn)列表中識(shí)別出所述顯著特點(diǎn)集的所述多個(gè)指令還包含用以選出所述分級(jí)特點(diǎn)列表中的最后M個(gè)相鄰的特點(diǎn)的指令。
28.如權(quán)利要求19所述的裝置,其特征在于,每個(gè)所述獨(dú)特特點(diǎn)都包含一個(gè)或多個(gè)字母數(shù)字字符的組。
29.如權(quán)利要求19所述的裝置,其特征在于,所述多個(gè)指令還包含指令,以便至少部分地基于所述顯著特點(diǎn)集,將一新的數(shù)據(jù)對(duì)象識(shí)別為與所述數(shù)據(jù)對(duì)象第一內(nèi)容組及所述數(shù)據(jù)對(duì)象第二非內(nèi)容組中的一個(gè)關(guān)系最密切。
30.如權(quán)利要求19所述的裝置,其特征在于,所述數(shù)據(jù)對(duì)象第一內(nèi)容組包含那些對(duì)應(yīng)于從具有多個(gè)節(jié)點(diǎn)的主題分層結(jié)構(gòu)中選出的節(jié)點(diǎn)以及與選出節(jié)點(diǎn)相關(guān)聯(lián)的任何子節(jié)點(diǎn)的數(shù)據(jù)對(duì)象;以及其中,所述數(shù)據(jù)對(duì)象第二非內(nèi)容組包含那些對(duì)應(yīng)于與所選出的節(jié)點(diǎn)相聯(lián)系的任何兄弟節(jié)點(diǎn)以及與此兄弟節(jié)點(diǎn)相聯(lián)系的任何子節(jié)點(diǎn)的數(shù)據(jù)對(duì)象。
31.一種裝置,包含已在其中貯存有多個(gè)編程指令的存儲(chǔ)介質(zhì),所述指令被設(shè)計(jì)成實(shí)現(xiàn)包括第一一個(gè)或多個(gè)功能的多個(gè)功能,以便識(shí)別出作為第一數(shù)據(jù)類成員的一個(gè)或多個(gè)獨(dú)特特點(diǎn),檢查第二數(shù)據(jù)類以識(shí)別出所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)中也是所述第二數(shù)據(jù)類成員的那些獨(dú)特特點(diǎn),以及所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)中不是所述第二數(shù)據(jù)類成員的那些獨(dú)特特點(diǎn),產(chǎn)生一獨(dú)特特點(diǎn)列表,它具有基于所述第二數(shù)據(jù)類中所述一個(gè)或多個(gè)獨(dú)特特點(diǎn)的每一個(gè)的成員身份排序的順序,以及將所述分級(jí)獨(dú)特特點(diǎn)列表中的一個(gè)或多個(gè)識(shí)別為顯著的;以及一與所述存儲(chǔ)介質(zhì)相耦合的處理器,用以執(zhí)行所述編程指令。
32.如權(quán)利要求31所述的裝置,其特征在于,所述多個(gè)指令還包含指令,以便對(duì)所述分級(jí)獨(dú)特特點(diǎn)列表中的每一個(gè),確定所述第一數(shù)據(jù)類中包含每個(gè)相應(yīng)的獨(dú)特特點(diǎn)的對(duì)象數(shù)。
33.如權(quán)利要求32所述的裝置,其特征在于,產(chǎn)生分級(jí)列表的所述多個(gè)指令還包含將所述獨(dú)特特點(diǎn)中不是所述第二數(shù)據(jù)類成員的那些獨(dú)特特點(diǎn)在所述分級(jí)列表中的級(jí)別定得比所述獨(dú)特特點(diǎn)中也是所述第二數(shù)據(jù)類成員的那些獨(dú)特特點(diǎn)高的指令。
34.如權(quán)利要求33所述的裝置,其特征在于,產(chǎn)生分級(jí)列表的所述多個(gè)指令還包含將所述獨(dú)特特點(diǎn)中屬于所述第一數(shù)據(jù)類中較多數(shù)目對(duì)象的那些獨(dú)特特點(diǎn)在所述分級(jí)列表中的級(jí)別定得比所述獨(dú)特特點(diǎn)中屬于所述第一數(shù)據(jù)類中較少數(shù)目對(duì)象的那些獨(dú)特特點(diǎn)高的指令。
35.如權(quán)利要求31所述的裝置,其特征在于,用以識(shí)別為顯著的所述多個(gè)指令還包含從所述分級(jí)獨(dú)特特點(diǎn)列表中選出前N個(gè)連續(xù)的獨(dú)特特點(diǎn)集的指令。
36.如權(quán)利要求31所述的裝置,其特征在于,用以識(shí)別為顯著的所述多個(gè)指令還包含從所述分級(jí)獨(dú)特特點(diǎn)列表中選出最后的M個(gè)連續(xù)獨(dú)特特點(diǎn)集的指令。
全文摘要
提供了為對(duì)象分類而自動(dòng)確定顯著特點(diǎn)的方法和裝置。根據(jù)一個(gè)實(shí)施例,從第一內(nèi)容對(duì)象組中提取一個(gè)或多個(gè)獨(dú)特特點(diǎn)以形成第一特點(diǎn)列表,再從第二非內(nèi)容對(duì)象組中提取一個(gè)或多個(gè)獨(dú)特特點(diǎn)以形成第二特點(diǎn)列表。然后在第一特點(diǎn)列表的獨(dú)特特點(diǎn)和第二特點(diǎn)列表的獨(dú)特特點(diǎn)間采用統(tǒng)計(jì)區(qū)分法產(chǎn)生一分級(jí)特點(diǎn)列表。然后從所得的分級(jí)特點(diǎn)列表中識(shí)別出顯著特點(diǎn)集。
文檔編號(hào)G06F17/30GK1669023SQ02829663
公開日2005年9月14日 申請(qǐng)日期2002年9月25日 優(yōu)先權(quán)日2002年9月25日
發(fā)明者D·P·盧力奇, F·G·吉拉克 申請(qǐng)人:微軟公司