專利名稱:用于對(duì)象自動(dòng)分類的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及信息檢索和對(duì)象(例如文檔、搜索結(jié)果等)分類,更具體而言,
本發(fā)明涉及用于對(duì)象自動(dòng)分類的方法和系統(tǒng),該方法和系統(tǒng)將基于查詢歷史的分類結(jié)果與 基于本體信息的分類結(jié)果相結(jié)合,來(lái)進(jìn)行對(duì)象的分類和組織。
背景技術(shù):
隨著因特網(wǎng)導(dǎo)致的電子信息激增,在Web上逐漸積累了大量的多元化信息,并且 這些信息仍舊持續(xù)不斷地飛速增長(zhǎng)。從而,帶來(lái)的一項(xiàng)具有挑戰(zhàn)性的任務(wù)是如何幫助網(wǎng)民 從這大量不斷激增的信息中找到有用的信息。 信息檢索(Information Retrieval, IR)是用于在對(duì)象(例如文檔)集合中搜索 信息的科學(xué)。根據(jù)處理對(duì)象的不同,其可被進(jìn)一步劃分為對(duì)文檔中包含的信息片段的搜索、 對(duì)文檔本身的搜索、對(duì)描述文檔的元數(shù)據(jù)的搜索或者數(shù)據(jù)庫(kù)內(nèi)的搜索,以檢索文本、聲音、 圖像或數(shù)據(jù)。這里所述數(shù)據(jù)庫(kù)可以是關(guān)系獨(dú)立數(shù)據(jù)庫(kù)或超文本聯(lián)網(wǎng)數(shù)據(jù)庫(kù)(例如通過(guò)因特 網(wǎng)或內(nèi)聯(lián)網(wǎng))。Web搜索引擎(例如Google或Baidu)是一種被設(shè)計(jì)用于幫助用戶找到存 儲(chǔ)在Web上的信息的對(duì)象檢索系統(tǒng),其允許用戶尋找滿足特定標(biāo)準(zhǔn)(通常,該標(biāo)準(zhǔn)表達(dá)為給 定的單詞或短語(yǔ))的內(nèi)容并檢索出匹配這些標(biāo)準(zhǔn)的項(xiàng)目列表。 對(duì)象分類是利用來(lái)自預(yù)定集合的主題類別來(lái)標(biāo)記對(duì)象(例如文檔、自然語(yǔ)言文 本)的活動(dòng),其可被應(yīng)用于IR和文本數(shù)據(jù)挖掘中的很多應(yīng)用情形,例如詞義消歧、文檔組 織、文本過(guò)濾和網(wǎng)頁(yè)檢索等等。對(duì)象聚類(Object Clustering)是對(duì)象分類的一種,其將 諸如文檔之類的對(duì)象分類到不同的群組,更確切地講,將對(duì)象集合劃分成多個(gè)子集(即聚 類),從而使得每個(gè)子集中的對(duì)象共享某些公共特征。 考慮到從通用的搜索引擎通常會(huì)返回大量搜索結(jié)果這一事實(shí),在很多情況下,Web
用戶仍舊難以找到他們真正需要的信息。對(duì)象聚類/分類技術(shù)則能夠通過(guò)有效的組織這些
返回的搜索結(jié)果,使得用戶能夠更容易地找到或者快速導(dǎo)航到其所關(guān)心的對(duì)象。 如上所述,隨著電子媒體內(nèi)容的不斷激增,搜索引擎(用于網(wǎng)頁(yè)或桌面文檔)在幫
助用戶尋找有用信息方面開(kāi)始扮演越來(lái)越關(guān)鍵的角色。然而,搜索引擎所返回的大量搜索
結(jié)果通常在標(biāo)題和類型方面都是異構(gòu)的,從而在用戶試圖找到他們感興趣的信息時(shí)會(huì)給用
戶帶來(lái)極大負(fù)擔(dān)。 在現(xiàn)有技術(shù)中已經(jīng)存在很多用于自動(dòng)信息分類的算法。例如,在XuanHui Wang 禾口 ChendXiang Zhai所著的題為"Learn from Web SearchLogs to Organize Search Results"的文章(參見(jiàn)SIGIR2007,第87-94頁(yè))(下稱對(duì)比文獻(xiàn)l)中提出這樣一種搜索結(jié) 果分類方法,該方法根據(jù)從搜索引擎的查詢?nèi)罩緦W(xué)習(xí)獲得的類別來(lái)組織搜索結(jié)果。再比如, 在日本專利申請(qǐng)2005-182280 (下稱對(duì)比文獻(xiàn)2)中給出另一種組織搜索結(jié)果的方法,該方 法基于預(yù)先存儲(chǔ)的本體信息(ontology)來(lái)提取出對(duì)象類別,然后再按類別組織搜索結(jié)果。
在基于查詢?nèi)罩镜膶?duì)象分類方法中,類別選擇沒(méi)有考慮本體信息所提供的背景知 識(shí),因此分類結(jié)果的準(zhǔn)確性不夠好。另外,由于該解決方案所采用的統(tǒng)計(jì)方法過(guò)多地依賴于歷史信息而造成所產(chǎn)生的類別信息對(duì)用戶而言的可讀性差,因此其分類結(jié)果不是用戶友好 (user-friendly)的。 另一方面,對(duì)于基于本體信息的對(duì)象分類方法,由于該分類方法受到預(yù)先存儲(chǔ)的 本體信息的約束,所以其所產(chǎn)生的類別集合靈活性差,并因此難以反映用戶興趣的不斷改變。
發(fā)明內(nèi)容
鑒于上述現(xiàn)有技術(shù)中所存在的缺陷,作出了本發(fā)明,其將本體信息所提供的背景
知識(shí)與查詢?nèi)罩舅凳镜臍v史信息相結(jié)合,以提高對(duì)象(例如文檔和搜索結(jié)果)分類的質(zhì) 根據(jù)本發(fā)明第一方面,提供了一種用于分類對(duì)象的方法,該方法包括獲取一組對(duì) 象;基于查詢?nèi)罩緦?duì)所述對(duì)象進(jìn)行分類,以生成第一分類結(jié)果;基于本體信息對(duì)所述對(duì)象 進(jìn)行分類,以生成第二分類結(jié)果;以及對(duì)所述第一分類結(jié)果和所述第二分類結(jié)果進(jìn)行語(yǔ)義 融合,以生成最終分類結(jié)果。 根據(jù)本發(fā)明第二方面,提供了一種用于分類對(duì)象的系統(tǒng),該系統(tǒng)包括對(duì)象獲取裝 置,用于獲取一組對(duì)象;基于查詢?nèi)罩镜姆诸愌b置,用于基于查詢?nèi)罩緦?duì)所述對(duì)象進(jìn)行分 類,以生成第一分類結(jié)果;基于本體信息的分類裝置,用于基于本體信息對(duì)所述對(duì)象進(jìn)行分 類,以生成第二分類結(jié)果;以及語(yǔ)義融合裝置,用于對(duì)所述第一分類結(jié)果和所述第二分類結(jié) 果進(jìn)行語(yǔ)義融合,以生成最終分類結(jié)果。 如下面將更詳細(xì)描述的,本發(fā)明所提出的對(duì)象分類方法主要包括三個(gè)步驟(l) 基于查詢?nèi)罩镜膶?duì)象分類;(2)基于本體信息的對(duì)象分類;以及(3)上述兩種分類結(jié)果的語(yǔ) 義融合。 首先,在基于查詢?nèi)罩镜膶?duì)象分類中,如上述對(duì)比文獻(xiàn)1所述,由于搜索引擎的查 詢?nèi)罩敬鎯?chǔ)了反映搜索結(jié)果的潛在方面(類別集合)的相關(guān)查詢,因此該方法能夠根據(jù)從 查詢?nèi)罩局袑W(xué)習(xí)得到的類別來(lái)組織搜索結(jié)果。首先,用戶可以從查詢?nèi)罩局刑崛〕鱿嚓P(guān)查 詢;然后,對(duì)這些相關(guān)查詢聚類并將聚類中心視為潛在類別;最后,將所有搜索結(jié)果分類到 相應(yīng)類別中。 其次,關(guān)于基于本體信息的對(duì)象分類方法,如上述對(duì)比文獻(xiàn)2所述,由于本體信息 所反映的背景知識(shí)對(duì)用戶而言更容易理解,因此該方法將搜索結(jié)果分類到從本體信息提取 出的各個(gè)類別。首先,根據(jù)本體信息,用戶對(duì)待分類的對(duì)象(例如文檔)和輸入的目標(biāo)查詢 進(jìn)行標(biāo)注(annotation);然后,基于語(yǔ)義關(guān)聯(lián)性分析生成對(duì)象類別集合;最后,將所有搜索 結(jié)果分類到相應(yīng)類別中。 最后,語(yǔ)義融合步驟包含以下三種情況 1)根據(jù)基于本體信息的方法結(jié)果對(duì)基于查詢?nèi)罩镜姆椒ńY(jié)果進(jìn)行調(diào)整和細(xì)化;
2)根據(jù)基于查詢?nèi)罩镜姆椒ńY(jié)果對(duì)基于本體信息的方法結(jié)果進(jìn)行調(diào)整和細(xì)化; 以及 3)將以上兩方面調(diào)整結(jié)果相結(jié)合以得到對(duì)象分類的最終結(jié)果。 根據(jù)本發(fā)明,不僅分類的準(zhǔn)確性能夠得以提高,還能夠提供用戶友好的分類結(jié)果顯示。
如果沒(méi)有合理的目標(biāo)類別集合,從某種程度上講,單單討論分類的準(zhǔn)確性是沒(méi)有
意義的。通過(guò)將基于本體信息的分類方法所生成的語(yǔ)義框架(本體信息中的相關(guān)概念)添
加到基于查詢?nèi)罩镜姆椒ㄋ傻牟环€(wěn)定的類別集合,本發(fā)明能夠動(dòng)態(tài)地生成由本體知識(shí)
校正過(guò)的反映用戶查詢/瀏覽歷史的目標(biāo)類別集合,進(jìn)而大大提高分類準(zhǔn)確性。 另外,由于對(duì)于用戶而言,本體信息所反映的背景知識(shí)更易于理解,因此本發(fā)明可
以提供用戶友好的分類結(jié)果顯示。 此外,來(lái)自基于本體信息的方法和基于查詢?nèi)罩镜姆椒ǖ慕Y(jié)果之間的語(yǔ)義對(duì)準(zhǔn)能
夠確保聚類結(jié)果可以反映出用戶興趣的改變,從而提高了系統(tǒng)的分類靈活性。 從下面結(jié)合附圖的詳細(xì)描述中,可以更明確地看出本發(fā)明的以上及其他特征和優(yōu)
點(diǎn)。注意,本發(fā)明并不局限于圖中所示的示例或者任何具體的實(shí)施例。
結(jié)合附圖,從下面對(duì)本發(fā)明實(shí)施例的詳細(xì)描述,將更好地理解本發(fā)明,附圖中類似 的參考標(biāo)注指示類似的部分,其中 圖1是示出根據(jù)本發(fā)明實(shí)施例的對(duì)象分類系統(tǒng)100的內(nèi)部結(jié)構(gòu)的框圖;
圖2是示出圖1所示系統(tǒng)的操作過(guò)程的示例的流程圖; 圖3是更詳細(xì)示出圖1所示系統(tǒng)中用于執(zhí)行基于查詢?nèi)罩镜膶?duì)象分類的分類裝置 102的內(nèi)部結(jié)構(gòu)的框圖; 圖4是用于說(shuō)明基于查詢?nèi)罩镜膶?duì)象分類過(guò)程的示意圖; 圖5是更詳細(xì)示出圖1所示系統(tǒng)中用于執(zhí)行基于本體信息的對(duì)象分類的分類裝置 103的內(nèi)部結(jié)構(gòu)的框圖; 圖6是用于說(shuō)明基于本體信息的對(duì)象分類過(guò)程的示意圖; 圖7是示出第一語(yǔ)義融合過(guò)程的流程圖,在該過(guò)程中,參考基于本體信息的分類 結(jié)果對(duì)基于查詢?nèi)罩镜姆诸惤Y(jié)果進(jìn)行調(diào)整; 圖8和圖9是用于進(jìn)一步示出圖7所示第一語(yǔ)義融合過(guò)程和結(jié)果的示意圖;
圖10是示出第二語(yǔ)義融合過(guò)程的流程圖,在該過(guò)程中,參考基于查詢?nèi)罩镜姆诸?結(jié)果對(duì)基于本體信息的分類結(jié)果進(jìn)行調(diào)整; 圖ll和圖12是用于進(jìn)一步示出圖IO所示第二語(yǔ)義融合過(guò)程和結(jié)果的示意圖;以 及 圖13是示出最終語(yǔ)義融合結(jié)果的示意圖。
具體實(shí)施例方式
下面參考附圖描述根據(jù)本發(fā)明的示例性實(shí)施例。應(yīng)當(dāng)意識(shí)到,所描述的實(shí)施例僅 是用于舉例說(shuō)明的目的,本發(fā)明并不限于所描述的具體實(shí)施例。 本發(fā)明涉及對(duì)象自動(dòng)分類,這里以作為搜索結(jié)果的文檔為例來(lái)詳細(xì)說(shuō)明根據(jù)本發(fā) 明的方法和系統(tǒng)。當(dāng)然,本領(lǐng)域技術(shù)人員將會(huì)意識(shí)到,本發(fā)明并不局限于這里所提供的示 例,而是可被廣泛應(yīng)用到其他對(duì)象分類相關(guān)的領(lǐng)域。 圖1以框圖形式示出根據(jù)本發(fā)明實(shí)施例的對(duì)象分類系統(tǒng)100的內(nèi)部結(jié)構(gòu)。如圖所 示,該對(duì)象分類系統(tǒng)IOO主要包括對(duì)象獲取裝置101、基于查詢?nèi)罩镜姆诸愌b置102、基于本體信息的分類裝置103和語(yǔ)義融合裝置104,其中基于查詢?nèi)罩镜姆诸愌b置102和基于本體 信息的分類裝置103可分別參考來(lái)自查詢?nèi)罩敬鎯?chǔ)器106的查詢?nèi)罩竞蛠?lái)自本體信息存儲(chǔ) 器107的本體信息來(lái)實(shí)現(xiàn)基于搜索引擎的查詢?nèi)罩镜膶?duì)象分類和基于預(yù)先存儲(chǔ)的本體信 息的對(duì)象分類。例如前述對(duì)比文獻(xiàn)1和2分別給出兩個(gè)具體示例。當(dāng)然,本領(lǐng)域技術(shù)人員 可以意識(shí)到,本發(fā)明所應(yīng)用到分類方法并不局限于對(duì)比文獻(xiàn)1和2中所給出的示例,本領(lǐng)域 公知的其他基于查詢歷史和本體信息的對(duì)象分類方法也可以應(yīng)用于本發(fā)明以實(shí)現(xiàn)本發(fā)明 的目的。 在圖1所示示例中,用戶可獲得的所有對(duì)象(例如文檔)被存儲(chǔ)在對(duì)象庫(kù)105中。 用戶可以首先通過(guò)輸入單元1011輸入一目標(biāo)查詢,然后搜索單元1012可以在對(duì)象庫(kù)105 中執(zhí)行傳統(tǒng)的基于關(guān)鍵字的信息檢索,以根據(jù)倒排索引(inverted index)輸出搜索結(jié)果, 作為將被分類的對(duì)象集合。 基于查詢?nèi)罩镜姆诸愌b置102的分類結(jié)果和基于本體信息的分類裝置103的分 類結(jié)果分別以查詢列表和概念列表形式輸出,并被提供到語(yǔ)義融合裝置104以進(jìn)行語(yǔ)義融 合。最終,語(yǔ)義融合裝置104對(duì)查詢列表和概念列表進(jìn)行調(diào)整,并輸出最終分類結(jié)果。
圖2示出圖1所示對(duì)象分類系統(tǒng)100的工作過(guò)程200的流程圖。首先,在步驟201 處,用戶通過(guò)輸入單元1011輸入一 目標(biāo)查詢。然后,通過(guò)檢索,在步驟202處,搜索單元1012 從對(duì)象庫(kù)105中搜索出一組對(duì)象以用于分類。在步驟203處,基于查詢?nèi)罩镜姆诸愌b置102 對(duì)輸入的對(duì)象集合進(jìn)行基于查詢?nèi)罩镜姆诸悾陨傻谝环诸惤Y(jié)果(即查詢列表)。在步驟 204處,基于本體信息的分類裝置103對(duì)輸入的對(duì)象集合進(jìn)行基于本體信息的分類,以生成 第二分類結(jié)果(即概念列表)。最后,在步驟205中,語(yǔ)義融合裝置104對(duì)第一和第二分類 結(jié)果進(jìn)行語(yǔ)義融合,以生成最終分類結(jié)果。然后,過(guò)程200結(jié)束。
下面,將首先參考圖3和4來(lái)描述基于查詢?nèi)罩镜膶?duì)象分類過(guò)程。
如圖3所示,基于查詢?nèi)罩镜姆诸愌b置102包括查詢?nèi)罩精@取單元301、相關(guān)查詢 提取單元302、基于聚類的類別學(xué)習(xí)單元303和分類單元304。查詢?nèi)罩敬鎯?chǔ)器106存儲(chǔ) 有來(lái)自搜索引擎的查詢歷史,即用戶所輸入的所有查詢以及與這些查詢相關(guān)聯(lián)的點(diǎn)入信息 (下文稱之為"偽文檔")。其中,每個(gè)查詢例如可以對(duì)應(yīng)于一個(gè)偽文檔,以記錄該查詢所得 到的搜索結(jié)果中哪些結(jié)果被用戶點(diǎn)擊過(guò),以及被點(diǎn)擊的次數(shù)等信息。 首先,查詢?nèi)罩精@取單元301獲取查詢?nèi)罩敬鎯?chǔ)器106中所存儲(chǔ)的查詢?nèi)罩?。相關(guān) 查詢提取單元302根據(jù)查詢?nèi)罩精@取單元301所獲取的查詢?nèi)罩局械膫挝臋n與用戶輸入的 目標(biāo)查詢之間的相似性提取出相關(guān)查詢。然后,基于聚類的類別學(xué)習(xí)單元303對(duì)所有相關(guān) 查詢進(jìn)行聚類并輸出每個(gè)聚類的中心作為一個(gè)對(duì)象類別。這些對(duì)象類別應(yīng)該對(duì)應(yīng)于用戶輸 入的目標(biāo)查詢中所給出的用戶興趣。例如,如圖4所示,在以"WarRoom"為目標(biāo)查詢的示例 中,例如可以得到圖中左側(cè)所示出的聚類結(jié)果。并且在圖中右側(cè)所示出的查詢列表中,左側(cè) 聚類策略中生成的聚類中心WarRoom Plan、WarRoom Spec、Information Management、Tag、 Ontology等被用作對(duì)象類別。 然后,分類單元304可以利用現(xiàn)有的分類方法將對(duì)象(例如搜索結(jié)果)分類到不 同類別。例如,分類單元304可以根據(jù)搜索結(jié)果的TF-IDF向量與某一類別中所有文檔的向 量的平均值之間的余弦相似性得分來(lái)進(jìn)行搜索結(jié)果的分類(即,基于質(zhì)心的方法)。
圖5和圖6詳細(xì)示出基于本體信息的對(duì)象分類裝置及其操作原理。首先如圖5所示,基于本體信息的分類裝置103包括本體信息獲取單元501、對(duì)象標(biāo)注單元502、查詢標(biāo)注 單元503、類別生成單元504和分類單元505。本體信息存儲(chǔ)器107由兩部分構(gòu)成,即背景 知識(shí)存儲(chǔ)庫(kù)1071和元數(shù)據(jù)存儲(chǔ)庫(kù)1072。在圖5所示示例中,首先,對(duì)象標(biāo)注單元502從背 景知識(shí)存儲(chǔ)庫(kù)1071獲取背景知識(shí),并將其傳輸?shù)綄?duì)象標(biāo)注單元502,以用于對(duì)象(例如文 檔)語(yǔ)義標(biāo)注。對(duì)象標(biāo)注單元502獲取來(lái)自外部的對(duì)象集合,并參考由本體信息獲取單元 501輸入的背景知識(shí)來(lái)對(duì)接收到的對(duì)象進(jìn)行語(yǔ)義標(biāo)注,并將作為語(yǔ)義標(biāo)注結(jié)果所生成的元 數(shù)據(jù)存儲(chǔ)到元數(shù)據(jù)存儲(chǔ)庫(kù)1072中以備后用。對(duì)象標(biāo)注單元502對(duì)諸如文檔之類對(duì)象集合 的語(yǔ)義標(biāo)注過(guò)程在后臺(tái)執(zhí)行,其記錄背景知識(shí)中定義的實(shí)體與出現(xiàn)在文檔中的實(shí)體之間的 關(guān)聯(lián)關(guān)系(linkage)。 參考圖6所示流程圖,查詢標(biāo)注單元503對(duì)預(yù)先輸入的目標(biāo)查詢(步驟601),例如 "WarRoom Summery"中出現(xiàn)的關(guān)鍵字進(jìn)行語(yǔ)義標(biāo)注,并識(shí)別出在背景知識(shí)中出現(xiàn)的實(shí)體與 目標(biāo)查詢中感興趣的實(shí)體之間的關(guān)系(步驟602)。例如,查詢標(biāo)注單元503可以識(shí)別出實(shí) 體"WarRoom"是背景知識(shí)中的概念"project"的一個(gè)實(shí)例。然后,在步驟603中,類別生成 單元504根據(jù)經(jīng)標(biāo)注的目標(biāo)查詢?cè)诒倔w信息中的語(yǔ)義相關(guān)概念從背景知識(shí)存儲(chǔ)庫(kù)1071中 所存儲(chǔ)的背景知識(shí)中提取出適當(dāng)?shù)膶?duì)象類別集合。例如,根據(jù)背景知識(shí),類別生成單元504 可以識(shí)別出概念"project"與"Time"、"People"、"Team"等概念相關(guān),并因此將這些概念提 取出以作為可能的對(duì)象類別。從而,類別生成單元504可以生成如圖6所示概念列表1以 用于對(duì)象分類。最后,在步驟604中,分類單元505利用背景知識(shí)作為中介,通過(guò)參考預(yù)先 由對(duì)象標(biāo)注單元502存儲(chǔ)在元數(shù)據(jù)存儲(chǔ)庫(kù)1072中的與對(duì)象集合中的各個(gè)對(duì)象相關(guān)的元數(shù) 據(jù)來(lái)執(zhí)行語(yǔ)義關(guān)聯(lián)性分析,從而找到適當(dāng)?shù)念悇e用于對(duì)象分類。 上面分別參考圖3、4和圖5、6詳細(xì)描述了基于查詢?nèi)罩竞突诒倔w信息的對(duì)象分 類方案的示例。如前所述,基于查詢?nèi)罩镜姆诸惙椒ㄓ捎跊](méi)有考慮本體信息所提供的背景 知識(shí),因此分類結(jié)果的準(zhǔn)確性不夠好,并且對(duì)用戶而言可讀性差。另一方面,基于本體信息 的分類方法所產(chǎn)生的類別集合靈活性差,并且難以反映用戶興趣的不斷改變。鑒于此,本發(fā) 明提出一種綜合性方法,用于將上述兩種分類方案相結(jié)合,以提高對(duì)象分類的準(zhǔn)確性和用 戶友好性。 根據(jù)本發(fā)明的實(shí)施例,在圖1所示系統(tǒng)100中,語(yǔ)義融合裝置104的工作過(guò)程主要 包括以下三個(gè)方面 1)根據(jù)基于本體信息的分類結(jié)果來(lái)調(diào)整基于查詢?nèi)罩镜姆诸惤Y(jié)果; 2)根據(jù)基于查詢?nèi)罩镜姆诸惤Y(jié)果來(lái)調(diào)整基于本體信息的分類結(jié)果;以及 3)將以上兩方面調(diào)整結(jié)果相結(jié)合以得到最終的對(duì)象分類結(jié)果。 下面將通過(guò)參考圖7-13來(lái)詳細(xì)描述語(yǔ)義融合裝置104所執(zhí)行的語(yǔ)義融合過(guò)程的
工作原理。 首先,圖7示出第一語(yǔ)義融合過(guò)程,在該過(guò)程中,參考基于本體信息的分類結(jié)果 (即概念列表)對(duì)基于查詢?nèi)罩镜姆诸惤Y(jié)果(即查詢列表)進(jìn)行調(diào)整。圖8和圖9是示出 圖7所示第一語(yǔ)義融合過(guò)程和結(jié)果的示意圖。 如圖7所示,語(yǔ)義融合裝置104首先接收分別來(lái)自基于查詢?nèi)罩镜姆诸愌b置102 和基于本體信息的分類裝置103的第一分類結(jié)果(即查詢列表)和第二分類結(jié)果(即概 念列表)。所述查詢列表和概念列表的結(jié)構(gòu)例如如圖8所示。然后,在步驟701中,首先計(jì)算查詢列表上的查詢與概念列表中的每個(gè)概念之間的相似性。例如,在圖8所示示例中, 獲取查詢列表中的查詢"WarRoom Spec"所對(duì)應(yīng)的每個(gè)文檔,分析其元數(shù)據(jù)(Time、People、 Team...):例如,類別"WarRoom Spec"中90%的文檔包含單詞"MengXin"或由"MengXin"創(chuàng) 建,從而確定查詢"WarRoom Spec"與概念列表中的概念"MengXin"之間的相似性為90%。 類似地,可以確定查詢"WarRoom Spec"與概念列表中的概念"Time"下的子概念"Jan"、 "Feb"、"Mar"之間的相似性分別為15%、80%和5%。接下來(lái),在步驟702中,判斷計(jì)算出 的相似性是否大于預(yù)先給定的閾值。如果是,則在步驟703中執(zhí)行第一語(yǔ)義融合。例如,可 以通過(guò)在概念"MengXin"之后添加括號(hào),并在括號(hào)中添加查詢"WarRoom Spec"而將查詢 "WarRoom Spec"與概念"MengXin"相融合。然后,在步驟704中,根據(jù)在步驟701中計(jì)算出 的文檔相似性對(duì)括號(hào)中的查詢進(jìn)行排序。然后,過(guò)程700結(jié)束。 圖9示出上述第一語(yǔ)義融合過(guò)程的結(jié)果。經(jīng)過(guò)第一語(yǔ)義融合,基于本體信息的分 類過(guò)程所生成的概念列表的語(yǔ)義框架被添加到基于查詢?nèi)罩镜姆诸愡^(guò)程所生成的查詢列 表,從而得到圖9所示的融合列表1。通過(guò)該過(guò)程,本體信息中的相關(guān)概念可以被添加到查 詢列表形成的不穩(wěn)定的目標(biāo)類別集合,從而提高分類準(zhǔn)確性。另外,由于用戶可以更好地理 解本體信息所提供的背景知識(shí),因此經(jīng)過(guò)第一語(yǔ)義融合,可以提供分類結(jié)果的用戶友好顯 示。 圖10示出第二語(yǔ)義融合過(guò)程,在該過(guò)程中,參考基于查詢?nèi)罩镜姆诸惤Y(jié)果(即查 詢列表)對(duì)基于本體信息的分類結(jié)果(即概念列表)進(jìn)行調(diào)整。圖11和圖12是示出圖10 所示第二語(yǔ)義融合過(guò)程和結(jié)果的示意圖。 首先,如圖IO所示,語(yǔ)義融合裝置104首先接收分別來(lái)自基于查詢?nèi)罩镜姆诸愌b 置102和基于本體信息的分類裝置103的第一分類結(jié)果(即查詢列表)和第二分類結(jié)果 (即概念列表)。然后,在步驟1001中,從本體信息存儲(chǔ)器107收集一段時(shí)間內(nèi)與目標(biāo)查詢 (例如"WarRoom")的概念相關(guān)的所有查詢,并在步驟1002中,收集與這些查詢相關(guān)的所有 偽文檔。接下來(lái),在步驟1003中,可以參考各個(gè)查詢所對(duì)應(yīng)的偽文檔而統(tǒng)計(jì)出查詢列表中 的每個(gè)類別(即查詢)中的搜索結(jié)果的點(diǎn)擊次數(shù)。例如,如圖ll所示,查詢列表中的查詢 "WarRoom Plan"、"WarRoom Spec"等所對(duì)應(yīng)的搜索結(jié)果的點(diǎn)擊次數(shù)被計(jì)算出為100次、30 次等,并被相應(yīng)地表記載查詢列表中。然后,在步驟1004中,判斷計(jì)算出的各個(gè)查詢的點(diǎn)擊 頻率是否大于預(yù)先給定的閾值。如果是,則在步驟1005中執(zhí)行第二語(yǔ)義融合,即將具有較 高點(diǎn)擊頻率的查詢類別添加到概念列表中。例如,在圖11所示示例中,由于查詢"Tag"和 "Information Management"具有較高點(diǎn)擊頻率,因此當(dāng)搜索"WarRoom"時(shí),它們被視為偽概 念并被添加到概念列表中。然后,在步驟1006中,根據(jù)點(diǎn)擊頻率的大小對(duì)添加的偽概念進(jìn) 行排序。然后,過(guò)程1000結(jié)束。 圖12示出上述第二語(yǔ)義融合過(guò)程的結(jié)果。如圖所示,通過(guò)分析基于查詢?nèi)罩镜姆?類方法所生成的查詢列表,具有較高點(diǎn)擊頻率的查詢"Tag"和"Information Management" 作為偽概念被添加到基于本體信息的分類方法所生成的概念列表,從而得到圖12所示的 融合列表2。在大多數(shù)情況下,本體信息的定義可能不夠全面,并且其一旦被指定,則可能難 以根據(jù)用戶的興趣而被改變。通過(guò)第二語(yǔ)義融合過(guò)程,可以將基于查詢歷史生成的相關(guān)偽 概念添加到概念列表,從而使得分類結(jié)果更具靈活性。這樣一來(lái),既可以補(bǔ)償本體信息過(guò)于 僵化的缺點(diǎn),也可以反映用戶興趣的改變。
最后,上述第一和第二語(yǔ)義融合過(guò)程的結(jié)果被進(jìn)一步融合到一起,從而形成最終 的對(duì)象分類結(jié)果。圖13示出最終語(yǔ)義融合結(jié)果的示意圖。該最終分類結(jié)果例如圖13中的 融合列表3所示。通過(guò)將兩種語(yǔ)義融合結(jié)果相結(jié)合,可以實(shí)現(xiàn)基于本體信息的分類方法和 基于查詢?nèi)罩镜姆诸惙椒ǖ南嗷フ{(diào)整和細(xì)化。 經(jīng)過(guò)上述語(yǔ)義融合過(guò)程,使得根據(jù)本發(fā)明的對(duì)象分類方法所生成的分類結(jié)果更準(zhǔn) 確并且更具用戶友好性。 首先,在用戶友好性方面,通過(guò)將基于本體信息所生成的概念列表的語(yǔ)義框架添 加到查詢列表,使得用戶可以更快地了解相關(guān)查詢的語(yǔ)義屬性,而動(dòng)態(tài)添加相關(guān)偽概念的 做法可以解決本體信息僵化的問(wèn)題并使得用戶更容易找到最流行以及最相關(guān)的查詢結(jié)果。 此外,根據(jù)查詢相關(guān)的搜索結(jié)果的點(diǎn)擊頻率調(diào)整每個(gè)類別排序的做法可以反映出用戶興趣 的改變。 其次,在分類準(zhǔn)確性方面,通過(guò)將語(yǔ)義框架添加到基于查詢?nèi)罩镜姆椒ㄋ傻?不穩(wěn)定的類別集合,可以使得目標(biāo)類別集合進(jìn)一步細(xì)化,從而提高分類的準(zhǔn)確性。另外, 任何搜索引擎在運(yùn)行初期都不具有查詢?nèi)罩?,并且在不同領(lǐng)域的查詢?nèi)罩就ㄟ^(guò)是完全不同 的,并因此可能無(wú)法在本地引擎上直接使用。因此,基于本體信息的方法可以補(bǔ)償搜索引擎 運(yùn)行初期不存在查詢?nèi)罩镜那闆r,從而進(jìn)一步提高對(duì)象分類的準(zhǔn)確性。 雖然上面已經(jīng)參考附圖描述了根據(jù)本發(fā)明的具體實(shí)施例,但是本發(fā)明并不限于圖 中示出的特定配置和處理。在上述實(shí)施例中,描述和示出了若干具體的步驟作為示例。但 是,本發(fā)明的方法過(guò)程并不限于所描述和示出的具體步驟,本領(lǐng)域的技術(shù)人員可以在領(lǐng)會(huì) 本發(fā)明的精神之后,作出各種改變、修改和添加,或者改變步驟之間的順序。
本發(fā)明的元素可以實(shí)現(xiàn)為硬件、軟件、固件或者它們的組合,并且可以用在它們的 系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實(shí)現(xiàn)時(shí),本發(fā)明的元素是被用于執(zhí)行所需 任務(wù)的程序或者代碼段。程序或者代碼段可以存儲(chǔ)在機(jī)器可讀介質(zhì)中,或者通過(guò)載波中攜 帶的數(shù)據(jù)信號(hào)在傳輸介質(zhì)或者通信鏈路上傳送。"機(jī)器可讀介質(zhì)"可以包括能夠存儲(chǔ)或傳輸 信息的任何介質(zhì)。機(jī)器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲(chǔ)器設(shè)備、R0M、閃存、可擦 除ROM(EROM)、軟盤(pán)、CD-ROM、光盤(pán)、硬盤(pán)、光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由 諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計(jì)算機(jī)網(wǎng)絡(luò)被下載。 本發(fā)明可以以其他的具體形式實(shí)現(xiàn),而不脫離其精神和本質(zhì)特征。例如,特定實(shí)施 例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此,當(dāng)前的 實(shí)施例在所有方面都被看作是示例性的而非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非 上述描述定義,并且,落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在 本發(fā)明的范圍之中。
權(quán)利要求
一種用于分類對(duì)象的方法,包括獲取一組對(duì)象;基于查詢?nèi)罩緦?duì)所述對(duì)象進(jìn)行分類,以生成第一分類結(jié)果;基于本體信息對(duì)所述對(duì)象進(jìn)行分類,以生成第二分類結(jié)果;以及對(duì)所述第一分類結(jié)果和所述第二分類結(jié)果進(jìn)行語(yǔ)義融合,以生成最終分類結(jié)果。
2. 如權(quán)利要求1所述的方法,其中獲取所述對(duì)象的步驟包括 輸入一目標(biāo)查詢;根據(jù)所述目標(biāo)查詢?cè)趯?duì)象庫(kù)中進(jìn)行搜索;以及 輸出搜索結(jié)果,作為待分類的對(duì)象集合。
3. 如權(quán)利要求2所述的方法,其中在所述對(duì)象庫(kù)中的所述搜索采取基于關(guān)鍵字的信息 檢索方法。
4. 如權(quán)利要求2所述的方法,其中所述基于查詢?nèi)罩緦?duì)所述對(duì)象進(jìn)行分類的步驟包括獲取所述查詢?nèi)罩荆粡乃霾樵內(nèi)罩局刑崛〕雠c所述目標(biāo)查詢相關(guān)的查詢;對(duì)提取出的所述相關(guān)查詢進(jìn)行聚類,并確定各個(gè)聚類的聚類中心,作為對(duì)象類別;以及 將所有所述搜索結(jié)果分類到確定的各個(gè)類別中。
5. 如權(quán)利要求2所述的方法,其中所述基于本體信息對(duì)所述對(duì)象進(jìn)行分類的步驟包括獲取所述本體信息;參考所述本體信息標(biāo)注作為搜索結(jié)果的所有對(duì)象和所述目標(biāo)查詢;根據(jù)經(jīng)標(biāo)注的所述目標(biāo)查詢?cè)谒霰倔w信息中的語(yǔ)義相關(guān)概念來(lái)生成對(duì)象類別;以及 將所有所述搜索結(jié)果分類到生成的各個(gè)類別中。
6. 如權(quán)利要求1所述的方法,其中所述語(yǔ)義融合步驟包括 根據(jù)所述第二分類結(jié)果來(lái)調(diào)整所述第一分類結(jié)果; 根據(jù)所述第一分類結(jié)果來(lái)調(diào)整所述第二分類結(jié)果;以及集成所述調(diào)整后的第一分類結(jié)果和所述調(diào)整后的第二分類結(jié)果,以生成所述最終分類 結(jié)果。
7. 如權(quán)利要求6所述的方法,其中所述調(diào)整第一分類結(jié)果的步驟包括 將所述第二分類結(jié)果所形成的語(yǔ)義框架添加到所述第一分類結(jié)果。
8. 如權(quán)利要求6所述的方法,其中所述調(diào)整第二分類結(jié)果的步驟包括 將所述第一分類結(jié)果中被頻繁點(diǎn)擊的查詢添加到所述第二分類結(jié)果。
9. 一種用于分類對(duì)象的系統(tǒng),包括 對(duì)象獲取裝置,用于獲取一組對(duì)象;基于查詢?nèi)罩镜姆诸愌b置,用于基于查詢?nèi)罩緦?duì)所述對(duì)象進(jìn)行分類,以生成第一分類 結(jié)果;基于本體信息的分類裝置,用于基于本體信息對(duì)所述對(duì)象進(jìn)行分類,以生成第二分類 結(jié)果;以及語(yǔ)義融合裝置,用于對(duì)所述第一分類結(jié)果和所述第二分類結(jié)果進(jìn)行語(yǔ)義融合,以生成最終分類結(jié)果。
10. 如權(quán)利要求9所述的系統(tǒng),還包括 用于存儲(chǔ)對(duì)象的對(duì)象庫(kù); 其中所述對(duì)象獲取裝置包括 輸入單元,用于輸入一目標(biāo)查詢;以及搜索單元,用于根據(jù)所述目標(biāo)查詢?cè)谒鰧?duì)象庫(kù)中進(jìn)行搜索,并且輸出搜索結(jié)果,作為 待分類的對(duì)象集合。
11. 如權(quán)利要求io所述的系統(tǒng),其中所述基于查詢?nèi)罩镜姆诸愌b置包括查詢?nèi)罩精@取單元,用于獲取所述查詢?nèi)罩?;相關(guān)查詢提取單元,用于從所述查詢?nèi)罩局刑崛〕雠c所述目標(biāo)查詢相關(guān)的查詢; 基于聚類的類別學(xué)習(xí)單元,用于對(duì)提取出的所述相關(guān)查詢進(jìn)行聚類,并確定各個(gè)聚類 的聚類中心,作為對(duì)象類別;以及分類單元,用于將所有所述搜索結(jié)果分類到確定的各個(gè)類別中。
12. 如權(quán)利要求10所述的系統(tǒng),其中所述基于本體信息的分類裝置包括 本體信息獲取單元,用于獲取所述本體信息;對(duì)象標(biāo)注單元,用于參考所述本體信息標(biāo)注作為搜索結(jié)果的所有對(duì)象; 查詢標(biāo)注單元,用于標(biāo)注所述目標(biāo)查詢;類別生成單元,用于根據(jù)經(jīng)標(biāo)注的所述目標(biāo)查詢?cè)谒霰倔w信息中的語(yǔ)義相關(guān)概念來(lái) 生成對(duì)象類別;以及分類單元,用于將所有所述搜索結(jié)果分類到生成的各個(gè)類別中。
13. 如權(quán)利要求9所述的系統(tǒng),其中所述語(yǔ)義融合裝置包括 第一調(diào)整單元,用于根據(jù)所述第二分類結(jié)果來(lái)調(diào)整所述第一分類結(jié)果; 第二調(diào)整單元,用于根據(jù)所述第一分類結(jié)果來(lái)調(diào)整所述第二分類結(jié)果;以及 集成單元,用于集成所述調(diào)整后的第一分類結(jié)果和所述調(diào)整后的第二分類結(jié)果,以生成所述最終分類結(jié)果。
全文摘要
本發(fā)明提供了用于對(duì)象自動(dòng)分類的方法和系統(tǒng)。所述方法包括獲取一組對(duì)象;基于查詢?nèi)罩緦?duì)所述對(duì)象進(jìn)行分類,以生成第一分類結(jié)果;基于本體信息對(duì)所述對(duì)象進(jìn)行分類,以生成第二分類結(jié)果;以及對(duì)所述第一分類結(jié)果和所述第二分類結(jié)果進(jìn)行語(yǔ)義融合,以生成最終分類結(jié)果。根據(jù)本發(fā)明,與現(xiàn)有技術(shù)相比,通過(guò)對(duì)基于查詢?nèi)罩镜姆诸惤Y(jié)果與基于本體信息的分類結(jié)果進(jìn)行語(yǔ)義融合,可以提高分類的準(zhǔn)確性和用戶友好性。
文檔編號(hào)G06F17/30GK101727454SQ20081017361
公開(kāi)日2010年6月9日 申請(qǐng)日期2008年10月30日 優(yōu)先權(quán)日2008年10月30日
發(fā)明者史敬威, 孟昕, 李建強(qiáng), 趙彧 申請(qǐng)人:日電(中國(guó))有限公司