專利名稱:本體親和度矩陣的有效計算的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及詞典(lexigraphical)分析,更具體來講,涉及本體親和度矩 陣(ontology affinity matrix)的有效計算。
背景技術(shù):
本申請要求Stergios Stergiou等人在2009年2月13日提交的名為 "Efficient Computation of Automated Ontology Affinity Matrices” 白勺
No. 61/152,375的優(yōu)先權(quán)。以引證方式將該專利中請并入于此。文檔集合中的數(shù)據(jù)可能具有大量信息,然而查找相關(guān)信息可能比較困難。關(guān)鍵詞 搜索是查找信息的主要技術(shù)。然而,在特定情況下,關(guān)鍵詞搜索在信息定位方面并不是有效 的。
發(fā)明內(nèi)容
本發(fā)明的一個方面提供了一種方法,該方法包括以下步驟對包括多個反向索引 列表的反向索引進行訪問,每個反向索引列表對應(yīng)于一個術(shù)語,每個反向索引列表包括該 術(shù)語的術(shù)語標(biāo)識符和一個或更多個文檔標(biāo)識符,所述一個或更多個文檔標(biāo)識符指示了文檔 集合中的出現(xiàn)所述術(shù)語的一個或更多個文檔;對多個有序?qū)M行組織,各有序?qū)Πǚ聪?索引列表的術(shù)語標(biāo)識符和文檔標(biāo)識符,所述組織步驟首要地基于所述有序?qū)Φ乃鑫臋n標(biāo) 識符;以及根據(jù)所述反向索引生成術(shù)語標(biāo)識符索引,所述術(shù)語標(biāo)識符索引包括多個片段,每 個片段對應(yīng)于一個文檔,每個片段包括所述文檔中出現(xiàn)的一個或更多個術(shù)語的一個或更多 個術(shù)語標(biāo)識符,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的步驟包括以下步驟對所述 術(shù)語標(biāo)識符索引的所述片段中的有序?qū)Φ男g(shù)語標(biāo)識符進行組織。本發(fā)明的第二方面提供了一種裝置,所述裝置包括存儲器,所述存儲器能操作 用于進行如下操作存儲包括多個反向索引列表的反向索引,每個反向索引列表對應(yīng)于一 個術(shù)語,每個反向索引列表包括該術(shù)語的術(shù)語標(biāo)識符和一個或更多個文檔標(biāo)識符,所述一 個或更多個文檔標(biāo)識符指示了文檔集合中的出現(xiàn)所述術(shù)語的一個或更多個文檔;以及處理 器,所述操作器能操作用于執(zhí)行邏輯,以進行如下操作對多個有序?qū)M行組織,各有序?qū)?包括反向索引列表的術(shù)語標(biāo)識符和文檔標(biāo)識符,所述組織操作首要地基于所述有序?qū)Φ乃?述文檔標(biāo)識符;以及根據(jù)所述反向索引生成術(shù)語標(biāo)識符索引,所述術(shù)語標(biāo)識符索引包括多 個片段,每個片段對應(yīng)于一個文檔,每個片段包括所述文檔中出現(xiàn)的一個或更多個術(shù)語的 一個或更多個術(shù)語標(biāo)識符,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的操作包括以下操 作對所述術(shù)語標(biāo)識符索引的所述片段中的有序?qū)Φ男g(shù)語標(biāo)識符進行組織。本發(fā)明的第三方面提供了一種有形計算機可讀介質(zhì),所述有形計算機可讀介質(zhì)具 有計算機可執(zhí)行代碼,并且當(dāng)所述計算機可執(zhí)行代碼由計算機執(zhí)行時能夠進行如下操作 對包括多個反向索引列表的反向索引進行訪問,每個反向索引列表對應(yīng)于一個術(shù)語,每個 反向索引列表包括該術(shù)語的術(shù)語標(biāo)識符和一個或更多個文檔標(biāo)識符,所述一個或更多個文檔標(biāo)識符指示了文檔集合中的出現(xiàn)所述術(shù)語的一個或更多個文檔;對多個有序?qū)M行組 織,各有序?qū)Πǚ聪蛩饕斜淼男g(shù)語標(biāo)識符和文檔標(biāo)識符,所述組織操作首要地基于所 述有序?qū)Φ乃鑫臋n標(biāo)識符;以及根據(jù)所述反向索引生成術(shù)語標(biāo)識符索引,所述術(shù)語標(biāo)識 符索引包括多個片段,每個片段對應(yīng)于一個文檔,每個片段包括所述文檔中出現(xiàn)的一個或 更多個術(shù)語的一個或更多個術(shù)語標(biāo)識符,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的操 作包括以下操作對所述術(shù)語標(biāo)識符索引的所述片段中的有序?qū)Φ男g(shù)語標(biāo)識符進行組織。
圖1例示了由語言的單詞間的關(guān)系生成語言本體的系統(tǒng)的實施方式;圖2例示了記錄基本關(guān)系的親和度矩陣的一個示例;圖3例示了記錄方向關(guān)系的親和度矩陣的一個示例;圖4例示了記錄平均關(guān)系的親和度矩陣的一個示例;圖5例示了可以由圖1中的系統(tǒng)執(zhí)行的語言的本體的產(chǎn)生方法的一個實施方式;圖6例示了反向索引的一個示例;以及圖7例示了可以由圖6中的反向索引形成的示例性數(shù)據(jù)結(jié)構(gòu)和術(shù)語(term)標(biāo)識 符索引。
具體實施例方式概述在一個實施方式中,本體生成包括對反向索引的訪問,該反向索引包含語言的術(shù) 語的反向索引列表。與一個術(shù)語相對應(yīng)的反向索引列表指示了文檔集合中哪些文檔包含該 術(shù)語。根據(jù)反向索引來創(chuàng)建本體親和度矩陣。本體親和度矩陣具有多個條目,這些條目包 括術(shù)語對的親和度。在具體實施方式
中,領(lǐng)域(domain)本體的創(chuàng)建及查詢可以包括以下步驟1、收集領(lǐng)域中的文檔。在具體實施方式
中,文檔是術(shù)語的集合。因而,文檔可以采 取許多形式并且可以包括由其它文檔組成的子集。例如,當(dāng)在本申請中使用該術(shù)語時,百科 全書集合、百科全書集合中的“A”卷、“A”卷中的關(guān)于“土豚”的文章以及該文章內(nèi)的段落都 是文檔。文檔可以包括可讀文本,例如關(guān)于“土豚”的文章。文檔不一定包括敘述形式的文 本,例如,文檔可以包括用戶輸入標(biāo)注(tag)的集合,該用戶輸入標(biāo)注單獨地并共同地描述 了圖像的內(nèi)容。所收集的文檔可以被稱為文檔集合。因此,百科全書組可以被視為文檔組 和/或文檔。2、識別該領(lǐng)域中感興趣的術(shù)語(“詞典術(shù)語”)。在具體實施方式
中,“術(shù)語”可以 與“詞典術(shù)語”互換。術(shù)語的示例包括單詞(諸如“樹”)、短語(諸如“圖算法”)、命名實體 (諸如“紐約”)等。術(shù)語(或概念)可以具有不同的形式。在某些情況下,不同的單詞用 于同一概念,例如“kidneystones (腎結(jié)石),,和“kidney calculi (腎結(jié)石),,是指同一概 念,即“kidneystoneM腎結(jié)石)”。在其它情況下,詞干(word stem)可以具有多種詞形變 化(inflected variant),例如,詞干“tree”具有詞形變化“tree”和“trees”。在具體實 施方式中,同一術(shù)語的各種形式可以被處理為映射到同一術(shù)語。在其它實施方式中,同一術(shù) 語的各種形式可以被處理為獨立的術(shù)語。在文檔中可能出現(xiàn)詞典術(shù)語的任意適當(dāng)形式,但是某一特定詞典術(shù)語不一定出現(xiàn)在任意文檔中。識別詞典術(shù)語的方法的示例包括利用特定領(lǐng)域的人為生成的詞典,例如,醫(yī)學(xué)詞 典。在具體實施方式
中,可以由文檔集合中的文本串集合自動地生成詞典術(shù)語的列表???以對這些串進行索引并按照頻度進行排序,并且可以選擇頻度大于閾值的串??梢允褂闷?它適當(dāng)?shù)慕y(tǒng)計方法來確定術(shù)語。3、計算在給定的共現(xiàn)上下文中詞典術(shù)語的共現(xiàn)數(shù)量。如果兩個術(shù)語中在同一共現(xiàn) 上下文(例如,文檔)中均至少出現(xiàn)一次,則這兩個術(shù)語共現(xiàn)。4、創(chuàng)建包括該領(lǐng)域本體的有向加權(quán)圖(directed weighted graph)。該有向加權(quán) 圖包括詞典術(shù)語(其作為節(jié)點)以及親和度(其作為邊的權(quán)重)?!坝邢蚣訖?quán)圖”可以用作 可由任意適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)(例如,矩陣、二元決策圖或二元決策圖的集合等)表示的同一信 息的實際表示。5、應(yīng)用查詢該有向加權(quán)圖的過程。給定一個或更多個詞典術(shù)語作為輸入,該過程 輸出與所輸入的詞典術(shù)語相關(guān)的一個或更多個詞典術(shù)語。例如,該過程可以輸出與該一個 或更多個輸入術(shù)語具有最高差分有向親和度(如下所述)的一個或更多個術(shù)語的排序后列 表。在這種情況下,就該本體涉及的領(lǐng)域而言,該輸出包括與所輸入的術(shù)語更密切相關(guān)的術(shù)語??梢允褂萌魏芜m當(dāng)?shù)挠H和度定義。以下描述幾種親和度類型的示例。圖1例示了由語言的術(shù)語之間的親和度來生成語言本體的系統(tǒng)10的一個實施 方式。語言的本體代表語言的術(shù)語以及這些術(shù)語之間的關(guān)系。術(shù)語之間的親和度描述了 這些術(shù)語之間的關(guān)系。在一個實施方式中,系統(tǒng)10將親和度計算為數(shù)值(quantitative value)。這些值可用于生成用作語言本體的親和度矩陣和親和度圖。在所例示的實施方式中,系統(tǒng)10包括客戶機20、服務(wù)器22和存儲器24??蛻魴C 20使用戶能夠與服務(wù)器22通信以生成語言的本體。客戶機20可向服務(wù)器22發(fā)送用戶輸 入,并可以向用戶提供(例如,顯示或打印)服務(wù)器輸出。服務(wù)器22管理用于生成語言本 體的應(yīng)用。存儲器24存儲由服務(wù)器22使用的數(shù)據(jù)。存儲器24存儲文檔50和記錄54。文檔50可以指的是術(shù)語和/或圖像的集合。 術(shù)語可包括具有一個或更多個具體含義的一個或更多個字符(例如,字母、數(shù)字、空格或標(biāo) 點)。術(shù)語的示例包括“San Francisco”、“plants”、“non-stop”以及“N9ne”。可利用與圖 像關(guān)聯(lián)的標(biāo)注或其它元數(shù)據(jù)來分析具有圖像的文檔。文檔50的示例包括一個或更多個單詞、一個或更多個段落、一個或更多個頁面、 一節(jié)或更多節(jié)、一章或更多章、一個或更多個常規(guī)文檔、一本或更多本書、一個或更多個網(wǎng) 頁、往來信函(例如,電子郵件和即時消息)和/或其它的術(shù)語集合。也就是說,文檔可以 是單詞、段落、節(jié)、圖像、頁面、常規(guī)文檔、章、頁面節(jié)(page section)、書、網(wǎng)頁、電子郵件、消 息、網(wǎng)絡(luò)日志等。頁面50可由頁面標(biāo)識符來標(biāo)識。在某些實施方式中,多個文檔50可以屬 于一個文檔集合。文檔集合可以與具體主題、團體、組織或其它實體相關(guān)聯(lián)。記錄54描述了文檔50。在該實施方式中,記錄54包括索引58、反向索引62以及 本體66。索引58包括索引列表,其中,文檔50的索引列表指示了在文檔50中查找到的術(shù) 語。反向索引62包括反向索引列表,其中,術(shù)語的反向索引列表指示了包括該單詞的文檔 50。在一個示例中,列表Ti包括文檔50 (其包含術(shù)語、)的文檔標(biāo)識符。列表I^Tj可包括聯(lián)合文檔50 (其既包含術(shù)語ti又包含術(shù)語tp的文檔標(biāo)識符。列表Ti+!^可包括分離文檔 50(其包含術(shù)語、或、)的文檔標(biāo)識符。D(Ti)是Ti的文檔50的數(shù)量,S卩,包括術(shù)語、的 文檔50的數(shù)量。在一個實施方式中,列表(例如,索引列表或反向索引列表)可被存儲為二元決策 圖(BDD)。在一個示例中,集合Ti的二元決策圖BDD(Ti)代表具有術(shù)語、的文檔50。服務(wù)器22包括決策圖引擎26。在某些實施方式中,決策圖引擎26將列表(例如,索引列表和/或反向索引列表)作為BDD來存儲。在一個實施方式中,列表可被壓縮,并且 隨后可被存儲為二元決策圖(BDD)??梢酝ㄟ^任何適當(dāng)?shù)姆绞絹韷嚎s列表。決策圖引擎26 可以采用任何適當(dāng)?shù)姆绞綄⑺饕鎯锽DD。在一個實施方式中,由布爾函數(shù)來表示索引列 表,然后由BDD來表示布爾函數(shù)??梢圆捎萌魏芜m當(dāng)?shù)姆绞綄⒘斜肀硎緸椴紶柡瘮?shù)。決策圖引擎26可以采用任何適當(dāng)?shù)姆绞接肂DD來表示布爾函數(shù)。再參照圖1,決 策圖引擎26可以使用任何適當(dāng)?shù)腂DD來存儲列表。BDD的示例包括簡化排序BDD (ROBDD)、 分塊排序二元決策圖(POBDD)、消零決策圖(ZDD)、nano 二元決策圖(nanoDD)、消零nano 二 元決策圖(nanoZDD)、其它適當(dāng)?shù)亩獩Q策圖和/或上述任意二元決策圖的組合。在具體實施方式
中,隨著圖變得更大,決策圖引擎26對決策圖進行壓縮,適當(dāng)?shù)?改變表的大小(并為每個節(jié)點分配更多的位)以存儲決策圖。在具體實施方式
中,決策圖 引擎26開始將決策圖構(gòu)建為壓縮決策圖。作為大小改變的替換,決策圖引擎26直接對圖 構(gòu)建進行分解/組合(decomposition/composition),以直接將壓縮決策圖轉(zhuǎn)換為未簡化 的圖。在具體實施方式
中,壓縮決策圖有利于并行平臺之間的通信。在一個示例中,第一 平臺與第二平臺并行地工作。第一平臺可生成決策圖,使得決策圖被壓縮以與第二平臺通 信,并將該壓縮決策圖傳遞到第二平臺。第二平臺可由該壓縮決策圖來重建決策圖,以在第 二平臺處進行處理。服務(wù)器22包括親和度計算器34。親和度計算器34針對術(shù)語^或者針對包括第 一術(shù)語^和第二術(shù)語、的術(shù)語對來計算任何適當(dāng)類型的親和度。親和度的示例包括基本 親和度、有向親和度、平均親和度、差分親和度和/或其它親和度。親和度計算器34還可以 生成語言的本體66,例如親和度矩陣70或親和度圖74。可以由諸如基本親和度、有向親和 度、平均親和度、差分親和度和/或其它親和度之類的任何適當(dāng)?shù)挠H和度來生成本體。可以 采用任何適當(dāng)?shù)姆绞接蓮恼Z言中選擇的術(shù)語來生成本體66。例如,可以選擇語言中通用部 分的術(shù)語或者涉及一個或更多個具體主題范圍的術(shù)語。親和度計算器34可以生成親和度 矩陣70,該親和度矩陣70記錄了術(shù)語之間的親和度。圖2例示了記錄基本親和度的親和度矩陣110的示例??梢杂砂ㄐg(shù)語、和/或 tj的文檔50的量(例如,數(shù)量)來計算基本親和度。聯(lián)合文檔量表示了既包含術(shù)語、又 包含術(shù)語、的文檔50的量,分離文檔量表示了包含術(shù)語^或、的文檔50的量?;居H 和度可以被定義為聯(lián)合文檔量除以分離文檔量。在一個示例中,聯(lián)合文檔的數(shù)量指示了包 含術(shù)語、和術(shù)語、的文檔的數(shù)量,分離文檔的數(shù)量指示了包含術(shù)語、或術(shù)語、的文檔的 數(shù)量??梢酝ㄟ^將聯(lián)合文檔的數(shù)量除以分離文檔的數(shù)量而得到基本親和度Affinity (、,tj) = D/D (T^Tj)在另一個實施方式中,基本親和度可以被定義為包含術(shù)語、和、二者的文檔的量除以包含ti的文檔的量或者包含、的文檔的量二者中的最大值。例如Affinity (、,tj) = D/max (D (Ti),D (Tj))在圖2所示的示例中,親和度矩陣110記錄術(shù)語t1;. . .,t5的成對基本親和度。根據(jù)親和度矩陣110,術(shù)語、與、之間的基本親和度為0. 003,術(shù)語、與t2之間的基本親和 度為0. 005,等等。圖3例示記錄術(shù)語t1;. . .,t5的有向親和度的親和度矩陣120的示例。術(shù)語、與 tj之間的有向親和度DA可以定義為在觀察到、的情況下觀察到、的條件概率。術(shù)語、 與、之間的有向親和度還可以被稱為術(shù)語對、和、的有向親和度,或者稱為從、到、的 有向親和度。可以使用有向親和度來度量術(shù)語、相對于術(shù)語^的重要性。親和度計算器 34由包含術(shù)語、和、的文檔50的量(例如,數(shù)量)來計算術(shù)語對、和、的有向親和度。 D(Ti)表示包括術(shù)語、的文檔50的量。可以通過將聯(lián)合文檔量D(I^Tj)除以D(Ti)而得到 術(shù)語對、和、的有向親和度DAffinity (ti,ti) = D (Ti&Tj) /D (Ti)除非D(Ti) = D(Tj),否則 DAffinityai, tj)不等于 DAffinityaj,、)。從、至Ij tj的高有向親和度DAffinityai, tj)指示了在文檔50包含術(shù)語、的情況下文檔50包含 術(shù)語、的概率更高。在一個示例中,文檔[1 2 3 4 5]包括術(shù)語ti;而文檔[42]包括術(shù)語 、。包括術(shù)語、的該示例的文檔也包括術(shù)語ti;因此從術(shù)語、的角度來看,術(shù)語、的重要 性高。包括術(shù)語、的文檔中僅有三分之一的文檔也包括術(shù)語、,因此從術(shù)語、的角度來 看,術(shù)語、的重要性相對較低。在圖3的示例中,術(shù)語124是A術(shù)語,而術(shù)語128是B術(shù)語。矩陣120的行記錄了 給定A術(shù)語的情況下B術(shù)語的親和度,而親和度矩陣120的列記錄了給定B術(shù)語的情況下 A術(shù)語的親和度。圖4例示了記錄平均親和度的親和度矩陣140的示例??梢韵鄬τ谄渌g(shù)語、來 計算術(shù)語^的平均親和度。在一個實施方式中,平均親和度可以是術(shù)語^與每個其它術(shù)語 tj之間的親和度的平均值。在另一個實施方式中,可以根據(jù)從、到、的有向親和度來確定 平均親和度。因此,N個術(shù)語的術(shù)語、的平均親和度可以由以下等式得到AveAff(t1)=1/N∑DAffinity(ti,ti)S卩,平均親和度可以是在共獻上下文中術(shù)語、對其它術(shù)語的有向相關(guān)的平均值。 矩陣140的行142記錄了術(shù)語1至術(shù)語50,000的基本親和度。行144記錄了術(shù)語1至術(shù) 語50,000的平均親和度。在某些實施方式中,可以根據(jù)有向親和度來計算平均親和度(或 者平均有向親和度)。在某些實施方式中,可以對特定的有向親和度DA數(shù)組來計算平均親 和度AA矢量。在某些實施方式中,DA可以按行來存儲,所以可以對AA中的條目并行地進 行計算。具體來講,可以通過當(dāng)從盤中讀取DA的行時對DA的行進行求和,最后由詞典術(shù)語 條目的數(shù)量進行歸一化,來生成AA。術(shù)語、與、之間的差分親和度或差分有向親和度(DiffDAff)可以定義為術(shù)語、 與、之間的有向親和度減去與文檔集合中術(shù)語、的共性有關(guān)的因子。文檔集合中術(shù)語、 的共性可以是文檔集合中術(shù)語、針對其它術(shù)語的基本親和度或有向親和度值的統(tǒng)計值。在具體實施方式
中,文檔集合中術(shù)語、的共性可以是術(shù)語、的平均親和度(AA),其得到差分有向親和度的以下定義DiffAffUi, tj) = DAffinity(t”、)-AveAffUj)差分親和度去除了由于術(shù)語、在文檔50中出現(xiàn)的總體趨勢造成的偏差。在特定 情況下,差分親和度可以更精確地指示在文檔包括術(shù)語^的情況下該文檔包括術(shù)語^的概率。差分親和度可以用在各種應(yīng)用中。在一個示例中,人的姓名之間的差分親和度可 以用于研究社會關(guān)系網(wǎng)絡(luò)。在另一個示例中,語言元素之間的差分親和度可以用于研究自 然語言處理。在另一個示例中,產(chǎn)品之間的差分親和度可以用于研究市場營銷。如上所述,在術(shù)語之間存在各種類型的親和度。示例性實施方式可以創(chuàng)建親和度 矩陣來記錄術(shù)語之間的一種或更多種親和度。在一個實施方式中,語言的術(shù)語被選擇用于 本體??梢圆捎萌魏芜m當(dāng)?shù)姆绞絹磉x擇術(shù)語。例如,可以選擇通用的術(shù)語或者與特定主題 有關(guān)的術(shù)語。再次參照圖1,親和度計算器34訪問所選擇術(shù)語的記錄54。親和度計算器34 可以訪問反向索引62來檢索得到包括所選擇術(shù)語的文檔的列表。反向索引62可以被表示 為BDD或者任何其它適當(dāng)?shù)男问?。親和度計算器34計算所選擇術(shù)語的術(shù)語對并且將其存 儲在本體親和度矩陣中。可以計算任何適當(dāng)?shù)挠H和度,例如可以計算基本親和度、有向親和 度、平均親和度、差分親和度和/或其它親和度。可以使用本體親和度矩陣來表示語言的本 體。親和度計算器34可以使用任何適當(dāng)?shù)募夹g(shù)來搜索反向索引列表,以計算出親和 度。在一個實施方式中,親和度計算器可以使用對從術(shù)語集合(例如,詞典)得到的反向索 引進行操作的算法,來計算詞典術(shù)語的親和度矩陣。對于相對大的文檔集合,親和度矩陣計 算執(zhí)行的時間會非常長。與之前的方法相比,本公開的一些實施方式可以顯著改進執(zhí)行時 間。圖5例示了用于由反向索引生成親和度矩陣的方法的實施方式。一個實施方式包 括對反向索引進行訪問;根據(jù)該反向索引生成術(shù)語標(biāo)識符索引;以及生成本體親和度矩 陣。該方法開始于步驟210,在步驟210中訪問反向索引。例如,親和度計算器34或者 服務(wù)器22的其它元件可以訪問其中存儲有反向索引62的存儲器24。反向索引指示了在文 檔內(nèi)何處能夠查找到術(shù)語,并且可以包括多個反向索引列表。每個反向索引列表對應(yīng)于語 言的一個術(shù)語,并且包括該術(shù)語的術(shù)語標(biāo)識符。術(shù)語標(biāo)識符對術(shù)語進行標(biāo)識。通常,標(biāo)識符可以是任何適當(dāng)?shù)谋硎拘问?,例如?shù) 字、字母、單詞、符號、信號、其它適當(dāng)?shù)谋硎拘问交蛘呱鲜鲂问降慕M合,并且標(biāo)識符可以存 儲在電子介質(zhì)中。作為示例,如果反向索引存儲在矩陣中并且矩陣的各行包括反向索引列 表,則術(shù)語的術(shù)語標(biāo)識符可以是矩陣的如下行的數(shù)量,即該行包括對應(yīng)術(shù)語的反向索引列 表。在一個實施方式中,術(shù)語標(biāo)識符可以存儲在電子介質(zhì)中。反向索引列表還可以包括一組文檔標(biāo)識符。各文檔標(biāo)識符表示文檔集合中出現(xiàn)了 與反向索引列表相對應(yīng)術(shù)語的文檔。例如,如果文檔集合是一本書并且書的頁面是文檔,則 文檔標(biāo)識符可以是包括所關(guān)注術(shù)語的頁面的數(shù)量。文檔標(biāo)識符可以按任何適當(dāng)?shù)姆绞絹砼判?,并且其順序可以表示為從最低順序?最高順序的有序集合。例如,由文檔標(biāo)識符1、2、3和4表示的文檔可以排序為(1,2,3,4)、(4,3,2,1)、(2,4,3,1)或其它適當(dāng)?shù)捻樞颉n愃频?,可以采用任何適當(dāng)?shù)姆绞綄πg(shù)語標(biāo)識 符進行排序。將參照圖6更詳細(xì)地描述反向索引的示例。圖6示出了示例性的反向索引310。反向索引310包括四個反向索引列表314,各 反向索引列表314對應(yīng)于語言的術(shù)語。各反向索引列表包括與術(shù)語相對應(yīng)的術(shù)語標(biāo)識符。 例如,術(shù)語標(biāo)識符a、b、c和d可以分別對應(yīng)于術(shù)語apple (蘋果)、boy (男孩)、cat (貓) 和dog(狗)。每個反向索引列表還包括一個或更多個文檔標(biāo)識符,該一個或更多個文檔標(biāo) 識符標(biāo)識出在哪個文檔中出現(xiàn)了對應(yīng)的術(shù)語。例如,一個反向索引列表包括術(shù)語標(biāo)識符d 和出現(xiàn)dog的文檔的文檔標(biāo)識符2、4和5。在一個實施方式中,可以根據(jù)反向索引來生成術(shù)語標(biāo)識符索引。將術(shù)語標(biāo)識符索引組織成多個片段,其中,各片段對應(yīng)于文檔集合中的不同文檔。術(shù)語標(biāo)識符索引的各片段 可以包括在與該片段相對應(yīng)的文檔中查找到的術(shù)語的術(shù)語標(biāo)識符。在一個實施方式中,術(shù) 語標(biāo)識符索引可以如下來生成。再次參照圖5,步驟214-242對應(yīng)于組織多個有序?qū)Σ⑶腋鶕?jù)反向索引來生成術(shù) 語標(biāo)識符索引。參照圖7來說明這些步驟,圖7示出了示例性數(shù)據(jù)結(jié)構(gòu)的內(nèi)容和由圖6中 的反向索引310生成的示例性術(shù)語標(biāo)識符索引。在步驟214中,由反向索引生成一組有序?qū)ΑS行驅(qū)Πㄐg(shù)語標(biāo)識符和文檔標(biāo)識 符。在一個實施方式中,由各反向索引列表來創(chuàng)建有序?qū)?。各有序?qū)梢园ǚ聪蛩饕?表的術(shù)語標(biāo)識符和反向索引列表的順序最低的文檔標(biāo)識符??梢曰诟饔行?qū)Φ奈臋n標(biāo)識符的排序來組織有序?qū)???梢曰诟饔行驅(qū)Φ男g(shù)語 標(biāo)識符來進一步組織具有相同文檔標(biāo)識符的有序?qū)ΑR虼?,如果一個有序?qū)Φ奈臋n標(biāo)識符 是一組有序?qū)χ许樞蜃畹偷奈臋n標(biāo)識符,并且該有序?qū)Φ男g(shù)語標(biāo)識符是該組有序?qū)χ芯哂?相同文檔標(biāo)識符的有序?qū)Φ捻樞蜃畹偷男g(shù)語標(biāo)識符,則該有序?qū)梢员灰暈樵摻M有序?qū)Φ?最低有序?qū)?。例如,可以由圖6中的反向索引來生成有序?qū)Φ某跏技?。該初始集合包括各?向索引列表的有序?qū)?18??梢允滓鼗谖臋n標(biāo)識符并且其次基于術(shù)語標(biāo)識符來對有序 對進行排序。出于該示例的目的,如下表示有序?qū)?文檔標(biāo)識符,術(shù)語標(biāo)識符)。該初始有 序?qū)Πǜ鞣聪蛩饕斜碇械男g(shù)語標(biāo)識符和順序最低的文檔標(biāo)識符。因此,有序?qū)Φ某跏?集合為(1,A)、(4,B)、(1,C)和(2,D)。該示例假設(shè)的排序方案為隨著文檔標(biāo)識符的量值 (magnitude)的增大,文檔標(biāo)識符的順序增加,并且術(shù)語標(biāo)識符的順序隨著標(biāo)準(zhǔn)英文字母表 的各連續(xù)字母而增加。在步驟218中,可以創(chuàng)建數(shù)據(jù)結(jié)構(gòu)并利用根據(jù)各反向索引列表創(chuàng)建的有序?qū)Φ募?合對其進行初始化。該數(shù)據(jù)結(jié)構(gòu)能夠存儲多個有序?qū)ΑT谝恍嵤┓绞街?,該?shù)據(jù)結(jié)構(gòu)被 組織成使得能夠快速去除該數(shù)據(jù)結(jié)構(gòu)的最低有序?qū)Α@?,該?shù)據(jù)結(jié)構(gòu)可以包括堆(heap)。 在一個實施方式中,該堆的各樹節(jié)點的值小于或等于該樹節(jié)點的子節(jié)點的值。因此,由于最 低有序?qū)梢詮脑摱训捻敳繌棾?pop),因此容易訪問該最低有序?qū)?。在一個實施方式中, 堆針對各反向索引列表至多具有一個節(jié)點。圖7示出了以下數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包括根 據(jù)反向索引310生成的有序?qū)Φ某跏技?。在步驟222中,創(chuàng)建術(shù)語標(biāo)識符索引。術(shù)語標(biāo)識符索引可以包括術(shù)語標(biāo)識符,該術(shù) 語標(biāo)識符被組織成與若干個文檔相對應(yīng)的多個片段。例如,術(shù)語標(biāo)識符索引的一個片段可以包括出現(xiàn)在與該片段相對應(yīng)的文檔中的術(shù)語的術(shù)語標(biāo)識符列表。在一些實施方式中,術(shù)語標(biāo)識符列表可以是有序列表。在一個實施方式中,術(shù)語標(biāo)識符索引可以包括矢量。通過從 數(shù)據(jù)結(jié)構(gòu)中去除有序?qū)Σ⑷コ挠行驅(qū)Φ男g(shù)語標(biāo)識符放置在術(shù)語標(biāo)識符的目標(biāo)片段中, 可以將術(shù)語標(biāo)識符添加到術(shù)語標(biāo)識符索引中。目標(biāo)片段是術(shù)語標(biāo)識符索引中放置有術(shù)語標(biāo) 識符的片段。在步驟226中,對數(shù)據(jù)結(jié)構(gòu)進行檢查以確定該數(shù)據(jù)結(jié)構(gòu)是否包括至少一個有序 對。如果該數(shù)據(jù)結(jié)構(gòu)不包括有序?qū)Γ瑒t術(shù)語標(biāo)識符索引被視為是完整的并且該方法前進至 步驟246。如果該數(shù)據(jù)結(jié)構(gòu)非空,則在步驟230中從數(shù)據(jù)結(jié)構(gòu)中去除最低有序?qū)?。在一個實 施方式中,從數(shù)據(jù)結(jié)構(gòu)中“彈出”(從其頂部取出)最低有序?qū)?。參照圖7,在步驟226的第一次迭代期間,數(shù)據(jù)結(jié)構(gòu)非空,所以去除最低有序?qū)?1, A)。在第二次迭代期間,去除(1,C)。在第三次迭代期間,去除(2,D),等等,直到數(shù)據(jù)結(jié)構(gòu) 沒有有序?qū)橹?。在步驟234中,將去除的有序?qū)Φ奈臋n標(biāo)識符與從數(shù)據(jù)結(jié)構(gòu)中最新近去除的有序 對的文檔標(biāo)識符進行比較。如果這些文檔標(biāo)識符不同,則術(shù)語標(biāo)識符索引的目標(biāo)片段發(fā)生 改變。例如,目標(biāo)片段可以是術(shù)語標(biāo)識符索引中放置了有序?qū)Φ男g(shù)語標(biāo)識符的第一片段。如 果去除的有序?qū)Φ奈臋n標(biāo)識符與之前去除的有序?qū)Φ奈臋n標(biāo)識符不同,則將去除的有序?qū)?的術(shù)語標(biāo)識符放置于第二片段中。該第二片段可以與第一片段不同。例如,第一片段可以 包括存儲器中的一個位置,而第二片段可以包括存儲器中的一個不重疊的位置??梢圆捎?任何適當(dāng)?shù)姆绞絹碇甘灸繕?biāo)片段的改變。例如,可以將定界符放置在術(shù)語標(biāo)識符索引中,用 于標(biāo)記片段的術(shù)端。參照圖7,在步驟234的第一次迭代中,不能相對于之前去除的有序?qū)Φ奈臋n標(biāo)識 符來檢查所去除的有序?qū)?1,A)的文檔標(biāo)識符。因此,術(shù)語標(biāo)識符索引的目標(biāo)片段保持設(shè) 置到該術(shù)語標(biāo)識符索引的第一片段。在第二次迭代中,在從數(shù)據(jù)結(jié)構(gòu)中去除了有序?qū)?1,C) 之后,目標(biāo)片段保持不變,這是因為之前去除的有序?qū)Φ奈臋n標(biāo)識符也是1。在第三次迭代 中,在去除了具有不同文檔標(biāo)識符的有序?qū)?2,D)之后,術(shù)語標(biāo)識符索引的目標(biāo)片段變成 第二片段。迭代以類似的方式繼續(xù)進行,直到步驟234的最后一次迭代為止。在步驟238中,將所去除的有序?qū)Φ男g(shù)語標(biāo)識符放置于術(shù)語標(biāo)識符索引的目標(biāo)片 段中。在一個實施方式中,可以按如下方法將術(shù)語標(biāo)識符放置于目標(biāo)片段中,即該方式為保 持該片段內(nèi)的排序。參照圖7,在步驟238的第一次迭代中,將所去除的對(1,A)的術(shù)語標(biāo) 識符A放置于術(shù)語標(biāo)識符索引的第一片段中。在第二次迭代中,將C放置于術(shù)語標(biāo)識符索 弓丨的第一片段中。在第三次迭代中,將D放置于術(shù)語標(biāo)識符索引的第二片段中,等等。在步驟242中,對最新近放置于術(shù)語標(biāo)識符索引中的術(shù)語標(biāo)識符的反向索引列表 進行檢查,以確定它是否具有在放置于數(shù)據(jù)結(jié)構(gòu)內(nèi)的有序?qū)χ猩形词褂玫娜魏挝臋n標(biāo)識 符。如果在反向索引列表內(nèi)存在至少一個未使用的文檔標(biāo)識符,則生成下一個有序?qū)?,該?一個有序?qū)Πǚ聪蛩饕斜淼男g(shù)語標(biāo)識符和順序最低的未使用文檔標(biāo)識符。將該下一個 有序?qū)Ψ胖糜跀?shù)據(jù)結(jié)構(gòu)中。在一個實施方式中,將該下一個有序?qū)ν迫?push)數(shù)據(jù)結(jié)構(gòu)。 如果在反向索引列表中不存在未使用的文檔標(biāo)識符,則沒有下一個有序?qū)Ρ环胖糜跀?shù)據(jù)結(jié) 構(gòu)中。參照圖7,在第一次迭代中,檢查具有術(shù)語標(biāo)識符A的反向索引列表,以查看其是否包括任何未使用的文檔標(biāo)識符。在這種情況下,已使用了 1,而沒有使用3。因為3是該反向索引列表的順序最低的未使用文檔標(biāo)識符,所以將它與術(shù)語標(biāo)識符A—起包括在新的 有序?qū)χ小⑿律傻挠行驅(qū)?3,A)放置于數(shù)據(jù)結(jié)構(gòu)中。在第二次和第三次迭代中,分別 生成有序?qū)?3,C)和(4,D),并將其放置于數(shù)據(jù)結(jié)構(gòu)中。在第四次迭代中,與術(shù)語標(biāo)識符A 相對應(yīng)的反向索引列表不具有未使用的文檔標(biāo)識符。因此,在該迭代過程中,沒有新的有序 對被放置于數(shù)據(jù)結(jié)構(gòu)中。迭代以類似的方式繼續(xù)進行,直到步驟242的最后一次迭代為止。在一個實施方式中,上述步驟的迭代可以繼續(xù)進行,直到完成了術(shù)語標(biāo)識符索引 的生成為止。如圖7所示,所得到的術(shù)語標(biāo)識符索引包括其第一片段中的A和C、其第二片 段中的D、其第三片段中的A和C、其第四片段中的B、C和D以及其第五片段中的C和D。在一個實施方式中,在步驟246至258中,如果數(shù)據(jù)結(jié)構(gòu)為空,則可以使用術(shù)語標(biāo) 識符索引來生成本體親和度矩陣(AM)。在一個實施方式中,可以在生成術(shù)語標(biāo)識符索引中 的一個片段之后對該片段進行處理,而不是在生成所有片段之后再對片段進行處理。因此, 即使數(shù)據(jù)結(jié)構(gòu)仍然非空,也可以執(zhí)行步驟246至258中的一些或全部。本體親和度矩陣可以包括與術(shù)語對的親和度(即,術(shù)語對中的第一術(shù)語與第二術(shù) 語之間的親和度)相對應(yīng)的多個條目。親和度矩陣的條目可以表示為AM(i,j),其中,i是 第一術(shù)語的術(shù)語標(biāo)識符而j是第二術(shù)語的術(shù)語標(biāo)識符。本體親和度矩陣的各條目可以包括 計數(shù)值,每當(dāng)在文檔中一起出現(xiàn)術(shù)語對時,該計數(shù)值遞增。在步驟246中,生成矩陣并將各條目的計數(shù)值初始化為0。在步驟250中,每當(dāng)術(shù) 語對在文檔中一起出現(xiàn)時,與該術(shù)語對的親和度相對應(yīng)的條目的計數(shù)值就遞增。在一個實 施方式中,為了確定術(shù)語標(biāo)識符對(i,j),可以訪問術(shù)語標(biāo)識符索引中的片段。如上所述, 術(shù)語標(biāo)識符索引中的片段對應(yīng)于文檔集合中的文檔,而術(shù)語標(biāo)識符索引的片段內(nèi)的術(shù)語標(biāo) 識符對應(yīng)于在相應(yīng)文檔內(nèi)查找到的術(shù)語。對于各片段的各術(shù)語標(biāo)識符對,AM(i,j)的計數(shù) 值遞增。然后,可以使用該計數(shù)值來計算兩個術(shù)語之間的親和度。在一個實施方式中,按順序來組織術(shù)語標(biāo)識符索引的片段中的術(shù)語標(biāo)識符。選擇 該片段中順序最低的術(shù)語標(biāo)識符作為第一術(shù)語標(biāo)識符i。標(biāo)識出如下的術(shù)語標(biāo)識符集合, 該術(shù)語標(biāo)識符集合包括該片段中順序比第一術(shù)語標(biāo)識符更高的術(shù)語標(biāo)識符。該集合中的各 術(shù)語標(biāo)識符可以表示為j。將矩陣中與該集合的第一術(shù)語標(biāo)識符i和各術(shù)語標(biāo)識符j表示 的術(shù)語之間的親和度相對應(yīng)的條目的計數(shù)值遞增。即,針對該集合中的各個j,將AM(i,j) 的計數(shù)值遞增。接著,選擇該片段中的次低術(shù)語標(biāo)識符作為第一術(shù)語標(biāo)識符i。標(biāo)識出如 下術(shù)語標(biāo)識符j的集合,該集合包括該片段中順序比第一術(shù)語標(biāo)識符更高的所有術(shù)語標(biāo)識 符。將矩陣中與該集合的第一術(shù)語i和各術(shù)語標(biāo)識符j的親和度相對應(yīng)的條目的計數(shù)值遞 增。重復(fù)這個過程,直到處理完該片段中所有術(shù)語標(biāo)識符對為止。作為示例,考慮包括如下術(shù)語標(biāo)識符集合的術(shù)語標(biāo)識符索引片段,該術(shù)語標(biāo)識符 集合包括數(shù)字2、4、5和8。相關(guān)的術(shù)語標(biāo)識符對是(2,4), (2,5), (2,8), (4,5), (4,8)和 (5,8)。因此,在步驟 250 中,將 AM(2,4)、AM(2,5)、AM(2,8)、AM(4,5)、AM(4,8)和 AM(5,8) 的計數(shù)值遞增。在其它實施方式中,可以采用其它方式來標(biāo)識出術(shù)語標(biāo)識符索引中的術(shù)語標(biāo)識符 對。例如,可以通過標(biāo)識出片段中順序最高的術(shù)語標(biāo)識符并標(biāo)識出包括該片段中順序比最 高術(shù)語標(biāo)識符低的術(shù)語標(biāo)識符的第一集合,等等,來執(zhí)行上述過程。在其它實施方式中,可以用其它方法來標(biāo)識出術(shù)語標(biāo)識符對。在一些實施方式中,本體親和度矩陣的條目可以對應(yīng)于術(shù)語對的有向親和度。如前所述,有向親和度是在文檔集合的文檔中出現(xiàn)術(shù)語對的第一一術(shù)語^的情況下,在該文 檔中出現(xiàn)該術(shù)語對的第二術(shù)語、的概率。對于有向親和度,術(shù)語對的順序轉(zhuǎn)換可以改變有 向親和度的值。例如,術(shù)語對(t”tp的有向親和度不一定與術(shù)語對(、,、)的有向親和度 相同。在一些實施方式中,可以在處理了各片段之后計算矩陣中大約一半的計數(shù)值。這 是因為只有當(dāng)術(shù)語標(biāo)識符對中第一術(shù)語標(biāo)識符的順序比第二術(shù)語標(biāo)識符的順序低(例如, i < j)時,才對這些對進行處理。因此,在處理了該術(shù)語標(biāo)識符索引之后,仍沒有計算AM(i, j)中i > j的那些計數(shù)值。因此,本體親和度矩陣可以是上三角矩陣。因為條目的計數(shù)值對 應(yīng)于在文檔集合中對應(yīng)的術(shù)語對一起出現(xiàn)的次數(shù),所以AM(i,j)的任何給定計數(shù)值應(yīng)當(dāng)?shù)?于AM(j,i)的最終計數(shù)值。因此,對于i< j而言,可以將AM(i,j)的計數(shù)值復(fù)制到AM(j, i),從而得到矩陣AM的其余條目的計數(shù)值。在一個實施方式中,可以由上三角矩陣的轉(zhuǎn)置 而得到矩陣AM的下三角部分。在一些實施方式中,通過得到親和度矩陣AM的計數(shù)值并且隨后將各條目的計數(shù) 值A(chǔ)M(i,j)除以D(Ti)(即反向索引列表中包括術(shù)語標(biāo)識符i的文檔標(biāo)識符的數(shù)量)而形 成有向親和度矩陣。換言之,將與第一術(shù)語和第二術(shù)語之間的親和度相對應(yīng)的AM條目的計 數(shù)值除以文檔集合中出現(xiàn)了第一術(shù)語的文檔的數(shù)量。在針對個計數(shù)值執(zhí)行了該操作并且將 結(jié)果存儲在AM的適當(dāng)條目中之后,親和度矩陣的各條目將分別包括具有如下概略的有向 親和度,即在文檔集合內(nèi)的一個文檔中查找到與i相對應(yīng)的術(shù)語的情況下,在該文檔中查 找到與j相對應(yīng)的術(shù)語的概率。在一個實施方式中,可以借助于有向親和度的結(jié)果來重寫(overwrite)計數(shù)值。 在另一個實施方式中,有向親和度結(jié)果可以與計數(shù)值分開地記錄??梢圆捎萌魏芜m當(dāng)?shù)姆?式來存儲這些結(jié)果。本體親和度矩陣還可以包括以下條目術(shù)語、分離文檔量、聯(lián)合文檔量、 列表中的文檔量等。在其它實施方式中,可以將矩陣的計數(shù)值除以不同的值。例如,取決于所選擇的基 本親和度的定義,可以通過將各條目的計數(shù)值A(chǔ)M(i,j)除以D(TJTj)(即包括術(shù)語、或術(shù) 語、的文檔的數(shù)量),或者除以D(Ti)和D*(Tp中較大的一個,得到包括基本親和度的矩 陣。當(dāng)計算基本親和度矩陣BAM時,由于BAM(i,j) =BAM(j,i),因此只需要計算一半(一 個三角區(qū)域)。本文公開的系統(tǒng)和裝置中的組件可以包括接口、邏輯、存儲器和/或其它適當(dāng)?shù)?元件。接口接收輸入、發(fā)送輸出、處理輸入和/或輸出,和/或執(zhí)行其它適當(dāng)?shù)牟僮?。接?可以包括硬件和/或軟件。邏輯執(zhí)行這些組件的操作,例如,執(zhí)行指令以由輸入生成輸出。邏輯可包括硬件、 軟件和/或其它邏輯??梢詫⑦壿嬀幋a在一種或多種有形介質(zhì)中,并且當(dāng)該邏輯由計算機 執(zhí)行時可進行操作。特定邏輯(例如,處理器)可管理組件的操作。處理器的示例包括一 種或更多種計算機、一種或更多種微處理器、一種或更多種應(yīng)用和/或其它邏輯。存儲器存儲信息。存儲器可包括一種或更多種有形的計算機可讀的和/或計算機 可執(zhí)行的存儲介質(zhì)。存儲器可以包括瞬時(transitory)或非瞬時(non-transitory)計算機可讀介質(zhì)。存儲器的示例包括計算機存儲器(例如,隨機存取存儲器(RAM)或只讀存儲 器(ROM))、海量存儲介質(zhì)(例如,硬盤)、可移除存儲介質(zhì)(例如,光盤(⑶)或數(shù)字視頻盤 (DVD))、數(shù)據(jù)庫和/或網(wǎng)絡(luò)存儲部(例如,服務(wù)器)和/或其它計算機可讀介質(zhì)。在不脫離本發(fā)明范圍的情況下,可以對本文公開的系統(tǒng)和裝置進行修改、添加或 刪減。系統(tǒng)和裝置中的組件可以集成或分離。此外,可以由更多、更少或其它組件來執(zhí)行該 系統(tǒng)和裝置的操作。例如,可以由多于一個組件來執(zhí)行親和度計算器34的操作。另外,可 以使用包括軟件、硬件和/或其它邏輯的任何適當(dāng)?shù)倪壿媮韴?zhí)行該系統(tǒng)和裝置的操作。如 在本文中所使用的,“各個(each) ”是指集合中的各個成員或集合的子集中的各個成員。在不脫離本發(fā)明范圍的情況下,可以對矩陣示例進行修改、添加或刪減。矩陣可以 包括更多、更少或其它的值。另外,可以采用任何適當(dāng)?shù)捻樞騺聿贾镁仃嚨闹怠T诓幻撾x本發(fā)明范圍的情況下,可以對本文公開的方法進行修改、添加或刪減。這 些方法可以包括更多、更少或其它的步驟。另外,可以采用任何適當(dāng)?shù)捻樞騺韴?zhí)行這些步 馬聚ο本發(fā)明的特定實施方式可提供一項或更多項技術(shù)優(yōu)點。一個實施方式的技術(shù)優(yōu)點 可以在于,可以將語言的術(shù)語之間的親和度表示為定量值。親和度可用于生成用作語言的 本體的矩陣。本發(fā)明的特定實施方式可以不包括上述技術(shù)優(yōu)點,或者包括一些或全部上述 技術(shù)優(yōu)點。對于本領(lǐng)域的技術(shù)人員而言,從本文所包括的附圖、說明書以及權(quán)利要求書得到 一項或更多項其它技術(shù)優(yōu)點是顯而易見的。雖然這里以特定實施方式描述了本公開,但是這些實施方式的變化和置換對于本領(lǐng)域技術(shù)人員將是明顯的。因此,對這些實施方式的以上描述并不旨在限制本發(fā)明。在不 脫離由所附的權(quán)利要求限定的本公開的精神和范圍的情況下,可以做出其它改變、替換和變化。
權(quán)利要求
一種方法,該方法包括以下步驟對包括多個反向索引列表的反向索引進行訪問,每個反向索引列表對應(yīng)于一個術(shù)語,每個反向索引列表包括該術(shù)語的術(shù)語標(biāo)識符和一個或更多個文檔標(biāo)識符,所述一個或更多個文檔標(biāo)識符指示了文檔集合中的出現(xiàn)所述術(shù)語的一個或更多個文檔;對多個有序?qū)M行組織,各有序?qū)Πǚ聪蛩饕斜淼男g(shù)語標(biāo)識符和文檔標(biāo)識符,所述組織步驟首要地基于所述有序?qū)Φ乃鑫臋n標(biāo)識符;以及根據(jù)所述反向索引生成術(shù)語標(biāo)識符索引,所述術(shù)語標(biāo)識符索引包括多個片段,每個片段對應(yīng)于一個文檔,每個片段包括所述文檔中出現(xiàn)的一個或更多個術(shù)語的一個或更多個術(shù)語標(biāo)識符,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的步驟包括以下步驟對所述術(shù)語標(biāo)識符索引的所述片段中的有序?qū)Φ男g(shù)語標(biāo)識符進行組織。
2.根據(jù)權(quán)利要求1所述的方法,其中,對所述多個有序?qū)M行組織的步驟還包括以下 步驟其次地基于所述有序?qū)Φ乃鲂g(shù)語標(biāo)識符對所述有序?qū)M行組織。
3.根據(jù)權(quán)利要求1所述的方法,其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的 步驟還包括以下步驟從數(shù)據(jù)結(jié)構(gòu)中按順序選擇有序?qū)Γ灰约皩⑺x擇的有序?qū)Φ男g(shù)語標(biāo)識符放置于所述術(shù)語標(biāo)識符索引的與一個文檔相對應(yīng)的 片段中,以根據(jù)文檔對所述反向索引的所述術(shù)語標(biāo)識符進行組織。
4.根據(jù)權(quán)利要求1所述的方法,其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的 步驟還包括以下步驟從數(shù)據(jù)結(jié)構(gòu)中去除所選擇的有序?qū)?;由所述反向索引生成下一個有序?qū)?,所述下一個有序?qū)Πㄅc所選擇的有序?qū)Φ男g(shù)語 標(biāo)識符等同的術(shù)語標(biāo)識符;以及將所述下一個有序?qū)Ψ胖糜谒鰯?shù)據(jù)結(jié)構(gòu)中。
5.根據(jù)權(quán)利要求1所述的方法,其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的 步驟還包括以下步驟確定所選擇的有序?qū)Πㄅc之前選擇的有序?qū)Φ奈臋n標(biāo)識符不等同的文檔標(biāo)識符,其 中所述之前選擇的有序?qū)Πǚ胖糜诘谝黄沃械男g(shù)語標(biāo)識符;以及將所選擇的有序?qū)Φ男g(shù)語標(biāo)識符放置于與所述第一片段不同的第二片段中。
6.根據(jù)權(quán)利要求1所述的方法,其中,該方法還包括以下步驟對包括多個條目的本體親和度矩陣進行初始化,每個條目包括一個計數(shù)值,每個條目 對應(yīng)于包括第一術(shù)語和第二術(shù)語的術(shù)語對的親和度;以及針對所述術(shù)語標(biāo)識符索引中包括所選擇的術(shù)語對的術(shù)語標(biāo)識符的每個片段,將與所選 擇的術(shù)語對的親和度相對應(yīng)的條目的計數(shù)值遞增。
7.根據(jù)權(quán)利要求1所述的方法,該方法還包括以下步驟生成包括多個條目的本體親和度矩陣,每個條目對應(yīng)于包括第一術(shù)語和第二術(shù)語的一 個術(shù)語對的親和度,每個條目包括指示了所述術(shù)語對在所述文檔集合的一個文檔中一起出 現(xiàn)的次數(shù)的計數(shù)值;以及將所述本體親和度矩陣的每個計數(shù)值除以由如下成員構(gòu)成的組中的一個出現(xiàn)所述第一術(shù)語的文檔的數(shù)量,出現(xiàn)所述第二術(shù)語的文檔的數(shù)量,以及出現(xiàn)所述第一術(shù)語的文檔的 數(shù)量加上出現(xiàn)所述第二術(shù)語的文檔的數(shù)量。
8.根據(jù)權(quán)利要求1所述的方法,該方法還包括以下步驟生成包括多個條目的本體親和度矩陣,每個條目對應(yīng)于包括第一術(shù)語和第二術(shù)語的一 個術(shù)語對的有向親和度,所述有向親和度包括在所述文檔集合的一個文檔中出現(xiàn)所述第一 術(shù)語的情況下在所述文檔中出現(xiàn)所述第二術(shù)語的概率。
9.一種裝置,該裝置包括存儲器,該存儲器能操作用于進行如下操作存儲包括多個反向索引列表的反向索弓丨,每個反向索引列表對應(yīng)于一個術(shù)語,每個反 向索引列表包括該術(shù)語的術(shù)語標(biāo)識符和一個或更多個文檔標(biāo)識符,所述一個或更多個文檔 標(biāo)識符指示了文檔集合中的出現(xiàn)所述術(shù)語的一個或更多個文檔;以及處理器,該操作器能操作用于執(zhí)行邏輯,以進行如下操作對多個有序?qū)M行組織,各有序?qū)Πǚ聪蛩饕斜淼男g(shù)語標(biāo)識符和文檔標(biāo)識符,所 述組織操作首要地基于所述有序?qū)Φ乃鑫臋n標(biāo)識符;以及根據(jù)所述反向索引生成術(shù)語標(biāo)識符索引,所述術(shù)語標(biāo)識符索引包括多個片段,每個片 段對應(yīng)于一個文檔,每個片段包括所述文檔中出現(xiàn)的一個或更多個術(shù)語的一個或更多個術(shù) 語標(biāo)識符,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的操作包括以下操作對所述術(shù)語 標(biāo)識符索引的所述片段中的有序?qū)Φ男g(shù)語標(biāo)識符進行組織。
10.根據(jù)權(quán)利要求9所述的裝置,其中,對所述多個有序?qū)M行組織的操作還包括以下 操作其次地基于所述有序?qū)Φ乃鲂g(shù)語標(biāo)識符對所述有序?qū)M行組織。
11.根據(jù)權(quán)利要求9所述的裝置,其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的 操作還包括以下操作從數(shù)據(jù)結(jié)構(gòu)中按順序選擇有序?qū)?;以及將所選擇的有序?qū)Φ男g(shù)語標(biāo)識符放置于所述術(shù)語標(biāo)識符索引的與一個文檔相對應(yīng)的 片段中,以根據(jù)文檔對所述反向索引的所述術(shù)語標(biāo)識符進行組織。
12.根據(jù)權(quán)利要求9所述的裝置,其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的 操作還包括以下操作從數(shù)據(jù)結(jié)構(gòu)中去除所選擇的有序?qū)?;由所述反向索引生成下一個有序?qū)Γ鱿乱粋€有序?qū)Πㄅc所選擇的有序?qū)Φ男g(shù)語 標(biāo)識符等同的術(shù)語標(biāo)識符;以及將所述下一個有序?qū)Ψ胖糜谒鰯?shù)據(jù)結(jié)構(gòu)中。
13.根據(jù)權(quán)利要求9所述的裝置,其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的 操作還包括以下操作確定所選擇的有序?qū)Πㄅc之前選擇的有序?qū)Φ奈臋n標(biāo)識符不等同的文檔標(biāo)識符,其 中所述之前選擇的有序?qū)Πǚ胖糜诘谝黄沃械男g(shù)語標(biāo)識符;以及將所選擇的有序?qū)Φ男g(shù)語標(biāo)識符放置于與所述第一片段不同的第二片段中。
14.根據(jù)權(quán)利要求9所述的裝置,其中,所述處理器還能進行如下操作對包括多個條目的本體親和度矩陣進行初始化,每個條目包括一個計數(shù)值,每個條目對應(yīng)于包括第一術(shù)語和第二術(shù)語的術(shù)語對的親和度;以及針對所述術(shù)語標(biāo)識符索引中包括所選擇的術(shù)語對的術(shù)語標(biāo)識符的每個片段,將與所選 擇的術(shù)語對的親和度相對應(yīng)的條目的計數(shù)值遞增。
15.根據(jù)權(quán)利要求9所述的裝置,其中,所述處理器還能進行如下操作生成包括多個條目的本體親和度矩陣,每個條目對應(yīng)于包括第一術(shù)語和第二術(shù)語的一 個術(shù)語對的親和度,每個條目包括指示了所述術(shù)語對在所述文檔集合的一個文檔中一起出 現(xiàn)的次數(shù)的計數(shù)值;以及將所述本體親和度矩陣的每個計數(shù)值除以由如下成員構(gòu)成的組中的一個出現(xiàn)所述第 一術(shù)語的文檔的數(shù)量,出現(xiàn)所述第二術(shù)語的文檔的數(shù)量,以及出現(xiàn)所述第一術(shù)語的文檔的 數(shù)量加上出現(xiàn)所述第二術(shù)語的文檔的數(shù)量。
16.根據(jù)權(quán)利要求9所述的裝置,其中,所述處理器還能進行如下操作生成包括多個條目的本體親和度矩陣,每個條目對應(yīng)于包括第一術(shù)語和第二術(shù)語的一 個術(shù)語對的有向親和度,所述有向親和度包括在所述文檔集合的一個文檔中出現(xiàn)所述第一 術(shù)語的情況下在所述文檔中出現(xiàn)所述第二術(shù)語的概率。
17.一種有形計算機可讀介質(zhì),該有形計算機可讀介質(zhì)具有計算機可執(zhí)行代碼,并且當(dāng) 所述計算機可執(zhí)行代碼由計算機執(zhí)行時能夠進行如下操作對包括多個反向索引列表的反向索引進行訪問,每個反向索引列表對應(yīng)于一個術(shù)語, 每個反向索引列表包括該術(shù)語的術(shù)語標(biāo)識符和一個或更多個文檔標(biāo)識符,所述一個或更多 個文檔標(biāo)識符指示了文檔集合中的出現(xiàn)所述術(shù)語的一個或更多個文檔;對多個有序?qū)M行組織,各有序?qū)Πǚ聪蛩饕斜淼男g(shù)語標(biāo)識符和文檔標(biāo)識符,所 述組織操作首要地基于所述有序?qū)Φ乃鑫臋n標(biāo)識符;以及根據(jù)所述反向索引生成術(shù)語標(biāo)識符索引,所述術(shù)語標(biāo)識符索引包括多個片段,每個片 段對應(yīng)于一個文檔,每個片段包括所述文檔中出現(xiàn)的一個或更多個術(shù)語的一個或更多個術(shù) 語標(biāo)識符,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引的操作包括以下操作對所述術(shù)語 標(biāo)識符索引的所述片段中的有序?qū)Φ男g(shù)語標(biāo)識符進行組織。
18.根據(jù)權(quán)利要求17所述的介質(zhì),其中,對所述多個有序?qū)M行組織的操作還包括以 下操作其次地基于所述有序?qū)Φ乃鲂g(shù)語標(biāo)識符對所述有序?qū)M行組織。
19.根據(jù)權(quán)利要求17所述的介質(zhì),其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引 的操作還包括以下操作從數(shù)據(jù)結(jié)構(gòu)中按順序選擇有序?qū)?;以及將所選擇的有序?qū)Φ男g(shù)語標(biāo)識符放置于所述術(shù)語標(biāo)識符索引的與一個文檔相對應(yīng)的 片段中,以根據(jù)文檔對所述反向索引的所述術(shù)語標(biāo)識符進行組織。
20.根據(jù)權(quán)利要求17所述的介質(zhì),其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引 的操作還包括以下操作從數(shù)據(jù)結(jié)構(gòu)中去除所選擇的有序?qū)Γ挥伤龇聪蛩饕上乱粋€有序?qū)?,所述下一個有序?qū)Πㄅc所選擇的有序?qū)Φ男g(shù)語 標(biāo)識符等同的術(shù)語標(biāo)識符;以及將所述下一個有序?qū)Ψ胖糜谒鰯?shù)據(jù)結(jié)構(gòu)中。
21.根據(jù)權(quán)利要求17所述的介質(zhì),其中,根據(jù)所述反向索引生成所述術(shù)語標(biāo)識符索引 的操作還包括以下操作確定所選擇的有序?qū)Πㄅc之前選擇的有序?qū)Φ奈臋n標(biāo)識符不等同的文檔標(biāo)識符,其 中所述之前選擇的有序?qū)Πǚ胖糜诘谝黄沃械男g(shù)語標(biāo)識符;以及將所選擇的有序?qū)Φ男g(shù)語標(biāo)識符放置于與所述第一片段不同的第二片段中。
22.根據(jù)權(quán)利要求17所述的介質(zhì),其中,當(dāng)所述計算機可執(zhí)行代碼由計算機執(zhí)行時還 能操作用于進行如下操作對包括多個條目的本體親和度矩陣進行初始化,每個條目包括一個計數(shù)值,每個條目 對應(yīng)于包括第一術(shù)語和第二術(shù)語的術(shù)語對的親和度;以及針對所述術(shù)語標(biāo)識符索引中包括所選擇的術(shù)語對的術(shù)語標(biāo)識符的每個片段,將與所選 擇的術(shù)語對的親和度相對應(yīng)的條目的計數(shù)值遞增。
23.根據(jù)權(quán)利要求17所述的介質(zhì),其中,當(dāng)所述計算機可執(zhí)行代碼由計算機執(zhí)行時還 能操作用于進行如下操作生成包括多個條目的本體親和度矩陣,每個條目對應(yīng)于包括第一術(shù)語和第二術(shù)語的一 個術(shù)語對的親和度,每個條目包括指示了所述術(shù)語對在所述文檔集合的一個文檔中一起出 現(xiàn)的次數(shù)的計數(shù)值;以及將所述本體親和度矩陣的每個計數(shù)值除以由如下成員構(gòu)成的組中的一個出現(xiàn)所述第 一術(shù)語的文檔的數(shù)量,出現(xiàn)所述第二術(shù)語的文檔的數(shù)量,以及出現(xiàn)所述第一術(shù)語的文檔的 數(shù)量加上出現(xiàn)所述第二術(shù)語的文檔的數(shù)量。
24.根據(jù)權(quán)利要求17所述的介質(zhì),其中,當(dāng)所述計算機可執(zhí)行代碼由計算機執(zhí)行時還 能操作用于進行如下操作生成包括多個條目的本體親和度矩陣,每個條目對應(yīng)于包括第一術(shù)語和第二術(shù)語的一 個術(shù)語對的有向親和度,所述有向親和度包括在所述文檔集合的一個文檔中出現(xiàn)所述第一 術(shù)語的情況下在所述文檔中出現(xiàn)所述第二術(shù)語的概率。
全文摘要
在一個實施方式中,生成本體的步驟包括如下步驟對包括多個反向索引列表的反向索引進行訪問。反向索引列表可以對應(yīng)于語言的術(shù)語。每個反向索引列表可以包括一個術(shù)語的術(shù)語標(biāo)識符和一個或更多個文檔標(biāo)識符,所述一個或更多個文檔標(biāo)識符指示了在文檔集合中出現(xiàn)所述術(shù)語的一個或更多個文檔。該實施方式還包括以下步驟根據(jù)反向索引生成術(shù)語標(biāo)識符索引。術(shù)語標(biāo)識符索引包括多個片段,并且每個片段對應(yīng)于一個文檔。每個片段可以包括在文檔中出現(xiàn)的一個或更多個術(shù)語的一個或更多個術(shù)語標(biāo)識符。
文檔編號G06F17/30GK101807201SQ201010117358
公開日2010年8月18日 申請日期2010年2月12日 優(yōu)先權(quán)日2009年2月13日
發(fā)明者斯特吉奧斯·斯特吉奧, 賈瓦哈拉·賈殷, 雅納斯·郎布羅 申請人:富士通株式會社