專利名稱:確定與給定的詞集相關的詞的制作方法
技術領域:
本發(fā)明大體涉及詞法(lexigraphical)分析,更具體地說,涉及確 定與給定的詞集相關的詞。
背景技術:
本申請要求由BoAdler等人于2008年2月13日提交的發(fā)明名稱為 "Techniques and Architecture for Research Searching"的美國臨時專利申請 61/028,233的優(yōu)先權。
數(shù)據(jù)的語料庫(corpus)可以保持大量信息,然而,找尋相關信息可 能很難。用戶可以通過搜索查詢來搜索信息。然而,在特定情況下,己 知的搜索技術可能還不夠。
圖1示出了利用描述主題的統(tǒng)計分布對主題進行建模的系統(tǒng)的一個 實施例;
圖2示出了可以與圖1的系統(tǒng)一起使用的親和度(affinity)模塊的 一個實施例;
圖3示出了記錄基本親和度的親和度矩陣的一個示例; 圖4示出了記錄有向親和度的親和度矩陣的一個示例; 圖5示出了記錄平均親和度的親和度矩陣的一個示例; 圖6示出了親和度圖的一個示例;
圖7示出了可以與圖1的系統(tǒng)一起使用的聚類模塊的一個實施例; 圖8示出了可以與圖1的系統(tǒng)一起使用的本體(ontology)特征模塊 的一個實施例;
圖9示出了可以與圖1的系統(tǒng)一起使用的標簽模塊的一個實施例;圖IO示出了確定重要詞條的方法的一個示例;
圖ll示出了確定與給定的詞條集相關的詞條的Taggr法的一個示
例;
圖12A到12H示出了可用于進行搜索的圖形用戶界面(GUI)的 示例;以及
圖13A到13E示出了可用于利用所選擇的搜索結果來精煉搜索的 圖形用戶界面的示例。
具體實施方式
概述
在一個實施方式中,接收查詢的初始詞條集。對候選詞條集進行初 始化。對以下操作執(zhí)行預定次數(shù)的迭代針對候選詞條集的各候選詞條 獲取預定數(shù)量的臨時詞條,該預定數(shù)量的臨時詞條對于各候選詞條具有 較高的差分親和度;將各臨時詞條和相關聯(lián)的較高差分親和度放置到臨 時詞條集中,如果從多于一個候選詞條中獲得了臨時詞條,則臨時詞條 的差分親和度與對于所述多于一個候選詞條的差分親和度相關;計算臨 時詞條集中的各臨時詞條的平均差分親和度,該平均差分親和度代表從 各臨時詞條到初始詞條集中的每個詞條的差分親和度的平均值;從臨時 集中移除具有不滿足預定閾值的平均差分親和度的一個或更多個詞條; 以及將臨時集中的具有較高差分親和度的一個或更多個詞條放到候選詞 條集中。選擇候選詞條集中的一個或更多個詞條。返回所選擇的詞條。
在一個實施方式中,針對文檔的詞條集中的各個詞條確定詞條頻度-逆文檔頻度(term frequency-inverse document frequency, TF-IDF)值。根 據(jù)TF-IDF值對詞條進行排序以產(chǎn)生有序列表,具有最高TF-IDF值的第 一詞條位于有序列表的頂部,具有最低TF-IDF值的第二詞條位于該有序 列表的底部。對于有序列表中的各個連續(xù)詞條計算連續(xù)詞條的TF-IDF值 的差以產(chǎn)生多個差。計算該差的標準偏差。根據(jù)該標準偏差從有序列表 中移除一個或更多個詞條,并且輸出剩余的詞條。
在一個實施方式中,啟動圖形用戶界面的用戶輸入窗口的顯示。接收被輸入到用戶輸入窗口以啟動第一搜索的搜索詞條。根據(jù)該搜索詞條 來確定來自文檔語料庫的一個或更多個第一搜索結果。啟動在圖形用戶 界面的當前搜索詞條窗口處的搜索詞條的顯示。啟動在圖形用戶界面的 搜索結果窗口處的第一搜索結果的顯示。啟動在圖形用戶界面的搜索建 議窗口處的第一搜索建議的顯示。 示例實施方式
在具體實施方式
中,領域本體(domain ontology)的創(chuàng)建及査詢包 括以下步驟
1、 收集領域中的文檔。在具體實施方式
中,文檔(document)是詞 條(term)的集合。文檔可包括可讀文本,例如, 一本《新約》。文檔不 需要以描述形式來包括詞,例如,文檔可以包括一組單獨和共同地描述 圖像的內(nèi)容的用戶輸入標簽(tag)。文檔的集合可稱為"領域語料庫
(domain corpus),,。
2、 識別該領域中所關心的詞條("詞典詞條(dictionary term),,)。 詞條的示例包括詞(word)(諸如"樹")、短語(phrase)(諸如"圖形算法")、 命名實體(named entity)(諸如"紐約")等。詞條(或概念)可具有不同 的形式。在特定情況下,不同的詞用于同一概念,例如,"kidney stones
(腎結石)"和"kidney calculi (腎結石)"是指同一概念,艮卩"腎結石"。在 其它情況下,詞干(word stem)可具有多種詞形變化,例如,詞干"tree" 具有詞形變化"tree"和"trees"。在具體實施方式
中,可將同一詞條的各種 形式映射為同一詞條而進行處理。在文檔中可出現(xiàn)詞典詞條的任意適當 形式,但是特定的詞典詞條不必出現(xiàn)在任意文檔中。
識別詞典詞條的方法的示例包括利用特定領域的人工生成的詞典, 例如,醫(yī)學詞典。在具體實施方式
中,可由語料庫中的文本串集自動地 生成一系列詞典詞條??梢园凑疹l度對這些文本串進行索引及排序,并 且可選擇頻度在閾值以上的文本串??墒褂闷渌m當?shù)慕y(tǒng)計方法來確定 詞條。在具體實施方式
中,"詞"可與"詞條"、"詞典詞條"及"n-gram"互換。
3、 計算給定的共現(xiàn)語境(co-occurrence context)中詞典詞條的共現(xiàn) 次數(shù)。如果兩個詞條都在同一共現(xiàn)語境中至少出現(xiàn)一次,則這兩個詞條共現(xiàn)。共現(xiàn)語境的示例包括文檔和段落。
4、 創(chuàng)建包括該領域本體的有向加權圖(directed weighted graph)。該 有向加權圖包括作為節(jié)點(node)的詞典詞條以及作為邊(edge)的權重 的親和度(affinity)。"有向加權圖"可以用作可由任意適當?shù)臄?shù)據(jù)結構(例 如,矩陣、二值判決圖、或二值判決圖的集合等)代表的同一信息的實 際表示。
5、 應用査詢該有向加權圖的過程。給定一個或更多個詞典詞條作為 輸入,該過程輸出與所輸入的詞典詞條相關的一個或更多個詞典詞條。 例如,該過程可輸出相對于一個或更多個輸入詞條具有最高的差分有向 親和度(如下所述)的一個或更多個詞條的有序列表。在這種情況下, 輸出包括與本體涉及的領域有關、與輸入詞條更加密切相關的詞條。
可使用任意適當?shù)挠H和度定義。在具體實施方式
中,可使用以下定
義
1、 基本親和度
a. 詞條A與B之間的基本親和度(A)可定義為包含詞條A和B 這兩者的共現(xiàn)語境的數(shù)量與包含詞條A和B之一的共現(xiàn)語境的數(shù)量的 比
A(A,B) = jAB|/jA or B|
b. 詞條A與B之間的基本親和度(A)還可定義為包含詞條A和B 這兩者的共現(xiàn)語境的數(shù)量與包含A的共現(xiàn)語境的數(shù)量和包含B的共現(xiàn)語 境的數(shù)量中的最大值的比
A(A,B) = |AB|/max(|Ai」B|)
2、 有向親和度
詞條A與B之間的有向親和度(DAff)可定義為在假定在共現(xiàn)語境 中觀察到A的情況下觀察到B的條件概率 DAff(A,B)=網(wǎng)/ |A|
也就是說,有向親和度可以是包含詞條A和B這兩者的共現(xiàn)語境的 數(shù)量與包含詞條A的共現(xiàn)語境的數(shù)量的比值。通常,DAff(A,B)與 DAff(B,A)不同。
153、差分有向親和度
可以將詞條A與B之間的差分有向親和度(DiffDAff)定義為詞條 A與B之間的有向親和度減去一個表示詞條B在語料庫中的普遍性的系 數(shù)。詞條B在語料庫中的普遍性可以是詞條B對于語料庫中的其他詞條 的基本親和度或有向親和度值的統(tǒng)計值。在特定實施方式中,詞條B在 語料庫中的普遍性可以是詞條B的平均親和度(AA),這導致了如下的 差分有向親和度定義
DifflDAff(A,B) = DA(A,B) - AA(B)
詞條B的平均親和度(AA)或平均有向親和度可定義為 AA(B) = AVERAGE_x DAff(x, B)
也就是說,平均親和度可以是詞條B對于共現(xiàn)語境中的其它詞條的 有向親和度的平均值。
圖1示出了可用于執(zhí)行搜索的系統(tǒng)10的一個實施方式。在具體實施 方式中,系統(tǒng)10可用于精煉搜索。用戶可以通過選擇先前搜索的搜索結 果或通過對搜索詞條取消選定來精煉搜索。在具體實施方式
中,系統(tǒng)10 可以推薦詞條作為搜索建議??梢岳孟嚓P性方法來生成搜索建議。用 戶可以選擇搜索建議以精煉搜索。
在具體實施方式
中,可以針對給定的詞子集和詞典D來對特定反向
索引n計算有向親和度,其中,索引n例如包括針對字wi和wj的條目 I (wi)和I (wj)。 一般來說,反向索引是存儲從詞條到其位置的映射(即,
詞條所出現(xiàn)的共現(xiàn)語境)的索引數(shù)據(jù)結構。對于D中的每一詞對wi和 wj,DA(i,j)可以被定義為II中的條目I(wi)和I(wj)的合取(conjunction) 中的值除以I (wi)中的值的數(shù)量。 一般來說,DA (i, j)不必等于DA
(j, i)。該結果可以按任何適當方式存儲,例如,按行存儲,其中,存 儲D (1, i),接著存儲D (2, j),等等等。對于每一行i,可以存儲|1
(wi) I,繼之以與wj的合取的基數(shù)(cardinality)。
在特定實施方式中,可以分三個階段計算有向親和度。在該實施方 式中,每一個詞典詞條都被指配了唯一的整數(shù)標識符。反向索引的條目 對應于該整數(shù)標識符。在階段0中,讀取對應于D的II條目。對于參數(shù)(s, o)來說,僅保持有具有ks + o形式的元素標識符。值ks + o定義了
要檢查的II條目的子集。按這種方式,可以并行計算有向親和度。作為
一個示例,由參數(shù)s得到的結果o (1, 0)等同于由參數(shù)(3, 0)、 (3, 1) (3, 2)的計算的合并所得到的結果。這個步驟允許針對非常大的反向 索引計算DA表。
在階段1中,僅針對DA (i, j)按行計算合取。在階段2中,讀取 計算出的上三角UTDA矩陣。由此,作為UT的轉(zhuǎn)置得到下三角部分。 在特定實施方式中,可以將相同維的多個DA矩陣歸并成一個矩陣。較 大II上的DA矩陣可以利用參數(shù)(s, j)被計算為sumi-O... (s-l) Da。 可以與計算出的合取一起存儲附加信息,以使可以計算有向親和度。在
特定情況下,可以存儲n條目的基數(shù)。
在特定實施方式中,可以按行存儲DA,這樣AA條目的計算可以與 DA條目的計算并行進行。具體來說,可以通過對從磁盤讀出的DA的行 進行累加并最后通過字典條目的數(shù)量對累加結果進行歸一化來生成AA。
在所示實施方式中,系統(tǒng)10包括客戶端20、服務器22以及存儲 器24??蛻舳?0允許用戶與服務器22通信,以生成語言的本體??蛻?端20可以向服務器22發(fā)送用戶輸入,并且可以向用戶提供(例如,顯 示或打印)服務器輸出。服務器系統(tǒng)22管理用于生成語言的本體的應用。 存儲器24存儲由服務器系統(tǒng)22使用的數(shù)據(jù)。
在所示實施方式中,存儲器24存儲有頁面50和記錄54。頁面50 (或文檔或共現(xiàn)語境)可以指詞的集合。頁面50的示例包括文檔的一 頁或更多頁、 一個或更多個文檔、 一本或更多本書、 一個或更多個網(wǎng)頁、 信件(例如,電子郵件或即時消息)和/或其它詞的集合??梢杂身撁鏄?識符來標識頁面50。頁面50可以以電子方式存儲在一種或更多種實體計 算機可讀介質(zhì)中。頁面50可以與任何適當?shù)膬?nèi)容相關聯(lián),例如,文本(如 字符、詞和/或數(shù)字)、圖像(如圖形、照片或視頻)、音頻(如錄音或計 算機生成的聲音)和/或軟件程序。在特定實施方式中, 一組頁面50可以 屬于一個語料庫。語料庫可以與特定主題、團體、組織或其它實體相關 聯(lián)。記錄54描述頁面50。在該實施方式中,記錄54包括索引58、反 向索引62、本體66、以及群集67。索引58包括索引列表,其中,頁面 50的索引列表表示頁面50的詞。反向索引62包括反向索引列表,其中, 詞(或詞集)的反向索引列表表示包括該詞(或詞集)的頁面50。在一 個示例中,列表Wi包括含有詞wi的頁面50的頁面標識符。列表Wi & Wj 包括含有詞wi和wj兩者的合取頁面50的頁面標識符。列表Wi + Wj包 括含有詞wi和wj中的任一個的析取(disjunction)頁面50的頁面標識 符。P (Wi)是wi的頁面50的數(shù)量,即,包括字wi的頁面50的數(shù)量。
在一個實施方式中,可以將列表(如索引列表或反向索引列表)存 儲為二進制判決圖(BDD: Binary decision diagram)。在一個示例中,集 合Wi的二進制判決圖BDD (Wi)表示具有詞wi的頁面50。 BDD (Wi) 的滿足指配計數(shù)Satisf (BDD (Wi))生成具有詞wi的頁面50的數(shù)量P (Wi):
P (Wi) = Satisf (BDD (Wi)) 相應地,
P (Wi&Wj) = Satisf (BDD (Wi) AND BDD (Wj)) P (Wi + Wj) = Satisf (BDD (Wi) ORBDD (Wj)) 本體66表示語言的詞和這些詞之間的關系。在一個實施方式中,本 體66表示詞之間的親和度。在所示實施例中,本體66包括親和度矩陣 和親和度圖。參照圖3到圖5,對親和度矩陣的一個示例進行描述。參照 圖6,對親和度圖的一個示例進行描述。群集67記錄了彼此相關的詞的 群集。參照圖7,對群集進行更詳細描述。
在所示實施方式中,服務器22包括親和度模塊30、聚類模塊31、 本體特征模塊32、標簽模塊35以及搜索引擎37。親和度模塊30可以計 算詞對的親和度,在親和度矩陣中記錄該親和度,和/或報告該親和度矩 陣。親和度模塊30也可以生成親和度圖。參照圖2,對親和度模塊30進 行更詳細描述。
在具體實施方式
中,聚類模塊31可以通過識別數(shù)據(jù)集中的相關元素 的群集來發(fā)現(xiàn)該數(shù)據(jù)集中的模式(pattem)。在具體實施方式
中,聚類模
18塊31可以識別一組詞的群集(例如, 一種語言或一組頁面50)。 一般來 說,群集的詞彼此高度相關,但與該群集以外的詞不相關。詞的群集可 以指定該組詞的主題(或話題)。在具體實施方式
中,聚類模塊31根據(jù) 詞之間的親和度來識別相關詞的群集。在實施方式中,群集的詞彼此高 度親和,但與該群集以外的詞不親和。參照圖7,對聚類模塊31進行更 詳細的描述。
在具體實施方式
中,本體特征模塊32可以確定一個或更多個詞的集 合(例如,特定詞或包括詞的文檔)的一個或更多個本體特征,并接著 可以在多種情形中的任一種中應用該本體特征。本體特征是可以將詞集 放置在語言本體空間中的詞集特征。本體特征的示例包括深度和專度。 在具體實施方式
中,深度可以指示詞集的文本復雜性(sophistication)。
越深的詞集可能越技術化并且專業(yè)化,而更淺的詞集可能更通用。在具 體實施方式中,詞集的專度與詞集的主題的數(shù)量相關。更專的詞集可能 具有更少的主題,而不太專的詞集可能具有更多的主題。
本體特征模塊32可以在任何適當?shù)那樾蜗聭帽倔w特征。適當情形 的示例包括根據(jù)本體特征搜索、排序或選擇文檔;報告文檔的本體特征; 以及確定一個或更多個用戶的文檔的本體特征。參照圖8對本體特征模 塊32進行更詳細的描述。
在具體實施方式
中,標簽模塊35可以選擇標簽來對文檔進行標記。 可以以任何適當?shù)姆绞竭x擇標簽。在具體實施方式
中,標簽模塊35將主 題建模為該主題的相關詞的統(tǒng)計分布。標簽模塊35使用該統(tǒng)計分布來識 別文檔的所選詞具有最高出現(xiàn)概率的主題,并且標簽模塊35根據(jù)識別的 主題來選擇該文檔的標簽。在其他實施方式中,標簽模塊35識別文檔的 段落的候選標簽。標簽模塊35確定這些候選標簽與該文檔的其他候選標 簽的關聯(lián)性,并根據(jù)該確定來選擇該文檔的標簽。在再一實施方式中, 標簽模塊35推薦文檔的標簽??梢曰谂c用戶或計算機輸入或選擇的目 標標簽的親和度(例如,有向和/或差分親和度)來推薦標簽。 一旦選擇 了最終標簽,標簽器314就可以向文檔指配選擇的標簽。參照圖9對標 簽模塊35進行更詳細的描述。在具體實施方式
中,搜索引擎37根據(jù)搜索查詢搜索信息以生成搜索 結果。搜索引擎37可以利用任何合適的搜索算法或技術以檢索搜索結果。 參照圖10到13E來描述可以由搜索引擎37利用的方法和用戶界面。
系統(tǒng)10的組件可以包括接口、邏輯、存儲器和/或其他適當元件。 接口接收輸入、發(fā)送輸出、對輸入和/或輸出進行處理,和/或執(zhí)行其他適 當操作。接口可以包括硬件和/或軟件。
邏輯執(zhí)行對組件的操作,例如,執(zhí)行指令以根據(jù)輸入來生成輸出。 邏輯可以包括硬件、軟件和/或其他邏輯。邏輯可以編碼在一種或更多種 實體介質(zhì)中,并且可以在由計算機執(zhí)行時執(zhí)行操作。諸如處理器的特定 邏輯可以管理組件的操作。處理器的示例包括一個或更多個計算機、一
個或更多個微處理器、 一個或更多個應用程序,和/或其他邏輯。
在具體實施方式
中,可以通過編碼了計算機程序、軟件、計算機可
執(zhí)行指令和/或能夠由計算機執(zhí)行的指令的一種或更多種計算機可讀介質(zhì) 來執(zhí)行實施方式的操作。在具體實施方式
中,可以通過存儲、包含和/或 編碼了計算機程序、并且/或者具有存儲的和/或編碼的計算機程序的一種 或更多種計算機可讀介質(zhì)來執(zhí)行實施方式的操作。
存儲器存儲信息。存儲器可以包括一個或更多個實體的、計算機可 讀和/或計算機可執(zhí)行的存儲介質(zhì)。存儲器的示例包括計算機存儲器(例 如,隨機存取存儲器(RAM)或只讀存儲器(ROM))、大容量存儲介質(zhì) (例如,硬盤)、可移除存儲介質(zhì)(例如,光盤(CD)或數(shù)字視頻盤(DVD))、 數(shù)據(jù)庫和/或網(wǎng)絡存儲器(例如,服務器)、和/或其他計算機可讀介質(zhì)。
在不脫離本發(fā)明的范圍的情況下,可以對系統(tǒng)10進行改進、添加或 省略。系統(tǒng)10的組件可以是集成或分離的。此外,可以通過更多、更少 或其他組件來執(zhí)行系統(tǒng)10的操作。例如,可以通過一個組件執(zhí)行生成器 42和生成器46的操作,或者可以通過一個以上的組件來執(zhí)行親和度計算 器34的操作。另外,可以使用包括軟件、硬件的任何適當邏輯和/或其他 邏輯來執(zhí)行系統(tǒng)10的操作。如本說明書中所使用的,"各個"指集合中各 成員,或集合的子集中的各成員。
在不脫離本發(fā)明的范圍的情況下,可以對矩陣的示例進行改進、添加或省略。矩陣可以包括更多、更少或其他值。另外,可以以任何適當 的順序來排列矩陣的值。
圖2示出了可以與圖1的系統(tǒng)10 —起使用的親和度模塊30的一個 實施例。親和度模塊30可以計算詞對的親和度、將該親和度記錄在親和 度矩陣中、和/或報告該親和度矩陣。親和度模塊30還可以生成親和度圖。
在所示的實施方式中,親和度模塊30包括親和度計算器34、本體 生成器38以及詞推薦器48。親和度計算器34計算詞wi或包括第一詞 wi和第二詞wj的詞對的任何適當類型的親和度。親和度的示例包括基本 親和度、有向親和度、平均親和度、差分親和度和/或其他親和度。
這一個實施方式中,詞推薦器48接收種子詞(seed word),并且識 別與種子詞之間具有比閾值親和度大的親和度的詞。閾值親和度可以具 有任何適當值,例如大于或等于0.25、 0.5、 0.75或0.95。閾值親和度可 以是預先編程的或者由用戶指定。
可以根據(jù)包括詞wi和/或wj的頁面50的量(例如,數(shù)量)來計算 基本親和度。合取頁面量是指既包括詞wi又包括詞wj的頁面50的量, 而析取頁面量是指包括詞wi或詞wj中的一個的頁面50的量??梢杂珊?取頁面量除以析取頁面量而給出基本親和度。在一個示例中,合取頁面 數(shù)量指包括詞wi和詞wj的頁面的數(shù)量,而析取頁面數(shù)量指包括詞wi或 詞wj的頁面的數(shù)量。可以由合取頁面數(shù)量除以析取頁面數(shù)量而給出基本 親和度。
<formula>formula see original document page 21</formula>圖3示出了記錄基本親和度的親和度矩陣110的一個示例。在所示 的示例中,親和度矩陣110記錄詞wl......w5的逐對親和度。根據(jù)親和
度矩陣110,詞wO和wl之間的親和度為0.003,詞w0和w2之間的親 和度為0.005,等等。
返回參照圖1,親和度組包括彼此具有高親和度的詞對,并且可以 被用來針對頁面內(nèi)容來捕捉詞wl和w2之間的關系。高親和度可以被指 定為高于親和度組閾值的親和度。閾值可以被設置為任何適當?shù)闹?例 如,大于或等于0.50、 0.60、 0.75、 0.90或0.95)。詞可以屬于一個以上的親和度組。在一個實施方式中,親和度組可以表示為BDD。 BDD的指 針與該組的各個詞一起被存儲在反向索引62中。
有向親和度可以被用來測量詞wi對于詞wj的重要性。親和度計算 器34根據(jù)包括詞wi和wj的頁面50的量(例如,數(shù)量)來計算在給定 詞wj的情況下詞wi的有向親和度。詞wj頁面量是指包括詞wi的頁面 50的量??梢杂珊先№撁媪砍栽~wj頁面量來給出給定詞wj的情況下 的詞wi的有向親和度。例如,詞wj頁面數(shù)量指包括詞wi的頁面50的 數(shù)量??梢杂珊先№撁?0的數(shù)量除以詞wi的頁面50的數(shù)量來提供給定 詞wj的情況下的詞wi的有向親和度
DAffinity(wi, wj) = P(Wi & Wj) / P(Wi)
DAffinity(wi,wj)和DAffinity(wj,wi)不同。詞wi和wj之間的較高有 向親和度DAffinity(wi,wj)表示在頁面50包括詞wj的情況下、頁面50包 括詞wi的概率較高。在一個示例中,頁面[1 23 4 5 6]包括詞wi,而頁面 [4 2]包括詞wj。包括詞wj的頁面也包括詞wi,因此從詞wj的觀點來看, 詞Wi具有高重要性。僅三分之一的包括wi的頁面還包括詞wj,所以從 詞wi的觀點來看,詞wj具有低重要性。
圖4示出了記錄針對詞w0, ..., w5的有向親和度的親和度矩陣120 的一個示例。在該示例中,詞124是A詞,而詞128是B詞。矩陣120 的行記錄了在給定A詞的情況下B詞的親和度,而親和度矩陣120的列 記錄了在給定B詞的情況下A詞的親和度。
返回參照圖1,針對其他詞wj計算詞wi的平均親和度。在一個實 施方式中,平均親和度可以是詞wi和每個其他詞wj之間的親和度的平 均值。詞wi在N個詞中的平均親和度可以通過下式給出
AveAff(wi" ^二尸(化)
圖5示出了記錄平均親和度的親和度矩陣140的一個示例。行142 記錄了詞1到詞50,000的基本親和度。行144記錄了詞1到詞50,000的 平均親和度。
返回參照圖1,詞的平均親和度可以指示詞的深度。具有較低平均 親和度的詞可以被認為是較深的詞,而具有較高平均親和度的詞可以被
22認為是較淺的詞。較深的詞傾向于更技術化、具體并且準確。具有較高
比例的較深詞的頁面50可以被認為是較深頁面,而具有較低比例的較深 詞的頁面50可以被認為是較淺頁面。在一個實施方式中,用戶可以指定 要檢索的詞和/或頁面50的深度。
頁面50的較深詞可以形成高度相關詞的一個或更多個群集。群集可 以表示共同的觀點或主題。頁面50的主題的數(shù)量可以指示頁面50的專 度。具有較少主題的頁面50可以被認為更專,而具有較多主題的頁面50 可以被認為不太專。
詞wi對于詞wj的差分親和度是詞wi和wj之間的有向親和度減去 詞wj對于所有其他詞的平均親和度。差分親和度可以被表達為
DiffAff(wi, wj) = DAffinity(wi, wj) — AveAff(wj)
差分親和度消除了由詞wj在頁面50中出現(xiàn)的總體傾向性而導致的 偏置。在具體環(huán)境中,差分親和度可以提供在頁面包括詞wj的情況下還 包括詞wi的概率的更準確的指示。
差分親和度可以被用于各種應用中。在一個示例中,人名之間的差 分親和度可以被用來研究社會網(wǎng)絡。在另一示例中,語素之間的差分親 和度可以被用來研究自然語言處理。在另一示例中,產(chǎn)品之間的差分親 和度可以被用來研究市場策略。
親和度計算器34可以使用任何適當?shù)募夹g來搜索反向索引列表以 計算親和度。例如,為了識別既包括詞wi又包括wj的頁面,親和度計 算器34可以針對公共元素(即,公共頁面標識符)搜索詞wi的列表Wi 和詞wj的列表Wj。
在具體實施方式
中,本體生成器38生成語言的本體66 (例如,親 和度矩陣或親和度圖)??梢愿鶕?jù)諸如基本親和度、有向親和度、平均親 和度、差分親和度和/或其他親和度中的任何適當親和度來生成本體???以根據(jù)以任何適當?shù)姆绞綇恼Z言中選擇的詞來生成本體66。例如,可以
選擇來自語言的公用部分的詞或者與一個或更多個特定主題區(qū)域相關的 詞。
在所示的實施方式中,本體生成器38包括親和度矩陣生成器42和親和度圖生成器46。親和度矩陣生成器42生成記錄詞之間的親和度的親 和度矩陣。親和度圖生成器46生成表示詞之間的親和度的親和度圖。在 親和度圖中,節(jié)點表示詞,而節(jié)點之間的有向邊的權重表示由節(jié)點所表 示的詞之間的親和度。親和度圖可以具有任何適當?shù)木S數(shù)。
圖6示出了親和度圖150的一個示例。親和度圖150包括節(jié)點154 和鏈路158。節(jié)點154表示詞。在本示例中,節(jié)點154a表示詞"binary (二 進制)"。節(jié)點154之間的有向邊的權重表示由節(jié)點154表示的詞之間的 親和度。例如,更大的權重表示更大的親和度。節(jié)點之間的鏈路158指 示由節(jié)點154表示的詞之間的親和度高于親和度閾值。親和度閾值可以 具有任何適當?shù)闹?例如,大于或等于0.25、 0.5、 0.75或0.95)。
圖7示出了可以與圖1的系統(tǒng)10 —起使用的聚類模塊31的一個實 施例。在具體實施方式
中,聚類模塊31通過識別數(shù)據(jù)集中的相關元素的 群集來發(fā)現(xiàn)數(shù)據(jù)集中的模式。在具體實施方式
中,聚類模塊31可以識別 詞集(例如,語言或頁面50的集合)的群集。 一般來說,群集的詞彼此 高度相關,而與群集以外的詞不高度相關。詞的群集可以指定詞集的主 題(或話題)。
在具體實施方式
中,聚類模塊31根據(jù)詞之間的親和度來識別相關詞 的群集。在這些實施方式中,群集的詞彼此高度親和,但是與群集以外 的詞不高度親和。在一個實施方式中,如果詞足夠親和,則可以認為它 們高度親和。如果詞滿足一個或更多個親和度標準(例如,閾值),則詞 足夠親和,下面提供了一些例子。
可以使用任何適當?shù)挠H和度來識別群集。在具體實施方式
中,聚類 模塊31使用有向親和度。 一個詞相對于其他詞的有向親和度表征了該詞 的共現(xiàn)(co-occurrence)。群集包括具有類似共現(xiàn)的詞。在特定實施方式 中,聚類模塊31使用差分親和度。差分親和度傾向于消除由詞在頁面50 中出現(xiàn)的總體傾向性而導致的偏置。
在所示的實施方式中,聚類模塊31包括聚類引擎210和聚類分析器 214。聚類引擎210根據(jù)親和度來識別詞的群集,并且聚類分析器214應 用親和度聚類以分析各種情形。聚類引擎210可以根據(jù)親和度以任何適當?shù)姆绞絹碜R別詞的群集。
提出了識別群集的方法的三個例子根據(jù)詞集構建群集、將詞分類成群
集,以及比較詞的親和度矢量。在一個實施方式中,聚類引擎210根據(jù) 詞集構建群集。在一個示例中,聚類引擎210根據(jù)具有親和度*八汪(^, wj) 的詞(wi)的集合W來構建群集S。親和度值*入任( 1, wj)表示詞wi相對 于詞wj的任何適當類型的親和度(例如,有向親和度DAffinity(wi, wj) 或差分親和度DiffAff(wi, wj))。這里提供的親和度值的特定示例可以被 認為是歸一化值。在本例中,Affibr(wi, wj)表示前向親和度,而Affback(wj, wi)表示后向親和度。
在本例中,群集S以種子詞Wq開始。當前詞wx表示在當前迭代中 群集S中的正與來自集合W的詞進行比較的詞。最初,將當前詞wx設 為種子詞wq。
在迭代期間,把當前詞wx設為群集S的詞。根據(jù)集合W的詞wi 與當前詞wx的前向親和度Afffor(wi, wx)來對它們進行排序。從有序集合 W的起點開始,識別滿足親和度標準的候選詞wG。親和度標準可以包 括對于當前詞wx的前向親和度標準
Afffor(wc, wx) > Thcf
和對于種子詞wq的后向親和度標準
Affback(wq, wc) > Thcb
其中,Thcf表示候選詞的前向閾值,而Thcb表示候選詞的后向閾值。 候選詞(wC》的有序集合的第一詞被添加到群集S,添加的詞的數(shù)量由參 數(shù)Sizec給出。閾值Thcf和Thcb可以是具有從最小值到最大值的任何適 當值的浮點參數(shù)。在特定實施例中,可以根據(jù)實際親和度的有序列表來 確定Thcf和Thcb的適當值。例如,可以使用列表中第200個值。參數(shù) Sizec可以是具有任何適當值的整數(shù)參數(shù)。適當值的示例包括默認值1 、 2、 3或4。在具體實施方式
中,這些參數(shù)在具體迭代中可以不同。
可以執(zhí)行任何適當次數(shù)的迭代。在一個示例中,可以在開始執(zhí)行該 方法之前指定迭代次數(shù)。在另一示例中,可以在方法執(zhí)行期間計算該次 數(shù)。例如,可以根據(jù)群集S的大小增長率來計算該次數(shù)。在另一實施方式中,聚類引擎210通過將詞集的詞歸類成群集來識 別群集。在一個示例中,根據(jù)親和度+Aff(wi, wj)(例如,差分親和度或 有向親和度)來對集合W的詞(wi)進行歸類。在另一例中,根據(jù)詞 wi與不同詞集Q的各成員的親和度的累積函數(shù)(例如,求和)來對詞(wi〉 進行歸類??梢砸匀魏芜m當方式選擇集合W。例如,集合W可以是與查 詢最相關的X個詞,其中X可以具有任何適當值(例如,從10到100、 100到200或者200以上范圍中的值)。
在本例中,群集初始為空。把來自集合W的第一詞wi置入群集中。 在每次迭代中,從集合W選擇當前詞wx。如果fAff(wx, wf)滿足親和度 閾值Th給出的親和度標準,則把當前詞wx置入群集中,其中wf表示 該群集中置入的第一詞。閾值Th可以具有任何適當值(例如,對于最小 值0.0和最大值1.0來說,具有范圍在0.1到0.5的值)。如果承Aff(wx, wf) 不滿足閾值Th,則把當前詞wx置入空群集中。針對集合W的各詞重復 這些迭代。
在處理了集合W的詞之后,可以消除小群集。例如,可以消除具有 少于Y個詞的群集。Y可以是任何適當值(例如范圍在3到5、 5至U0、 10到25、 25到50或者50以上的值)。
如果群集的數(shù)量不在滿意范圍內(nèi),則可以利用導致更嚴格或更寬松 的群集置入標準的不同閾值Th來重復該處理??梢酝ㄟ^具有任何適當值 的群集數(shù)量最小值和群集數(shù)量最大值給出該滿意范圍。適當值的示例包 括最小值在1到5、 5到10或者10以上范圍中的值,以及最大值在10 到15、 15到20或者20以上范圍中的值??梢栽黾娱撝礣h的值,以增 加群集的數(shù)量,并且可以減小閾值Th的值以減小群集的數(shù)量。
在另一實施方式中,聚類引擎210通過比較詞的親和度矢量來識別 群集。在具體實施方式
中,親和度矩陣的行和列可以產(chǎn)生親和度矢量< wi, *Aff(wi, wl), ..., *Aff(wi, wj), ..., *Aff(wi, wn)、該親和度矢量表示詞wi 相對于詞wj (j=l, ..., n)的親和度。親和度值tAff(wi, wj)表示詞wi相 對于詞wj的任何適當類型的親和度(例如,有向親和度或差分親和度)。
在具體實施方式
中,具有相似親和度值的親和度矢量可以表示一個群集。僅出于描述性目的,可以將親和度矢量看作是詞的親和度在親和
度空間中的坐標。即,每個親和度值fAff(wi, wj)可以被認為是特定維的 坐標。具有相似親和度值的親和度矢量表示與這些矢量相關聯(lián)的詞在親 和度空間中彼此接近。即,這些矢量指示這些詞具有與其他詞相似的親 和度關系,并因此適于作為同一群集中的成員。
如果通過適當?shù)木嚯x函數(shù)確定一個親和度矢量近似于另一親和度矢 量,則這些親和度矢量相似??梢园延H和度矢量的距離函數(shù)定義為例如 給定大小的矢量的標準歐幾里得距離,或者定義為給定大小的矢量的余 弦。該距離函數(shù)還可以由聚類引擎210或者由用戶指定。
在具體實施方式
中,聚類引擎210應用聚類算法來識別具有彼此近 似的值的親和度矢量。群集算法的示例包括直接、重復二分(bisection)、 凝聚(agglomerative)、偏置凝聚(biasedagglomerative)、禾口/或其它適當 算法。在一個示例中,聚類引擎210可以包括諸如CLUTO的聚類軟件。
聚類分析器214可以在任何適當?shù)膽弥惺褂糜H和度聚類來進行分 析。在一個實施方式中,聚類分析器214可以使用親和度聚類來對頁面 50進行分類。類別可以與群集標識符或者群集的一個或更多個成員相關 聯(lián)。在一個示例中,可以識別頁面50的群集,并且接著可以根據(jù)該群集 對頁面50進行歸類。在另一例中,可以選擇頁面50的重要詞,并且接 著確定包括這些詞的群集。接著可以根據(jù)所確定的群集對頁面50歸類。
在一個實施方式中,聚類分析器214可以使用親和度聚類來分析頁 面50的語料庫。語料庫可以與特定主題、 一個或更多個個體的集合 (community)、組織或其他實體相關聯(lián)。在一個示例中,聚類分析器214 可以識別語料庫的群集,并根據(jù)該群集確定語料庫的庫屬性。庫屬性可 以指示與和該語料庫相關聯(lián)的實體相關的詞。如果一個或更多個頁面50
具有庫屬性的群集,則頁面50與該實體相關。
在一個實施方式中,聚類分析器214可以使用親和度聚類來搜索查 詢解疑和査詢擴展。在本實施方式中,聚類分析器214識別包括給定搜 索查詢的搜索詞條的群集。群集提供與給定搜索查詢相關的可替換詞和/ 或類別。在一個示例中,來自群集的詞可以被報告給搜索者,以幫助下
27一搜索査詢。在另一例中,聚類分析器214可以從群集中選擇詞,并自 動形成一個或更多個新的搜索査詢。聚類分析器214可以串行或并行運 行新的查詢。
在一個實施方式中,聚類分析器214可以使用親和度聚類來研究社 會網(wǎng)絡。在一個示例中,頁面50可以讓人看到社會網(wǎng)絡。這些頁面的示 例包括信件(例如信函、電子郵件以及即時消息)、便箋、文章以及會議 記錄。這些頁面50可以包括含有社會網(wǎng)絡的人員的用戶標識符(例如, 姓名)的詞。可以識別姓名的群集,以分析網(wǎng)絡的人員之間的關系。在 一個示例中,差分親和度聚類可以被用來在不提供諸如系統(tǒng)管理員的姓 名的信息的情況下濾除頁面50中出現(xiàn)最多的名稱。
在具體實施方式
中,聚類分析器214可以通過組合和/或比較數(shù)據(jù)集 的群集來分析數(shù)據(jù)集。在一個實施方式中,對重疊的數(shù)據(jù)集的群集進行 比較。來自一個數(shù)據(jù)集的群集可以被映射到另一數(shù)據(jù)集的群集上,這樣 可以看出這些數(shù)據(jù)集之間的關系。例如,該數(shù)據(jù)集可以來自對一組同事 的文檔的分析和來自對該組的社會網(wǎng)絡研究。可以將社會網(wǎng)絡群集映射 至文檔主題群集,來分析社會網(wǎng)絡與該主題之間的關系。
圖8示出了本體特征模塊32的一個實施例。本體特征模塊32可以 確定一個或更多個詞(例如,特定的詞或包括詞的文檔)的集合的一個 或更多個本體特征,并且接著可以在任何不同情形中應用該本體特征。 一個或更多個詞的集合可以包括文檔的關鍵詞條。如果與詞條t相關的前 k個詞條中的至少一個也呈現(xiàn)在該文檔中,則詞條t可以是關鍵詞條。否 則,該詞條對于該文檔可能不是必不可少的。
本體特征是沿一個或更多個特征軸表征文檔的可量化度量,所述特 征軸可以在給定區(qū)域中從語義上對該文檔與其他文檔進行區(qū)分。例如, 文檔的深度可以針對它的可理解性來區(qū)分文檔、文檔的專度可以針對它 的關注點來區(qū)分文檔,而文檔的主題可以針對其關注的主題范圍來區(qū)分 文檔??梢砸匀魏芜m當方式定義本體特征。例如,計算機語言中的獨立 算法可以被用來表征文檔的可讀性或深度。
在所示的實施方式中,本體特征模塊32包括深度引擎230、主題引擎240、專度引擎244以及本體特征(OF: ontology feature)應用引擎250。 深度引擎230可以確定一個或更多個詞(例如,特定的詞或包括詞的文檔) 的深度。 一般來說,深度可以指示詞的文本復雜性。越深的詞可以是更 加技術化的并且更專業(yè)的,而越淺的詞可以是更通用的。在具體實施方 式中,深度模塊32可以計算文檔的詞的深度,并接著根據(jù)詞的深度來計 算文檔的深度。在具體實施方式
中,深度引擎230可以為文檔和/或詞指 配深度值和/或深度級別。越深的文檔或詞可以被指配越高的深度值或級 別,而越淺的文檔或詞可以被指配越低的深度值或級別。
深度引擎230可以以任何適當?shù)姆绞接嬎阍~深度。在具體實施方式
中,深度引擎230根據(jù)平均親和度來計算詞深度。在這些實施方式中, 詞的深度是詞的平均親和度的函數(shù)。越深的詞可以具有越低的平均親和 度,而越淺的詞可以具有越高的平均親和度。在具體實施例中,深度引 擎230可以通過根據(jù)詞的平均親和度對它們進行排位,從而計算詞的深 度。對具有較低平均親和度的詞給予高的深度排位,而對具有較高平均 親和度的詞給予低的深度排位。
在具體實施方式
中,深度引擎230可以使用聚類分析來計算詞深度。 在這些實施方式中,群集的詞相互高度親和,而與群集以外的詞不高度 親和??梢愿鶕?jù)能夠作為深度指示的親和度來測量群集空間中的距離。 在具體實施方式
中,屬于更少數(shù)群集或者屬于更小群集和/或離其他群集 更遠的群集的詞可以被認為更深,而屬于更多數(shù)群集或者屬于更大群集 和/或離其他群集更近的群集的詞被認為更淺。
在其他具體實施方式
中,深度引擎230可以通過對親和度圖150應 用鏈路分析來計算詞深度??梢酝ㄟ^任何適當?shù)逆溌贩治鏊惴?例如, PAGERANK)來執(zhí)行該鏈路分析。僅出于描述性目的,圖6的親和度圖 150可以被用來計算詞深度。親和度圖150包括節(jié)點154和鏈路158。節(jié) 點154表示詞。節(jié)點154之間的鏈路158指示由節(jié)點154表示的詞之間
的親和度高于親和度閾值,即,這些詞令人滿意地親和。
在具體實施方式
中,深度引擎230計算節(jié)點154的通用性。越通用 的節(jié)點154可以表示較淺的詞,而不太通用的節(jié)點154可以表示較深的詞。從第一節(jié)點154到第二節(jié)點154的鏈路136被認為是第一節(jié)點154 對第二節(jié)點154的通用性投票。另外,來自更通用節(jié)點154的投票可以 比來自不太通用節(jié)點154的投票具有更大的權重。此外,第一節(jié)點154 到第二節(jié)點154的親和度對投票進行加權。深度引擎230根據(jù)節(jié)點154 的加權投票來計算節(jié)點154的通用性。不太通用的詞被認為是深詞,而 更通用的詞可以被認為是淺詞。
深度引擎230可以以任何適當方式來計算文檔深度。在具體實施方 式中,深度引擎230根據(jù)文檔中的至少一個、 一些或所有詞的深度來計 算文檔的深度。在具體實施方式
中,由平均親和度給出詞深度,因此可 以根據(jù)文檔的詞的平均親和度來計算文檔深度。例如,文檔的淺度可以 是文檔的詞的平均親和度的平均值(即,文檔中各詞的平均親和度的和 除以文檔中的詞的總數(shù))。接著,文檔的深度可以被計算為文檔的淺度的
/ r,1卞/,倒數(shù)。
在具體實施方式
中,可以根據(jù)文檔的所選詞集的平均深度來計算深 度。所選的詞集可以包括文檔的關鍵的詞(例如,前(最深)X。/。的詞, 其中X可以小于IO、 10至lj20、 20至lj30、 30至lj40、 40到50、 50至lj 60、 60到70,或者大于100)。所選的集合可以排除PM的標準語法詞和/或 Q。/。的結束詞,其中P和Q具有任何適當值(例如小于10、 10到20、 20 到30、 30到40、 40到50、 50到60、 60到70,或者大于100)。
在具體實施方式
中,深度引擎230根據(jù)文檔中詞深度的分布來計算 文檔的深度。在具體實施方式
中,越深的文檔可以具有越高比例的深詞。
在具體實施方式
中,深度引擎230根據(jù)文檔親和度來計算文檔的深 度。文檔之間的親和度描述文檔之間的關系。在具體實施方式
中,平均 文檔親和度可以按與平均詞親和度可以指示詞深度的方式相似的方式來 指示文檔深度。可以以任何適當方式來定義文檔親和度。在一個示例中, 公共詞數(shù)量P(D1&D2)指示既存在于文檔Dl中又存在于文檔D2中的詞 的數(shù)量,而不同詞數(shù)量P(D1 +02)指示存在于文檔Dl或D2中詞的數(shù)量。 文檔Dl和D2之間的文檔親和度DocAff可以被定義為
DocAff (Dl, D2) = P(D1 & D2) / P(D1 + D2)深度引擎230可以以與計算平均詞親和度相似的方式來計算平均文 檔親和度。具有較低平均親和度的文檔被認為較深,而具有較高平均親 和度的文檔被認為較淺。
在具體實施方式
中,深度引擎230可以通過對文檔親和度圖應用鏈 路分析來計算文檔深度。除文檔親和度圖的節(jié)點表示文檔而不是詞之外, 文檔親和度圖可以與親和度圖150類似。深度引擎230利用給定第一文 檔的情況下第二文檔的文檔親和度來對從表示第一文檔的第一節(jié)點到表 示第二文檔的第二節(jié)點的鏈路進行加權。接著,可以對外向鏈路的權重 進行歸一化。
在具體實施方式
中,可以在用戶接口上顯示深度圖以示出文檔的深 度。也可以顯示可以用來選擇深度等級的深度滑塊。在具體實施方式
中, 如果文檔包括較大文檔的多個部分,則深度圖可以指示各部分的深度。
在具體實施方式
中,深度引擎230可以以任何其他適當方式來計算 文檔深度(例如,處理文檔的親和度直方圖,和/或基于深度截短不同詞 的比例,接著處理直方圖)。其他方法包括Gunning-Fog、 Flesch或Fry 方法。
在具體實施方式
中,深度引擎230可以通過將深度值映射為特定深 度等級來標定深度。在具體實施方式
中,范圍Ri中的深度值可以被映射 到等級Li。例如,R0 = {rO: r0 < cO)可以被映射到等級L0、 Rl = {rl: c0 < rl < cl〉可以被映射到等級Ll,…,以及Rn = {m: cn < rn〉可以被映射 到等級Ln。該范圍可以包括任何適當深度值并且不需要具有相同大小。 可以存在任何適當數(shù)量的等級(例如小于5、 5到7、 7或8、 8到10、 10 到20、 20到50、 50到100,或者大于100)。
主題引擎240可以確定文檔的主題(或話題)。在具體實施方式
中, 主題引擎240根據(jù)由聚類模塊31識別的、文檔中詞的群集來確定主題。 如上面所討論的,詞的群集可以指定詞集的主題(或話題)。文檔的主題 可以提供關于文檔的內(nèi)容的有用信息。例如,包括群集(腎臟的(renal)、 腎(kidney)、蛋白質(zhì)、問題)的文檔可能關于由于腎功能衰退而導致的 蛋白質(zhì)流失,而不是蕓豆的蛋白質(zhì)含量。在具體實施方式
中,主題引擎240根據(jù)主題圖(theme map)來確定 主題。在這些實施方式中,使用任何適當技術(例如,詞條頻度-逆文檔 步員度(TF-IDF: term frequency-inverse document frequency)技術)從文檔 中提取關鍵詞。關鍵詞被用來從主題圖中選擇候選主題。候選主題與文 檔進行比較,以確定該主題多大程度上與文檔匹配。在具體實施例中, 候選主題的直方圖可以與文檔的直方圖進行比較。如果候選主題與文檔 匹配,則這些主題可以提供文檔的主題的類型估計和數(shù)量估計。
專度引擎240可以計算文檔的專度。在具體實施方式
中,專度引擎 240可以對文檔指配專度值和/或?qū)6鹊燃?。更專的文檔可以被指配更高 的專度值或等級,而不太專的文檔可以被指配更低的專度值或等級。
在具體實施方式
中,專度引擎240根據(jù)文檔的主題數(shù)量來計算專度。 在具體實施例中,更專的文檔可以具有更少的主題,而不太專的文檔可 以具有更多主題。在具體實施方式
中,專度引擎240根據(jù)文檔的主題數(shù) 量和這些主題之間的親'和度來計算專度。在具體實施例中,'更專的文檔 可以具有更少的主題,且這些主題之間具有更高的親和度,而不太專的 文檔可以具有更多的主題,且這些主題之間具有更低的親和度。
在具體實施方式
中,主題數(shù)量可以取決于深度(或等級)。例如,較 淺深度處的單個主題可以表示較大深度處的多個主題。在具體實施方式
中,可以通過用戶使用深度滑塊來選擇深度,或者深度可以是預先確定 的。在具體實施方式
中,等級可以由用戶選擇或者可以被預先確定。例 如,可以定義任何適當數(shù)量的等級,并且可以針對該等級計算深度。例 如,等級可以基于領域(例如,工程、醫(yī)學、新聞、體育或金融領域); 基于專業(yè)(例如、心臟病學、眼科學或者腎臟專業(yè));基于主題(例如, 高血壓、膽固醇、搭橋手術或動脈阻塞主題);基于細節(jié)(例如,體位性 低血壓、慢性高血壓或者急性高血壓);基于解決方案(例如,老年人病 理、藥物或者遺傳學解決方案);基于人(例如,用戶査詢等級)。
本體特征應用引擎250可以應用本體特征(例如深度、主題或?qū)6?, 來在任何適當情形中執(zhí)行本體特征分析。適當情形的示例包括根據(jù)本 體特征來搜索、排序、推薦或選擇文檔;報告文檔的本體特征;以及確定一個或更多個用戶的文檔(或文檔集)的本體特征。在
具體實施例方式
中,本體特征應用引擎250可以使用包括關于本體特征的信息的索引。
在一個示例中,本體特征應用引擎250使用根據(jù)深度等級生成和/或維護
的文檔深度(DD: document depth)反向索引62。 DD反向索引62包括
DD反向索引列表,其中詞的DD反向索引列表列出了包括該詞的文檔(或
頁面50)的文檔標識符。文檔的文檔標識符可以指示文檔的深度。例如,
用來編碼文檔標識符的二進制編碼可以指示深度。在一些情況下,DD反
向索引列表可以僅列出具有令人滿意的深度的文檔。在另一例中,除反
向索引62之外,本體特征應用引擎250還使用等級表和深度表。該深度
表可以指示文檔的深度。
在具體實施方式
中,本體特征應用引擎250搜索具有本體特征的指
定值(例如,文檔深度或?qū)6鹊闹付ㄖ?的文檔。該指定值可以由用戶 預先確定、計算或者選擇。在具體實施方式
中,可以使用深度滑塊和/或 專度滑塊來選擇這些值。
在具體實施方式
中,本體特征應用引擎250可以將本體特征用作排 序標準來對文檔進行排序。例如,本體特征應用引擎250可以針對主題 以及其它排序標準,根據(jù)文檔深度和/或?qū)6葋韺ξ臋n進行排序。在具體 實施例中,本體特征應用引擎250搜索DD反向索引62以獲得根據(jù)文檔 深度排序的文檔。在一些實施例中,本體特征應用引擎250使用非DD 反向索引62來搜索文檔,并接著根據(jù)深度對這些文檔排序。
在具體實施方式
中,本體特征應用引擎250可以向客戶端20以圖形 方式顯示本體特征的值??梢詾橐恍┗蛩形臋n(例如,為來自搜索結 果的前X。/。的文檔)提供圖形顯示。該本體特征值可以以任何適當方式呈 現(xiàn)。在一些實施例中,圖形指示符(例如,數(shù)量、詞或圖標)可以指示 該值。例如,圖形指示符可以例如位于搜索結果列表中的項目、在線報 紙的標題或者文檔圖標的旁邊。在一些實施例中,對已有插圖的修改可 以指示該值。例如,文本的尺寸、字體、風格、顏色或圖形指示符可以 指示值。在另一例中,圖形可以指示這些值。本體特征直方圖可以包括 文檔量軸和本體特征軸,并且可以指示具體本體特征值的文檔量。例如,包括文檔量軸和文檔深度軸的文檔深度直方圖可以指示特定文檔深度的 文檔量。
在具體實施方式
中,本體特征應用引擎250可以允許用戶請求搜索 具有特定本體特征值的文檔。用戶可以被允許為查詢的不同詞指定值。 在具體實施例中,本體特征應用引擎250可以為用戶提供選項來選擇深
度,并接著用戶可以輸入該選擇的深度。這些選項可以以任何適當方式 呈現(xiàn),例如(i)絕對項(例如,表示深度的數(shù)量或者數(shù)量范圍);(ii) 相對項(例如,針對深度的一部分搜索結果,例如"最深的X。/。"); (iii) 語義項(例如,"介紹"、"淺"、"深"、"非常深"和/或"高技術的");(iv) 圖形項(例如,滑塊、按鈕和/或其他圖形元素);或者(v)任何適當?shù)?組合項(例如,具有語義標簽的滑塊)。在一些情況下,滑塊可以包括淺 端和深端。用戶可以將滑塊移向一端或另一端,以指示選擇的深度。當 提供搜索結果時,可以通過該滑塊顯現(xiàn)文檔深度直方圖,并且可以將該 滑塊用作文檔深度軸。
在具體實施方式
中,本體特征應用引擎250可以計算一個或更多個 用戶的集合的本體特征屬性。本體特征屬性可以包括主題上下文中的用 戶深度和用戶專度。本體特征屬性描述了文檔的與用戶集相關聯(lián)的本體 特征。例如,科學家可以使用比三年級學生更深的文檔。可以針對一個 或更多個主題給出本體特征屬性。例如,遺傳學家可以在遺傳學領域中 使用比他在詩歌領域中使用的文檔更深的文檔。本體特征屬性可以被用 來確定用戶的專長、為用戶自動構建簡歷,以及分析用戶的社會網(wǎng)絡。
可以分析與用戶相關聯(lián)的任何適當?shù)奈臋n,以估計本體特征屬性, 例如,信件(例如,電子郵件和即時消息)、網(wǎng)頁、以及搜索歷史(例如 搜索查詢和選擇的頁面)。在具體實施方式
中,本體特征應用引擎250可 以隨著時間跟蹤本體特征屬性,并且可以使用過去的屬性來預測未來的 屬性。在具體實施例中,本體特征應用引擎250可以假設用戶深度和/或 專度總體上隨時間和/或區(qū)域中的活動而增加。
在具體實施方式
中,本體特征應用引擎250可以組合某些操作。例 如,本體特征應用引擎250可以監(jiān)控用戶的深度,并且接著根據(jù)該用戶深度來搜索文檔。在一個示例中,監(jiān)控用戶深度,并且接著根據(jù)該深度 向用戶提供新聞。預測未來的用戶深度,并且提供適合該預測用戶深度 的新聞。
圖9示出了可以選擇標簽來標記文檔的標簽模塊35的一個實施例。 可以以任何適當?shù)姆绞絹磉x擇標簽。在具體實施方式
中,標簽模塊35將 主題建模為主題的相關詞的統(tǒng)計分布。標簽模塊35使用統(tǒng)計分布來識別 文檔的高排位詞具有最高出現(xiàn)概率的主題,并且根據(jù)識別的主題來選擇 文檔的標簽。在所示的實施方式中,標簽模塊35包括主題建模器310和 文檔標簽器314。在具體實施方式
中,主題建模器310生成對主題進行建 模的統(tǒng)計分布,而文檔標簽器314基于該統(tǒng)計分布選擇標簽。主題建模 器310和文檔標簽器314可以利用任何適當方法來進行主題建模和選擇 標簽。
在其他實施方式中,標簽模塊35通過分析文檔的段落來指配標簽。 在這些實施方式中,標簽模塊35識別文檔的段落的候選標簽。標簽模塊 35確定候選標簽與文檔的其他候選標簽的關聯(lián)性,并根據(jù)該關聯(lián)性來選 擇該文檔的標簽。
在再一實施方式中,標簽模塊35可以基于由用戶或計算機選擇的推 薦標簽來指配標簽。在這些實施方式中,標簽模塊35推薦文檔的標簽。 推薦詞條可以與目標標簽具有較高的親和度,而彼此之間具有較低的親 和度,以減小文檔的本體空間。標簽模塊35可以響應于選擇的標簽來繼 續(xù)推薦標簽。 一旦已經(jīng)選擇了最終標簽,標簽模塊35就可以對文檔指配 所選擇的標簽。
圖IO示出了用于確定文檔的重要詞條的方法的一個示例,該方法可 由圖1的系統(tǒng)10的標簽模塊35來執(zhí)行。在特定實施方式中,該方法可 以將文檔縮減到其最重要的詞條,該詞條被認為是總結了該文檔的關鍵 詞。該方法隨后可以執(zhí)行正常n-gram共現(xiàn)以確定語料庫中文檔的關鍵詞 之間的關聯(lián)強度。
在示出的示例中,該方法可以對語料庫的各個文檔執(zhí)行以下操作。 該方法從步驟410開始,其中拋棄不頻繁出現(xiàn)的文檔的n-gram。在一些示例中,非頻繁出現(xiàn)的n-gmm可以是在文檔中不頻繁出現(xiàn)的n-gram,例 如出現(xiàn)少于三次。在其他示例中,可以利用在整個語料庫中詞條的頻度 分布來識別非頻繁出現(xiàn)的n-gram。
在步驟414針對各個n-gram計算TF-IDF值。在一些示例中,基于 文檔語料庫的詞條頻度來計算IDF值。在其他示例中,針對基準語料庫 來計算IDF值,該基準語料庫無需包括檢査中的當前文檔。
在步驟418,根據(jù)得到的TF-IDF值對文檔n-gram進行排序以產(chǎn)生 n-gram的有序列表。有序列表可以根據(jù)最大TF-IDF值到最小TF-IDF值 對n-gram進行排序,使得具有最大TF-IDF值的n-gram位于列表頂部而 具有最小TF-IDF值的n-gram位于列表底部。在步驟422針對n-gram計 算有序列表的連續(xù)n-gram之間的TF-IDF值的差。在步驟424計算該差 的均值和標準偏差。
在步驟426,從列表中移除低于百分比閾值的n-gram。例如,可以 移除下50%的n-gram。在一些示例中,百分比閾值可以與閾值以上的所 需最小詞條數(shù)量一起使用。
步驟428到434描述了使用在步驟422和步驟424處計算出的值, 以動態(tài)確定剩余n-gram的下一 TF-IDF閾值。在步驟428從列表底部向 列表頂部(即,向較高的TF-IDF值)對有序列表進行掃描。在步驟430 可能遇到高于標準偏差閾值(例如一個或兩個標準偏差)的TF-IDF值差。
如果在步驟430遇到這種差,則方法前進到步驟434。在步驟434 較高TF-IDF用作下一 TF-IDF閾值,以移除較低值的n-gram。然后該方 法前進到步驟436。如果在步驟430沒有遇到這種差,則該方法前進到步 驟432。如果在步驟432未掃描到列表頂部,則方法返回到步驟428以繼 續(xù)掃描列表。如果在步驟432掃描到了列表頂部,則方法前進到步驟436。 在步驟436,將列表中剩余的n-gram輸出作為文檔的重要關鍵詞。通過 例如在圖形用戶界面上啟動詞條的顯示來輸出(返回)詞條。然后,該 方法結束。
Taggr法可以應用于任何加權有向圖。在這種環(huán)境下,每個詞條都是 節(jié)點,并且從詞條A到詞條B的有向(或差分)親和度等于從節(jié)點A到節(jié)點B的邊的權重。詞條B的平均親和度被定義為輸入邊到節(jié)點B的所 有權重的平均值。利用有向親和度(或差分親和度)和平均親和度的概 念,如前面一樣定義差分親和度。
圖ll示出了確定與給定的詞條集相關的詞條的Taggr法的一個示 例,該方法可以由圖1的系統(tǒng)10的搜索引擎37執(zhí)行。在特定實施方 式中,Taggr法通過檢查DA陣列來接收初始的詞條集,并且建議與初 始的詞條集相關的詞條集。在該示例中,使用了下述參數(shù)
kl:詞能夠建議的候選詞的數(shù)量的上限;
k2:平均差分親和度閾值;
k3:每次迭代的結果數(shù)量的上限;
k4:迭代次數(shù)的上限;以及
k5:返回的結果的數(shù)量的上限。
參數(shù)的示例范圍是:k—l為[5,20]' k—2為[-0.1,0J], k—3為[5,20], k—4為[1,3], k—5為[5,20]。
該方法從步驟506開始,其中接收一個或更多個詞條的集S。在 步驟510初始化要從S獲得的候選詞條的集Q。初始時,集Q可以等 于集S。在步驟514針對集Q的各個詞條收集具有最高差分親和度的 至多k—l個詞條,并且與其差分親和度一起放置到臨時集R中。艮口, 集Q的各個詞條產(chǎn)生與該集的源發(fā)詞條(originating term)具有最高 差分親和度的至多k一l個詞條。如果從集Q的多個詞條獲得同一詞條, 則詞條的差分親和度是相應差分親和度的和。
對于集R的各詞條,在步驟516計算從該詞條到集S的每個詞條 的差分親和度的平均值,即詞條的"平均差分親和度"。在步驟518從 集R中移除平均差分親和度低于平均差分親和度閾值k—2的詞條。在 步驟522向集Q添加集R的具有最高差分親和度的k一3個詞條。步驟 514到522可以反復進行k—4次。
在k—4次迭代之后,該方法前進到步驟526,其中對集Q的詞條 進行排序??梢曰谠~條例如向集Q的其他詞條的平均親和度或差分 親和度的平均值來對詞條進行排序,使得具有較高平均親和度或較高平均差分親和度的詞條位于列表頂部。在步驟530輸出集Q的最上面 k_5個詞條??梢酝ㄟ^啟動位于例如圖形用戶界面處的詞條的顯示來 輸出詞條。然后該方法終止。
圖12A到12H示出了可用于利用例如Taggr法用搜索引擎37執(zhí) 行搜索的圖形用戶界面的示例。在圖12A中,搜索引擎37接收輸入 到用戶輸入窗口的第一搜索詞條510以啟動第一搜索522。在該示例 中,用戶輸入了"lava"。在圖12B中給出了基于第一搜索522 (在當前 搜索詞條窗口中示出)的搜索結果514 (在搜索結果窗口中示出)和 搜索建議518 (在搜索建議窗口中示出)。在該示例中,給出了lava的 圖像和與lava相關的搜索建議。在這些示例中,用戶可以按任何合適 的方式(例如,點擊項目、雙擊項目、或突出顯示項目)來選擇項目 (例如,搜索詞條、搜索結果或搜索建議)。
接收由用戶作出的搜索建議選擇以啟動第二搜索522,并且在圖 12C中給出了基于第二搜索522的搜索結果514和搜索建議518。在 該示例中,由用戶選擇的搜索建議是"hawaii",并且搜索結果和搜索建 議的根據(jù)是第二搜索"lava"和"hawaii"。
接收由用戶作出的搜索建議選擇以啟動第三搜索522,并且在圖 12D中給出了基于第三搜索522的搜索結果514和搜索建議518。在 該示例中,用戶選擇的搜索建議是"flow",并且搜索結果和搜索建議 的根據(jù)是第三搜索"lava"、 "hawaii"和"flow"。
在圖12E中接收用戶作出的圖像選擇。搜索引擎37進入標簽模 式并給出建議標簽的列表以對圖像進行注釋。用戶可以通過點擊圖像 或標簽來選擇圖像或標簽。接收用戶作出的標簽選擇,并且搜索引擎 37用圖12F中所選擇的標簽對圖像進行注釋。在該示例中,所選擇的 標簽是"rock"。搜索引擎37也可以通過將所選擇的標簽添加到搜索詞 條中來用所選擇的標簽更新搜索。搜索引擎37可以將所選擇的標簽添
加到搜索建議中。
在圖12G中接收到返回到搜索模式的請求。用戶可以通過點擊圖 12F中的圖像來請求返回到搜索模式。接收從搜索522中移除詞條的請求以啟動第四搜索522。用戶可以通過在當前搜索窗口中點擊詞條 來移除詞條。在該示例中,選擇移除"hawaii"。在圖12H中給出了第 四搜索522的搜索結果514和搜索建議518。
圖13A到13E示出了可用于利用所選擇的搜索結果來精煉搜索的 圖形用戶界面的示例。在圖13A中,接收由用戶輸入的第一搜索詞條 以啟動第一搜索522。在該示例中,用戶輸入了"dslr"(代表數(shù)字單鏡 頭反光照相機)。在圖13B中提供了基于第一搜索522的搜索結果514 和搜索建議518。在該示例中,提供了數(shù)字SLR照相機的圖像和與數(shù) 字SLR照相機相關的搜索建議。
接收由用戶作出的圖像選擇以啟動第二搜索522。用戶可以選擇 圖像以啟動具有與該圖像相似的結果的搜索522??梢酝ㄟ^點擊圖像 來選擇圖像?;谒x擇的圖像,搜索引擎37自動地確定新搜索詞條, 該新搜索詞條被添加到現(xiàn)有搜索詞條中以產(chǎn)生第二搜索522。在圖13C 中給出了基于第二搜索522的搜索結果514和搜索建議518,并且在 搜索窗口中顯示了當前搜索522的搜索詞條。接收由用戶作出的圖像 選擇以啟動圖13D中的第三搜索522?;诋斍斑x擇的圖像,搜索引 擎37自動地確定新搜索詞條,該新搜索詞條被添加到現(xiàn)有搜索詞條中 以產(chǎn)生第三搜索522。在圖13E中給出了基于第三搜索522的搜索結 果514和搜索建議518,并且在搜索窗口中顯示了當前搜索522的搜 索詞條。
在特定示例中,搜索引擎37可以通過以下操作來基于用戶選擇圖 像自動地確定新搜索詞條
(1) 按照平均親和度對與圖像關聯(lián)并屬于關聯(lián)領域詞典的詞條進 行排序。選擇最上面的k個詞條(例如,最上面的三個詞條)。
(2) 按照平均親和度對與圖像關聯(lián)并出現(xiàn)在當前搜索建議中的詞 條進行排序。選擇最上面的k個詞條(例如,最上面的三個詞條)。
在不脫離本發(fā)明的范圍的情況下,可以對這些方法進行修改、添加 或省略。這些方法可以包括更多、更少或其他步驟。另外,可以以任何 適當順序來執(zhí)行這些步驟。本發(fā)明的特定實施方式可提供一個或更多個技術優(yōu)點。 一個實施方 式的技術優(yōu)點可以在于通過點擊搜索結果、搜索建議或搜索詞條,以選 擇搜索結果或搜索建議或者取消選定搜索詞條,來容易地精煉搜索。一 個實施方式的技術優(yōu)點可以在于可以利用相關性方法來生成搜索建議。
雖然以特定實施方式描述了本發(fā)明,實施方式的替代和變更對于本 領域技術人員將是明顯的。因此,實施方式的以上描述并不限制本發(fā)明。 在不脫離所附權利要求限定的本發(fā)明的精神和范圍的前提下,可以有其 它的改變、置換和替代。
權利要求
1、一種裝置,該裝置包括被配置為接收查詢的初始詞條集的界面;以及被配置為執(zhí)行這樣的方法的處理器,該方法包括下述步驟對候選詞條集進行初始化;對下述操作執(zhí)行預定次數(shù)的迭代針對所述候選詞條集的各候選詞條獲取預定數(shù)量的臨時詞條,該預定數(shù)量的臨時詞條與所述各候選詞條具有較高的差分親和度;將各臨時詞條和相關聯(lián)的較高差分親和度放置到臨時詞條集中,如果從多于一個候選詞條中獲得了臨時詞條,則該臨時詞條的差分親和度與對于所述多于一個候選詞條的差分親和度相關;計算所述臨時詞條集的各臨時詞條的平均差分親和度,該平均差分親和度代表從所述各臨時詞條到所述初始詞條集的每個詞條的差分親和度的平均值;從所述臨時集中移除具有不滿足預定閾值的平均差分親和度的一個或更多個詞條;以及將臨時集中的具有較高差分親和度的一個或更多個詞條放到所述候選詞條集中;從所述候選詞條集中選擇一個或更多個詞條;以及返回一個或更多個所選擇的詞條。
2、 根據(jù)權利要求1所述的裝置,所述處理器被配置為通過下述操 作來從所述候選詞條集中選擇所述一個或更多個詞條確定所述候選詞條集的各詞條的平均親和度;以及 選擇具有較高平均親和度的一個或更多個詞條。
3、 根據(jù)權利要求1所述的裝置,所述處理器被配置為通過下述操 作來從所述候選詞條集中選擇所述一個或更多個詞條確定所述一個或更多個詞條中的各個詞條的第二平均差分親和 度,該第二平均差分親和度代表從所述各個詞條到所述候選詞條集的每個詞條的差分親和度的平均值;以及選擇具有較高的第二平均差分親和度的一個或更多個詞條。
4、 根據(jù)權利要求1所述的裝置,所述處理器被配置為通過下述操 作對所述候選詞條集進行初始化-對所述候選詞條集進行初始化以包括所述初始詞條集。
5、 根據(jù)權利要求1所述的裝置,所述處理器被配置為進行下述操作接收包括多個節(jié)點和多個具有權重的有向邊的加權有向圖,其中 節(jié)點與詞條相對應,有向邊的權重與從第一詞條到第二詞條的有向親和度相對應,輸入邊對節(jié)點的權重的平均值與該節(jié)點的平均親和度相 對應;以及對所述加權有向圖上執(zhí)行所述方法。
6、 根據(jù)權利要求1所述的裝置,該裝置包括被配置為執(zhí)行所述方 法的搜索引擎。
7、 一種方法,該方法包括下述步驟 接收查詢的初始詞條集; 對候選詞條集進行初始化; 對下述操作執(zhí)行預定次數(shù)的迭代-對于所述候選詞條集的各個候選詞條獲取預定數(shù)量的臨時詞條, 該預定數(shù)量的臨時詞條與各個候選詞條具有較高的差分親和度;將各臨時詞條和相關聯(lián)的較高差分親和度放置到臨時詞條集中, 如果從多于一個候選詞條中獲得了臨時詞條,則該臨時詞條的差分親 和度與對于所述多于一個候選詞條的差分親和度相關;計算針對所述臨時詞條集的各臨時詞條的平均差分親和度,該平 均差分親和度代表從所述各臨時詞條到所述初始詞條集的每個詞條的 差分親和度的平均值;從所述臨時集中移除具有不能滿足預定閾值的平均差分親和度的 一個或更多個詞條;以及將所述臨時集中具有較高差分親和度的一個或更多個詞條放置到 所述候選詞條集中;從所述候選詞條集中選擇一個或更多個詞條;以及 返回一個或更多個所選擇的詞條。
8、 根據(jù)權利要求7所述的方法,其中從所述候選詞條集中選擇所 述一個或更多個詞條的步驟進一步包括下述步驟確定所述候選詞條集中的各詞條的平均親和度;以及 選擇具有較高平均親和度的一個或更多個詞條。
9、 根據(jù)權利要求7所述的方法,其中從所述候選詞條集中選擇所 述一個或更多個詞條的步驟進一步包括下述步驟-確定所述一個或更多個詞條中的各詞條的第二平均差分親和度, 該第二平均差分親和度代表從所述各詞條到所述候選詞條集中的每個詞條的差分親和度的平均值;以及選擇具有較高的第二平均差分親和度的一個或更多個詞條。
10、 根據(jù)權利要求7所述的方法,其中對所述候選詞條集進行初 始化的步驟進一步包括下述步驟對所述候選詞條集進行初始化以包括初始詞條集。
11、 根據(jù)權利要求7所述的方法,該方法進一步包括下述步驟 接收包括多個節(jié)點和多個具有權重的有向邊的加權有向圖,其中節(jié)點與詞條相對應,有向邊的權重與從第一詞條到第二詞條的有向親 和度相對應,輸入邊對于節(jié)點的權重的平均值與該節(jié)點的平均親和度 相對應;以及對所述加權有向圖上執(zhí)行所述方法。
12、 根據(jù)權利要求7所述的方法,該方法由搜索引擎來執(zhí)行。
13、 一種裝置,該裝置包括被配置為存儲詞條集的有形計算機可讀介質(zhì);以及被配置為進行下述操作的處理器針對文檔的所述詞條集中的各詞條確定詞條頻度-逆文檔頻度(TF-IDF)值;根據(jù)所述TF-IDF值對所述詞條進行排序以產(chǎn)生有序列表,其中 具有最高TF-IDF值的第一詞條位于有序列表的頂部,具有最低TF-IDF值的第二詞條位于有序列表的底部;針對所述有序列表中的各連續(xù)詞條計算連續(xù)詞條的TF-IDF值的 差以產(chǎn)生多個差;計算該差的標準偏差;根據(jù)該標準偏差從所述有序列表中移除一個或更多個詞條;以及 輸出剩余的詞條。
14、 根據(jù)權利要求13所述的裝置,其中所述處理器被配置為進行 下述操作從所述有序列表中移除低于百分比閾值的詞條。
15、 根據(jù)權利要求13所述的裝置,其中所述處理器被配置為通過 反復進行下述操作一次或更多次而確定下一 TF-IDF閾值,來根據(jù)所 述標準偏差從所述有序列表中移除所述一個或更多個詞條從底部向頂部對所述有序列表進行掃描,直至遇到大于標準偏差 閾值的TF-IDF值差,該差處于高TF-IDF值和低TF-IDF值之間; 將所述高TF-IDF值指定為下一 TF-IDF閾值;以及 從所述有序列表中移除具有不滿足所述下一 TF-IDF閾值的 TF-IDF值的一個或更多個詞條。
16、 根據(jù)權利要求13所述的裝置,其中所述處理器被配置為進行 下述操作從所述有序列表中移除具有不滿足TF-IDF閾值的TF-IDF值的一 個或更多個詞條,同時在所述有序列表中保持所需最小數(shù)量的詞條。
17、 根據(jù)權利要求13所述的裝置,其中所述處理器被配置為進行下述操作從所述詞條集中移除一個或更多個非頻繁出現(xiàn)的詞條。
18、 根據(jù)權利要求n所述的裝置,其中所述一個或更多個非頻繁出現(xiàn)的詞條包括在文檔中出現(xiàn)少于預定次數(shù)的一個或更多個詞條。
19、 根據(jù)權利要求17所述的裝置,其中利用詞條在語料庫中的頻 度分布來識別所述一個或更多個非頻繁出現(xiàn)的詞條。
20、 根據(jù)權利要求13所述的裝置,其中所述處理器被配置為通過下述操作來確定所述詞條集中的各詞條的詞條頻度-逆文檔頻度(TF-IDF)值根據(jù)包括多個文檔的語料庫來計算TF-IDF值。
21、 一種方法,該方法包括下述步驟針對文檔的詞條集中的各詞條確定詞條頻度-逆文檔頻度 (TF-IDF )值;根據(jù)所述TF-IDF值對所述詞條進行排序以產(chǎn)生有序列表,其中 具有最高TF-IDF值的第一詞條位于有序列表的頂部,具有最低TF-IDF 值的第二詞條位于有序列表的底部;針對所述有序列表中的各連續(xù)詞條計算連續(xù)詞條的TF-IDF值的 差以產(chǎn)生多個差;計算該差的標準偏差;根據(jù)該標準偏差從所述有序列表中移除一個或更多個詞條;以及 輸出剩余的詞條。
22、 根據(jù)權利要求21所述的方法,該方法進一步包括下述步驟從所述有序列表中移除低于百分比閾值的詞條。
23、 根據(jù)權利要求21所述的方法,其中根據(jù)所述標準偏差從所述有序列表中移除所述一個或更多個詞條的步驟進一步包括通過反復進行下述操作一次或更多次而確定下一 TF-IDF閾值從底部向頂部對有序列表進行掃描,直至遇到大于標準偏差閾值的TF-IDF值差,該差處于高TF-IDF值和低TF-IDF值之間; 將所述高TF-IDF值指定為下一 TF-IDF閾值;以及 從所述有序列表中移除具有不滿足所述下一 TF-IDF閾值的TF-IDF值的一個或更多個詞條。
24、 根據(jù)權利要求21所述的方法,該方法進一步包括下述步驟 從所述有序列表中移除具有不滿足TF-IDF閾值的TF-IDF值的一個或更多個詞條,同時在所述有序列表中保持所需最小數(shù)量的詞條。
25、 根據(jù)權利要求21所述的方法,該方法進一步包括下述步驟 從所述詞條集中移除一個或更多個非頻繁出現(xiàn)的詞條。
26、 根據(jù)權利要求25所述的方法,其中所述一個或更多個非頻繁 出現(xiàn)的詞條包括在文檔中出現(xiàn)少于預定次數(shù)的一個或更多個詞條。
27、 根據(jù)權利要求25所述的方法,其中利用詞條在語料庫中的頻 度分布來識別所述一個或更多個非頻繁出現(xiàn)的詞條。
28、 根據(jù)權利要求21所述的方法,該方法進一步包括通過下述操 作來確定所述詞條集中的各詞條的詞條頻度-逆文檔頻度(TF-IDF)值根據(jù)包括多個文檔的語料庫來計算所述TF-IDF值。
29、 一種裝置,該裝置包括被配置為存儲文檔語料庫的有形計算機可讀介質(zhì);以及被配置為進行下述操作的處理器啟動圖形用戶界面的用戶輸入窗口的顯示;接收被輸入到用戶輸入窗口以啟動第一搜索的多個搜索詞條;根據(jù)所述搜索詞條而由所述語料庫確定一個或更多個第一搜索結果;在所述圖形用戶界面的當前搜索詞條窗口處啟動所述搜索詞條的 顯示;在所述圖形用戶界面的搜索結果窗口處啟動所述一個或更多個第 一搜索結果的顯示;以及在所述圖形用戶界面的搜索建議窗口處啟動所述一個或更多個第 一搜索建議的顯示。
30、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作接收搜索詞條的選擇以移除所述搜索詞條,通過點擊所述搜索詞 條來作出所述選擇;以及從所述多個搜索詞條中移除所選擇的搜索詞條以進行第二搜索。
31、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作接收搜索建議的選擇以添加所述搜索建議,通過點擊所述搜索建 議來作出所述選擇;以及將所選擇的搜索建議添加到多個搜索詞條中以進行第三搜索。
32、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作接收搜索結果的選擇,通過點擊所述搜索結果來作出所述選擇; 返回與所選擇的搜索結果相似的一個或更多個搜索結果; 識別與所選擇的搜索結果相關的一個或更多個附加搜索詞條 將所述一個或更多個附加搜索詞條添加到所述第一搜索的搜索詞條中以啟動下一搜索;以及返回下一搜索的一個或更多個搜索結果,該搜索結果與所選擇的搜索結果相似。
33、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作接收搜索結果的選擇;識別與所選擇的搜索結果相關并屬于相關聯(lián)領域的詞典的多個詞條;按平均親和度對詞條進行排序; 選擇具有較高平均親和度的預定數(shù)量的詞條;以及 將所選擇的詞條添加到所述第一搜索的搜索詞條中以啟動下一搜索。
34、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作-接收搜索結果的選擇;識別與所選擇的搜索結果相關并且是當前搜索建議的多個詞條; 按平均親和度對所述詞條進行排序; 選擇具有較高平均親和度的預定數(shù)量的詞條;以及 將所選擇的詞條添加到所述第一搜索的搜索詞條中以啟動下一搜索。
35、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作接收搜索結果的選擇以啟動標簽模式,通過點擊所述搜索結果來作出所述選擇;以及 進入標簽模式。
36、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作針對搜索結果生成多個建議標簽; 在所述搜索建議窗口處啟動所述建議標簽的顯示; 接收建議標簽的選擇,通過點擊所述建議標簽來作出所述選擇;以及用所選擇的標簽對搜索結果加標簽。
37、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進 行下述操作接收建議標簽的選擇,通過點擊所述建議標簽來作出所述選擇;以及將所述建議標簽添加到所述搜索詞條中以啟動下一搜索。
38、 根據(jù)權利要求29所述的裝置,所述處理器進一步被配置為進行下述操作接收搜索結果的選擇,通過點擊所述搜索結果來作出所述選擇; 將所選擇的搜索結果添加到所述搜索詞條中以啟動下一搜索;以及返回下一搜索的一個或更多個搜索結果。
39、 根據(jù)權利要求29所述的裝置,其中所述搜索結果包括圖像或 視頻。
40、 一種方法,該方法包括下述步驟啟動圖形用戶界面的用戶輸入窗口的顯示;接收被輸入到所述用戶輸入窗口的多個搜索詞條以啟動第一搜索;根據(jù)所述搜索詞條來由文檔語料庫確定一個或更多個第一搜索結果;在所述圖形用戶界面的當前搜索詞條窗口處啟動所述搜索詞條的顯示;在圖形用戶界面的搜索結果窗口處啟動所述一個或更多個第一搜 索結果的顯示;以及在圖形用戶界面的搜索建議窗口處啟動所述一個或更多個第一搜 索建議的顯示。
41、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟-接收搜索詞條的選擇以移除所述搜索詞條,通過點擊所述搜索詞條來作出所述選擇;以及從所述多個搜索詞條中移除所選擇的搜索詞條以進行第二搜索。
42、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟-接收搜索建議的選擇以添加所述搜索建議,通過點擊所述搜索建議來作出所述選擇;以及將所選擇的搜索建議添加到所述多個搜索詞條中以進行第三搜索。
43、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟 接收搜索結果的選擇,通過點擊所述搜索結果來作出所述選擇; 返回與所選擇的搜索結果相似的一個或更多個搜索結果; 識別與所選擇的搜索結果相關的一個或更多個附加搜索詞條; 將所述一個或更多個附加搜索詞條添加到所述第一搜索的搜索詞條中以啟動下一搜索;以及返回下一搜索的一個或更多個搜索結果,該搜索結果與所選擇的 搜索結果相似。
44、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟 接收搜索結果的選擇;識別與所選擇的搜索結果相關并屬于相關聯(lián)領域的詞典的多個詞條;按平均親和度對詞條進行排序; 選擇具有較高平均親和度的預定數(shù)量的詞條;以及將所選擇的詞條添加到所述第一搜索的搜索詞條中以啟動下一搜索。
45、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟 接收搜索結果的選擇;識別與所選擇的搜索結果相關并且是當前搜索建議的多個詞條; 按平均親和度對所述詞條進行排序; 選擇具有較高平均親和度的預定數(shù)量的詞條;以及 將所選擇的詞條添加到所述第一搜索的搜索詞條中以啟動下一搜索。
46、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟 接收搜索結果的選擇以啟動標簽模式,通過點擊所述搜索結果來作出所述選擇;以及 進入標簽模式。
47、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟 針對搜索結果生成多個建議標簽; 在所述搜索建議窗口處啟動所述建議標簽的顯示; 接收建議標簽的選擇,通過點擊所述建議標簽來作出所述選擇;以及用所選擇的標簽對搜索結果加標簽。
48、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟 接收建議標簽的選擇,通過點擊所述建議標簽來作出所述選擇;以及將所述建議標簽添加到所述搜索詞條中以啟動下一搜索。
49、 根據(jù)權利要求40所述的方法,該方法進一步包括下述步驟 接收搜索結果的選擇,通過點擊所述搜索結果來作出所述選擇; 將所選擇的搜索結果添加到所述搜索詞條中以啟動下一搜索;以及返回下一搜索的一個或更多個搜索結果。
50、 根據(jù)權利要求40所述的方法,其中搜索結果包括圖像或視頻。
全文摘要
確定與給定的詞集相關的詞。在一個實施方式中,啟動圖形用戶界面的用戶輸入窗口的顯示。接收被輸入到用戶輸入窗口以啟動第一搜索的搜索詞條。根據(jù)搜索詞條來確定來自文檔語料庫的一個或更多個第一搜索結果。在圖形用戶界面的當前搜索詞條窗口處啟動搜索詞條的顯示。在圖形用戶界面的搜索結果窗口處啟動第一搜索結果的顯示。在圖形用戶界面的搜索建議窗口處啟動第一搜索建議的顯示。
文檔編號G06F17/30GK101566997SQ20091000716
公開日2009年10月28日 申請日期2009年2月13日 優(yōu)先權日2008年2月13日
發(fā)明者B·托馬斯·阿德勒, 大衛(wèi)·馬爾維特, 斯特吉奧斯·斯特吉奧, 艾伯特·萊因哈德, 雅尼斯·拉布羅 申請人:富士通株式會社