两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于相關(guān)詞的聚類描述文檔的方法和裝置的制作方法

文檔序號(hào):6422410閱讀:283來(lái)源:國(guó)知局
專利名稱:基于相關(guān)詞的聚類描述文檔的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及對(duì)文本文檔執(zhí)行查詢的技術(shù)。更具體地說(shuō),本發(fā)明涉及一種基于概念上相關(guān)的詞的聚類(clusters)來(lái)描述文本文檔的方法和裝置。
背景技術(shù)
以捕捉文本的基本含義即語(yǔ)義的方式來(lái)處理文本是經(jīng)常執(zhí)行的任務(wù),但對(duì)其理解不足。這個(gè)功能最通常是在搜索引擎中執(zhí)行——搜索引擎試圖將某個(gè)資料檔案庫(kù)中的文檔與用戶的查詢相匹配,有時(shí)它也被其他類似圖書(shū)館的信息源使用,例如用于查找具有相似內(nèi)容的文檔。通常,理解文本的語(yǔ)義是這種系統(tǒng)的一個(gè)非常有用的子組件。遺憾的是,過(guò)去編寫(xiě)的大多數(shù)系統(tǒng)只具有初步的理解,僅僅關(guān)注在文本中使用的詞,而不是詞背后的含義。
作為一個(gè)例子,讓我們考慮一個(gè)有興趣查找在加利福尼亞的帕洛阿爾托市(palo-alto)的烹飪課程(cooking class)的用戶的行為。這個(gè)用戶可能把這組詞“cooking classes palo alto”鍵入一個(gè)通用的搜索引擎。然后該搜索引擎典型地在網(wǎng)頁(yè)上查找這些詞,并把那個(gè)信息和其他關(guān)于這種網(wǎng)頁(yè)的信息合并,而將候選結(jié)果返回給該用戶。目前,如果文檔有“cooking class palo alto”這些詞,那么有好幾個(gè)先進(jìn)的搜索引擎都不會(huì)找到它,因?yàn)樗鼈儾焕斫庠~“class”和“classes”是相關(guān)的,因?yàn)橐粋€(gè)是另一個(gè)的子部分即詞干。
已經(jīng)嘗試了具有詞干組件的原型系統(tǒng),但沒(méi)有任何實(shí)際的成功。這是因?yàn)榇_定一個(gè)詞干能否用在特定的上下文中是個(gè)困難的問(wèn)題。這可能是由文本中其他鄰近的詞、而不是由要作為詞干的詞自身來(lái)確定的。例如,如果某人在查找詹姆士·邦德的電影“for your eyes only”,返回帶有詞“for your eye only”的頁(yè)面的結(jié)果可能看起來(lái)并不好。
通常,現(xiàn)有的搜索系統(tǒng)和其他這類語(yǔ)義處理系統(tǒng)不能捕獲文本背后的許多含義。
因此,所需要的是一種處理文本的方法和裝置,其處理方式有效地捕獲該文本內(nèi)的基本語(yǔ)義含義。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)實(shí)施例提供了一種根據(jù)概念上相關(guān)的詞的聚類來(lái)描述文檔的系統(tǒng)。在收到一個(gè)包含一組詞的文檔后,所述系統(tǒng)便選擇與這組詞相關(guān)的概念相關(guān)詞的“候選聚類”。這些候選聚類是使用一個(gè)模型選擇的,該模型解釋如何從概念相關(guān)詞的聚來(lái)生成各組詞。然后,所述系統(tǒng)構(gòu)造一組分量(比如向量)來(lái)描述這個(gè)文檔,其中該組分量包括候選聚類的分量。在上述這組分量中的每個(gè)分量指出一個(gè)相應(yīng)候選聚類與這組詞相關(guān)的程度。
在這個(gè)實(shí)施例的一個(gè)變例中,所述模型是一個(gè)概率模型,該模型包含表示詞及概念相關(guān)詞的聚類的隨機(jī)變量的節(jié)點(diǎn)。
在另一變例中,在上述這組分量中的每個(gè)分量指出相應(yīng)的候選聚類在生成這組詞時(shí)的活動(dòng)程度。
在進(jìn)一步的變例中,所述概率模型中的各節(jié)點(diǎn)是通過(guò)加權(quán)鏈接而被耦合在一起的。如果所述概率模型中的一個(gè)聚類節(jié)點(diǎn)激發(fā)(fire),那么從該聚類節(jié)點(diǎn)到另一節(jié)點(diǎn)的加權(quán)鏈接即能導(dǎo)致其他節(jié)點(diǎn)激發(fā)。
在進(jìn)一步的變例中,如果一個(gè)節(jié)點(diǎn)有多個(gè)活動(dòng)的父輩節(jié)點(diǎn),那么該節(jié)點(diǎn)不激發(fā)的概率是來(lái)自不激發(fā)的活動(dòng)父輩節(jié)點(diǎn)的各鏈接的概率之積。
在進(jìn)一步的變例中,所述概率模型包括一個(gè)通用節(jié)點(diǎn),該通用節(jié)點(diǎn)總是活動(dòng)的并且具有對(duì)所有聚類節(jié)點(diǎn)的加權(quán)鏈接。
在這個(gè)實(shí)施例的一個(gè)變例中,所述系統(tǒng)通過(guò)構(gòu)造證據(jù)樹(shù)來(lái)選擇候選聚類。這包括從和上述這組詞關(guān)聯(lián)的終端節(jié)點(diǎn)開(kāi)始,而隨后反向鏈接到達(dá)父聚類節(jié)點(diǎn)。所述系統(tǒng)使用這個(gè)證據(jù)樹(shù)來(lái)估計(jì)在生成這組詞時(shí),各個(gè)父聚類節(jié)點(diǎn)是活動(dòng)的可能性。所述系統(tǒng)隨后基于其估計(jì)的可能性,選擇一個(gè)父聚類節(jié)點(diǎn)作為候選聚類節(jié)點(diǎn)。
在這個(gè)實(shí)施例的一個(gè)變例中,在生成所述這組詞時(shí),估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性可以包括研究該特定父輩節(jié)點(diǎn)是活動(dòng)的無(wú)條件概率;假設(shè)該特定父輩節(jié)點(diǎn)的父輩節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率;及假設(shè)該特定父輩節(jié)點(diǎn)的子節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率。
在另一變例中,研究上述條件概率包括研究在各個(gè)節(jié)點(diǎn)之間的鏈接上的權(quán)重。
在另一變例中,在生成上述這組詞時(shí),估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性包括在估計(jì)過(guò)程中標(biāo)識(shí)終端節(jié)點(diǎn),以確保終端節(jié)點(diǎn)不會(huì)被分解成估計(jì)值超過(guò)一次。
在另一變例中,構(gòu)造所述證據(jù)樹(shù)包括從該證據(jù)樹(shù)剪除不可能的節(jié)點(diǎn)。
在這個(gè)實(shí)施例的一個(gè)變例中,在構(gòu)造所述這組分量期間,在生成所述這組詞時(shí),候選聚類的活動(dòng)程度是通過(guò)計(jì)算候選聚類在生成這組詞時(shí)是活動(dòng)的概率確定的。
在這個(gè)實(shí)施例的一個(gè)變例中,在構(gòu)造上述這組分量期間,在生成所述這組詞時(shí),候選聚類的活動(dòng)程度是通過(guò)把候選聚類在生成所述這組詞時(shí)是活動(dòng)的概率與該候選聚類的活動(dòng)值相乘來(lái)確定的,其中所述活動(dòng)值指示有多少?gòu)乃龊蜻x聚類到其他節(jié)點(diǎn)的鏈接可能激發(fā)。
在這個(gè)實(shí)施例的一個(gè)變例中,構(gòu)造上述這組分量包括使這組分量歸一化。
在這個(gè)實(shí)施例的一個(gè)變例中,構(gòu)造上述這組分量包括逼近一特定候選聚類在所述概率模型的各個(gè)狀態(tài)是活動(dòng)的概率,這些狀態(tài)可能已經(jīng)生成上述這組詞。
在另一變例中,逼近所述概率包括選擇所述概率模型的狀態(tài),該狀態(tài)可能已經(jīng)在所述文檔中生成所述這組詞,且隨后在計(jì)算所述特定候選聚類是活動(dòng)的概率時(shí),只考慮選定的狀態(tài)。
在另一變例中,選擇可能已經(jīng)生成上述這組詞的狀態(tài)包括隨機(jī)選擇所述概率模型的起始狀態(tài),然后執(zhí)行從該起始狀態(tài)開(kāi)始的爬山(hill-climbing)運(yùn)算,以達(dá)到一個(gè)可能已經(jīng)生成這組詞的狀態(tài)。
在另一變例中,執(zhí)行所述爬山運(yùn)算包括周期性地改變單個(gè)候選聚類的狀態(tài),而不考慮爬山運(yùn)算的目標(biāo)函數(shù),以探查所述概率模型的狀態(tài),而這些狀態(tài)通過(guò)爬山運(yùn)算是不能到達(dá)的。
在這個(gè)實(shí)施例的一個(gè)變例中,所述文檔包括網(wǎng)頁(yè)或來(lái)自查詢的一組術(shù)語(yǔ)。


圖1示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)概率模型。
圖2示例了依據(jù)本發(fā)明實(shí)施例的概率模型的一個(gè)狀態(tài)。
圖3示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)表示美國(guó)各州的模型。
圖4示例了依據(jù)本發(fā)明實(shí)施例的全局節(jié)點(diǎn)和多個(gè)局部網(wǎng)絡(luò)。
圖5示例了局部網(wǎng)絡(luò)節(jié)點(diǎn)和全局模型節(jié)點(diǎn)之間的交互作用。
圖6示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)重構(gòu)模型。
圖7A示例了依據(jù)本發(fā)明實(shí)施例的具有兩個(gè)布爾節(jié)點(diǎn)的一簡(jiǎn)單網(wǎng)絡(luò)。
圖7B示例了依據(jù)本發(fā)明實(shí)施例、在具有兩個(gè)布爾節(jié)點(diǎn)的簡(jiǎn)單網(wǎng)絡(luò)中,推理是如何工作的。
圖8示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)噪聲“或”(noisy-or)網(wǎng)絡(luò),其中環(huán)狀信任傳播失敗。
圖9示例了依據(jù)本發(fā)明實(shí)施例、在一簡(jiǎn)單會(huì)話內(nèi)部的環(huán)狀信任傳播計(jì)算。
圖10示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)簡(jiǎn)化局部網(wǎng)絡(luò)。
圖11示例了依據(jù)本發(fā)明實(shí)施例的競(jìng)爭(zhēng)以觸發(fā)一終端節(jié)點(diǎn)的兩個(gè)聚類。
圖12示例了依據(jù)本發(fā)明實(shí)施例、一個(gè)局部概率網(wǎng)絡(luò)如何在運(yùn)行時(shí)動(dòng)態(tài)處理詞典中的復(fù)合詞。
圖13示例了依據(jù)本發(fā)明實(shí)施例、一單個(gè)聚類C是如何通過(guò)“終端稀疏(terminal sparseness)”而將虛擬消息發(fā)布給全局節(jié)點(diǎn)。
圖14示例了依據(jù)本發(fā)明實(shí)施例、稀疏的鏈接消息在計(jì)算一新全局節(jié)點(diǎn)的最佳設(shè)置時(shí)是如何得到使用的。
圖15.1示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)信任網(wǎng)絡(luò)(belief network)。
圖15.2A示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)示例網(wǎng)絡(luò)。
圖15.2B示例了依據(jù)本發(fā)明實(shí)施例的一個(gè)替代性示例網(wǎng)絡(luò)。
圖16示例了依據(jù)本發(fā)明實(shí)施例的系統(tǒng)輸出。
圖17示例了依據(jù)本發(fā)明實(shí)施例的更多系統(tǒng)輸出。
圖18示例了依據(jù)本發(fā)明實(shí)施例的更多系統(tǒng)輸出。
圖19示例了依據(jù)本發(fā)明實(shí)施例的更多系統(tǒng)輸出。
圖20示例了依據(jù)本發(fā)明實(shí)施例的搜索結(jié)果。
圖21示例了依據(jù)本發(fā)明實(shí)施例的在描述文檔時(shí)所涉及的數(shù)據(jù)結(jié)構(gòu)。
圖22給出了依據(jù)本發(fā)明實(shí)施例的描述過(guò)程的流程圖。
圖23給出了依據(jù)本發(fā)明的實(shí)施例來(lái)選擇候選聚類的過(guò)程的流程圖。
圖24給出了依據(jù)本發(fā)明的實(shí)施例來(lái)逼近候選聚類的概率的過(guò)程的流程圖。
圖25示例了如何依據(jù)本發(fā)明實(shí)施例來(lái)選擇概率模型的狀態(tài)。
具體實(shí)施例方式
以下給出的描述為的是使本領(lǐng)域的技術(shù)人員能夠制作和使用本發(fā)明,并且以下描述是在特定應(yīng)用及其要求的背景下提供的。對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō),對(duì)所公開(kāi)的各實(shí)施例進(jìn)行各種修改是顯而易見(jiàn)的,而且本說(shuō)明書(shū)中所規(guī)定的通用原則在不偏離本發(fā)明的精神和范圍的情況下,尚可應(yīng)用于其他實(shí)施例和用途。因此,本發(fā)明不應(yīng)限于所示實(shí)施例,而是應(yīng)與在本說(shuō)明書(shū)中公開(kāi)的原理和特征一致的最廣泛的范圍一致。
在本詳細(xì)描述中所描述的數(shù)據(jù)結(jié)構(gòu)和代碼典型地是存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的,該介質(zhì)可以是能夠存儲(chǔ)由計(jì)算機(jī)系統(tǒng)使用的代碼和/或數(shù)據(jù)的任何設(shè)備或介質(zhì)。這包括但不限于磁存儲(chǔ)和光存儲(chǔ)設(shè)備,如磁盤、磁帶、CD(光盤)和DVD(數(shù)字通用光盤或數(shù)字視頻光盤);以及包含在傳輸介質(zhì)(有或沒(méi)有解調(diào)信號(hào)的載波)中的計(jì)算機(jī)指令信號(hào)。例如,上述傳輸介質(zhì)可包括通信網(wǎng)絡(luò),比如因特網(wǎng)。
系統(tǒng)本發(fā)明的一個(gè)實(shí)施例提供一種系統(tǒng),該系統(tǒng)通過(guò)學(xué)習(xí)文本的說(shuō)明模型來(lái)學(xué)習(xí)概念。在所述系統(tǒng)看來(lái),小的文本塊是通過(guò)執(zhí)行概率網(wǎng)絡(luò),而以非常簡(jiǎn)單但異常有效的方式生成的。所述系統(tǒng)通過(guò)分析許多小文本塊的例子來(lái)學(xué)習(xí)這個(gè)網(wǎng)絡(luò)的各參數(shù)。
所述系統(tǒng)的一個(gè)實(shí)施例認(rèn)為,文本塊中的重要信息便是文本中所使用的詞(和復(fù)合詞)。例如在查詢“cooking classes palo alto”時(shí),上述的詞是“cooking”和“classes”,而復(fù)合詞由簡(jiǎn)單的復(fù)合詞“palo alto”組成。將復(fù)合詞與詞區(qū)分開(kāi),是在組合性基礎(chǔ)上進(jìn)行的。例如,“cookingclasses”不是一個(gè)復(fù)合詞,因?yàn)樗扰c烹飪(cooking)、又與課程(classes)有關(guān)。但“palo alto”就不是分別與“palo”和“alto”有關(guān)的。有時(shí)這難以區(qū)分,但和完全不猜測(cè)相比,好的猜測(cè)能使這種系統(tǒng)變得更好。
這樣說(shuō)的含義便是,所述系統(tǒng)由于不考慮文本中的詞的順序而簡(jiǎn)化了文本的分析。例如,本發(fā)明的一個(gè)實(shí)施例不區(qū)分上述的“cookingclasses palo alto”和“palo-alto classes cooking”(在本說(shuō)明書(shū)中我們使用短劃線來(lái)連接復(fù)合詞的組成部分)。我們將把詞和復(fù)合詞都稱為“終端(terminal)”。(后面我們將看到這是因?yàn)樵谖覀兊哪P褪澜缰?,它們和生成詞的概念相反,它們不生成詞。)這種簡(jiǎn)化意味著所述系統(tǒng)把文本的片斷當(dāng)成一組終端。
作為一組終端的文本生成的概率模型讓我們看看將文本作為一個(gè)詞的集合來(lái)生成的系統(tǒng)。圖1顯示了一個(gè)這樣的模型。圖中的圓圈被稱為模型節(jié)點(diǎn)。這些節(jié)點(diǎn)表示隨機(jī)的變量,每個(gè)變量模擬有或沒(méi)有概念或終端。在這個(gè)模型中我們正在考慮的僅有的終端是“大象”、“灰色”和“天空”。有兩個(gè)概念,被稱為C1和C2(因?yàn)樗鼈儽挥糜谏上嚓P(guān)的詞,所以概念有時(shí)被稱為聚類)。
這個(gè)模型舉例來(lái)說(shuō)可用于解釋為什么詞“灰色”和“天空”經(jīng)常一起出現(xiàn),為什么詞“灰色”和“大象”經(jīng)常一起出現(xiàn),但為什么詞“大象”和“天空”極少一起出現(xiàn)。這是因?yàn)槿藗冇眠@些詞來(lái)生成文本時(shí),他們的頭腦中有想法。提出所述系統(tǒng)的概念,為的是建模人腦中在生成文本之前的想法。
注意在這個(gè)圖的頂部有一個(gè)沒(méi)有名字的較暗節(jié)點(diǎn)。這是一個(gè)通用的節(jié)點(diǎn)U,它總是活動(dòng)的。當(dāng)建模文本時(shí),它總是活動(dòng)的,且所有的概念都來(lái)自于它。退出任何概念的箭頭被稱為“鏈接”。這些鏈接暗示,當(dāng)用戶想到一個(gè)概念時(shí),他們可能想到另一個(gè)概念或在后面寫(xiě)下另一個(gè)終端。例如,概念C1鏈接到詞“灰色”和“大象”。這意味著用戶想到C1之后,他們經(jīng)常寫(xiě)出詞“大象”和/或“灰色”。尤其是,鏈接上的數(shù)字是重要的。它們表示某些事件的概率。C1和“大象”之間的鏈接意味著在想到C1之后,用戶想到詞“大象”的概率是0.5。這些數(shù)字通常被稱為鏈接上的“權(quán)重”。
這個(gè)模型可以被使用或“執(zhí)行”從而生成文本。當(dāng)我們這樣做時(shí),我們從通用節(jié)點(diǎn)(通常稱為U)開(kāi)始,并認(rèn)為它存在于生成者的頭腦中。我們將經(jīng)常說(shuō)節(jié)點(diǎn)是“活動(dòng)的”或節(jié)點(diǎn)已經(jīng)“激發(fā)”來(lái)表示這一點(diǎn)。對(duì)于概念來(lái)說(shuō),激發(fā)意味著這個(gè)概念的想法是活動(dòng)的,并能夠激發(fā)終端。對(duì)于終端來(lái)說(shuō),激發(fā)的意思是指終端存在于所要生成的文本中。
讓我們?yōu)g覽如何方能生成一個(gè)這種文本塊的一個(gè)例子。在圖1的例子中,我們將以假設(shè)通用節(jié)點(diǎn)是活動(dòng)的來(lái)開(kāi)始。然后C1將以0.1的概率激發(fā)。在這一點(diǎn)上,某個(gè)隨機(jī)過(guò)程將會(huì)決定C1是否激發(fā)。對(duì)于這個(gè)隨機(jī)過(guò)程,你可以擲骰子或使用任何隨機(jī)信息。通常,如果這發(fā)生在一個(gè)計(jì)算裝置上,那么就會(huì)使用隨機(jī)數(shù)生成器。只要我們能有某種方式產(chǎn)生決定,即10次中的9次為否(0.9)而10次中的1次為(0.1),那么許多方法都是適當(dāng)?shù)摹H绻Y(jié)果為是,概念C1便被激活。如果結(jié)果為否,概念C1即不被激活。類似的過(guò)程應(yīng)用于C2。
現(xiàn)在我們將要為我們的例子假設(shè)隨機(jī)數(shù)生成器為通用節(jié)點(diǎn)→C1的鏈接產(chǎn)生是(YES),而為通用節(jié)點(diǎn)→C2的鏈接產(chǎn)生否(NO)。在這個(gè)點(diǎn)上,C1是活動(dòng)的。當(dāng)一個(gè)概念是活動(dòng)的,我們就可以隨后為其他的概念或終端選取隨機(jī)數(shù),其中這些概念或終端具有源自該活動(dòng)概念的鏈接。在這個(gè)例子中,現(xiàn)在詞“大象”和“灰色”所具有的變成活動(dòng)的概率是0.5和0.4?,F(xiàn)在讓我們假設(shè),我們獲得了更多的隨機(jī)數(shù)(為了做個(gè)簡(jiǎn)單的比喻,現(xiàn)在我將這稱為擲骰子),并且決定大象和灰色都是活動(dòng)的。這就意味著,我們有了我們的文本塊,它就是詞“大象”和“灰色”。注意,在本發(fā)明的一個(gè)實(shí)施例中,因?yàn)樵~的順序是不被建模的,所以我們不能將“灰色大象”與“大象灰色”區(qū)分開(kāi)(除非它們組成一個(gè)復(fù)合詞)。通過(guò)這種方式,我們便生成了一個(gè)小文本塊。
圖2顯示了圖1中詳示的模型的這種特定執(zhí)行。在本圖中,我們看到概念C1變成為活動(dòng)的——我們通過(guò)使該節(jié)點(diǎn)變暗來(lái)圖形化地說(shuō)明這一點(diǎn),并且詞“大象”和“灰色”變成為活動(dòng)的。從考查整個(gè)系統(tǒng)以查看它是否正確工作的觀點(diǎn)來(lái)說(shuō),圖形化地查看一個(gè)文本塊的模型的執(zhí)行是重要的,并且我們稍后會(huì)用到它。
這看上去要有許多工作來(lái)生成一個(gè)“灰色大象”。但請(qǐng)注意我們所產(chǎn)生的詞對(duì)作為人的我們來(lái)說(shuō)具有某些含義。這是因?yàn)榇笙缶褪腔疑?。就某些小的方面而言,即使圖1所示的這個(gè)模型也捕捉了一點(diǎn)關(guān)于世界的狀態(tài)。如果僅停留在表面上,這個(gè)模型捕捉了“大象”和“灰色”、“灰色”和“天空”這些詞之間的相關(guān)性,但沒(méi)有捕捉“大象”和“天空”之間的相關(guān)性。
我們的系統(tǒng)學(xué)習(xí)中間概念、鏈接和鏈接權(quán)重——為的是解釋在小文本塊中同時(shí)出現(xiàn)的詞和復(fù)合詞。此外,為了能夠更好地生成和解釋各種大小的文本,其生成的模型稍微比上述模型復(fù)雜(例如,查詢常常是2到3個(gè)詞,而文檔則是大約1000個(gè)詞)。
為各種大小的文本進(jìn)行調(diào)整由于各種原因,上述簡(jiǎn)單模型的類型稍稍不足以處理文本。對(duì)于這一點(diǎn)的簡(jiǎn)單解釋是,每個(gè)概念都產(chǎn)生特定數(shù)量的詞,但如果鏈接上的權(quán)重小的話——舉例來(lái)說(shuō),便會(huì)發(fā)現(xiàn)要產(chǎn)生許多的詞更加困難得多。理想的是,舉例來(lái)說(shuō),一個(gè)概念能夠從其指向的終端產(chǎn)生幾個(gè)或許多詞。
圖3顯示了表示美國(guó)各州的一個(gè)概念例子。按照我們前面的模型,該概念能夠激發(fā)表示50個(gè)州中的每個(gè)州的終端,每個(gè)具有1/50的概率?,F(xiàn)在,對(duì)于這個(gè)模型單獨(dú)生成詞“California”不是不可能的。那個(gè)概率大約是(1/50)*(49/50)49,即大約為0.7%。對(duì)這個(gè)概念來(lái)說(shuō),激活所有這些州的概率是(1/50)50,相當(dāng)?shù)匦?。但是,如果我們開(kāi)發(fā)這樣一個(gè)概念,該概念包含美國(guó)的各州的想法,那么我們就希望它解釋其中出現(xiàn)所有這些州的文本塊。
為了解決這一問(wèn)題,在它激發(fā)其他終端之前,每個(gè)概念都拾取一個(gè)激活級(jí)別。從概念上說(shuō),這個(gè)激活級(jí)別選擇要從這個(gè)概念取得“多少個(gè)”終端。注意,這個(gè)激活級(jí)別不是我們模型的一個(gè)質(zhì)量值。實(shí)際上,只是在執(zhí)行模型時(shí)才選擇它。激活所做的事情是,它修改這個(gè)概念激發(fā)其每個(gè)終端的概率(但不是其子概念,也就是概念對(duì)概念的鏈接不受激活的影響)。
精確的數(shù)字調(diào)整可以如下所述。如果一個(gè)鏈接具有權(quán)重W,而所述聚類在其執(zhí)行中選擇激活A(yù),且所述鏈接指向一個(gè)概念和一個(gè)終端之間,則所述概念便以概率值(1-e-AW)來(lái)激發(fā)所述終端。其中e是常用的數(shù)學(xué)數(shù),約為2.71。初一看,這個(gè)公式似乎是奇怪的,但它具有以下的優(yōu)良特性當(dāng)W非常小(<0.01)且A是個(gè)小的數(shù)(比如2)時(shí),概率即大約等于AW——所以這些數(shù)一般是易于逼近的。它們具有一種奇怪的指數(shù)形式的原因是,概率必須具有上限值1。所以,具有0.02(1/50)的鏈接權(quán)重和100的活動(dòng)值不會(huì)給你2.0的概率。上述指數(shù)形式從數(shù)學(xué)的角度看也具有許多其他優(yōu)良的理論特性。
在這里,我們已經(jīng)詳述了組成我們模型的幾乎所有單個(gè)的塊。一個(gè)細(xì)節(jié)是,在兩個(gè)或更多個(gè)聚類之間的交互作用試圖激發(fā)相同的終端或聚類。在此情況下,各個(gè)交互作用是彼此獨(dú)立的。尤其是,結(jié)果不激發(fā)的概率是每個(gè)導(dǎo)致不激發(fā)它的原因的概率之積。例如,如果三個(gè)聚類C1、C2、C3以權(quán)重0.1、0.2、0.3鏈接到第四個(gè)聚類C4,且C1、C2、C3是活動(dòng)的C4不激發(fā)的概率就是(1-0.1)*(1-0.2)*(1-0.3)或(0.9)*(0.8)*(0.7)或0.504。因此,確實(shí)激發(fā)的機(jī)會(huì)就是1-(1-0.1)*(1-0.2)*(1-0.3)或1-0.504=0.496。
我們沒(méi)有提到的另一件事是用來(lái)選取活動(dòng)值的先驗(yàn)概率。所述模型的學(xué)習(xí)表明對(duì)此并不太敏感。其中所述活動(dòng)值被約束為 (存在1),而且等于1/Alog*A的概率是在該活動(dòng)值上的先驗(yàn)概率(其中l(wèi)og*A=AlogAloglogAlogloglogA...)。這僅僅表明對(duì)生成文本的目的來(lái)說(shuō)是重要的。對(duì)于該目的,由一個(gè)基本模型來(lái)生成大體上正確數(shù)量的詞的任何分布應(yīng)該是足夠的。
貝葉斯網(wǎng)絡(luò)在這一點(diǎn)上,且在我們繼續(xù)下去之前,值得討論我們一直在談?wù)摰哪P团c稱為貝葉斯網(wǎng)絡(luò)的某種類型的概率模型之間的特定對(duì)偶性。
貝葉斯網(wǎng)絡(luò)是公知的概率建模技術(shù),其中條件獨(dú)立性是在聯(lián)合分布中的各種隨機(jī)變量之間判斷的。如同上述模型,貝葉斯網(wǎng)絡(luò)具有節(jié)點(diǎn)和定向鏈接。這些網(wǎng)絡(luò)緊湊地表示了在大量隨機(jī)變量上的聯(lián)合分布,同時(shí)結(jié)構(gòu)化地表示了關(guān)于這些變量的條件獨(dú)立性假設(shè)。
在一個(gè)貝葉斯網(wǎng)絡(luò)中,指向一個(gè)節(jié)點(diǎn)的一組節(jié)點(diǎn)被稱為其“父輩節(jié)點(diǎn)”。通過(guò)后面的鏈接從一個(gè)節(jié)點(diǎn)可到達(dá)的一組節(jié)點(diǎn)被稱為其“后繼節(jié)點(diǎn)”或“子節(jié)點(diǎn)”;且該結(jié)構(gòu)暗示,一個(gè)節(jié)點(diǎn)若已知其父輩節(jié)點(diǎn),便是獨(dú)立于其非后繼節(jié)點(diǎn)的。因此,整個(gè)分布就被編碼進(jìn)已知其父輩節(jié)點(diǎn)的一個(gè)子節(jié)點(diǎn)的條件概率表(沒(méi)有父輩節(jié)點(diǎn)的節(jié)點(diǎn)具有其自己的分布)。整個(gè)網(wǎng)絡(luò)的一個(gè)特定實(shí)例的概率就簡(jiǎn)單地是已知其父輩節(jié)點(diǎn)的每個(gè)子節(jié)點(diǎn)的概率之積。
貝葉斯網(wǎng)絡(luò)和我們的模型在以下方面相關(guān),如果在我們模型的執(zhí)行中,每個(gè)節(jié)點(diǎn)被認(rèn)為是一個(gè)隨機(jī)變量,那么在開(kāi)啟的這組節(jié)點(diǎn)上的聯(lián)合分布就正是把我們的模型當(dāng)成具有噪聲“或”(noisy-or)合并功能的貝葉斯網(wǎng)絡(luò)而產(chǎn)生的分布。噪聲“或”條件概率獨(dú)立于每個(gè)父輩節(jié)點(diǎn)而開(kāi)啟一個(gè)布爾子節(jié)點(diǎn)。也就是說(shuō),一個(gè)子節(jié)點(diǎn)是關(guān)閉的概率就是每個(gè)父輩節(jié)點(diǎn)不激發(fā)它的概率之積。注意這正是在我們的模型中所使用的合并功能,用來(lái)決定鏈接到一終端的多個(gè)活動(dòng)概念是否激發(fā)它。注意,貝葉斯網(wǎng)絡(luò)自身是更通用的概率模型的一個(gè)子類。
學(xué)習(xí)在這里,我們已經(jīng)描述了一個(gè)現(xiàn)有的模型是如何能夠被用于生成文本的。我們還沒(méi)有詳述這個(gè)工作的這幾個(gè)方面(1)我們的模型是如何被學(xué)習(xí)的;(2)我們的模型是如何被用于估計(jì)出現(xiàn)于文本中的概念的;(3)在實(shí)際情況中,我們的模型是如何被使用的。在本小節(jié),我們將試著詳細(xì)描述我們的模型是如何被學(xué)習(xí)的,以及可用于這一目的的各種技術(shù)。
在學(xué)習(xí)文本的生成模型時(shí),在本發(fā)明的一個(gè)實(shí)施例中,必須選擇文本的某個(gè)來(lái)源。在這種選擇中的一些考慮是(1)它應(yīng)該有緊密相關(guān)的詞;(2)它應(yīng)該給出獨(dú)立的證據(jù),指定我們正在嘗試學(xué)習(xí)的模型(后面更詳細(xì)地介紹);(3)它應(yīng)該和不同類型的文本相關(guān)。由于這個(gè)原因,以下的模型的實(shí)施方案使用了來(lái)自一搜索引擎的示例性“查詢會(huì)話”作為其小文本塊。我們同樣已經(jīng)在網(wǎng)頁(yè)和其他文本來(lái)源上實(shí)施和運(yùn)行了我們的模型,但為了使本說(shuō)明更加具體,我們集中于查詢會(huì)話的分析。
為了更加準(zhǔn)確,我們把查詢會(huì)話(也稱為用戶會(huì)話或會(huì)話)定義為單個(gè)用戶一天在一個(gè)搜索引擎上所使用的一組詞。通常用戶們會(huì)搜索相關(guān)的材料,在一行中發(fā)出關(guān)于一個(gè)特定主題的若干查詢。有時(shí),這些查詢與其他主題隨機(jī)混雜。一個(gè)查詢會(huì)話例子(不是實(shí)際的)可能如下所示the graduatedustin hoffmanrain manautismcool junkfast carstom cruise nicole kidman本例中每個(gè)查詢都是在單獨(dú)的一行上。注意大多數(shù)詞在某個(gè)方面是相關(guān)的。第一個(gè)是由Dustin Hoffman演的電影,第三個(gè)也是。第二個(gè)是Dustin Hoffman本人。第四個(gè)是關(guān)于電影中所提出的問(wèn)題。第五個(gè)查詢“cool junk(極好的舊貨)”則與這個(gè)會(huì)話的主題不相關(guān),第六個(gè)“fast cars(快速的汽車)”也是如此。最后一個(gè)有一點(diǎn)相關(guān),因?yàn)門om Cruise在Rain Man(雨人)中和Dustin Hoffman一起演出??偟恼f(shuō)來(lái),在這樣的一小塊文本中有許多信息,利用這些信息我們便可得出結(jié)論,但也有許多不相關(guān)的無(wú)用信息。我們系統(tǒng)的主要任務(wù)是從無(wú)用信息中找出適當(dāng)?shù)南嚓P(guān)性,同時(shí)查看大量(數(shù)十億)這樣的文本塊。
學(xué)習(xí)一個(gè)能夠解釋在各個(gè)查詢中同時(shí)出現(xiàn)的所有詞的概率模型是困難的。注意,在以上對(duì)會(huì)話的解釋中,我們使用了我們所擁有的關(guān)于這個(gè)世界的一般信息來(lái)解釋查詢會(huì)話。這是我們模型所學(xué)習(xí)的信息的特性,為的是提出一個(gè)世界模型,在這個(gè)世界模型中,一個(gè)上述的會(huì)話不是不可能的。以下是這樣的一個(gè)方案。
假如我們并不了解所述模型是什么,但我們知道存在著大量的概念。概率網(wǎng)絡(luò)自身便能夠被用來(lái)表示這種不確定性??梢砸胍粋€(gè)節(jié)點(diǎn),該節(jié)點(diǎn)表示一個(gè)概念與另一概念或一終端之間的每個(gè)鏈接。這些類型的節(jié)點(diǎn)被稱為全局節(jié)點(diǎn),且它們表示我們關(guān)于所述模型自身的不確定性。
這些全局節(jié)點(diǎn)和上述的模型節(jié)點(diǎn)不同,實(shí)際上它們表示關(guān)于模型節(jié)點(diǎn)和鏈接的不確定性?,F(xiàn)在,對(duì)于每塊文本(用戶會(huì)話),我們復(fù)制整個(gè)模型,創(chuàng)建一個(gè)局部網(wǎng)絡(luò)。每個(gè)模型節(jié)點(diǎn)復(fù)制品被稱為局部節(jié)點(diǎn),且這些局部節(jié)點(diǎn)表示我們對(duì)于一個(gè)特定的執(zhí)行,關(guān)于是否存在一個(gè)概念的不確定性,其中這個(gè)執(zhí)行導(dǎo)致產(chǎn)生了這塊文本。為了學(xué)習(xí)我們的模型,我們必須考慮關(guān)于我們的模型的所有不確定性,并進(jìn)行某種推理,從而提出一個(gè)最好的模型,或一組模型,我們能夠使用上述模型來(lái)進(jìn)行進(jìn)一步的處理。
圖4顯示了這樣一個(gè)大型網(wǎng)絡(luò)看上去可能會(huì)是什么樣子。在虛線上是全局節(jié)點(diǎn),它們表示關(guān)于我們的模型的不確定性。節(jié)點(diǎn)U→C1表示在模型中關(guān)于U和C1之間的鏈接權(quán)重的不確定性(請(qǐng)記住U是我們對(duì)總是活動(dòng)的通用節(jié)點(diǎn)的命名)。類似地,U→T1,C1→C2,C1→T1,依此類推。注意,我們的模型不允許所有節(jié)點(diǎn)都鏈接到所有別的節(jié)點(diǎn)。這是因?yàn)?,為了得到?lái)自通用節(jié)點(diǎn)U的所有想法的一致解釋,鏈接結(jié)構(gòu)內(nèi)的循環(huán)是不允許的——例如,概念C1能夠?qū)е翪2,C2又能夠?qū)е翪1等等,這使得C1和C2總是相似的,即使U并沒(méi)有鏈接到它們。由于這個(gè)原因,一個(gè)概念只允許被鏈接到比自己編號(hào)更高的概念,而通用概念可鏈接到所有概念。
現(xiàn)在,在虛線之下是局部網(wǎng)絡(luò)。在每個(gè)網(wǎng)絡(luò)中,假設(shè)一個(gè)特定用戶會(huì)話的各個(gè)終端是活動(dòng)的。注意,我們的模型是被復(fù)制用于每個(gè)這類會(huì)話的。這是因?yàn)?,?duì)于每個(gè)會(huì)話而言,我們所觀察的僅僅是用戶所使用的詞,而并不是實(shí)際上當(dāng)這些詞出現(xiàn)時(shí),在用戶的頭腦中活動(dòng)的那些概念!這里所述的局部節(jié)點(diǎn)表示我們關(guān)于這些概念的不確定性。因?yàn)楫?dāng)用戶寫(xiě)下他們所寫(xiě)的每個(gè)詞時(shí),他們可能一直在想所有的事,所以在每一局部網(wǎng)絡(luò)中必須研究所有的概念。
現(xiàn)在,局部網(wǎng)絡(luò)和全局節(jié)點(diǎn)是如何相關(guān)聯(lián)的?簡(jiǎn)單說(shuō)來(lái),在一個(gè)局部網(wǎng)絡(luò)中,U和C1之間的每個(gè)鏈接是以全局節(jié)點(diǎn)(U→C1)居于其間的。在每個(gè)局部網(wǎng)絡(luò)中,U激發(fā)C1的概率取決于上述全局節(jié)點(diǎn)(U→C1)。在圖4所示的局部網(wǎng)絡(luò)的全概率網(wǎng)絡(luò)圖中,每個(gè)全局節(jié)點(diǎn)(U→C1)在每個(gè)局部網(wǎng)絡(luò)中都會(huì)指向每個(gè)C1。因?yàn)閳D4中沒(méi)有足夠的空間,所以圖5顯示了與一個(gè)這樣的網(wǎng)絡(luò)的交互作用。同樣,圖5僅僅顯示了與具有兩個(gè)概念的模型的交互作用。此圖中全局節(jié)點(diǎn)(U→C1)和C1之間的鏈接表示這樣的事實(shí)當(dāng)C1在一個(gè)局部會(huì)話中激發(fā)之前,它需要知道U和全局節(jié)點(diǎn)(U→C1)二者的狀態(tài)。
圖6顯示了這個(gè)模型的稍加重新處理的版本,其中存在變量,用于清楚地顯示出是否每個(gè)概念觸發(fā)(trigger)另一概念或終端。注意,一旦它們被投影到我們所感興趣的原始變量(也就是C1和C2),這兩者所表示的聯(lián)合分布就是相同的。本圖中的三角形表示額外的“觸發(fā)”變量,且因?yàn)樗鼈兒?jiǎn)化了所需的條件概率的數(shù)量,所以考慮帶有這些三角形的模型常常是有益的。
例如在圖6中,U和C2之間的“觸發(fā)”變量只需要知道U以及(U→C2)的分布,以確定C2從U被激發(fā)的概率。類似地,進(jìn)入C2的另一個(gè)觸發(fā)只需要知道C1和(C1→C2)分布的值。這兩個(gè)聯(lián)合比圖5的模型中C2節(jié)點(diǎn)需要所有4個(gè)變量的聯(lián)合更簡(jiǎn)單。這主要是因?yàn)橐粋€(gè)條件概率規(guī)范的復(fù)雜性隨著其必須考慮的元素的數(shù)量而以指數(shù)上升。
這點(diǎn)值得說(shuō)得更清楚一些。設(shè)想例如一個(gè)人進(jìn)入一種復(fù)雜的打賭方案,其中賭的結(jié)果取決于10個(gè)賽馬事件,而每個(gè)結(jié)果提供不同的回報(bào)率。為了傳達(dá)這個(gè)賭,需要210或者說(shuō)1024個(gè)數(shù),因?yàn)檫@就是當(dāng)同時(shí)考慮所有賽事時(shí),不同結(jié)果的數(shù)量?,F(xiàn)在代之以設(shè)想同一個(gè)人進(jìn)入10個(gè)獨(dú)立的關(guān)于每匹馬的打賭,贏或輸取決于每匹馬。這個(gè)賭現(xiàn)在只需要10個(gè)數(shù)來(lái)傳達(dá)。類似地,當(dāng)一個(gè)條件概率分布必須考慮N個(gè)變量時(shí),2N就是所需的復(fù)雜性的階數(shù),且因此便是處理這樣一種狀態(tài)所需的計(jì)算復(fù)雜性的數(shù)量。這就是為什么將觸發(fā)變量作為這個(gè)問(wèn)題的一種因子是有用的。從這里開(kāi)始,我們將交替地以觸發(fā)或非觸發(fā)的形式來(lái)顯示我們的局部網(wǎng)絡(luò)。
仍然必須在這個(gè)大型網(wǎng)絡(luò)中規(guī)定最后一件事,以使其從概率上得到良好定義。首先,全局節(jié)點(diǎn)需要一個(gè)先驗(yàn)分布。也就是說(shuō),為了合并關(guān)于一個(gè)概念鏈接到特定的另一概念或詞的可能性的證據(jù),我們需要了解,我們的什么信任(belief)會(huì)是先驗(yàn)的。我們模型的學(xué)習(xí)表明對(duì)這個(gè)分布來(lái)說(shuō)不是過(guò)于敏感,所以這里有許多事都是可能的,包括使用在非零的鏈接上的1/1000和在非零的鏈接上的1/1000的平坦分布。
這是一點(diǎn)題外話和消遣,但為完整起見(jiàn),讓我們?cè)诖苏f(shuō)明,這并沒(méi)有完全約束上述變量,因?yàn)闆](méi)有在非零值上施加密度,且僅僅是加權(quán)的活動(dòng)值之積和激發(fā)的概率有關(guān)系。但是,我們用于選取一個(gè)會(huì)話中的概念的活動(dòng)值的啟發(fā)式法暗示,從所述概念到所有終端的激發(fā)的總權(quán)重應(yīng)該大約等于這個(gè)概念激發(fā)的終端的平均數(shù)量除以其在每個(gè)會(huì)話中能夠激發(fā)的詞的平均數(shù)量。同樣,設(shè)置這些概率的另一種方式取決于在全局節(jié)點(diǎn)上所發(fā)生的推理的特定方式。事實(shí)上,我們只查找一個(gè)簡(jiǎn)化的模型,其中每個(gè)全局節(jié)點(diǎn)是由一個(gè)雙峰值分布來(lái)表示的,一個(gè)是在0處,而一個(gè)是在另一個(gè)最佳值處。在此情況下,你能夠估計(jì),已知這個(gè)新鏈接,則新鏈接上的先驗(yàn)值大致依賴于網(wǎng)絡(luò)的科爾莫格洛夫復(fù)雜性,那也就是具有這個(gè)新鏈接的模型的簡(jiǎn)單程度,事實(shí)上假設(shè)這整個(gè)模型實(shí)際上從世界的一個(gè)解釋推導(dǎo)出其自身,其中,如果模型較簡(jiǎn)單,那么它們便更相似。這里,從一個(gè)聚類到一個(gè)終端的鏈接可可能更依賴于該聚類鏈接到的其他事物的數(shù)量,或者鏈接到該終端的事物的數(shù)量,或者是上述這兩者。
一旦建立了整個(gè)大型網(wǎng)絡(luò),就不再有概念上的工作要完成。從理論觀點(diǎn)看,在這個(gè)網(wǎng)絡(luò)上進(jìn)行推理是相當(dāng)直接的,而且特定足夠的計(jì)算能力,到達(dá)各全局節(jié)點(diǎn)的所有分布是直接了當(dāng)?shù)?,它完全指定了所述模型。這里的推理意味著解釋所有特定的訓(xùn)練證據(jù)(用戶會(huì)話),并且完全能夠在我們的模型上使用該證據(jù)的含義。在相似模型上的分布又讓我們得以正確地猜到,當(dāng)特定的文本塊是活動(dòng)的時(shí)候哪些概念是活動(dòng)的,以及其概率。實(shí)際上,在模型上的分布讓我們能夠回答所有關(guān)于這種文本的生成的問(wèn)題。
只剩下一個(gè)問(wèn)題,即規(guī)模問(wèn)題。這個(gè)基本問(wèn)題陳述如下讓我們假設(shè),世界上大約有500萬(wàn)個(gè)概念(而且那很少,考慮到有60億人,并且當(dāng)談?wù)撍麄冎械拿恳粋€(gè)時(shí),你都可能在說(shuō)不同的事情,所以至少有50億個(gè)概念,但是讓我們以假設(shè)500萬(wàn)個(gè)概念來(lái)開(kāi)始)。讓我們假設(shè)有100萬(wàn)個(gè)終端(它產(chǎn)生比如new-york這樣的復(fù)合詞,那是容易得到的,且其僅僅是英語(yǔ))?,F(xiàn)在,讓我們假設(shè),我們希望在50億個(gè)用戶會(huì)話中訓(xùn)練這個(gè)網(wǎng)絡(luò)。此外,讓我們忽略處理連續(xù)的隨機(jī)變量的計(jì)算負(fù)擔(dān)(它是相當(dāng)可觀的)。注意,模型節(jié)點(diǎn)必須為每個(gè)會(huì)話復(fù)制一次。這意味著整個(gè)大型網(wǎng)絡(luò)將具有50億個(gè)會(huì)話×(100萬(wàn)個(gè)終端局部節(jié)點(diǎn)+500萬(wàn)個(gè)概念局部節(jié)點(diǎn))=3億億(30billion million)個(gè)局部終端節(jié)點(diǎn)……而且這是容易的部分?,F(xiàn)在讓我們計(jì)算鏈接。全局模型有500萬(wàn)個(gè)節(jié)點(diǎn),其中每個(gè)可以鏈接到100萬(wàn)個(gè)終端,每個(gè)終端能夠在局部網(wǎng)絡(luò)中被復(fù)制50億次,其中每個(gè)隨后便具有來(lái)自合適的全局節(jié)點(diǎn)的一個(gè)鏈接(其翻倍該數(shù)字),所以100萬(wàn)個(gè)終端×500萬(wàn)個(gè)聚類×50億個(gè)會(huì)話×2=5×1022(50millionmillion billion)個(gè)鏈接!……而且最壞的部分是,正確的推理技術(shù)的運(yùn)用次數(shù)是網(wǎng)絡(luò)大小的指數(shù),所以基本上,完成此任務(wù)的這種直接方法是不可實(shí)行地昂貴。本說(shuō)明書(shū)的下一節(jié)討論為使這個(gè)系統(tǒng)可實(shí)現(xiàn)而能夠做的和必須做的不同事情。
擴(kuò)展技術(shù)和環(huán)狀信任傳播在求解我們的大型網(wǎng)絡(luò)時(shí),我們的第一個(gè)問(wèn)題是,完全的推理是網(wǎng)絡(luò)大小的指數(shù)。這里我們?nèi)∫恍┙輳?。有一種稱為“環(huán)狀信任傳播(loopy belief propagation)”的推理技術(shù)(通常稱為loopy),該技術(shù)圍繞一概率網(wǎng)絡(luò)而以一種快速、即使是不正確的方式來(lái)傳播證據(jù)。它的優(yōu)點(diǎn)是快速,但缺點(diǎn)是不正確。但它經(jīng)常證明是各種信任網(wǎng)絡(luò)的一種良好的近似求解程序。
環(huán)狀信任傳播依賴在一個(gè)網(wǎng)絡(luò)中傳輸?shù)膬煞N類型的消息,以計(jì)算出在一特定網(wǎng)絡(luò)中的所有節(jié)點(diǎn)的邊緣分布。向下的消息是那些和鏈接流一起移動(dòng)的消息,并且如果已知除了來(lái)自目標(biāo)節(jié)點(diǎn)的所有其他證據(jù),則無(wú)論在鏈接的另一端上的節(jié)點(diǎn)是什么,它們都在源節(jié)點(diǎn)疊加(summarize)信任。向上的消息和鏈接流的移動(dòng)方向相反,如果已知目標(biāo)節(jié)點(diǎn)的各種值,它們便告訴目標(biāo)節(jié)點(diǎn)(在概率網(wǎng)絡(luò)中其也是父輩節(jié)點(diǎn))鏈接的這一端的概率。
圖7A顯示了具有噪聲“或”(noisy-or)組件的一個(gè)簡(jiǎn)單的兩布爾節(jié)點(diǎn)網(wǎng)絡(luò)。這里節(jié)點(diǎn)A為真的先驗(yàn)概率是0.1,假如A為真,那么B為真的概率是0.3。現(xiàn)在通過(guò)在這個(gè)網(wǎng)絡(luò)上運(yùn)行環(huán)狀信任傳播,我們就能夠確定B為真的概率。A傳播一個(gè)向下的消息給B,告訴它已知所有其他證據(jù),A相信它自己為真的概率是0.1。B接收這個(gè)消息,并自已處理?xiàng)l件概率(噪聲“或”),且得出它為真的概率是0.03,我們就完成了。
圖7B顯示了一個(gè)兩布爾節(jié)點(diǎn)網(wǎng)絡(luò),其示出了如何使用向上的消息推理來(lái)工作。這里,B上有一個(gè)B為真的證據(jù)。所以,我們?cè)囍_定假定B為真時(shí)的A的概率。B給A發(fā)送一個(gè)向上的消息,這告訴A,如果A為真,那么B才能是真也就是,假如A為假,那么B了解來(lái)自下面的證據(jù)的概率是0。因此A必須為真。A接收了這個(gè)消息,并把它乘以其先驗(yàn)概率,先驗(yàn)概率是有0.1的可能為真,并得出它必須為真,所以已知所述證據(jù),A為真。
由于以下原因,環(huán)狀信任傳播技術(shù)上不是對(duì)于推理問(wèn)題的準(zhǔn)確解答。當(dāng)來(lái)自兩個(gè)不同源的證據(jù)到達(dá)一個(gè)特定的點(diǎn),它們丟失了關(guān)于這些源是否相關(guān)的信息。設(shè)想以下的例子。三個(gè)人A、B、C參與一次談話。A告訴B說(shuō)他相信股市下個(gè)月會(huì)上升。B告訴C相同的信息。在這一點(diǎn)C告訴A說(shuō)其他人相信股市會(huì)上升。環(huán)狀信任傳播的問(wèn)題是有了這個(gè)簡(jiǎn)單的信任傳播系統(tǒng),A現(xiàn)在不能告訴說(shuō)C的信任實(shí)際是基于A的原始斷言,因此來(lái)自A的證據(jù)循環(huán)回到其自身。在稍微更復(fù)雜的方法中,環(huán)狀信任傳播在網(wǎng)絡(luò)中圍繞環(huán)循環(huán)證據(jù),以創(chuàng)建通常準(zhǔn)確但有時(shí)不準(zhǔn)確的解。
當(dāng)環(huán)狀信任傳播在一個(gè)無(wú)環(huán)的網(wǎng)絡(luò)上運(yùn)行時(shí),它是準(zhǔn)確的且在等于網(wǎng)絡(luò)直徑的若干步驟內(nèi)穩(wěn)定。但當(dāng)它在一個(gè)有環(huán)的網(wǎng)絡(luò)上運(yùn)行,證據(jù)就圍繞該網(wǎng)絡(luò)循環(huán)。通常它在一個(gè)特定的解上穩(wěn)定,但不能保證那個(gè)解是正確的,或者甚至保證環(huán)狀信任傳播完全穩(wěn)定。圖8實(shí)際顯示了一個(gè)環(huán)狀信任傳播失敗的噪聲“或”(noisy-or)網(wǎng)絡(luò)。這里假設(shè)D是真,且其唯一的源實(shí)際是A,所以推理應(yīng)該顯示A為真。但是環(huán)狀信任傳播為A確定了近似為0.6的值。但是,通常環(huán)狀信任傳播工作得相當(dāng)好,且我們稍后在該公開(kāi)文本中考查如何改進(jìn)它。
這里要提到的額外一點(diǎn)是在這個(gè)大型網(wǎng)絡(luò)上運(yùn)行環(huán)狀信任傳播的效果很大程度上等同于在數(shù)據(jù)上運(yùn)行EM(預(yù)期最大值)運(yùn)算的概念,該運(yùn)算認(rèn)為聚類是隱含變量。在EM中,在模型變量上進(jìn)行初始猜測(cè),然后推斷隱含變量的概率,然后更新對(duì)模型變量的猜測(cè)。這本質(zhì)上是和環(huán)狀信任傳播相同的計(jì)算。兩者之間的一個(gè)差別是環(huán)狀信任傳播不在其自身反射回來(lái)自一個(gè)會(huì)話的證據(jù),也就是環(huán)狀信任傳播的正確計(jì)算為前面的向上消息減少來(lái)自全局節(jié)點(diǎn)的向下消息,該前面的向上消息是會(huì)話在最后一次迭代中發(fā)送的。在環(huán)狀信任傳播方法和每次迭代在不同數(shù)據(jù)塊上運(yùn)行EM的方法之間沒(méi)有太多的差別。在本說(shuō)明書(shū)的剩余部分,我們?cè)谟懻撨@個(gè)過(guò)程時(shí)將使用術(shù)語(yǔ)環(huán)狀信任傳播(loopy)而不是術(shù)語(yǔ)EM。
在大型網(wǎng)絡(luò)中的環(huán)狀信任傳播環(huán)狀信任傳播消息在大型網(wǎng)絡(luò)中被用于穿過(guò)全局/局部邊界。這里全局節(jié)點(diǎn)向下傳播它們對(duì)于自身的信任到一個(gè)特定的局部網(wǎng)絡(luò)——且由于該網(wǎng)絡(luò)僅僅是10億分之一,所以通常這僅僅是在各處傳播的相同信任。但是,觸發(fā)節(jié)點(diǎn)向上傳播網(wǎng)絡(luò)的概率,如果已知了解關(guān)于觸發(fā)節(jié)點(diǎn)的所有其他事情。
圖9顯示了在特別簡(jiǎn)單的會(huì)話里面發(fā)生的環(huán)狀信任傳播計(jì)算,且模型只包括一個(gè)概念(C1)和一個(gè)終端(T1)。注意在這個(gè)會(huì)話中,我們已經(jīng)看到終端T1,這是局部節(jié)點(diǎn)被暗化的原因?,F(xiàn)在,讓我們看看圍繞這個(gè)模型的一些消息是什么。
首先,讓我們看向下的消息,其從全局節(jié)點(diǎn)(U→C1)到U和C1之間的觸發(fā)節(jié)點(diǎn)。已知其在來(lái)自其他會(huì)話的環(huán)狀信任傳播的當(dāng)前迭代中已經(jīng)整理的數(shù)據(jù),這個(gè)消息必須報(bào)告在(U→C1)節(jié)點(diǎn)的狀態(tài)中的當(dāng)前信任。傳輸和計(jì)算連續(xù)變量上的完整準(zhǔn)確分布是禁止的。由于這個(gè)原因,在U和C1之間的這個(gè)會(huì)話中,從(U→C1)到觸發(fā)節(jié)點(diǎn)的向下的消息被簡(jiǎn)化。不是傳輸完全的分布,相反它用兩個(gè)有峰值的離散分布近似這個(gè)分布,一個(gè)峰值在0處,而另一個(gè)峰值則在選定的“最佳值”W處。
在處理這個(gè)向下的消息時(shí),我們的系統(tǒng)首先匯編來(lái)自其他會(huì)話的關(guān)于這個(gè)全局節(jié)點(diǎn)的證據(jù)。我們的系統(tǒng)然后為這個(gè)節(jié)點(diǎn)選取一個(gè)最佳的非零值W。它然后把向上的消息翻譯成關(guān)于節(jié)點(diǎn)的存在性的消息,允許其確定在最佳值W和零值處在向下的消息中發(fā)送的概率大小。在以計(jì)算上可行的方式處理全局節(jié)點(diǎn)的離散一連續(xù)特性時(shí),這個(gè)對(duì)來(lái)自全局節(jié)點(diǎn)的向下的消息的簡(jiǎn)化是一個(gè)優(yōu)點(diǎn)。
這個(gè)簡(jiǎn)化的來(lái)自(U→C1)的向下的消息沿著從(U→C1)發(fā)源的鏈接旁邊的小箭頭。它被標(biāo)識(shí)為(0.1,1.0)。這意味著最佳值是0.1,且概率是1.0,這個(gè)鏈接存在。因?yàn)槲覀兿M械木W(wǎng)絡(luò)是部分可解釋的,所以我們從不讓從U到任何地方的鏈接的概率小于1.0。另一個(gè)向下的消息例子是從(C1→T1)發(fā)源的、到局部網(wǎng)絡(luò)中的C1和T1之間的觸發(fā)節(jié)點(diǎn)的消息。這個(gè)消息被標(biāo)識(shí)為(0.2,0.8)。其意味著它有0.8的可能為非零,且當(dāng)它為非零時(shí),它等于0.2。
現(xiàn)在,讓我們?cè)囍谶@個(gè)網(wǎng)絡(luò)上做一些推理,假設(shè)我們知道來(lái)自全局節(jié)點(diǎn)的向下的消息。有三個(gè)觸發(fā)節(jié)點(diǎn),一個(gè)從C1到T1,一個(gè)從U到C1,一個(gè)從U到T1,它們的概率我們不知道。我們也不知道在這個(gè)會(huì)話內(nèi)聚類C1是活動(dòng)的概率。所有這些可以通過(guò)在這個(gè)會(huì)話上運(yùn)行環(huán)狀信任傳播來(lái)計(jì)算。但是在我們?yōu)g覽這些計(jì)算的一個(gè)樣本前,通過(guò)增加(multiply out)兩個(gè)峰值的分布并再次把它簡(jiǎn)化成單個(gè)峰值的分布,我們假設(shè)它實(shí)際是(0.16,1.0)的單個(gè)消息?,F(xiàn)在我們準(zhǔn)備好只看小的會(huì)話網(wǎng)絡(luò)。這個(gè)簡(jiǎn)化也是在我們的框架內(nèi)完成的。
我們能做的一個(gè)小假設(shè)是,C1上的活動(dòng)值被設(shè)為1。典型地,在運(yùn)行概率網(wǎng)絡(luò)時(shí),這個(gè)值可通過(guò)推理導(dǎo)出。但是,當(dāng)試著在這些局部網(wǎng)絡(luò)中推理時(shí),我們的模型假設(shè)聚類的活動(dòng)值等于其在這個(gè)網(wǎng)絡(luò)中可能激發(fā)的終端數(shù)量。這是我們前面談?wù)摰恼{(diào)整,其處理的事實(shí)是只有所述活動(dòng)值和權(quán)重的乘積是有關(guān)系的。這個(gè)調(diào)整是用以下理由進(jìn)行的,即所述活動(dòng)值只在數(shù)量級(jí)內(nèi)有關(guān)系,因此,不應(yīng)該花費(fèi)計(jì)算時(shí)間在最佳地確定它。
現(xiàn)在,我們查看這個(gè)網(wǎng)絡(luò)的簡(jiǎn)化噪聲“或”(noisy-or)模型,同時(shí)忽略全局節(jié)點(diǎn)。這是因?yàn)槿止?jié)點(diǎn)輸入系統(tǒng)的所有信息能夠由聚類和其他聚類或終端之間的噪聲“或”上的權(quán)重來(lái)匯總。這是概率網(wǎng)絡(luò)中通過(guò)把沒(méi)有其他父輩節(jié)點(diǎn)的節(jié)點(diǎn)加入到附近的網(wǎng)絡(luò)來(lái)簡(jiǎn)化去掉這些節(jié)點(diǎn)的標(biāo)準(zhǔn)技術(shù)。這個(gè)簡(jiǎn)化的局部網(wǎng)絡(luò)看起來(lái)象圖10中的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)中的鏈接被標(biāo)記為0.095、0.095和0.1478。這是因?yàn)閁觸發(fā)T1的概率現(xiàn)在等于1-e-0.1,即0.095。記住前面我們說(shuō)鏈接應(yīng)該以近似AW的概率觸發(fā)結(jié)果。這里A是1且W是0.1,且這近似于0.095。同樣的應(yīng)用于C1和到T1的觸發(fā)節(jié)點(diǎn)之間的鏈接,其是0.1478,即1-e-0.16,近似于0.16。
現(xiàn)在,我們知道T1為真。讓我們確定C1導(dǎo)致它的可能性大小。來(lái)自U的觸發(fā)節(jié)點(diǎn)發(fā)給T1的向下的消息是(0.095,0.905),其中0.095表示節(jié)點(diǎn)為真的信任且0.905表示節(jié)點(diǎn)為假的信任。注意這個(gè)向下的消息的特性完全不同于來(lái)自全局節(jié)點(diǎn)的向下的消息的特性。這是因?yàn)橛|發(fā)節(jié)點(diǎn)是布爾變量,而全局節(jié)點(diǎn)是連續(xù)和離散變量的奇怪混合,其具有在0處的某個(gè)概率聚集和在其他點(diǎn)的某個(gè)密度,此外這是由兩個(gè)點(diǎn)的分布近似的,然后進(jìn)一步簡(jiǎn)化成單個(gè)點(diǎn)的分布。
由于觸發(fā)節(jié)點(diǎn)是布爾節(jié)點(diǎn),所以它只需要向下發(fā)送它的一個(gè)數(shù),即它為真的概率,另一個(gè)數(shù)就是1減去第一個(gè)數(shù),且在我們的實(shí)現(xiàn)中,我們進(jìn)行這種優(yōu)化。T1獲得這個(gè)數(shù),并把假如觸發(fā)了所述觸發(fā)節(jié)點(diǎn)的T1的概率和假如不觸發(fā)所述觸發(fā)節(jié)點(diǎn)的T1的概率向上發(fā)送給C1端上的觸發(fā)節(jié)點(diǎn)。這個(gè)向上的消息是(1.0,0.095)。通常,布爾變量的向上的消息具有兩個(gè)這樣的值,但實(shí)際只需要一個(gè),即兩者之間的比值(假如無(wú)窮大是可表示的數(shù))?,F(xiàn)在,從C1到T1的觸發(fā)節(jié)點(diǎn)獲得向上的消息(1.0,0.095),但它也有來(lái)自以上C1的向下的消息。這個(gè)消息是來(lái)自C1的(0.095,0.905)。現(xiàn)在,所述觸發(fā)節(jié)點(diǎn)具有它所需要的所有信息。它把來(lái)自以上的消息變換成(0.095*0.1478,1-0.095*0.1478)或(0.014,0.986)。這個(gè)變換意味著已知它上面的信息,它現(xiàn)在具有自己的信任?,F(xiàn)在它把其關(guān)于它下面信息的信任按各個(gè)分量地相乘,從而得到(0.014*1.0,0.986*0.095)或(0.014,0.09367),然后它把這個(gè)歸一化為共計(jì)為1而得到(0.13,0.87),這是其最終的信任。現(xiàn)在可進(jìn)行類似的計(jì)算以算出這個(gè)網(wǎng)絡(luò)中所有的其他“隱含變量”。
一般,環(huán)狀信任傳播把在其父輩節(jié)點(diǎn)上的信任和其子節(jié)點(diǎn)在其自身上的信任給節(jié)點(diǎn)。它使用其條件概率分布把其父輩節(jié)點(diǎn)上的信任轉(zhuǎn)換為其自身上的信任。它現(xiàn)在具有兩個(gè)自己的信任數(shù),它把其乘以分量狀態(tài),然后它歸一化為1以獲得其自己的信任。在計(jì)算這些消息時(shí)我們常常做的幾個(gè)優(yōu)化是為了避免下溢,我們?cè)趯?duì)數(shù)空間中進(jìn)行許多概率計(jì)算。這既包括向下的消息也包括向上的消息比。此外,為了實(shí)現(xiàn)環(huán)狀信任傳播以使它在節(jié)點(diǎn)的父輩節(jié)點(diǎn)數(shù)目中工作線性的時(shí)間,它有助于能夠從節(jié)點(diǎn)的信任減去一個(gè)父輩節(jié)點(diǎn)的影響。這是通過(guò)特殊的例程完成的,這個(gè)特殊的例程為了快速地進(jìn)行這個(gè)傳播,其采用N個(gè)數(shù)并計(jì)算這些數(shù)的N-1的所有N個(gè)乘積。
現(xiàn)在讓我們看看向上傳給不同特性的全局節(jié)點(diǎn)的向上消息。記住,全局節(jié)點(diǎn)實(shí)際是離散-連續(xù)隨機(jī)變量,其能夠取從0到無(wú)限大的任何值。讓我們?cè)O(shè)計(jì)一個(gè)簡(jiǎn)單的例子,其示出已知鏈接上的權(quán)重,你如何計(jì)算網(wǎng)絡(luò)的概率。
圖11顯示了兩個(gè)聚類C1和C2,它們競(jìng)爭(zhēng)去觸發(fā)一個(gè)終端。從(C1→T)和從(C2→T)到合適的觸發(fā)節(jié)點(diǎn)的向下的消息分別表示q1和q2的激活概率。注意如上面提到的,我們通過(guò)乘以其存在性的概率和其最佳值來(lái)估計(jì)來(lái)自全局節(jié)點(diǎn)的向下的消息的影響,因此,我們通過(guò)假設(shè)在局部網(wǎng)絡(luò)中,C2能夠以1-e-a2q2的概率啟動(dòng)T,且對(duì)于C1啟動(dòng)T是類似的,來(lái)估計(jì)我們的解?,F(xiàn)在來(lái)自模型其他部分的消息進(jìn)入C1,它們顯示p1可能為真。類似地,來(lái)自模型其他部分的進(jìn)入C2的消息顯示p2可能為真。C1和C2被確定以具有活動(dòng)值a1和a2,且節(jié)點(diǎn)T是已經(jīng)被觀察的終端。
現(xiàn)在,讓我們看看沿著從(C1→T)到局部模型中C1和T之間的觸發(fā)節(jié)點(diǎn)的鏈接發(fā)送的向上的消息。這個(gè)消息在圖中表示為M。這個(gè)消息能夠把網(wǎng)絡(luò)的概率作為q1的函數(shù)傳輸。網(wǎng)絡(luò)的實(shí)際概率不需要發(fā)送。確實(shí),只需要發(fā)送相對(duì)的概率比值,也就是能夠發(fā)送乘以概率的任何常數(shù)因子,只要這個(gè)因子對(duì)于q1的所有值是相同的。最后,我們準(zhǔn)備檢查向上發(fā)送的消息。
在此網(wǎng)絡(luò)中要考慮4個(gè)概率,每個(gè)概率有它們自己關(guān)于在這個(gè)小網(wǎng)絡(luò)之外發(fā)生什么的概率。第一個(gè)是C1和C2都為真的概率。這發(fā)生的概率是p1p2。如果這樣,T為真(網(wǎng)絡(luò)中唯一余下的證據(jù))的概率等于1-e-a1q1e-a2q2
且因此整個(gè)網(wǎng)絡(luò)概率是p1p2(1-e-a1q1e-a2q2)。
如果C1為真且C2為假,那么這發(fā)生的概率是p1(1-p2)。T為真的概率是1-e-a1q1,且因此整個(gè)網(wǎng)絡(luò)概率便是p1(1-p2)(1-e-a1q1)。
類似地,如果C2為真而C1為假,那么網(wǎng)絡(luò)的概率就是p2(1-p1)(1-e-a2q2)。
并且最后,如果C1和C2都不為真,那么T不可能為真。因此,消息向上發(fā)送給全局節(jié)點(diǎn)(C1→T)的函數(shù)是p1p2(1-e-a1q1e-a2q2)+p1(1-p2)(1-e-a1q1)+p2(1-p1)(1-e-a2q2)雖然這個(gè)函數(shù)看起來(lái)復(fù)雜,但它實(shí)際上非常簡(jiǎn)單??紤]到這個(gè)函數(shù)中為了消息M的唯一變量是q1,所以這個(gè)函數(shù)歸納成以下的形式a+be-a1q1,……其中a是以上所有常數(shù)項(xiàng)的和,b是以上和中的e-a1q1的系數(shù)。注意q2、p1、p2是為了向上發(fā)送消息給節(jié)點(diǎn)(C1→T)的所有考慮的常數(shù)。其實(shí),由于這個(gè)函數(shù)乘以的常數(shù)因子不重要,所以這個(gè)方程可重寫(xiě)為1+ke-a1q1……只留下兩個(gè)數(shù)k和a1來(lái)向上發(fā)送到全局節(jié)點(diǎn)。我們稱這些到全局節(jié)點(diǎn)的向上的消息為鏈接消息。
現(xiàn)在,當(dāng)鏈接的目的地是一個(gè)聚類時(shí),這些向上的消息的函數(shù)形式不會(huì)改變太多。例如,如果T是一個(gè)聚類,那么C1和C2的活動(dòng)值就不重要,而T可能接收來(lái)自其他終端的向上的消息,這些終端指示它是否可能為真。這只是把另一組條件加到了計(jì)算中,因?yàn)槊總€(gè)世界觀點(diǎn)不得不說(shuō)明或者T為假或者T為真,并把以上相加,不是具有4個(gè)不同的部分,而是會(huì)有8個(gè)部分,每個(gè)是C1、C2和T的每個(gè)可能值?,F(xiàn)在通過(guò)發(fā)送向上的消息給觸發(fā)節(jié)點(diǎn)(我們?cè)谶@里沒(méi)有模擬它們),我們的代碼有效避免了指數(shù)地增加,而這是全部考慮T和它的所有聚類父輩節(jié)點(diǎn)會(huì)發(fā)生的,如果T有幾個(gè)父輩節(jié)點(diǎn)的話,這會(huì)是異常昂貴的。
一個(gè)要注意的事情是,雖然我們通過(guò)包括全局節(jié)點(diǎn)的整個(gè)網(wǎng)絡(luò)來(lái)運(yùn)行環(huán)狀信任傳播,但我們不必在鎖定步驟中運(yùn)行環(huán)狀信任傳播的局部迭代和全局迭代。其實(shí),在我們返回在全局節(jié)點(diǎn)上運(yùn)行一步環(huán)狀信任傳播之前,為了收斂它,我們經(jīng)常在每個(gè)局部網(wǎng)絡(luò)上運(yùn)行10次或更多次的環(huán)狀信任傳播的迭代。
鏈接權(quán)重優(yōu)化現(xiàn)在,我們準(zhǔn)備好考慮環(huán)狀信任傳播如何對(duì)待全局節(jié)點(diǎn),也就是,在環(huán)狀信任傳播的每次迭代中,我們的模型如何重新考慮存在性和模型中的每個(gè)鏈接的最佳值。記住,到任何全局節(jié)點(diǎn)的向上的消息是這樣的形式1+ke-a1q1。
現(xiàn)在,為了給這個(gè)變量選擇最可能的權(quán)重值,我們的模型僅僅不得不合并所有這些向上的消息,并為全局選取最佳值。為了方便,讓我們改變一點(diǎn)我們的記號(hào)。節(jié)點(diǎn)接收N個(gè)(1+kiexp(aix))形式的向上的消息,這里我們使用i作為下標(biāo),其取值為從1到N。ki是常數(shù)因子,ai是x的系數(shù),且x是待解變量,這里X表示該變量的可能選擇,而函數(shù)消息使用x的不同值表示各種會(huì)話的概率。
為了選擇最大的非零x,我們僅僅必須尋找最大化所有這些向上的消息之積的x(這些向上的消息也被稱為鏈接消息,因?yàn)樗鼈兊竭_(dá)確定鏈接權(quán)重的全局節(jié)點(diǎn))。這是一維的優(yōu)化問(wèn)題。求解這個(gè)的一個(gè)方法是在一個(gè)范圍中抽樣x。更高效的方法會(huì)注意到當(dāng)一組數(shù)的乘積的對(duì)數(shù)是最優(yōu)時(shí),這個(gè)乘積就是最優(yōu)的。這些數(shù)的乘積的對(duì)數(shù)是它們的對(duì)數(shù)之和。這給我們留下了優(yōu)化Σi=1Nlog(1+kie-aix).]]>現(xiàn)在對(duì)于局部?jī)?yōu)化,我們可以關(guān)于x來(lái)取此函數(shù)的導(dǎo)數(shù),并在該導(dǎo)數(shù)消失的一個(gè)特定范圍(比如說(shuō)0到1)內(nèi)搜索點(diǎn)。這個(gè)搜索能夠通過(guò)二等分或任何數(shù)量的其他技術(shù)來(lái)完成。這個(gè)函數(shù)有時(shí)可以是非單調(diào)的(也就是不總是上升和下降),所以有時(shí)這有多于一個(gè)的局部?jī)?yōu)化,但典型地不總是這樣。
在此作個(gè)小提示,為什么這個(gè)優(yōu)化不產(chǎn)生無(wú)限大或0的最優(yōu)x?函數(shù)1+ke-ax的特性很多取決于k。如果k是正的,那么這個(gè)函數(shù)隨著x的增大而減小。這意味這個(gè)特定的會(huì)話通過(guò)使這個(gè)特定鏈接更大而被損害。典型地,當(dāng)一個(gè)聚類指向另一個(gè)不可能由會(huì)話指示概率的聚類時(shí),這就會(huì)發(fā)生。如果k是負(fù)的,特別是大約為-1,那么這指示一個(gè)充足的理由以具有這個(gè)鏈接。假如,假設(shè)k是-0.99,那么x為0暗示0.01的相對(duì)概率。非常大的X暗示相對(duì)概率為1,因此x為非常大的可能性是它為0的100倍。但是,有時(shí)證明0值是唯一的局部最優(yōu)值。當(dāng)這發(fā)生時(shí),我們的模型把鏈接的所有概率體放在0。
當(dāng)選定了最佳值,此向上的消息隨后便能夠被轉(zhuǎn)換成一個(gè)布爾存在性變量的向上的消息,交替使用X的最佳值和0值。以上概率之積僅僅在X和0處被求值,其關(guān)于鏈接的存在性的先驗(yàn)概率(以上的1/1000或由科爾莫格洛夫復(fù)雜性確定的)被混入。這種混合給我們提供了鏈接的存在性概率。
預(yù)合成和詞典我們的模型處理它理解的詞或復(fù)合詞的一個(gè)有限集,這被稱為詞典。需要一個(gè)預(yù)處理階段來(lái)確定這個(gè)詞典。這個(gè)預(yù)處理階段確定我們的模型能夠處理的重要的詞和復(fù)合詞。大概說(shuō)來(lái),包括在特定的時(shí)間段在用戶會(huì)話中看到的所有詞。復(fù)合詞包含是更加復(fù)雜的。這里兩個(gè)策略是可能的1)更多地包含復(fù)合詞和進(jìn)行運(yùn)行時(shí)合成2)更少包含復(fù)合詞和進(jìn)行靜態(tài)合成。
合成是復(fù)雜的,理由是因?yàn)閺?fù)合詞本身的記號(hào)。如我們以上所討論的,如果一組詞本質(zhì)上是非合成的,比如“new york”,那么它是一個(gè)好的復(fù)合詞。另一組,象“red car(紅色的汽車)”是合成的,因?yàn)樗仁羌t色的(red)又是一輛汽車(car)。發(fā)現(xiàn)這一點(diǎn)的一種方式是,查看用戶會(huì)話的中斷(break)和分裂(split)。我們可以計(jì)算每個(gè)可能的復(fù)合詞被中斷的次數(shù)。這里中斷的復(fù)合詞意指在一個(gè)查詢中用戶給出整個(gè)復(fù)合詞,而在另一個(gè)查詢中,用戶給出這個(gè)復(fù)合詞的一部分。例如,以下會(huì)話對(duì)于red car具有兩個(gè)中斷red carblue caryellow car
分裂是一個(gè)類似的概念,其中復(fù)合詞在任一端被分開(kāi)。對(duì)于兩個(gè)詞的復(fù)合詞,中斷也是分裂,但對(duì)于更長(zhǎng)的復(fù)合詞象“this is the time forall good men”,一個(gè)中斷可以視為在這個(gè)會(huì)話中某個(gè)其他地方的詞“thetime”?,F(xiàn)在,可以合并這個(gè)信息和關(guān)于停頓的可能性的信息,以解釋中斷不是故意而是無(wú)意的可能性,例如,用戶可以看到以下的用戶會(huì)話;new york carsnew magazine……且我們的模型可給出結(jié)論,這是“new york”的中斷。但是,由于“new”是個(gè)相對(duì)頻繁的詞,所以中斷的權(quán)重,或者我們的模型相信它的有效度應(yīng)該由這個(gè)詞的常見(jiàn)度來(lái)加權(quán)。所有這個(gè)消息,復(fù)合詞的頻率,中斷和分裂的頻率,和分裂詞或中斷詞的術(shù)語(yǔ)頻率被用于確定詞典的一組合適的復(fù)合詞。這個(gè)詞典沒(méi)有必要基于我們的會(huì)話,其實(shí)任何文本形式,包括web文檔、書(shū)籍等等能被用于形成合適的復(fù)合詞詞典。
在靜態(tài)合成方法中,我們的模型取詞典中的詞和復(fù)合詞的頻率,并使用它們預(yù)合成文本。假若這樣,使用動(dòng)態(tài)的編程方法解釋每個(gè)序列,動(dòng)態(tài)的編程方法設(shè)法最大化看到來(lái)自詞典的記號(hào)序列的概率。這個(gè)動(dòng)態(tài)的編程方法運(yùn)行穿過(guò)整個(gè)文本塊并最全地解釋目前看到的記號(hào)序列。在每一點(diǎn),如果我們知道序列的最佳解釋,序列相當(dāng)于每個(gè)新詞,那么兩件事之一是可能的(1)要么這個(gè)詞由它自己的詞典符號(hào)解釋,且前面所有其他的詞由它們對(duì)那個(gè)點(diǎn)的最佳解釋來(lái)解釋,或者(2)這個(gè)詞是一個(gè)復(fù)合詞的一部分,這個(gè)復(fù)合詞混合了查詢的最佳解釋,查詢相當(dāng)于許多前面的記號(hào)??梢匝芯窟@兩個(gè)替代,且能夠?yàn)橹钡侥莻€(gè)點(diǎn)的會(huì)話生成最佳解釋。通過(guò)運(yùn)行這個(gè)運(yùn)算,我們看到一組詞中的每個(gè)新詞。
在動(dòng)態(tài)合成情況下,會(huì)話中的證據(jù)被選取為可能的詞解答的或邏輯(OR)上的證據(jù),可能的詞解答出現(xiàn)在會(huì)話內(nèi)的每個(gè)位置。圖12顯示了一個(gè)局部概率網(wǎng)絡(luò)如何能夠在運(yùn)行時(shí)動(dòng)態(tài)處理詞典中的復(fù)合詞。當(dāng)看到僅僅由詞“new york”組成的會(huì)話時(shí),不為詞new、york或者甚至new york計(jì)數(shù)證據(jù)。相反,我們看到在第一個(gè)位置,詞“new”或復(fù)合詞“new york”會(huì)解釋那個(gè)位置。類似地,“york”或“new york”同樣解釋第二個(gè)位置。我們?cè)谏弦还?jié)討論的所有消息調(diào)整到這個(gè)新的合成方法是相當(dāng)容易的。其實(shí),這個(gè)方法的優(yōu)點(diǎn)是能夠基于會(huì)話中的其他詞確定一對(duì)詞是否是復(fù)合詞。
稀疏和初始化盡管以上我們模型的描述大部分假設(shè)任意多的概念,但是這不必是這個(gè)技術(shù)被初始化的方式。其實(shí),我們的模型始于僅僅一個(gè)特定的聚類,即通用聚類U,僅僅為了助記的原因它也被稱為CANADA(注意這和加拿大(Canada)國(guó)家不同)。
環(huán)狀信任傳播是一種迭代方法,所以在它的運(yùn)行中總是有時(shí)間以引入新的可能的聚類,這就是我們的模型所做的。在每次迭代時(shí),我們的模型取許多的用戶會(huì)話,并檢查這些會(huì)話中的詞。如果會(huì)話包括足夠數(shù)量的詞,那么就形成最佳解釋那個(gè)特定會(huì)話的新聚類。這個(gè)新的聚類引入大量可能的模型節(jié)點(diǎn)——這個(gè)新聚類內(nèi)或之外的每個(gè)可能的模型鏈接有一個(gè)節(jié)點(diǎn)。并非所有這些都存儲(chǔ),其實(shí)我們的模型只存儲(chǔ)特定的鏈接,如果鏈接優(yōu)化階段確定它比存在特定閾值的可能性更大,且它的權(quán)重足以比來(lái)自CANADA的鏈接的權(quán)重大的話。這是從模型去除虛假的鏈接,因?yàn)檎缥覀儗⒖吹降模鼈兗群馁M(fèi)存儲(chǔ)資源又耗費(fèi)計(jì)算資源。這種簡(jiǎn)化被稱為“模型稀疏(model sparseness)”。
類似的稀疏被施加到局部網(wǎng)絡(luò)上。即使在開(kāi)始時(shí),具有有500萬(wàn)個(gè)詞和復(fù)合詞的詞典,局部會(huì)話會(huì)特別龐大。實(shí)際上沒(méi)有原因在每個(gè)局部網(wǎng)絡(luò)中包括每個(gè)終端和復(fù)合詞。我們可以匯總觀察到所有詞和復(fù)合詞不在文本中的結(jié)果為假。這是通過(guò)為每個(gè)概念預(yù)計(jì)算它不激發(fā)詞的概率完成的。這能夠在鏈接優(yōu)化階段之后完成(后面更多地介紹我們模型的階段)。這個(gè)預(yù)計(jì)算能夠通過(guò)除去實(shí)際在文本中的詞的影響來(lái)進(jìn)行調(diào)整。也就是,不是附加地確定所有不存在詞的影響,我們?yōu)槊總€(gè)聚類計(jì)算一次它不觸發(fā)詞的概率成本,并減去地除去已經(jīng)在這的詞的影響。
這種“終端稀疏”從每個(gè)局部會(huì)話除去差不多幾個(gè)終端,并用每個(gè)概念的某個(gè)證據(jù)匯總它們,每個(gè)概念以確定的權(quán)重指向“假”布爾節(jié)點(diǎn)(那個(gè)權(quán)重可能由不激活的概率除以其實(shí)際激活會(huì)話中的終端的概率來(lái)確定)。
此外,當(dāng)給全局節(jié)點(diǎn)發(fā)送向上的消息時(shí),所有不存在的終端的影響被匯總。通常,如果聚類C1存在于只有一個(gè)詞T1的會(huì)話中,那么我們需要一個(gè)向上的消息(和上面一樣,k為正的),其關(guān)于網(wǎng)絡(luò)的概率會(huì)為C1和C2、C1和C3、C1和T2、C1和T3等等之間的鏈接減少。這會(huì)有上百萬(wàn)的這些向上的消息。相反,我們用一個(gè)向上的消息匯總這個(gè)。這個(gè)過(guò)程是用于“鏈接消息稀疏”的一組技術(shù)的一部分。讓我們考查這是如何完成的。
在圖13中,我們看到單個(gè)的聚類C,其由網(wǎng)絡(luò)的其余部分確定為真的概率是p。在這個(gè)會(huì)話中,C具有活動(dòng)值a?,F(xiàn)在,沒(méi)有觀察終端T。它通過(guò)“終端稀疏”不包含在這個(gè)會(huì)話中。假設(shè)節(jié)點(diǎn)(C→T)的值是x。向上的消息沿著鏈接從節(jié)點(diǎn)(C→T)到C和T之間的觸發(fā)節(jié)點(diǎn),其傳輸已知x的網(wǎng)絡(luò)概率。現(xiàn)在,T為假的概率大約是P(C為真|其他)*P(T為假|(zhì)C為真)+P(C為假|(zhì)其他)*P(T為假|(zhì)C為真)=pe-ax+(1-p)≌p(1-ax)+1-p=1-pax≌e-pax這里我們假設(shè)鏈接強(qiáng)度x弱,這看上去是合理的,因?yàn)榫垲愒谶@但是詞不在。由于弱的鏈接強(qiáng)度,所以e-ax≌(1-ax)。同樣為了準(zhǔn)確進(jìn)行這個(gè)計(jì)算,我們不得不進(jìn)行調(diào)整,因?yàn)槲覀兂跏加?jì)算C的概率是假設(shè)這個(gè)詞不在這,這個(gè)事實(shí)在這個(gè)特定的向上消息的環(huán)狀信任傳播確定中不得不忽視。我們不這樣做的原因是,忽視這個(gè)事實(shí)使我們能夠僅僅向上發(fā)送一個(gè)數(shù)表示聚類C在這個(gè)文本塊中的存在性。這個(gè)信息——乘積e-pax——然后被分解成具有C作為源的模型節(jié)點(diǎn)上的所有鏈接優(yōu)化計(jì)算,也就是,全局節(jié)點(diǎn)(C→T)使用這個(gè)數(shù)來(lái)估計(jì)它在這個(gè)網(wǎng)絡(luò)概率上的最優(yōu)值的影響。
這里引入的一個(gè)小誤差是,由于這些消息是按聚類發(fā)送的,我們也考慮它們用于聚類和終端的合并,其中終端實(shí)際出現(xiàn)在文本中!例如,在圖13中,C向上發(fā)送的稀疏的鏈接消息可被用于計(jì)算全局節(jié)點(diǎn)(C→T)的最優(yōu)設(shè)置。這是正確的。但它也可用于計(jì)算節(jié)點(diǎn)(C→T2)的最優(yōu)值,這是不正確的,因?yàn)門2實(shí)際出現(xiàn)在文本中。為了調(diào)整這個(gè),T2和C之間的觸發(fā)節(jié)點(diǎn)在它的鏈接消息中包括一個(gè)額外分量。e-pax的這個(gè)調(diào)整沿著通常的鏈接消息被發(fā)送到全局節(jié)點(diǎn)(C→T2)。這抵銷了來(lái)自稀疏的鏈接消息的e-pax且所有的計(jì)算近似正確地完成。
至此,我們已經(jīng)簡(jiǎn)化掉了不在這的終端以及向上來(lái)自它們的觸發(fā)節(jié)點(diǎn)的鏈接消息。在大型模型中,仍然可能有上百萬(wàn)的聚類節(jié)點(diǎn)在每個(gè)局部網(wǎng)絡(luò)中處理。為了簡(jiǎn)化這個(gè),我們進(jìn)行快速的近似計(jì)算,它使我們能確定哪些聚類有可能以任何概率存在于會(huì)話中。結(jié)果是,為了學(xué)習(xí)所需的全局消息,一旦解釋了通用的稀疏鏈接消息,結(jié)果不可能的聚類對(duì)全局節(jié)點(diǎn)幾乎沒(méi)影響。因此,允許我們的模型僅僅不考慮大量的聚類的快速計(jì)算會(huì)格外有利。
我們的模型運(yùn)行一個(gè)稱為“父輩節(jié)點(diǎn)選取”的例程來(lái)確定在局部網(wǎng)絡(luò)內(nèi)其實(shí)考慮哪些聚類。這個(gè)例程使用幾種類型的信息(1)聚類的先驗(yàn)可能性,其能夠從它在所有其他會(huì)話中的概率估計(jì)(2)會(huì)話中的詞,其為指向它們的聚類生成可能性(3)從具有高概率的聚類鏈接的詞(4)全局節(jié)點(diǎn)的結(jié)構(gòu)。我們?cè)诤竺鏁?huì)回到這個(gè)例程并考查它,但現(xiàn)在要注意在小文本塊上運(yùn)行這個(gè)例程后,它典型地減少由大的因子檢查的聚類數(shù)量。在一個(gè)具有過(guò)百萬(wàn)概念的大型模型中,且在由單個(gè)詞“office”組成的會(huì)話上運(yùn)行,我們的模型以僅僅考慮過(guò)百萬(wàn)聚類中的12個(gè)聚類結(jié)束。這個(gè)“聚類稀疏”也極大減少了分析會(huì)話所需的工作量。
注意,不僅僅為當(dāng)前迭代中已經(jīng)以高概率存在的鏈接發(fā)送向上的消息。我們模型的一個(gè)實(shí)施例需要把也和概念相關(guān)的向上的消息發(fā)送到新的詞,其實(shí)這就是新詞如何變成從概念鏈接的。例如研究聚類C的初始配置是查詢會(huì)話californiapalo altoberkeley現(xiàn)在由于我們正在一個(gè)新的局部網(wǎng)絡(luò)上訓(xùn)練,所以我們觀察這個(gè)會(huì)話californiapalo altosan francisco圖14顯示了這樣的一個(gè)網(wǎng)絡(luò)的可能形式(這里我們?yōu)榱嗣烙^除去了觸發(fā)節(jié)點(diǎn))。我們的新聚類C在這個(gè)會(huì)話中既指向california又指向berkeley。注意使用終端稀疏,所有其他終端不被顯式考慮,使用聚類稀疏是類似的。同樣,由于不在低概率的模型鏈接中存儲(chǔ),所以C和San Francisco之間沒(méi)有顯式的鏈接(這是它們之間是虛線的原因)。還要注意因?yàn)槟P拖∈?,所以全局?jié)點(diǎn)(C→San Francisco)也不顯式存在?,F(xiàn)在,如果確定C在會(huì)話中是可能的,那么發(fā)送向上的消息給不存在的節(jié)點(diǎn)(C→San Francisco)是有利的。當(dāng)我們的模型接收這個(gè)消息時(shí),它計(jì)算(C→San Francisco)鏈接的最佳值,且如果這個(gè)鏈接足夠重要(它存在且具有足夠高的最佳值),那么(C→San Francisco)節(jié)點(diǎn)被加到全局模型。這正是全局模型如何發(fā)展從聚類到終端的新鏈接的。但是,一個(gè)能完成的優(yōu)化是,如果在局部地運(yùn)行環(huán)狀信任傳播后,聚類具有足夠高的概率,那么只向上發(fā)送這些新節(jié)點(diǎn)鏈接消息。
這些稀疏技術(shù)的效果是相當(dāng)重要的。它們的本質(zhì)是把多個(gè)消息組成摘要消息,以及能基本上被忽略的實(shí)際不存在消息的稀疏表示。
模型存儲(chǔ)和壓縮至此,我們已經(jīng)圍繞我們模型的說(shuō)明以及用于使我們的模型實(shí)用的某些稀疏技術(shù)查看了許多理論細(xì)節(jié)。這一節(jié)講述我們模型的執(zhí)行,也就是在以上的理論模型上執(zhí)行的一組準(zhǔn)確的步驟和過(guò)程。但是在這個(gè)會(huì)話里仍然有重要的理論介紹,因?yàn)橹挥胁榭次覀兡P偷膶?shí)際運(yùn)行,某些瞬變的效果才是可解釋的。
我們的模型能夠在分開(kāi)的計(jì)算單元上并行運(yùn)行,這些計(jì)算單元使用共享的文件系統(tǒng)或網(wǎng)絡(luò)交換數(shù)據(jù)。在其操作中的一個(gè)階段被說(shuō)成是“分割的”,如果它能夠被分解以使這個(gè)并行可能的話。同樣地?cái)?shù)據(jù)可被說(shuō)成是“分割的”(例如,我們經(jīng)常說(shuō)一個(gè)文件由標(biāo)識(shí)符(id)分割,這意味著它被分成N塊,且具有某個(gè)標(biāo)識(shí)符的數(shù)據(jù)被放在id取模N的塊中)。
存儲(chǔ)的分量首先,我們從講述消息的分量開(kāi)始,為了使它能夠?qū)W習(xí),我們的模型能夠從一次迭代到下一次迭代存儲(chǔ)這些信息分量。
用戶會(huì)話作為一個(gè)或多個(gè)文件存儲(chǔ)在文件系統(tǒng)中。它們的格式是這樣的詞典查找已經(jīng)把每個(gè)識(shí)別的詞變換成一個(gè)獨(dú)特的整數(shù),這個(gè)整數(shù)是它的terminal_id。詞典允許terminal_id從文本的字符串到小的標(biāo)識(shí)符(id)之間來(lái)回變換。使用標(biāo)識(shí)符的一個(gè)好處是它們被放在小的密集空間中,所以常常能夠簡(jiǎn)化被用于操作它們的數(shù)據(jù)結(jié)構(gòu)。
詞典被存儲(chǔ)在一種格式中,這種格式使得能夠容易地變換terminal_id到終端,以及反向變換。每個(gè)終端具有一個(gè)獨(dú)特的terminal_id。
我們的模型能夠和所有相關(guān)的鏈接關(guān)系一起存儲(chǔ),它們是從聚類到終端,或從終端到聚類。每個(gè)鏈接的源被稱為父輩節(jié)點(diǎn),且目的地被稱為子節(jié)點(diǎn)。在父輩節(jié)點(diǎn)和子節(jié)點(diǎn)之間的每個(gè)鏈接能夠被存儲(chǔ)。在我們的模型中,這個(gè)信息被存儲(chǔ)在倒排索引中,由child_id分割。當(dāng)創(chuàng)建每個(gè)聚類時(shí),特定它自己的cluster_id。這個(gè)標(biāo)識(shí)符可存在于和terminal_id相同的空間中。這個(gè)倒排索引為每個(gè)子節(jié)點(diǎn)存儲(chǔ)該子節(jié)點(diǎn)的父輩節(jié)點(diǎn)列表,以及它們的存在性概率和它們的權(quán)重。為了減少索引在存儲(chǔ)器中占用的空間,所有這些信息是使用壓縮技術(shù)比如賴斯編碼技術(shù),被比特編碼的。
一種特殊的優(yōu)化是在兩倍大小的區(qū)塊中存儲(chǔ)倒排的索引數(shù)據(jù),其中在每個(gè)塊內(nèi),為了壓縮,父輩節(jié)點(diǎn)以標(biāo)識(shí)符順序存儲(chǔ)。然后能夠選擇塊間順序來(lái)強(qiáng)調(diào)為了目標(biāo)第一重要鏈接。這個(gè)數(shù)據(jù)結(jié)構(gòu)的優(yōu)點(diǎn)是進(jìn)入終端或聚類的最重要的鏈接能夠被檢索而無(wú)需瀏覽整個(gè)索引條目。這當(dāng)然能夠僅僅通過(guò)按重要性排序來(lái)完成。第二個(gè)優(yōu)點(diǎn)是大部分索引條目是按標(biāo)識(shí)符存儲(chǔ)的,使得它比按重要性的簡(jiǎn)單排序更加緊湊。
這個(gè)模型也可以以相反的順序存儲(chǔ),既父輩節(jié)點(diǎn)具有子節(jié)點(diǎn)的列表。這可被用于調(diào)試信息。這個(gè)模型也可被分成獨(dú)立的索引和數(shù)據(jù)結(jié)構(gòu),其中這里的索引是文件中的指針?biāo)饕?,所以能夠發(fā)現(xiàn)聚類或終端的父輩節(jié)點(diǎn)(或子節(jié)點(diǎn))具有兩個(gè)文件入口。
為了給下一次迭代重做鏈接優(yōu)化和為了父輩節(jié)點(diǎn)選取,我們的模型保存各種消息塊,比如(1)不給出關(guān)于會(huì)話的其他信息的每個(gè)聚類的概率,這近似為在環(huán)狀信任傳播的上次迭代中那個(gè)聚類的頻率(2)總的活動(dòng)值乘以每個(gè)聚類的概率。這被用于鏈接優(yōu)化中的虛擬鏈接消息。這個(gè)信息有時(shí)被稱為1階(order one)信息或模型,因?yàn)樗蔷垲愂欠翊嬖谝约捌漕A(yù)計(jì)的活動(dòng)值乘以概率的1階(沒(méi)有考慮相關(guān)性)模型。
這個(gè)模型也能夠?yàn)樗芯垲惔鎯?chǔ)所有的外鏈接之和。這里外鏈接是從一個(gè)聚類到另一個(gè)聚類的鏈接。這通過(guò)乘以鏈接的當(dāng)前存在性值乘以它的權(quán)重來(lái)相加。這個(gè)模型也能夠存儲(chǔ)所有它的激活的外鏈接之和。這是從聚類到終端的鏈接之和。需要這兩塊信息來(lái)計(jì)算如何調(diào)整聚類的概率以響應(yīng)只隱含考慮的它的某些子終端或聚類——例如當(dāng)使用聚類或終端稀疏時(shí)。這個(gè)數(shù)據(jù)也由cluster_id分割。
這個(gè)模型可選擇地在一個(gè)文件中存儲(chǔ)一聚類名稱列表。典型地通過(guò)在聚類中選擇幾個(gè)更突出的終端,并鏈接它們來(lái)決定這些名稱。這很大程度上是用于合成的助記手段。但是,通過(guò)終端,它也能被用于識(shí)別我們模型中的當(dāng)前聚類,我們的模型響應(yīng)特殊的信息需要。例如,一組色情的詞可被用于識(shí)別色情的聚類,這些色情的聚類然后可以容易地和我們的模型一起使用,以對(duì)于孩子形成一種安全搜索。
在下一次迭代的處理中,向上的鏈接信息被臨時(shí)存儲(chǔ)。這些消息由父輩節(jié)點(diǎn)和子節(jié)點(diǎn)標(biāo)識(shí)符的組合分割。
以上講述我們的模型在運(yùn)行時(shí)的數(shù)據(jù)要求,下一節(jié)詳述在運(yùn)行我們的模型時(shí)的不同步驟。
(1)過(guò)程會(huì)話首先,我們的模型是基本上被裝入存儲(chǔ)器中的,為的是節(jié)省文件系統(tǒng)存取。其次,我們的模型從文件系統(tǒng)讀取訓(xùn)練會(huì)話。它使用上述的稀疏原理形成那些會(huì)話的局部網(wǎng)絡(luò)。它然后在局部會(huì)話上運(yùn)行推理(loopy,環(huán)狀信任傳播),因?yàn)橐竽菢幼鲆詻Q定各種聚類的概率,這對(duì)于抽取鏈接消息是重要的(如上詳述的)。
在運(yùn)行推理之后,我們的模型從那些會(huì)話中抽取向上的鏈接消息,并存儲(chǔ)那些由消息的(source_id,targer_id)分割的消息。它還從會(huì)話中抽取“節(jié)點(diǎn)消息”。這些節(jié)點(diǎn)消息包含聚類和終端的當(dāng)前概率和活動(dòng)值(終端的活動(dòng)值總是1)。這個(gè)信息被存儲(chǔ)到由標(biāo)識(shí)符分割的文件系統(tǒng),以由后面的階段處理。注意,現(xiàn)在每個(gè)聚類的這個(gè)消息正是調(diào)整“鏈接消息稀疏”的效果所需的,也就是,在圖13的用法中,它準(zhǔn)確地包括在具有源C的任何全局節(jié)點(diǎn)重建e-pax消息所必需的“a”和“p”。
在這一階段期間,我們的模型還決定其能夠基于其哪一個(gè)會(huì)話產(chǎn)生新的聚類。對(duì)于每個(gè)這些會(huì)話,我們的模型創(chuàng)建記錄類似的終端和聚類的“新的聚類消息”。新的聚類打算指向終端且被包含的聚類指向。這些“新的聚類消息”被存儲(chǔ)在由標(biāo)識(shí)符分割的文件系統(tǒng)中,用于“處理新的聚類”階段來(lái)處理。
這個(gè)階段由會(huì)話分割。這意味著輸入能夠被分成許多塊(碎片),且每個(gè)處理單元能夠只處理一組特定的會(huì)話。注意,輸入的碎片(通過(guò)會(huì)話分開(kāi))不同于輸出的碎片。例如考慮如果有N個(gè)輸入會(huì)話碎片,和節(jié)點(diǎn)消息的M個(gè)輸出節(jié)點(diǎn)碎片(由cluster_id分割)以及L個(gè)鏈接消息的輸出碎片(由targer_id,source_id分割)。那么這個(gè)階段的輸出是MN個(gè)節(jié)點(diǎn)消息文件,其由會(huì)話碎片和聚類標(biāo)識(shí)符碎片分割。這個(gè)數(shù)據(jù)然后被合并到一起N種方法,以產(chǎn)生M個(gè)聚類標(biāo)識(shí)符碎片。鏈接碎片也發(fā)生類似的過(guò)程。通常,當(dāng)一個(gè)階段被不同于其輸出的不同方法分割,其部分文件被合并以獲得一個(gè)結(jié)果,該結(jié)果由下一個(gè)階段所預(yù)計(jì)的東西分割。
作為一個(gè)例子,取一個(gè)過(guò)程它按星期中的各天來(lái)接收用戶的數(shù)據(jù),但是產(chǎn)生由用戶名的第一個(gè)字母分割的數(shù)據(jù)。它的輸入是7個(gè)文件,星期一、星期二、星期三、星期四、星期五、星期六和星期日各一個(gè)。其最終的輸出是26個(gè)文件,字母表的每個(gè)字母一個(gè)。但是,首先,每個(gè)7個(gè)過(guò)程產(chǎn)生它自己的26個(gè)文件,導(dǎo)致182個(gè)文件。例如這有“Monday-a”文件、“Monday-b”文件(等等……)、“Tuesday-a”(等等)?,F(xiàn)在,所有7個(gè)“a”文件被合并成一個(gè)“a”文件,且字母表的所有其他字母是類似的,直到只有26個(gè)文件。
這個(gè)“叉積合并”是處理以不同于輸出分割的輸入的一個(gè)方法。它是并行生成數(shù)據(jù)的一個(gè)非常高效的方法。一個(gè)替代是僅僅使用文件系統(tǒng)并同時(shí)把所有的數(shù)據(jù)追加到輸出碎片。當(dāng)追加大量的數(shù)據(jù),且源分割是巨大的時(shí),這個(gè)方法趨向于更慢。
(2)計(jì)算O1這里,聚類的概率和及活動(dòng)值乘以聚類概率的和被確定。這個(gè)信息僅僅是在處理會(huì)話階段產(chǎn)生的“節(jié)點(diǎn)消息”的總結(jié)。這個(gè)信息也被存儲(chǔ)到文件系統(tǒng),作為一組由標(biāo)識(shí)符分割的新的“匯總的節(jié)點(diǎn)消息”,并且它是我們模型的一部分。這個(gè)信息被稱為1階模型。
這個(gè)階段由節(jié)點(diǎn)標(biāo)識(shí)符分割(這里節(jié)點(diǎn)可以是終端或聚類)。這意味著每個(gè)處理單元負(fù)責(zé)為僅僅一部分?jǐn)?shù)據(jù)計(jì)算1階模型,這個(gè)1階模型實(shí)際是接收其輸出數(shù)據(jù)的部分,所以不需要相互的產(chǎn)品合并。
(3)處理新的聚類這個(gè)階段取新的聚類消息,并且確定這些新的聚類如何適應(yīng)我們的模型。這個(gè)決定被延遲到這個(gè)時(shí)間,因?yàn)樗枰贠l階段中計(jì)算的信息。這是因?yàn)橹匾膭?dòng)態(tài)理論原因。當(dāng)引入一個(gè)新的聚類時(shí),可以決定到它那里的所有鏈接的可能性和最佳值。典型地,從CANADA以及“新的聚類消息”中的其他鏈接來(lái)鏈接這樣的聚類,新的聚類消息是其基礎(chǔ)(based off of)。
如果新的聚類被特定太牢固的鏈接(高權(quán)重和可能性),那么它會(huì)立即取代來(lái)自存在的好聚類的詞,而無(wú)需學(xué)習(xí)新的概念。這是因?yàn)樗鼍垲愡€沒(méi)有指向適當(dāng)相關(guān)的一組終端。如果新的聚類被特定太不牢固的鏈接,那么它不足以重要到在任何會(huì)話中制造差別,且它不會(huì)接收足夠牢固的鏈接消息,且它也會(huì)失敗。這里失敗意味著它接收的鏈接消息除去了來(lái)自/到它的鏈接和模型的其余部分。
為了決定這些鏈接應(yīng)多么強(qiáng),我們考慮其每個(gè)潛在的父輩節(jié)點(diǎn)將激發(fā)的概率。這正是以上計(jì)算的1階模型中給出的信息。為了明智地做出這個(gè)決定,我們平衡鏈接可能性和權(quán)重,以預(yù)期在下一次迭代中這個(gè)聚類的預(yù)計(jì)出現(xiàn)的一個(gè)小的數(shù)M(通常是100)。
這個(gè)階段的輸出是一組“入口消息”。入口消息本質(zhì)上是在模型的倒排索引信息中存在的東西。入口包括關(guān)于源、目標(biāo)、存在的可能性和最佳值的信息。這個(gè)信息由目標(biāo)標(biāo)識(shí)符分割。
這個(gè)階段由新聚類的聚類標(biāo)識(shí)符分割。也就是,每個(gè)處理單元為僅僅某些新聚類標(biāo)識(shí)符產(chǎn)生入口消息。注意,由于不同的處理單元可能正在產(chǎn)生目標(biāo)(通過(guò)目標(biāo)標(biāo)識(shí)符)是相同的碎片的數(shù)據(jù),所以它們不得不使用文件系統(tǒng)異步地追加它們的數(shù)據(jù)到某些相同的文件。這里也可以使用相互的產(chǎn)品合并,但是數(shù)據(jù)的數(shù)量相當(dāng)小,所以數(shù)據(jù)只是在文件系統(tǒng)級(jí)被立即合并。
(4)優(yōu)化鏈接這個(gè)階段接收來(lái)自處理會(huì)話階段的所有鏈接消息,和所有匯總的節(jié)點(diǎn)消息,并以以上在鏈接優(yōu)化小節(jié)中描述的方式優(yōu)化鏈接的可能性和概率。它的輸出再次是由目標(biāo)標(biāo)識(shí)符分割的一組“入口消息”。
這個(gè)階段由源標(biāo)識(shí)符和目標(biāo)標(biāo)識(shí)符的組合分割。也就是,每個(gè)處理單元只負(fù)責(zé)那些落入其分割空間內(nèi)的鏈接。這個(gè)結(jié)果的數(shù)據(jù)是相當(dāng)小的,并且不需要經(jīng)過(guò)相互的產(chǎn)品合并,它可以從所有的源被并行地追加到一組文件。
(5)構(gòu)建父輩索引這個(gè)階段取所有的入口消息,并且為了一個(gè)特定的目標(biāo)把它們放在一起。這個(gè)階段還限制指向一個(gè)特定目標(biāo)的源數(shù)量為一固定的數(shù)N。N的典型值為大約100。到達(dá)到那個(gè)目標(biāo)的點(diǎn)的N個(gè)源對(duì)于那個(gè)目標(biāo)是最重要的。這里重要性是由源的o1值、沿著那個(gè)鏈接的鏈接權(quán)重和鏈接可能性的乘積確定的。為了效率的原因,完成這個(gè)簡(jiǎn)化以使指向特定節(jié)點(diǎn)的父輩節(jié)點(diǎn)數(shù)量少。這是另外一種可伸縮性技術(shù),我們將其稱為“行稀疏”。
這個(gè)階段的輸出是以上描述的模型文件的倒排索引的特定分割。這個(gè)輸出是由目標(biāo)標(biāo)識(shí)符分割的,和輸入的方式相同。這整個(gè)階段也是由目標(biāo)標(biāo)識(shí)符分割的。
(5)構(gòu)建子索引這個(gè)階段倒置父輩索引數(shù)據(jù)以構(gòu)建子索引。它的輸入由鏈接的目標(biāo)分割,它的輸出相反由源分割。每個(gè)處理單元并行追加許多的結(jié)果文件。
以上描述了運(yùn)行環(huán)狀信任傳播的一次迭代以重新定義模型的步驟。這個(gè)過(guò)程有必要重復(fù)以獲得更好的模型。
重新編號(hào)有一個(gè)被稱為“重新編號(hào)”的特殊步驟,其每隔幾次迭代出現(xiàn)一次。記住聚類C1可以鏈接到聚類C2,但相反則不行。一般,當(dāng)且僅當(dāng)i小于j時(shí),id=i的聚類可以鏈接到id=j(luò)的聚類。為了學(xué)習(xí)特殊和普通關(guān)系,理想的是較大的聚類鏈接到較小的聚類。由于概念通常具有比普通性更多的特殊性,所以把較大的聚類較早地放在標(biāo)識(shí)符空間中是有意義的。遺憾的是這不一定是它們被學(xué)習(xí)的順序。由于這個(gè)原因,我們有時(shí)(每隔幾次迭代)重新編號(hào)所有的聚類。
將聚類重新編號(hào),意味著改變幾乎所有鏈接上的鏈接權(quán)重和可能性。這發(fā)生的方式如下。假如聚類A以權(quán)重w指向聚類B。此外,假設(shè)A和B的和概率分別是p1和p2(這是o1模型的分量之一)。現(xiàn)在,我們預(yù)計(jì)A在大約會(huì)話的小部分p1中出現(xiàn),B在會(huì)話的小部分p2中出現(xiàn),且A和B在會(huì)話的小部分(p2w)中出現(xiàn)。當(dāng)然這些數(shù)都是近似。使B指向A的一個(gè)合理方法是保持預(yù)計(jì)的接合事件相同的編號(hào)。這是用滿足以下的新鏈接w’實(shí)現(xiàn)的w’p2=w p1或者w’=w p1/p2為了做到這一點(diǎn),一個(gè)特殊的模型被轉(zhuǎn)換成“入口消息”,模型的1階部分被裝入存儲(chǔ)器(它們是p1和p2分量所要求的),并發(fā)生這個(gè)轉(zhuǎn)換。該轉(zhuǎn)換的輸出是一組入口消息,其然后被送入常規(guī)操作的“構(gòu)建父輩索引”階段。
父輩節(jié)點(diǎn)的選取(選擇候選聚類)當(dāng)分析會(huì)話時(shí),本發(fā)明的一個(gè)實(shí)施例不包括我們求解的局部信任網(wǎng)絡(luò)中的所有數(shù)千的聚類。我們首先確定哪些聚類極小地可能是活動(dòng)的,并假設(shè)其余的是關(guān)閉的。我們稱我們考慮的聚類是“候選聚類”。為了確定哪些聚類是候選的,我們保存一個(gè)待評(píng)估的聚類的優(yōu)先隊(duì)列,使得以模型中高度的遞增順序評(píng)估它們(減少聚類標(biāo)識(shí)符,增加通用性)。我們把會(huì)話的終端的所有父輩節(jié)點(diǎn)增加到那個(gè)隊(duì)列。然后我們開(kāi)始從該隊(duì)列彈出聚類并評(píng)估它們。對(duì)于已知的聚類C1,我們構(gòu)造了如圖15.1顯示的信任網(wǎng)絡(luò)。我們包括C1和會(huì)話中鏈接到C1的所有終端。我們加權(quán)這些節(jié)點(diǎn)之間的鏈接,就好象C1具有等于某個(gè)常數(shù)的活動(dòng)值(我們使用3.0)。我們把一個(gè)鏈接加到不知道來(lái)自何處的終端,權(quán)重等于該終端的o1模型乘以會(huì)話中的詞數(shù)量。這個(gè)鏈接大約匯總了由其他方面導(dǎo)致該終端的可能性。我們把不知是來(lái)自何處的鏈接加入C1中,權(quán)重等于C1的o1模型。我們?nèi)缓笄蠼膺@個(gè)網(wǎng)絡(luò)以得到C1上的概率。由于這個(gè)網(wǎng)絡(luò)是樹(shù),所以我們可以快速求解它。如果該網(wǎng)絡(luò)中C1的概率超出某個(gè)閾值(我們使用0.05),那么我們決定C1是候選聚類。在這個(gè)例子中,我們把C1的所有父輩節(jié)點(diǎn)加到待評(píng)估的聚類隊(duì)列。
在我們正在評(píng)估一個(gè)聚類C2時(shí),C2具有另一個(gè)子聚類C1,而我們已經(jīng)使C1為候選聚類,我們希望在我們?yōu)镃2創(chuàng)建的網(wǎng)絡(luò)中包括我們?yōu)镃1創(chuàng)建的網(wǎng)絡(luò),以在C2上增加合適的額外證據(jù)。這種包括中的危險(xiǎn)是它將在網(wǎng)絡(luò)中建立回路。因此我們只把終端和聚類子節(jié)點(diǎn)加到C2的網(wǎng)絡(luò),以使終端和對(duì)應(yīng)于聚類的子網(wǎng)絡(luò)都是分離的。在選擇包括哪些時(shí),我們渴望以將被發(fā)送到C2的消息的強(qiáng)度順序來(lái)選擇。例如,如果聚類C2鏈接到會(huì)話中的終端“灰色”和“老鼠”以及聚類C1,我們可以構(gòu)造象圖15.2A中的包括C1的網(wǎng)絡(luò),或者象圖15.2B中的包括從C2到“灰色”的鏈接的網(wǎng)絡(luò)。我們可以根據(jù)那個(gè)消息更強(qiáng)來(lái)選擇構(gòu)造哪一個(gè),從C1到C2的那個(gè)網(wǎng)絡(luò)或者從“灰色”到C2的那個(gè)網(wǎng)絡(luò)。
在實(shí)踐中,不需要構(gòu)造對(duì)應(yīng)于這些網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)。當(dāng)我們使C1是候選聚類,并且我們正在把它的父輩節(jié)點(diǎn)C2加到待評(píng)估的聚類隊(duì)列時(shí),我們也可以增加一條消息,其指定如果C1包括在C2的網(wǎng)絡(luò)中的話,從C1傳到C2的消息以及發(fā)源于C1的樹(shù)中的那組節(jié)點(diǎn)(為了避免和C2的網(wǎng)絡(luò)的其他元素相交)。當(dāng)把會(huì)話中的終端的父輩節(jié)點(diǎn)加到隊(duì)列時(shí),也加上類似的消息??梢愿鶕?jù)這些消息計(jì)算所有的這些計(jì)算。
微分的文本源調(diào)整技術(shù)我們一直在查詢會(huì)話的上下文中討論我們的模型。但是,如在本公開(kāi)文本的開(kāi)始指出的,我們的模型能夠在任何文本源上運(yùn)行,比如web文檔。我們已經(jīng)開(kāi)發(fā)的一種有趣技術(shù)是在數(shù)據(jù)源之一上訓(xùn)練我們的模型,而在另一個(gè)源上應(yīng)用它。
例如,我們能夠在用戶查詢上訓(xùn)練我們的模型,但應(yīng)用已訓(xùn)練的模型預(yù)測(cè)網(wǎng)頁(yè)中各種聚類的存在性概率。有時(shí)這是成問(wèn)題的,因?yàn)槟承┰~比如動(dòng)詞,其在文檔中的數(shù)量遠(yuǎn)遠(yuǎn)多于在用戶查詢中的數(shù)量,用戶查詢傾向于具有更多的名詞。遺憾的是,在查詢中,許多動(dòng)詞出現(xiàn)在歌詞中,且查詢訓(xùn)練的模型經(jīng)常會(huì)識(shí)別大多數(shù)文檔是部分關(guān)于歌詞的!對(duì)這種情況的一個(gè)補(bǔ)救是改變從CANADA到所有終端的鏈接權(quán)重以反映在候選語(yǔ)言中它們的概率(也就是網(wǎng)頁(yè)的語(yǔ)言)。因?yàn)閬?lái)自CANADA的對(duì)終端的解釋本質(zhì)上是一個(gè)陳述,即不存在從那個(gè)終端發(fā)源的良好定義的概念,這在某種程度上終止了低估那些詞的影響。這經(jīng)常導(dǎo)致用于比較查詢和網(wǎng)頁(yè)中的概念的更好的概念引擎。
另一個(gè)能夠應(yīng)用的小補(bǔ)救涉及獨(dú)立性假設(shè),在訓(xùn)練文本時(shí)具有這些獨(dú)立性技術(shù)是有益的。大量的網(wǎng)頁(yè)是彼此的拷貝,被剪切和粘貼進(jìn)不同的網(wǎng)絡(luò)服務(wù)器。在所有這些網(wǎng)頁(yè)上訓(xùn)練我們的模型有一點(diǎn)浪費(fèi),因?yàn)樗K止了學(xué)習(xí)完全重復(fù)的拷貝,這些拷貝背后沒(méi)有任何隱含的含義。為了減輕這個(gè)問(wèn)題,可以從大的文檔集除去所有重復(fù)的一連串N個(gè)或更多詞(N典型地是大約為10)。這可以通過(guò)“指紋”識(shí)別N個(gè)詞的所有序列,排序這些指紋以把它們分組,然后在訓(xùn)練文本上反復(fù)迭代,除去在被看到多次的10個(gè)詞運(yùn)行的開(kāi)始的詞。當(dāng)在網(wǎng)頁(yè)上訓(xùn)練時(shí),我們的模型已經(jīng)應(yīng)用了這個(gè)技術(shù)。
演示在這一點(diǎn)上,讓我們看看來(lái)自圖16中的我們模型的某些輸出。我們看看在“Model of 1378939 clusters(1378939個(gè)聚類的模型)”這行之下的信息。數(shù)據(jù)是以兩列的格式。左邊這列報(bào)告聚類的o1模型,也就是在我們模型的最后一次迭代中的所有會(huì)話中的它的存在性概率之和。右邊這列是聚類的當(dāng)前名字。由于CANADA(通用節(jié)點(diǎn))存在于所有會(huì)話中,所以數(shù)字595417600也是這個(gè)模型被訓(xùn)練的用戶會(huì)話的數(shù)量。
讓我們看看下一個(gè)聚類。它被標(biāo)識(shí)為[john david mark paul michaelscott]。這是一聚類姓。后面的聚類[free sex porn pics movies xxx](免費(fèi)色情圖片電影xxx)是一聚類色情詞。后面的聚類[uk england Londonin-the-uk ltd friends-reunited]集中關(guān)于英國(guó)的內(nèi)容。一個(gè)快速提示是雖然這個(gè)模型是在一組英語(yǔ)的查詢上運(yùn)行的,但是我們的模型在語(yǔ)言方面是不受限制的,可以容易地構(gòu)建任何其他語(yǔ)言的類似模型。下一個(gè)聚類是[pictures of picture photos pics images](圖片照片圖像)。注意這個(gè)聚類是有趣的,因?yàn)樗瓷先ケ辉S多在網(wǎng)上尋找圖片的方式中的某些標(biāo)識(shí)。其實(shí),這正是我們的模型打算做的,通過(guò)主題來(lái)集合詞。
大約有130萬(wàn)個(gè)這類主題。圖16只顯示了幾個(gè)(最大的)?,F(xiàn)在,讓我們仔細(xì)看看其中一個(gè)聚類。計(jì)數(shù)為6408187的一個(gè)聚類被標(biāo)識(shí)為[jobs job employment in job-search careers](工作職業(yè)工作-搜索職業(yè))。已和我們的模型一起提供了一個(gè)HTML界面,并且選擇那個(gè)聚類就引出關(guān)于該聚類的更多詳細(xì)信息。這個(gè)更詳細(xì)的信息在圖17中。我們將首先查看在水平線之下的信息(稍后我們會(huì)回到搜索框)。
這里有三個(gè)主要的部分,一個(gè)標(biāo)識(shí)為PARENTS(父輩節(jié)點(diǎn)),一個(gè)標(biāo)識(shí)為CHILDREN(子節(jié)點(diǎn))且一個(gè)以“ID 4737501”開(kāi)始。PARENTS和CHILDREN部分列出和這個(gè)聚類相關(guān)的其他聚類。左邊的列列出預(yù)計(jì)父輩節(jié)點(diǎn)觸發(fā)這個(gè)特定聚類的次數(shù)或者是子節(jié)點(diǎn)被這個(gè)特定聚類觸發(fā)的次數(shù)。這里父輩節(jié)點(diǎn)信息是稀疏的,只有CANADA是這個(gè)聚類的父輩節(jié)點(diǎn),且這是因?yàn)楣ぷ?jobs)的概念是如此龐大以至于重新編號(hào)快速地移動(dòng)它,使它成為許多其他概念的父輩節(jié)點(diǎn)。
現(xiàn)在讓我們看看子節(jié)點(diǎn)信息。注意最經(jīng)常被觸發(fā)的子節(jié)點(diǎn)是在列表的底部。預(yù)計(jì)子概念[in jobs for India it bangalore](印度的工作它炸藥桶)從這個(gè)工作聚類被觸發(fā)378070次。這個(gè)子聚類是在印度搜索工作的人!下一個(gè)子聚類是[programs degree program education onlinemaster](程序?qū)W位程序教育在線碩士)是談?wù)摻逃摹_@意味著人們談?wù)摴ぷ鲿r(shí),他們常常談?wù)摻逃∠乱粋€(gè)子聚類是關(guān)于[salary salariesaverage salary-survey wages pay](薪水平均薪水調(diào)查工資報(bào)酬)薪水的!等等……我們的模型包含有趣的關(guān)于世界的信息量,因?yàn)樗_定工作常常是與教育、薪水和報(bào)酬相關(guān)的。在子聚類之后的數(shù)字,例如(0.0608101,inf)是處理兩個(gè)聚類之間的鏈接的最佳值的一對(duì)數(shù),以及在鏈接的存在性內(nèi)的logodds信任,它在這個(gè)例子中是無(wú)限的,所以根據(jù)我們的模型這個(gè)鏈接以1.0的概率在這里。
現(xiàn)在讓我們看看始于ID 4737501的信息。這意味著這個(gè)工作聚類的標(biāo)識(shí)符是4737501。它的“Total Firing6408187.000000”(總的激發(fā)6408187.000000)意味著這個(gè)聚類(o1)的存在性的總和概率在我們模型的最后一次迭代中是6408187倍。激發(fā)有時(shí)被用作概率的同義詞或者概率和的同義詞。它的“Total Activation11139140.000000”(總的活動(dòng)值)是,在最后一次迭代中聚類的活動(dòng)值之和乘以它在所有會(huì)話中的概率的1階項(xiàng)(它實(shí)際應(yīng)當(dāng)被稱為總的活動(dòng)值乘以概率,但是那個(gè)名稱使用不便)。它的“Outlink Sum0.848506”(外鏈接和0.848506)指的是,權(quán)重之和乘以它到聚類的鏈接的可能性是0.848506。它的“Activated Outlink Sum0.521899”(激活的外鏈接和0.521899)指的是,它的權(quán)重和乘以到終端的可能性是0.521899。現(xiàn)在下面的信息又是按照兩列的格式。下一個(gè)部分以與PARENTS和CHILDREN部分相似的方法,詳述了這個(gè)聚類和終端之間的鏈接。
第一個(gè)終端是“jobs(工作)”。左邊的信息1841287是這個(gè)聚類觸發(fā)詞“jobs”的次數(shù)。在這個(gè)詞的右邊的信息又是它的最佳值和存在性的對(duì)數(shù)可能性。下幾個(gè)詞是“job”(工作)、“employment”(職業(yè))、“in”(處于)、“job-search”(工作搜索)、“careers”(職業(yè))、“it”(它)、“career”(職業(yè))、“job-opportunities”(工作機(jī)會(huì))、“human-resources”(人力資源)等等。當(dāng)人們談?wù)摴ぷ鞯母拍顣r(shí)使用了所有這些終端!注意更多的終端從這個(gè)聚類被鏈接到,且這個(gè)圖中只顯示了最重要的那些。
類似地,使用任何這些概念就表示這個(gè)想法是活動(dòng)的,某些詞比其他詞多。例如,詞job(工作)主要是由這個(gè)概念導(dǎo)致的。我們通過(guò)查看詞“jobs”的不同輸出來(lái)檢查這個(gè),這個(gè)輸出是所有終端都有的。圖18顯示這個(gè)輸出。從“TERMINALjobs”(終端工作)這行開(kāi)始,下一行是“Firing3049398.000000”(激活3049398.000000),其表示在前面的迭代中這個(gè)詞出現(xiàn)的概率和是3049398(注意,由于合成,終端在會(huì)話中可具有不同于1.0的出現(xiàn)概率)。下幾行詳細(xì)列出最強(qiáng)導(dǎo)致這個(gè)終端的聚類。第一個(gè)是[jobs job employment in job-search careers]聚類!注意更多的聚類鏈接到這個(gè)終端,且只有最重要的那些顯示在這個(gè)圖中。
現(xiàn)在,終端“in”在聚類[jobs job employment in job-search careers]中,但是,選擇對(duì)應(yīng)于終端in的頁(yè)面(顯示在圖19中),我們看到CANADA是主要導(dǎo)致“in”的聚類。這個(gè)的解釋如下當(dāng)人們談?wù)摴ぷ鲿r(shí)使用了“in”,但是“in”更經(jīng)常由其他事情導(dǎo)致,所以在人們正在搜索的內(nèi)容中,它不是和詞“jobs”一樣強(qiáng)的指示器。注意這里也有更多的聚類鏈接到這個(gè)終端,且只有最重要的那些顯示在這個(gè)圖中。
現(xiàn)在,我們準(zhǔn)備看看在頁(yè)面頂部的搜索框。我們把查詢“palo altorestaurants”(帕洛阿爾托的飯店)輸入框中并點(diǎn)擊Search(搜索)。圖20顯示了這個(gè)搜索的結(jié)果。我們從“QUERYpalo alto restaurants”這行開(kāi)始。這僅僅是鍵入搜索框中的內(nèi)容。下兩行是復(fù)合詞“palo alto”和詞“restaurants”。它們表示這個(gè)查詢的當(dāng)前合成(有時(shí)被稱為分詞)。
現(xiàn)在,讓我們檢查詞palo-alto旁邊的數(shù)字。最后的數(shù)9.9789是它用來(lái)表示這個(gè)詞的比特?cái)?shù)。在比特表示費(fèi)用和概率之間存在對(duì)偶性,其中比特費(fèi)用是概率的以2為底的對(duì)數(shù)的負(fù)數(shù)。這意味詞palo-alto在2 ^9.9789(大約1000)次詞出現(xiàn)中大約出現(xiàn)一次。中間的數(shù)是假定已經(jīng)看到其他的詞,那么這個(gè)詞需要的比特?cái)?shù)的近似值。詞palo-alto沒(méi)有變得更好(更可能),但是詞restaurants卻變得更好!這是因?yàn)橐苑浅8叩念l率(大約23.7之一或十分之一)搜索帕洛阿爾托市的人希望找到帕洛阿爾托市里的飯店。這同樣可應(yīng)用在人們寫(xiě)的關(guān)于帕洛阿爾托市的文檔中。
這個(gè)信息的一個(gè)用處是確定在文字搜索中哪些詞能夠被除去,因?yàn)樗鼈儧](méi)有其他的詞那么特殊。例如,如果搜索“palo alto”飯店不從文檔集中返回足夠的結(jié)果,那么你也許能尋找僅僅提到palo alto的頁(yè)面,并看它們是否是關(guān)于飯店的,但使用了不同的詞(例如就象[restaurants in restaurants restaurants dining best]聚類中的詞之一。palo-alto的第一個(gè)數(shù)15.2624也是比特費(fèi)用,但假設(shè)文檔中的高可能的(>0.95)聚類是開(kāi)啟的,但沒(méi)有一個(gè)聚類是為了這個(gè)會(huì)話。這個(gè)數(shù)也是近似值。
以“session graph 8 nodes 16 edges”(會(huì)話圖8個(gè)節(jié)點(diǎn)16條邊)開(kāi)始的行談?wù)撘氲木植烤W(wǎng)絡(luò)以求解已經(jīng)看到終端的證據(jù)。注意我們的模型具有超過(guò)8個(gè)的許多聚類,但是終端和聚類稀疏技術(shù)意味著我們不得不只看著總共8個(gè)節(jié)點(diǎn)!這里節(jié)點(diǎn)可以是終端或聚類。這一行的剩余部分關(guān)于計(jì)時(shí)信息。下幾行顯示關(guān)于在這個(gè)查詢中發(fā)現(xiàn)的所有聚類的信息。第一個(gè)是命名的飯店聚類[restaurants in restaurants restaurantsdining best]。在左邊有三列數(shù)。第一個(gè)是聚類的概率,第二個(gè)是它的概率乘以它的活動(dòng)值,第三個(gè)是它的概率乘以調(diào)整的活動(dòng)值。記住局部網(wǎng)絡(luò)里面的活動(dòng)值只是被任意設(shè)置為它能夠觸發(fā)的、為真的可能的詞數(shù)量。一旦我們求解了這個(gè)網(wǎng)絡(luò),我們能夠?qū)K端的發(fā)源處進(jìn)行另一個(gè)更加有根據(jù)的猜測(cè)。我們通過(guò)計(jì)算在每個(gè)聚類和每個(gè)終端之間的觸發(fā)節(jié)點(diǎn)的概率來(lái)這樣做。然后這個(gè)聚類因它啟動(dòng)的每個(gè)終端的概率而得到好評(píng)為“調(diào)整的活動(dòng)值”。
第二個(gè)要發(fā)現(xiàn)的聚類是[san-jose ca sunnyvale santa-clara bay-areamountain-view](圣何塞市加利福尼亞州sunnyvale圣克拉拉市海灣地區(qū)山景)聚類,其存在性的概率為0.682912。第三個(gè)聚類是[palo-altoMenlo-park restaurant evvia palo straits-cafe],概率是0.37。這里要注意的一件有趣的事是“evvia”和“straits cafe”實(shí)際是帕洛阿爾托市的飯店。這個(gè)聚類特殊化為圍繞帕洛阿爾托市的飯店的概念。
通過(guò)這種方式,我們的模型能夠被用于估計(jì)各種概念出現(xiàn)在任何文本塊中的概率。同樣也可以為網(wǎng)頁(yè)這樣做,并通過(guò)查找在網(wǎng)頁(yè)和查詢中出現(xiàn)的聯(lián)合概念,我們模型的用處之一是用于在網(wǎng)頁(yè)上搜索。下一節(jié)討論我們模型的某些用處。
模型的使用這一節(jié)詳述我們模型的某些可能用途。
(1)猜測(cè)文本塊背后的概念。這些概念然后可顯示給用戶,使得用戶更好地理解文本的含義。
(2)在文檔和查詢之間比較詞和概念。這可以是在任何文檔搜索引擎中所需的信息檢索評(píng)分函數(shù),包括文檔是網(wǎng)頁(yè)的特殊情況。
(3)使用我們的模型用于網(wǎng)上搜索的一種不同方法是假設(shè)聚類的分布擴(kuò)展了查詢。例如,關(guān)于詞“jaguar”(美洲虎)的查詢是歧義的。它的意思可以是動(dòng)物或者汽車。響應(yīng)這個(gè)搜索時(shí),我們的模型將識(shí)別和兩種含義相關(guān)的聚類。在這個(gè)例子中,我們可以考慮用戶鍵入兩個(gè)查詢中的任一個(gè),jaguar(汽車)查詢或jaguar(動(dòng)物)查詢。我們?nèi)缓罂梢钥紤]它們各自的聚類的概率,檢索這兩個(gè)查詢的文檔。通過(guò)仔細(xì)平衡我們?yōu)槊總€(gè)含義返回的結(jié)果數(shù)量,我們保證搜索結(jié)果的某個(gè)差異。
(4)在文檔和廣告之間比較詞和概念。這可以用作一個(gè)代理,其關(guān)于如果廣告附到某個(gè)內(nèi)容塊,那么廣告的表現(xiàn)如何。這種的一個(gè)特例是把廣告附到網(wǎng)頁(yè)。
(5)在查詢和廣告(或者廣告的目標(biāo)準(zhǔn)則)之間比較詞和概念。在搜索引擎中,廣告經(jīng)常選擇一組“目標(biāo)準(zhǔn)則”,當(dāng)它們出現(xiàn)在用戶查詢中時(shí),就服務(wù)了廣告。這些準(zhǔn)則的這些文本(和廣告拷貝本身)能夠通過(guò)使用我們模型中的聚類和查詢來(lái)比較。這個(gè)比較可以是一個(gè)代理,其關(guān)于如果搜索網(wǎng)頁(yè)上的服務(wù)來(lái)自這個(gè)查詢,那么廣告的表現(xiàn)如何。
(6)在兩個(gè)文檔之間比較詞和概念。這可以用作文檔的概念上的聚類的距離度量,其中類似的文檔被集合在一起。
(7)把文本投影到聚類的空間。文本中聚類的概率可被用作任意分類任務(wù)的特征。例如,通過(guò)把頁(yè)面的文本投影到聚類上,可以產(chǎn)生色情資料過(guò)濾器,然后構(gòu)建使用聚類和詞作為其輸入的分類器。
(8)把網(wǎng)上查詢一般化以檢索更多的結(jié)果,使用已知它們的父聚類的一組詞或終端的概率或比特費(fèi)用。
(9)通過(guò)查看由兩個(gè)詞引起的概念,猜測(cè)特定的詞是否是另一個(gè)詞的錯(cuò)誤拼寫(xiě)。
局部推理機(jī)制有可能使用不同于環(huán)狀信任傳播的方法解局部網(wǎng)絡(luò),盡管在全局節(jié)點(diǎn)上使用環(huán)狀信任傳播。這種方法的一個(gè)優(yōu)點(diǎn)是它們可能比環(huán)狀信任傳播收斂得更快或比它更正確。以下兩個(gè)小節(jié)詳述能夠在局部網(wǎng)絡(luò)上使用的替代推理機(jī)制。
另一個(gè)局部推理機(jī)制在局部網(wǎng)絡(luò)中推理的另一個(gè)方法是尋找問(wèn)題的幾個(gè)好的解,而不是運(yùn)行環(huán)狀信任傳播。我們圍繞網(wǎng)絡(luò)的完整實(shí)例化的空間搜索以尋找我們網(wǎng)絡(luò)的一組好的解。我們對(duì)待這些就好像它們是網(wǎng)絡(luò)的解的完全枚舉。我們可以發(fā)送和環(huán)狀信任傳播發(fā)送的消息類似的向上的鏈接消息,但是更準(zhǔn)確,如果我們考慮一組足夠好的解法的話。我們系統(tǒng)的余下部分仍然基本相同。
注意,每次翻轉(zhuǎn)(flip)一個(gè)聚類時(shí),我們可以快速地更新整個(gè)網(wǎng)絡(luò)的概率,且存儲(chǔ)所有這些概率(這是因?yàn)閷?shí)例的概率是許多局部條件概率表的乘積)。在搜索期間,存儲(chǔ)網(wǎng)絡(luò)中每個(gè)聚類的歷史。這幫助我們最后更快地計(jì)算鏈接消息。
通常,我們?cè)谕暾麑?shí)例上的搜索象這樣進(jìn)行我們從所有聚類關(guān)閉開(kāi)始,除了CANADA以外。然后我們通過(guò)翻轉(zhuǎn)單個(gè)的聚類開(kāi)或者關(guān)閉來(lái)爬山到局部最佳值。然后,對(duì)于除了CANADA以外的每個(gè)聚類,我們從到目前為止的全局最佳值開(kāi)始,我們翻轉(zhuǎn)那個(gè)節(jié)點(diǎn)的值,使那個(gè)節(jié)點(diǎn)的值固定,我們?cè)谟嘞碌墓?jié)點(diǎn)上爬山,直到達(dá)到局部最佳值。如果在這個(gè)過(guò)程中,我們發(fā)現(xiàn)新的全局最佳值,那么我們以那個(gè)全局最佳值開(kāi)始。這樣,我們保證考慮具有每個(gè)非CANADA聚類節(jié)點(diǎn)的每個(gè)值的相當(dāng)好的解。
這種方法的一個(gè)優(yōu)點(diǎn)是,為了權(quán)衡執(zhí)行速度和準(zhǔn)確性,可以任意限制搜索。在分析較大的文本塊時(shí),為了使我們的模型在適當(dāng)?shù)臅r(shí)間內(nèi)返回,做出的權(quán)衡經(jīng)常偏向執(zhí)行速度。
另一個(gè)局部推理機(jī)制在局部網(wǎng)絡(luò)中進(jìn)行推理的另一個(gè)方法是運(yùn)行一個(gè)會(huì)環(huán)狀信任傳播,并看看它是否快速收斂。存在理論的結(jié)果,其指出如果環(huán)狀信任傳播快速收斂,那么它更加正確地收斂。這樣,如果環(huán)狀信任傳播不快速收斂,那么一個(gè)或更多節(jié)點(diǎn)可以是“有條件的”,也就是環(huán)狀信任傳播為這些變量的真值和假值都運(yùn)行。如果網(wǎng)絡(luò)是足夠有條件的,那么環(huán)狀信任傳播變得更加穩(wěn)定,這是因?yàn)樵诨芈返捻敳炕蚺赃叺臈l件處理打破了環(huán)狀信任傳播中的消息循環(huán)圈(由于各種理論原因)。這個(gè)條件處理被遞歸應(yīng)用,直到環(huán)狀信任傳播快速收斂。在運(yùn)行有條件的環(huán)狀信任傳播之后,結(jié)果是了解所有鏈接消息的各種條件。
所有剩下的就是能夠在它們的相對(duì)概率(既然條件通常是截然不同的)中把條件合并在一起。我們已經(jīng)設(shè)計(jì)的一個(gè)技術(shù)是在環(huán)狀信任傳播已經(jīng)在網(wǎng)絡(luò)上穩(wěn)定之后,使用網(wǎng)絡(luò)的熵的測(cè)量(大約是在網(wǎng)絡(luò)收斂的剩余自由比特?cái)?shù))和網(wǎng)絡(luò)的能量(大約是網(wǎng)絡(luò)解違反前面的約束的量)。這個(gè)近似值允許我們以正確的順序合并各種鏈接消息,且我們模型的余下部分仍然基本相同。
描述文檔的過(guò)程圖21示例說(shuō)明依據(jù)本發(fā)明實(shí)施例在描述文檔當(dāng)中所涉及的數(shù)據(jù)結(jié)構(gòu)。這些數(shù)據(jù)結(jié)構(gòu)包括1階概率表2102、父表2104、子表2106和鏈接表2108。
1階概率表2102包括概率模型中每個(gè)節(jié)點(diǎn)的條目,該概率模型近似了在生成指定的一組詞時(shí)節(jié)點(diǎn)是活動(dòng)的1階(無(wú)條件)概率。因此,1階概率表2102中的條目指出在由所述概率模型生成的多組詞中,相關(guān)聯(lián)的詞或聚類的普通程度。在本發(fā)明的一個(gè)實(shí)施例中,1階概率表2102還包括每個(gè)聚類節(jié)點(diǎn)的“活動(dòng)值”,其指出有多少?gòu)暮蜻x聚類到其他節(jié)點(diǎn)的鏈接可能激發(fā)。
父表2104包括識(shí)別所述概率模型中相關(guān)聯(lián)的節(jié)點(diǎn)的父輩節(jié)點(diǎn)的條目,以及來(lái)自所識(shí)別的父輩節(jié)點(diǎn)的鏈接權(quán)重。
類似地,子表2106包括識(shí)別所述概率模型中相關(guān)聯(lián)的節(jié)點(diǎn)的子節(jié)點(diǎn)的條目,以及來(lái)自所識(shí)別的子節(jié)點(diǎn)的鏈接權(quán)重。
注意,1階概率表2102、父表2104和子表2106都是在描述文檔之前為所述概率模型預(yù)先計(jì)算的。而另一方面,鏈接表2108則是在描述文檔的過(guò)程中被填寫(xiě)的。
鏈接表2108包括鏈接的條目,它們?cè)跇?gòu)造證據(jù)樹(shù)時(shí)被認(rèn)為是證據(jù),如以下參考圖22-25討論的。鏈接表2108中的每個(gè)條目包含相關(guān)聯(lián)的鏈接的權(quán)重和相關(guān)聯(lián)的父輩節(jié)點(diǎn)的標(biāo)識(shí)符。此外,鏈接表2108能夠按父輩節(jié)點(diǎn)標(biāo)識(shí)符排序,如以下討論的。
圖22給出了依據(jù)本發(fā)明實(shí)施例的一個(gè)描述過(guò)程的流程圖。所述系統(tǒng)以接收包含一組詞的一個(gè)文檔來(lái)開(kāi)始(步驟2202)。注意這個(gè)文檔可包括一個(gè)網(wǎng)頁(yè)或者來(lái)自一次查詢的一組術(shù)語(yǔ)(詞)。
接下來(lái),所述系統(tǒng)從概率模型選擇一組“候選聚類”,它們?cè)谏蛇@組詞時(shí)可以是活動(dòng)的(步驟2204)。以下參考圖23更詳細(xì)地描述了這個(gè)過(guò)程。注意,通過(guò)選擇一組候選聚類,所述系統(tǒng)限制了在后續(xù)的計(jì)算運(yùn)算中考慮的聚類的數(shù)量,因此減少了描述文檔時(shí)涉及的計(jì)算量。
所述系統(tǒng)然后構(gòu)造一個(gè)向量以描述文檔(步驟2206)。這個(gè)向量包括候選聚類的分量,其中該向量的每個(gè)分量指示在生成文檔中的這組詞時(shí),相應(yīng)的候選聚類的活動(dòng)程度。以下參考圖24-25更詳細(xì)地描述了這個(gè)過(guò)程。
最后,所述系統(tǒng)能夠使用這個(gè)向量來(lái)幫助和文檔相關(guān)的多個(gè)不同操作(步驟2208)。這些用途中的有一些被列舉在本說(shuō)明書(shū)前面題為“模型的使用”的小節(jié)中。
圖23給出了依據(jù)本發(fā)明的實(shí)施例用來(lái)選擇候選聚類的過(guò)程的一個(gè)流程圖。這個(gè)流程圖更詳細(xì)描述了執(zhí)行圖22中的步驟2204時(shí)所涉及的操作。所述系統(tǒng)以構(gòu)造一個(gè)“證據(jù)樹(shù)”來(lái)開(kāi)始,該證據(jù)樹(shù)始于和文檔中的這組詞相關(guān)聯(lián)的終端節(jié)點(diǎn),并沿著鏈接到達(dá)父輩節(jié)點(diǎn)(步驟2302)。由于選擇節(jié)點(diǎn)作為證據(jù)樹(shù)的一部分,所以從父輩節(jié)點(diǎn)到該節(jié)點(diǎn)的鏈接被插入鏈接表2108中。
在構(gòu)造證據(jù)樹(shù)的過(guò)程中,所述系統(tǒng)使用證據(jù)樹(shù)來(lái)估計(jì)在生成這組詞時(shí)每個(gè)父聚類是活動(dòng)的可能性(步驟2304)。更具體地,在本發(fā)明的一個(gè)實(shí)施例中,對(duì)于只指向終端節(jié)點(diǎn)的聚類節(jié)點(diǎn)Ci,所述系統(tǒng)使用以下公式估計(jì)在生成這組詞時(shí)包括Ci的可能性(我們把這個(gè)估計(jì)的可能性稱為“Ci的猜測(cè)”) 其中, (活動(dòng)值Ci),且其中 這個(gè)公式指出,Ci的猜測(cè)是Ci的1階概率乘以來(lái)自Ci的活動(dòng)子節(jié)點(diǎn)的條件概率基值之積。這個(gè)基值的分子 是從Ci到wj的鏈接權(quán)重乘以Ci的活動(dòng)值的猜測(cè)。記住Ci的活動(dòng)值是出自節(jié)點(diǎn)Ci的活動(dòng)鏈接數(shù)量的一個(gè)指示器。這個(gè)基值的分母 是wj的1階概率乘以在這組詞中的詞數(shù)量。
對(duì)于一個(gè)指向其他聚類節(jié)點(diǎn)的聚類節(jié)點(diǎn)Ci來(lái)說(shuō),這個(gè)公式稍微不同,猜測(cè)(Ci)=O1(Ci)·Score(Ci)其中 與聚類節(jié)點(diǎn)只指向終端節(jié)點(diǎn)的情況相同,Ci的猜測(cè)是Ci的1階概率乘以條件概率基值之積。但是這些條件概率基值來(lái)自其他聚類節(jié)點(diǎn)Ck以及來(lái)自子節(jié)點(diǎn)Wj。
來(lái)自子節(jié)點(diǎn)的基值與聚類節(jié)點(diǎn)只指向終端節(jié)點(diǎn)的情況相同, 來(lái)自其他聚類節(jié)點(diǎn)的基值更加復(fù)雜, 其中P(Ck|Ci)是指定Ci的Ck的條件概率,P(Ck)是Ck的1階概率,且Score(Ck)是Ck的前面計(jì)算的分?jǐn)?shù)。注意由于證據(jù)樹(shù)是從終端向上構(gòu)造的,子節(jié)點(diǎn)Ck的分?jǐn)?shù)在計(jì)算父輩節(jié)點(diǎn)Ci的分?jǐn)?shù)之前就已經(jīng)計(jì)算了。
在本發(fā)明的一個(gè)實(shí)施例中,所述系統(tǒng)在估計(jì)過(guò)程期間為指定的聚類節(jié)點(diǎn)標(biāo)識(shí)終端節(jié)點(diǎn),以確保終端節(jié)點(diǎn)不超過(guò)一次被分解成估計(jì)值。
最后,所述系統(tǒng)基于這些估計(jì)的可能性而選擇父輩節(jié)點(diǎn)作為候選聚類節(jié)點(diǎn)(步驟2306)。在這個(gè)“父輩節(jié)點(diǎn)選取”過(guò)程的最后,所述系統(tǒng)具有一組候選聚類和它們的活動(dòng)值。
圖24給出了依據(jù)本發(fā)明的實(shí)施例來(lái)估計(jì)候選聚類的概率的過(guò)程的一個(gè)流程圖。所述系統(tǒng)首先為概率模型選擇狀態(tài),這些狀態(tài)可能已生成這組詞(步驟2402)。
接下來(lái)所述系統(tǒng)構(gòu)造向量,其中該向量包括候選聚類的分量。這些分量中的每一個(gè)指出在生成該組詞時(shí),相應(yīng)的候選聚類是活動(dòng)的可能性。為了估計(jì)分量,所述系統(tǒng)在估計(jì)概率時(shí)只考慮選定的狀態(tài),該概率是生成該組詞時(shí)相關(guān)聯(lián)的候選聚類是活動(dòng)的概率(步驟2404)。
更具體地說(shuō),在本發(fā)明的一個(gè)實(shí)施例中,所述系統(tǒng)計(jì)算和聚類節(jié)點(diǎn)Ci相關(guān)聯(lián)的向量的指定分量Vi是Vi=活動(dòng)值(Ci)×P(Ci)其中活動(dòng)值(Ci)是當(dāng)節(jié)點(diǎn)Ci激發(fā)時(shí),將會(huì)激發(fā)的鏈接數(shù)量的一個(gè)指示器,而其中P(Ci)是在生成文檔中的該組詞時(shí),Ci是活動(dòng)狀態(tài)的概率。
P(Ci)可按照下式計(jì)算 這個(gè)公式表明,P(Ci)是在其中發(fā)現(xiàn)Ci的網(wǎng)絡(luò)的網(wǎng)絡(luò)概率之和除以已經(jīng)搜索的網(wǎng)絡(luò)的所有網(wǎng)絡(luò)概率之和。
一個(gè)指定的網(wǎng)絡(luò)狀態(tài)發(fā)生的概率可按照下式計(jì)算 這個(gè)概率包括來(lái)自那些“開(kāi)啟的”節(jié)點(diǎn)的貢獻(xiàn)。更具體地,對(duì)于在一特定網(wǎng)絡(luò)中是開(kāi)啟的每個(gè)節(jié)點(diǎn)j,所述系統(tǒng)計(jì)算至少一個(gè)進(jìn)入j的鏈接(來(lái)自活動(dòng)的父輩節(jié)點(diǎn)i)激發(fā)的概率。這是1減去來(lái)自活動(dòng)父輩節(jié)點(diǎn)i的進(jìn)入j的鏈接沒(méi)有激發(fā)的概率,其中來(lái)自活動(dòng)節(jié)點(diǎn)的鏈接不激發(fā)的概率是1減去鏈接權(quán)重。
所述概率也包括來(lái)自那些“關(guān)閉的”節(jié)點(diǎn)k的貢獻(xiàn)。對(duì)于一個(gè)關(guān)閉的指定節(jié)點(diǎn)k,上述貢獻(xiàn)是沒(méi)有鏈接從活動(dòng)節(jié)點(diǎn)i指向k的概率,其僅僅是1減去鏈接權(quán)重。
圖25示例說(shuō)明依據(jù)本發(fā)明實(shí)施例,如何選擇概率模型的狀態(tài)。這個(gè)流程圖更詳細(xì)描述了執(zhí)行圖25中的步驟2402時(shí)涉及的操作。為了限制在選擇狀態(tài)時(shí)涉及的計(jì)算工作量,本發(fā)明的一個(gè)實(shí)施例僅僅考慮與文檔中的那組詞相關(guān)聯(lián)的候選聚類節(jié)點(diǎn)和終端節(jié)點(diǎn),忽略所有其他節(jié)點(diǎn)。
所述系統(tǒng)從為概率模型隨機(jī)選擇起始狀態(tài)開(kāi)始(步驟2502)。每個(gè)起始狀態(tài)指出概率模型中的哪些節(jié)點(diǎn)是活動(dòng)的,哪些節(jié)點(diǎn)是不活動(dòng)的。注意,任何起始狀態(tài)都是可能的,因?yàn)橥ㄓ霉?jié)點(diǎn)能夠觸發(fā)候選節(jié)點(diǎn)的任何子集來(lái)激發(fā)。
還應(yīng)注意,概率模型中的鏈接權(quán)重傾向于在生成文檔中的一組詞時(shí)使某些狀態(tài)比其他狀態(tài)更可能。因此,隨機(jī)的起始狀態(tài)會(huì)已經(jīng)生成文檔中的一組詞是不可能的。為了找到更可能的狀態(tài),所述系統(tǒng)執(zhí)行“爬山”運(yùn)算以到達(dá)可能已經(jīng)生成文檔中的一組詞的一個(gè)狀態(tài)(步驟2504)。注意大量的公知爬山技術(shù)都能夠被用于這個(gè)目的。爬山運(yùn)算,典型地以增加特定目標(biāo)函數(shù)的值的方式來(lái)改變系統(tǒng)的狀態(tài)。在這個(gè)例子中,目標(biāo)函數(shù)就是指定的網(wǎng)絡(luò)狀態(tài)存在的概率P網(wǎng)絡(luò),這已在上面作了描述。
在本發(fā)明的一個(gè)實(shí)施例中,所述系統(tǒng)定期在爬山運(yùn)算之間改變單個(gè)候選聚類的狀態(tài),而不考慮目標(biāo)函數(shù)。這樣做時(shí),所述系統(tǒng)固定已改變的狀態(tài),以使它在后續(xù)的爬山運(yùn)算期間不變化。這產(chǎn)生了目標(biāo)函數(shù)的局部最佳值,其包括已改變的狀態(tài),使得所述系統(tǒng)能夠搜索僅僅通過(guò)爬山運(yùn)算不能到達(dá)的概率模型的狀態(tài)。
前面關(guān)于本發(fā)明的實(shí)施例的描述僅僅是為了解釋和描述的目的。它們不打算是詳盡的或限制本發(fā)明為所公開(kāi)的形式。據(jù)此,許多修改和變化對(duì)于本領(lǐng)域的技術(shù)人員是顯而易見(jiàn)的。此外,以上的公開(kāi)不打算限制本發(fā)明。本發(fā)明的范圍是由所附權(quán)利要求限定的。
權(quán)利要求
1.一種根據(jù)概念上相關(guān)的詞的聚類來(lái)描述文檔的方法,包括接收所述文檔,其中所述文檔包含一組詞;選擇概念上相關(guān)的詞的候選聚類,其與所述這組詞相關(guān);其中所述候選聚類是使用一模型選擇的,該模型解釋如何從概念上相關(guān)的詞的聚類來(lái)生成多組詞;和構(gòu)造一分量組來(lái)描述所述文檔,其中該分量組包括候選聚類的分量,其中每個(gè)分量指出一相應(yīng)的候選聚類與所述這組詞的相關(guān)程度。
2.如權(quán)利要求1所述的方法,其中所述模型是概率模型,其包含表示詞的隨機(jī)變量的節(jié)點(diǎn),以及表示概念上相關(guān)的詞的聚類的隨機(jī)變量的節(jié)點(diǎn)。
3.如權(quán)利要求2所述的方法,其中所述分量組中的每個(gè)分量指出在生成所述這組詞時(shí),一相應(yīng)的候選聚類的活動(dòng)程度。
4.如權(quán)利要求3所述的方法,其中所述概率模型中的節(jié)點(diǎn)通過(guò)加權(quán)鏈接而連接到一起;且其中如果所述概率模型中的一個(gè)聚類節(jié)點(diǎn)激發(fā),則從該聚類節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的加權(quán)鏈接能夠?qū)е缕渌?jié)點(diǎn)激發(fā)。
5.如權(quán)利要求4所述的方法,其中如果一個(gè)節(jié)點(diǎn)具有活動(dòng)的多個(gè)父輩節(jié)點(diǎn),則該節(jié)點(diǎn)不激發(fā)的概率是來(lái)自活動(dòng)的父輩節(jié)點(diǎn)的鏈接不激發(fā)的概率之積。
6.如權(quán)利要求2所述的方法,其中所述概率模型包括一通用節(jié)點(diǎn),該通用節(jié)點(diǎn)總是活動(dòng)的,并具有對(duì)所有聚類節(jié)點(diǎn)的加權(quán)鏈接。
7.如權(quán)利要求4所述的方法,其中選擇所述候選聚類包括通過(guò)從與所述文檔中的所述這組詞相關(guān)聯(lián)的終端節(jié)點(diǎn)開(kāi)始,以相反的方向沿鏈接到達(dá)父聚類節(jié)點(diǎn),來(lái)構(gòu)造一證據(jù)樹(shù);在生成所述這組詞時(shí),使用所述證據(jù)樹(shù)來(lái)估計(jì)每個(gè)父聚類節(jié)點(diǎn)是活動(dòng)的可能性;和基于其被估計(jì)的可能性,選擇一父聚類節(jié)點(diǎn)作為候選聚類節(jié)點(diǎn)。
8.如權(quán)利要求7所述的方法,其中在生成所述這組詞時(shí),估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性可以包括考慮所述特定父輩節(jié)點(diǎn)是活動(dòng)的無(wú)條件概率;假設(shè)所述特定父輩節(jié)點(diǎn)的父輩節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率;和假設(shè)所述特定父輩節(jié)點(diǎn)的子節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率。
9.如權(quán)利要求8所述的方法,其中考慮所述條件概率包括考慮節(jié)點(diǎn)之間的鏈接上的權(quán)重。
10.如權(quán)利要求7所述的方法,其中在生成所述這組詞時(shí),估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性包括在估計(jì)過(guò)程期間標(biāo)識(shí)終端節(jié)點(diǎn),以確保終端節(jié)點(diǎn)不會(huì)被分解成估計(jì)值超過(guò)一次。
11.如權(quán)利要求7所述的方法,其中構(gòu)造所述證據(jù)樹(shù)包括從該證據(jù)樹(shù)剪除不可能的節(jié)點(diǎn)。
12.如權(quán)利要求3所述的方法,其中在構(gòu)造所述分量組期間,一個(gè)候選聚類在生成所述這組詞時(shí)的活動(dòng)程度是通過(guò)計(jì)算候選聚類在生成所述這組詞時(shí)是活動(dòng)的概率來(lái)確定的。
13.如權(quán)利要求3所述的方法,其中在構(gòu)造所述分量組期間,一個(gè)候選聚類在生成所述這組詞時(shí)的活動(dòng)程度是通過(guò)使候選聚類在生成所述這組詞時(shí)是活動(dòng)的概率和該候選聚類的活動(dòng)值相乘來(lái)確定的,其中所述活動(dòng)值指出有多少?gòu)脑摵蜻x聚類到其他節(jié)點(diǎn)的鏈接可能激發(fā)。
14.如權(quán)利要求1所述的方法,其中構(gòu)造所述分量組包括歸一化所述分量組。
15.如權(quán)利要求3所述的方法,其中構(gòu)造所述分量組包括逼近一特定候選聚類在所述概率模型的各個(gè)狀態(tài)是活動(dòng)的概率,這些狀態(tài)可以已經(jīng)生成所述這組詞。
16.如權(quán)利要求15所述的方法,其中逼近所述概率包括選擇可能已經(jīng)在所述文檔中生成所述這組詞的所述概率模型的狀態(tài);和在計(jì)算所述特定候選聚類是活動(dòng)的概率時(shí),只考慮被選擇的狀態(tài)。
17.如權(quán)利要求16所述的方法,其中選擇可能已經(jīng)生成所述這組詞的狀態(tài)包括隨機(jī)選擇所述概率模型的起始狀態(tài);和執(zhí)行從所述起始狀態(tài)開(kāi)始的爬山運(yùn)算,以達(dá)到一個(gè)可能已經(jīng)生成所述這組詞的狀態(tài)。
18.如權(quán)利要求17所述的方法,其中執(zhí)行所述爬山運(yùn)算包括定期地改變單個(gè)候選聚類的狀態(tài),而不考慮所述爬山運(yùn)算的目標(biāo)函數(shù),以探查所述概率模型的狀態(tài),否則這些狀態(tài)通過(guò)爬山運(yùn)算是不能到達(dá)的。
19.如權(quán)利要求18所述的方法,其中改變單個(gè)候選聚類的狀態(tài)包括暫時(shí)固定被改變的狀態(tài)以產(chǎn)生所述目標(biāo)函數(shù)的一局部最佳值,其包括被改變的狀態(tài)。
20.如權(quán)利要求1所述的方法,其中所述文檔可以包括網(wǎng)頁(yè);或來(lái)自查詢的一組術(shù)語(yǔ)。
21.一種存儲(chǔ)指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述指令被計(jì)算機(jī)執(zhí)行時(shí),導(dǎo)致該計(jì)算機(jī)執(zhí)行一種根據(jù)概念上相關(guān)的詞的聚類來(lái)描述文檔的方法,所述方法包括接收所述文檔,其中所述文檔包含一組詞;選擇概念上相關(guān)的詞的候選聚類,其與所述這組詞相關(guān);其中所述候選聚類是使用一模型選擇的,該模型解釋如何從概念上相關(guān)的詞的聚類來(lái)生成多組詞;和構(gòu)造一分量組來(lái)描述所述文檔,其中該分量組包括候選聚類的分量,其中每個(gè)分量指出一相應(yīng)的候選聚類與所述這組詞的相關(guān)程度。
22.如權(quán)利要求21所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述模型是概率模型,其包含表示詞的隨機(jī)變量的節(jié)點(diǎn)和表示概念上相關(guān)的詞聚類的隨機(jī)變量的節(jié)點(diǎn)。
23.如權(quán)利要求22所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述分量組中的每個(gè)分量指出在生成所述這組詞時(shí),一相應(yīng)的候選聚類的活動(dòng)程度。
24.如權(quán)利要求23所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述概率模型中的節(jié)點(diǎn)通過(guò)加權(quán)鏈接而連接到一起;且其中如果所述概率模型中的一個(gè)聚類節(jié)點(diǎn)激發(fā),則從該聚類節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的加權(quán)鏈接能夠?qū)е缕渌?jié)點(diǎn)激發(fā)。
25.如權(quán)利要求24所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中如果一個(gè)節(jié)點(diǎn)具有活動(dòng)的多個(gè)父輩節(jié)點(diǎn),則該節(jié)點(diǎn)不激發(fā)的概率是來(lái)自活動(dòng)的父輩節(jié)點(diǎn)的鏈接不激發(fā)的概率之積。
26.如權(quán)利要求22所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述概率模型包括一通用節(jié)點(diǎn),該通用節(jié)點(diǎn)總是活動(dòng)的,并具有對(duì)所有聚類節(jié)點(diǎn)的加權(quán)鏈接。
27.如權(quán)利要求24所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中選擇所述候選聚類包括通過(guò)從與所述文檔中的所述這組詞相關(guān)聯(lián)的終端節(jié)點(diǎn)開(kāi)始,以相反的方向沿鏈接到達(dá)父聚類節(jié)點(diǎn),來(lái)構(gòu)造一證據(jù)樹(shù);在生成所述這組詞時(shí),使用所述證據(jù)樹(shù)來(lái)估計(jì)每個(gè)父聚類節(jié)點(diǎn)是活動(dòng)的可能性;和基于其被估計(jì)的可能性,選擇一父聚類節(jié)點(diǎn)作為候選聚類節(jié)點(diǎn)。
28.如權(quán)利要求27所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中在生成所述這組詞時(shí),估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性可以包括考慮所述特定父輩節(jié)點(diǎn)是活動(dòng)的無(wú)條件概率;假設(shè)所述特定父輩節(jié)點(diǎn)的父輩節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率;和假設(shè)所述特定父輩節(jié)點(diǎn)的子節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率。
29.如權(quán)利要求28所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中考慮所述條件概率包括考慮節(jié)點(diǎn)之間的鏈接上的權(quán)重。
30.如權(quán)利要求27所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中在生成所述這組詞時(shí),估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性包括在估計(jì)過(guò)程期間標(biāo)識(shí)終端節(jié)點(diǎn),以確保終端節(jié)點(diǎn)不會(huì)被分解成估計(jì)值超過(guò)一次。
31.如權(quán)利要求27所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中構(gòu)造所述證據(jù)樹(shù)包括從所述證據(jù)樹(shù)剪除不可能的節(jié)點(diǎn)。
32.如權(quán)利要求23所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中在構(gòu)造所述分量組期間,一個(gè)候選聚類在生成所述這組詞時(shí)的活動(dòng)程度是通過(guò)計(jì)算候選聚類在生成所述這組詞時(shí)是活動(dòng)的概率來(lái)確定的。
33.如權(quán)利要求23所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中在構(gòu)造所述分量組期間,一個(gè)候選聚類在生成所述這組詞時(shí)的活動(dòng)程度是通過(guò)使候選聚類在生成所述這組詞時(shí)是活動(dòng)的概率和該候選聚類的活動(dòng)值相乘來(lái)確定的,其中所述活動(dòng)值指出有多少?gòu)脑摵蜻x聚類到其他節(jié)點(diǎn)的鏈接可能激發(fā)。
34.如權(quán)利要求21所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中構(gòu)造所述分量組包括歸一化所述分量組。
35.如權(quán)利要求23所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中構(gòu)造所述分量組包括逼近一特定候選聚類在所述概率模型的各個(gè)狀態(tài)是活動(dòng)的概率,這些狀態(tài)可以已經(jīng)生成所述這組詞。
36.如權(quán)利要求35所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中估計(jì)所述概率包括選擇可能已經(jīng)在所述文檔中生成所述這組詞的所述概率模型的狀態(tài);和在計(jì)算所述特定候選聚類是活動(dòng)的概率時(shí),只考慮被選擇的狀態(tài)。
37.如權(quán)利要求36所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中選擇可能已經(jīng)生成所述這組詞的狀態(tài)包括隨機(jī)選擇所述概率模型的起始狀態(tài);和執(zhí)行從所述起始狀態(tài)開(kāi)始的爬山運(yùn)算,以達(dá)到一個(gè)可能已經(jīng)生成所述這組詞的狀態(tài)。
38.如權(quán)利要求37所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中執(zhí)行所述爬山運(yùn)算包括定期地改變單個(gè)候選聚類的狀態(tài),而不考慮所述爬山運(yùn)算的目標(biāo)函數(shù),以探查所述概率模型的狀態(tài),否則這些狀態(tài)通過(guò)爬山運(yùn)算是不能到達(dá)的。
39.如權(quán)利要求38所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中改變單個(gè)候選聚類的狀態(tài)包括暫時(shí)固定被改變的狀態(tài)以產(chǎn)生所述目標(biāo)函數(shù)的一局部最佳值,其包括被改變的狀態(tài)。
40.如權(quán)利要求21所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述文檔可以包括網(wǎng)頁(yè);或來(lái)自查詢的一組術(shù)語(yǔ)。
41.一種根據(jù)概念上相關(guān)的詞的聚類來(lái)描述文檔的裝置,包括一接收裝置,其被配置用以接收所述文檔,其中所述文檔包含一組詞;一選擇裝置,其被配置用以選擇概念上相關(guān)的詞的候選聚類,所述聚類與所述這組詞相關(guān);其中所述候選聚類是使用一模型選擇的,該模型解釋如何從概念上相關(guān)的詞的聚類來(lái)生成多組詞;和一分量構(gòu)造裝置,其被配置用以構(gòu)造一分量組來(lái)描述所述文檔,其中該分量組包括候選聚類的分量,其中每個(gè)分量指出一相應(yīng)的候選聚類與所述這組詞的相關(guān)程度。
42.如權(quán)利要求41所述的裝置,其中所述模型是概率模型,其包含表示詞的隨機(jī)變量的節(jié)點(diǎn),以及表示概念上相關(guān)的詞的聚類的隨機(jī)變量的節(jié)點(diǎn)。
43.如權(quán)利要求42所述的裝置,其中所述分量組中的每個(gè)分量指出在生成所述這組詞時(shí),一相應(yīng)的候選聚類的活動(dòng)程度。
44.如權(quán)利要求43所述的裝置,其中所述概率模型中的節(jié)點(diǎn)通過(guò)加權(quán)鏈接而連接到一起;且其中如果所述概率模型中的一個(gè)聚類節(jié)點(diǎn)激發(fā),則從該聚類節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的加權(quán)鏈接能夠?qū)е缕渌?jié)點(diǎn)激發(fā)。
45.如權(quán)利要求44所述的裝置,其中如果一個(gè)節(jié)點(diǎn)具有活動(dòng)的多個(gè)父輩節(jié)點(diǎn),則該節(jié)點(diǎn)不激活的概率是來(lái)自活動(dòng)的父輩節(jié)點(diǎn)的鏈接不激發(fā)的概率之積。
46.如權(quán)利要求43所述的裝置,其中所述概率模型包括一通用節(jié)點(diǎn),該通用節(jié)點(diǎn)總是活動(dòng)的,并具有對(duì)所有聚類節(jié)點(diǎn)的加權(quán)鏈接。
47.如權(quán)利要求44所述的裝置,其中所述選擇裝置被配置用以通過(guò)從與所述文檔中的所述這組詞相關(guān)聯(lián)的終端節(jié)點(diǎn)開(kāi)始,以相反的方向沿鏈接到達(dá)父聚類節(jié)點(diǎn),來(lái)構(gòu)造一證據(jù)樹(shù);在生成所述這組詞時(shí),使用所述證據(jù)樹(shù)來(lái)估計(jì)每個(gè)父聚類節(jié)點(diǎn)是活動(dòng)的可能性;和基于其被估計(jì)的可能性,選擇一父聚類節(jié)點(diǎn)作為候選聚類節(jié)點(diǎn)。
48.如權(quán)利要求47所述的裝置,其中在所述這組詞的生成當(dāng)中,當(dāng)估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性時(shí),所述選擇裝置被配置用以考慮至少以下之一所述特定父輩節(jié)點(diǎn)是活動(dòng)的無(wú)條件概率;假設(shè)所述特定父輩節(jié)點(diǎn)的父輩節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率;和假設(shè)所述特定父輩節(jié)點(diǎn)的子節(jié)點(diǎn)是活動(dòng)的,該特定父輩節(jié)點(diǎn)是活動(dòng)的條件概率。
49.如權(quán)利要求48所述的裝置,其中當(dāng)考慮所述條件概率時(shí),所述選擇裝置被配置用以考慮節(jié)點(diǎn)之間的鏈接上的權(quán)重。
50.如權(quán)利要求47所述的裝置,其中在所述這組詞的生成當(dāng)中,當(dāng)估計(jì)一特定父輩節(jié)點(diǎn)是活動(dòng)的可能性時(shí),所述選擇裝置被配置用以在估計(jì)過(guò)程期間標(biāo)識(shí)終端節(jié)點(diǎn),以確保終端節(jié)點(diǎn)不會(huì)被分解成估計(jì)值超過(guò)一次。
51.如權(quán)利要求47所述的裝置,其中當(dāng)構(gòu)造所述證據(jù)樹(shù)時(shí),所述選擇裝置被配置用以從該證據(jù)樹(shù)剪除不可能的節(jié)點(diǎn)。
52.如權(quán)利要求43所述的裝置,其中當(dāng)構(gòu)造所述分量組中的一特定分量時(shí),所述分量構(gòu)造裝置被配置用以通過(guò)計(jì)算候選聚類在生成所述這組詞時(shí)是活動(dòng)的概率,來(lái)確定候選聚類在生成所述這組詞時(shí)的活動(dòng)程度。
53.如權(quán)利要求43所述的裝置,其中當(dāng)構(gòu)造所述分量組中的一特定分量時(shí),所述分量構(gòu)造裝置被配置用以通過(guò)使候選聚類在生成所述這組詞時(shí)是活動(dòng)的概率和該候選聚類的活動(dòng)值相乘,來(lái)確定該候選聚類在生成所述這組詞時(shí)的活動(dòng)程度,其中所述活動(dòng)值指出有多少?gòu)脑摵蜻x聚類到其他節(jié)點(diǎn)的鏈接可能激發(fā)。
54.如權(quán)利要求41所述的裝置,其中所述分量構(gòu)造裝置被配置用以歸一化所述分量組。
55.如權(quán)利要求43所述的裝置,其中所述分量構(gòu)造裝置被配置用以逼近一特定候選聚類在所述概率模型的各個(gè)狀態(tài)是活動(dòng)的概率,這些狀態(tài)可以已經(jīng)生成所述這組詞。
56.如權(quán)利要求55所述的裝置,其中當(dāng)逼近所述概率時(shí),所述分量構(gòu)造裝置被配置用以選擇可能已經(jīng)在所述文檔中生成所述這組詞的所述概率模型的狀態(tài);和在計(jì)算所述特定候選聚類是活動(dòng)的概率時(shí),只考慮被選擇的狀態(tài)。
57.如權(quán)利要求56所述的裝置,其中當(dāng)選擇可能已經(jīng)生成所述這組詞的狀態(tài)時(shí),所述分量構(gòu)造裝置被配置用以隨機(jī)選擇所述概率模型的起始狀態(tài);和執(zhí)行從所述起始狀態(tài)開(kāi)始的爬山運(yùn)算,以達(dá)到一個(gè)可能已經(jīng)生成所述這組詞的狀態(tài)。
58.如權(quán)利要求58所述的裝置,其中當(dāng)執(zhí)行所述爬山運(yùn)算時(shí),所述分量構(gòu)造裝置被配置用以定期地改變單個(gè)候選聚類的狀態(tài),而不考慮所述爬山運(yùn)算的目標(biāo)函數(shù),以探查所述概率模型的狀態(tài),否則這些狀態(tài)通過(guò)爬山運(yùn)算是不能到達(dá)的。
59.如權(quán)利要求59所述的裝置,其中當(dāng)改變單個(gè)候選聚類的狀態(tài)時(shí),所述分量構(gòu)造裝置被配置用以暫時(shí)固定已改變的狀態(tài)以產(chǎn)生所述目標(biāo)函數(shù)的一局部最佳值,其包括被改變的狀態(tài)。
60.如權(quán)利要求41所述的裝置,其中所述文檔可以包括網(wǎng)頁(yè);或來(lái)自查詢的一組術(shù)語(yǔ)。
61.一種包含一數(shù)據(jù)結(jié)構(gòu)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該數(shù)據(jù)結(jié)構(gòu)有助于根據(jù)概念上相關(guān)的詞的聚類來(lái)描述文檔,所述數(shù)據(jù)結(jié)構(gòu)包括一概率模型,其包含表示詞的隨機(jī)變量的節(jié)點(diǎn),以及表示概念上相關(guān)的詞的聚類的隨機(jī)變量的節(jié)點(diǎn);其中所述概率模型中的節(jié)點(diǎn)是通過(guò)加權(quán)鏈接而被連接到一起的;其中如果所述概率模型中的一個(gè)聚類節(jié)點(diǎn)激發(fā),則從該聚類節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的加權(quán)鏈接能夠?qū)е缕渌?jié)點(diǎn)激發(fā);和其中所述另一個(gè)節(jié)點(diǎn)能夠和一詞或一聚類相關(guān)聯(lián)。
62.如權(quán)利要求61所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述概率模型包括一通用節(jié)點(diǎn),該通用節(jié)點(diǎn)總是活動(dòng)的并具有到所有聚類節(jié)點(diǎn)的加權(quán)鏈接。
全文摘要
本發(fā)明的一個(gè)實(shí)施例提供了一種根據(jù)概念上相關(guān)的詞聚類來(lái)描述文檔的系統(tǒng)。在收到包含一組詞的文檔后,所述系統(tǒng)選擇概念上相關(guān)的詞的“候選聚類”,其與所述這組詞相關(guān)。這些候選聚類是使用一個(gè)模型選擇的,該模型解釋如何從概念上相關(guān)的詞聚類生成多組詞。然后,所述系統(tǒng)構(gòu)造一組分量以描述所述文檔,其中該組分量包括候選聚類的分量。該分量組中的每個(gè)分量指出相應(yīng)的候選聚類與所述這組詞的相關(guān)程度。
文檔編號(hào)G06F17/30GK1711536SQ200380103045
公開(kāi)日2005年12月21日 申請(qǐng)日期2003年10月3日 優(yōu)先權(quán)日2002年10月3日
發(fā)明者G·哈立克, N·M·沙茲爾 申請(qǐng)人:古格公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
青河县| 双辽市| 泉州市| 阜平县| 高台县| 广宁县| 林州市| 朝阳市| 洛扎县| 方正县| 汝阳县| 黔东| 桂林市| 防城港市| 山西省| 贵州省| 贵港市| 吴旗县| 玉田县| 通化市| 廉江市| 马边| 青海省| 东阳市| 全椒县| 富阳市| 岱山县| 南华县| 通许县| 潢川县| 休宁县| 翁源县| 襄城县| 洞口县| 南阳市| 河南省| 柳州市| 阿荣旗| 普安县| 乌拉特中旗| 大田县|