两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

開采產(chǎn)品支持服務(wù)請求的制作方法

文檔序號:6551610閱讀:243來源:國知局
專利名稱:開采產(chǎn)品支持服務(wù)請求的制作方法
技術(shù)領(lǐng)域
本發(fā)明的系統(tǒng)和方法關(guān)于數(shù)據(jù)篩選。
背景現(xiàn)在的高科技公司典型地提供產(chǎn)品服務(wù)的一些方面以確保消費者和股東在技術(shù)投資上得到最大的價值。例如,可以提供許多消費者和企業(yè)服務(wù)報價和戰(zhàn)略IT咨詢服務(wù)以幫助滿足消費者和股東的各種需要。服務(wù)報價可以包括電話,現(xiàn)場,基于網(wǎng)頁的服務(wù),等等。不幸地,該產(chǎn)品支持服務(wù)可能變得異常地昂貴,不僅按照財務(wù)成本,而且按照終端用戶的經(jīng)驗需要查找解決問題的時間的總量。例如,現(xiàn)場服務(wù)報價典型地昂貴到這種程度,即,非團體消費者不能負擔(dān)雇用個別產(chǎn)品顧問或故障檢修員。
另外,當(dāng)服務(wù)被自動化時(例如,通過知識庫的在線查找,該知識庫包括產(chǎn)品幫助(怎樣)和/或故障檢修條款)使消費者識別條款的點上設(shè)置的時間總量可以變得受到抑制。這方面的一個原因是因為知識庫條款典型地由專業(yè)作者,賣方,等等生成,而不是產(chǎn)品的日常用戶所尋求的服務(wù)。在這種情況下,如果用戶不使用由點上KB條款的作者采用的精確術(shù)語來形成檢索查詢,用戶找到它可能非常困難并且設(shè)置任何點上知識庫故障查找信息非常費時。更糟的是,由于一個特殊原因,KB條款一般具體到一個細節(jié)問題,即,缺乏多種問題調(diào)查和診斷的綜合文件。因此,用戶可能需要設(shè)置和評論多種KB條款以達到解決具有多種潛在原因的問題。
概述描述了用于開采產(chǎn)品支持服務(wù)請求的系統(tǒng)和方法。一方面,非結(jié)構(gòu)服務(wù)請求被轉(zhuǎn)換為一個或多個結(jié)構(gòu)應(yīng)答對象。每個結(jié)構(gòu)應(yīng)答對象包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù)。鑒于產(chǎn)品問題說明,識別一個或多個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象的集合。該集合中的每個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象包括與產(chǎn)品問題說明相關(guān)的關(guān)鍵字和/或關(guān)鍵短語。來自該集合的歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù)被提供到終端用戶用于產(chǎn)品問題的診斷。
附圖簡要說明圖中,部件參考數(shù)字最左邊的位代表該部件第一次出現(xiàn)的具體圖。


圖1說明了用于開采產(chǎn)品支持服務(wù)請求的示范性系統(tǒng)。
圖2示出了從結(jié)構(gòu)應(yīng)答對象將分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù)呈現(xiàn)到用戶用于選擇產(chǎn)品問題診斷交互的故障查找向?qū)в脩艚缑娴氖纠?br> 圖3說明了用于產(chǎn)品支持服務(wù)服務(wù)器開采產(chǎn)品支持服務(wù)請求的示范性過程300。
圖4說明了客戶計算設(shè)備在故障查找向?qū)е谐尸F(xiàn)結(jié)構(gòu)應(yīng)答對象以將產(chǎn)品問題支持提供到終端用戶的示范性過程。
圖5示出了一個示范性的適當(dāng)計算環(huán)境,在該環(huán)境中,隨后所描述的用于開采產(chǎn)品支持服務(wù)請求的系統(tǒng),設(shè)備和方法可以被全部或部分地實施。
圖6是可以用于聚類的計算機環(huán)境的一個實施例的結(jié)構(gòu)圖。
圖7是聚類異構(gòu)對象的結(jié)構(gòu)的一個實施例的結(jié)構(gòu)圖。
圖8是混合網(wǎng)絡(luò)模型的一個實施例的結(jié)構(gòu)圖。
圖9是計算機環(huán)境的另一個實施例的結(jié)構(gòu)圖,該計算機環(huán)境涉及因特網(wǎng)。
圖10是聚類算法的一個實施例的流程圖。
圖11是聚類算法的一個實施例的流程圖。
圖12是包括隱蔽層的聚類異構(gòu)對象的結(jié)構(gòu)的另一個實施例的結(jié)構(gòu)圖。
圖13是聚類算法的另一個實施例的流程圖。
詳細說明綜述創(chuàng)建的知識庫(KB)和幫助(“怎樣”)條款用于輔助消費者找出答案以便解決/調(diào)試產(chǎn)品問題。研究表明,對于終端用戶越容易查找和獲得點上KB條款(例如,消費者查詢的一個直接地址),消費者對產(chǎn)品和它的支持基礎(chǔ)結(jié)構(gòu)的滿足將越大。然而,研究表明,終端用戶經(jīng)?;ㄙM大量收集數(shù)據(jù)的時間,諸如KB條款,試圖為他們的調(diào)試查詢找出點上條款。對于這的一個原因是因為傳統(tǒng)的產(chǎn)品支持基礎(chǔ)結(jié)構(gòu)經(jīng)常處理單一原因的問題,而缺少多種原因產(chǎn)品問題診斷的知識表示。為了訪問這種限制,下面開采,分析,和組織非結(jié)構(gòu)產(chǎn)品支持服務(wù)(PSS)日志的產(chǎn)品支持服務(wù)請求的系統(tǒng)和方法基于結(jié)構(gòu)數(shù)據(jù)對象的相關(guān)聚類。該結(jié)構(gòu)數(shù)據(jù)對象包括歷史的單一和多種產(chǎn)品問題診斷數(shù)據(jù)。
特別地,從非結(jié)構(gòu)服務(wù)請求的PSS日志提取用戶生成文本以及連接/參考產(chǎn)品支持(PS)條款。根據(jù)相關(guān)特征將文本地分析并組織的信息提取到交互結(jié)構(gòu)數(shù)據(jù)對象的聚類。例如,與其他服務(wù)請求內(nèi)容相比,連接信息可能是相對多余的。然而,當(dāng)兩個服務(wù)請求引用同一個KB條款時,兩個服務(wù)請求可能相對于同一個問題和原因。在分析和集中之后,結(jié)構(gòu)對象包括一些產(chǎn)品問題癥狀,原因,解答,連接/引用到相關(guān)PS文件的組合,并且參考任何其他相關(guān)的數(shù)據(jù)對象。分級結(jié)構(gòu)數(shù)據(jù)對象的這些聚類用于生成故障查找向?qū)А?br> 該故障查找向?qū)Вb于所給產(chǎn)品的癥狀或問題說明,為用戶提供直接與結(jié)構(gòu)數(shù)據(jù)對象的組織交互用于問題的診斷和解決。特別地,故障查找向?qū)г试S終端用戶用相應(yīng)的問題原因和解決方法系統(tǒng)地平衡分級結(jié)構(gòu)歷史數(shù)據(jù)對象以便匹配/識別他們的產(chǎn)品問題癥狀,或說明。現(xiàn)在詳細地描述了用于開采產(chǎn)品支持服務(wù)請求的系統(tǒng)和方法的這些和其他方面。
示范性的系統(tǒng)返回附圖,其中相同的參考數(shù)字代表相同的元件,描述和示出了在合適的計算環(huán)境中實現(xiàn)的系統(tǒng)和方法。雖然沒有要求,在由個人計算機執(zhí)行的計算機可執(zhí)行指令的普通上下文中描述了本發(fā)明,諸如程序模塊。程序模塊通常包括例程,程序,對象,元件,數(shù)據(jù)結(jié)構(gòu),等等,它執(zhí)行特定的任務(wù)或執(zhí)行特定的抽象數(shù)據(jù)類型。然而在上文中所描述的系統(tǒng)和方法,在下文中所描述的行為和操作也可以用硬件來實現(xiàn)。
圖1示出了用于開采產(chǎn)品支持服務(wù)請求的示范性系統(tǒng)100。在該實施中,系統(tǒng)100包括通過通信網(wǎng)絡(luò)104耦合到客戶計算設(shè)備106的產(chǎn)品支持服務(wù)(PSS)服務(wù)器102。網(wǎng)絡(luò)104可以包括局域網(wǎng)(LAN)和普通廣域網(wǎng)(WAN)通信環(huán)境的任意組合,諸如在辦公室中普通設(shè)置的那些,企業(yè)范圍的計算機網(wǎng)絡(luò),內(nèi)部網(wǎng),以及因特網(wǎng)。PSS服務(wù)器102耦合到下面的數(shù)據(jù)儲存庫PSS服務(wù)請求(SR)日志108,聚類和分級結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象110,以及KB條款112??蛻粲嬎阍O(shè)備106是任意類型的計算設(shè)備,諸如個人計算機,膝上計算機,服務(wù)器,移動計算設(shè)備(例如,蜂窩電話,個人數(shù)字助理,或便攜式計算機),等等。
PSS服務(wù)器102開采PSS服務(wù)請求日志108以生成分級組織和結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象(SAOs)110的聚類。每個SAO110包括歷史的,單一和/或多種問題,產(chǎn)品問題診斷數(shù)據(jù)。作為問題說明/癥狀,結(jié)果,原因,以及解決診斷數(shù)據(jù)的一個或多個功能該診斷數(shù)據(jù)由PSS服務(wù)器102組織成層次樹,例如編號114中所示。如下面所描述的,響應(yīng)由PSS服務(wù)器從客戶計算設(shè)備106接收的問題說明/癥狀查詢116,響應(yīng)信息118中的這些結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象110之一由PSS服務(wù)器102傳送到客戶計算設(shè)備106。與查詢116的項目對應(yīng),結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象110傳送到客戶計算設(shè)備106。計算設(shè)備106的終端用戶客戶使用故障查找向?qū)?20系統(tǒng)地呈現(xiàn)和平衡通過通信結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象110封裝的歷史產(chǎn)品問題診斷數(shù)據(jù)以便至少識別問題的相應(yīng)原因和相關(guān)的解答。優(yōu)先說明了什么樣的故障查找向?qū)?20將該分級結(jié)構(gòu)歷史產(chǎn)品問題診斷數(shù)據(jù)呈現(xiàn)給終端用戶用于問題的解決,我們首先描述由PSS服務(wù)器102怎樣生成結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象110。
結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象PSS服務(wù)請求日志108中記錄的每個項目是終端用戶和產(chǎn)品支持工程師/工作人員調(diào)查產(chǎn)品問題診斷,調(diào)試,以及解答通信過程的結(jié)果。該產(chǎn)品問題診斷和解答通信是非正式的(例如,沒有基于由專業(yè)作者或賣方獨自生成的記錄產(chǎn)品的任務(wù)信息),并且經(jīng)常包括涉及將產(chǎn)品問題癥狀限制到根源的非結(jié)構(gòu)問題和應(yīng)答的集合。該問題可以包括產(chǎn)品名稱,問題范圍諸如問題說明,癥狀,原因,解答,等等的一些組合。支持工程師/工作人員的回應(yīng)可以包括相應(yīng)系統(tǒng)和產(chǎn)品問題診斷/調(diào)查問題,原因,和/或問題的解答的一些組合。該支持工程師/工作人員的回應(yīng)也可以包括連接/參考PS條款(例如,知識庫(KB)條款112),該條款相應(yīng)于特定的問題解決過程。該鏈接/參考經(jīng)常包括,例如,基本上唯一的文件IDs,超文本鏈接,通用資源標識符(URIs),文件題目,等等。在終端用戶和產(chǎn)品支持工程師/工作人員之間通信的這些信息以下簡稱為非結(jié)構(gòu)服務(wù)請求122。
為了開采PSS服務(wù)請求日志108,結(jié)構(gòu)應(yīng)答對象(SAO)生成模塊124從非結(jié)構(gòu)服務(wù)請求122之一提取產(chǎn)品問題范圍和解答信息。所提取的信息在它的中間數(shù)據(jù)格式中作為元數(shù)據(jù)126示出,并且包括例如,產(chǎn)品名稱,問題范圍諸如問題說明,癥狀,原因,解答,產(chǎn)品問題診斷/調(diào)查問題,原因,解答,到一個或多個PS條款的鏈接/參考數(shù)據(jù),等等的任意組合。SAO生成模塊124從元數(shù)據(jù)126定位有關(guān)的癥狀,結(jié)果,原因,解答,問題/應(yīng)答對,有關(guān)的KB條款,等等,以便形成結(jié)構(gòu)應(yīng)答對象110。從單一的服務(wù)請求生成單一的SAO,因此,SAO110表示一個問題一種原因一種解答的結(jié)構(gòu)。由聚類的多個SAOs110一起提供分級的一個問題多種原因多種解答,如以下的段落 , ,和 中所描述的。
為了簡化通過SAOs110的查找和檢索,鑒于問題說明檢索詞,索引模塊128的集合創(chuàng)建索引130。為此,索引模塊128從SAOs110提取檢索詞和關(guān)鍵短語,執(zhí)行統(tǒng)計和基于會議的特征選擇以便將合適的加權(quán)值分配到所提取的特征,并且規(guī)范SAOs110中的術(shù)語。特別地,索引模塊128的特征提取部分執(zhí)行從結(jié)構(gòu)應(yīng)答對象110中提取特征諸如術(shù)語,短語,和/或句子。統(tǒng)計信息被用于執(zhí)行該提取。例如,在一個實施中,如果在第一文件(SAO)中單詞出現(xiàn)多次而在第二個(不同)文件中很少出現(xiàn)或根本不出現(xiàn),則該特定的單詞被決定為第一文件中的術(shù)語。交互信息用于計算關(guān)鍵短語。例如,在文件中當(dāng)相互鄰近的兩個術(shù)語頻繁地出現(xiàn)時,則這兩個術(shù)語被結(jié)合以便生成短語。用索引130的個別部分表示所提取的術(shù)語和短語的特征。在一個實施中,索引模塊128用語義數(shù)據(jù)諸如用同義詞來擴大一個或多個所提取的特征。
接下來,索引模塊128執(zhí)行統(tǒng)計和提取特征的基于會議的選擇(特征選擇)以便將較高的加權(quán)值選擇和分配到基本上最重要的標記。統(tǒng)計特征選項處理作為層狀結(jié)構(gòu)的文件,例如單詞包,以便執(zhí)行諸如檢索詞頻率的簡單檢索詞統(tǒng)計。基于會議的特征選項利用服務(wù)請求的內(nèi)部結(jié)構(gòu)。例如,服務(wù)請求可以被視為多種信息的樹結(jié)構(gòu),具有它的父節(jié)點的應(yīng)答信息的每個節(jié)點。這種樹結(jié)構(gòu)用于增強特征選項。用索引130的個別部分表示特征選項的操作結(jié)果。示范性的特征選項算法基于DF,IG,MI,CHI,在主動維數(shù)減縮上具有焦點,如上所述,例如,在1997年,Yang和Pederson的“文本編目方法中特征選項的比較研究”中。
接下來,索引模塊128轉(zhuǎn)換,或規(guī)范所提取的特征。該規(guī)范將檢索詞轉(zhuǎn)換為一致的格式,例如在工程師之間以及在消費者和工程師之間。例如,在一個實施中,檢索詞“腐敗”可以被映像得與檢索詞“損害”類似,檢索詞“WINDOWSXP”映像到檢索詞“Win XP”,等等。例如,在2003年7月-8月,SIGIR-03的“根據(jù)網(wǎng)頁鏈路結(jié)構(gòu)建造網(wǎng)頁辭典”中描述了檢索詞的規(guī)范,該文獻在這里被結(jié)合參考。用索引130的個別部分表示檢索詞規(guī)范的結(jié)果。
用于SAO110分級和聚類的統(tǒng)一結(jié)構(gòu)增強聚類模塊132使用來自索引130的信息根據(jù)他們的內(nèi)容和鏈接特性將SAOs110組織到語義聚類中。例如,雖然與其他的SAO內(nèi)容相比鏈接信息可能是相對稀少的,當(dāng)多個SAOs110引用同一個KB條款112時,多個SAOs110可能相應(yīng)于同一個問題和原因。在這種情況下,增強聚類模塊132交叉引用相關(guān)的多個SAOs110。特別地,增強聚類模塊132使用相互增強聚類算法計算SAO110(文件/對象)對的相似性,以便將每個SAO的特征迭代地聚類到低維特征空間。SAO110相似性計算基于tf*idf,它是公知的規(guī)范檢索詞特征加權(quán)值的加權(quán)算法。“多種類型相關(guān)數(shù)據(jù)對象的增強聚類”描述了用于增強聚類的示范性的技術(shù),如在下面的附錄A中所描述的。相關(guān)SAOs110的分析和聚類后,相關(guān)SAOs110被一起聚類到故障查找向?qū)?20,如下面描述的,并且索引被存儲在索引130中。
半監(jiān)督學(xué)習(xí)方法使用標記和非標記的排列數(shù)據(jù)采樣構(gòu)造分級器。而非標記的數(shù)據(jù)采樣可以有助于將排列模式的精確度提高到一定的程度,當(dāng)標記數(shù)據(jù)不足并且對基礎(chǔ)的數(shù)據(jù)分配有偏見時,存在的方法仍然面對困難。為了訪問傳統(tǒng)聚類方法的這種限制,在一個實施中,聚類模塊132用附加的聚類分析統(tǒng)一它的增強聚類操作,諸如該附加的聚類分析由人工生成。這樣形成了用于SAOs110的聚類和分級的統(tǒng)一結(jié)構(gòu)。
例如,在一個實施中,增強聚類模塊132的基于聚類的分級(CBC)操作在標記數(shù)據(jù)的指導(dǎo)下首先聚類包括標記和非標記的數(shù)據(jù)的排列數(shù)據(jù)。然后基于所獲得的聚類標記一些非標記數(shù)據(jù)的采樣。然后用擴展的標記數(shù)據(jù)集合隨后排列不同的分級器。為了說明的目的,用其他數(shù)據(jù)134的個別部分表示該排列采樣,擴展標記數(shù)據(jù)集合,聚類,等等。美國,佛羅里達州,墨爾本,ICDM-03(2003 IEEE數(shù)據(jù)篩選的國際信息處理會議),2003年11月19-22日,Hua-JunZeng等的“CBC基于文本分級的聚類請求最小標記數(shù)據(jù)”描述了使用CBC執(zhí)行該統(tǒng)一聚類的示范性的技術(shù),該文獻在這里被結(jié)合參考。
示范性的知識庫更新在一個實施中,知識庫(KB)更新模塊136從一個或多個SAOs110動態(tài)地生成KB條款112。靜態(tài)生成的KB條款是一種手工生成的,例如,通過人工。動態(tài)生成的KB條款112是一種由KB更新模塊136自動生成的并且包括來自相應(yīng)SAOs110之一的信息—由SAO生成模塊124從產(chǎn)品終端用戶以及支持工程師/工作人員編譯的分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù)。當(dāng)多個SAOs110用于生成KB條款時,多個SAOs110表示SAOs110的增強聚類—如索引130所表示的。
更特別地,SAOs110被集中在一起,當(dāng)他們具有相同的問題說明時用于生成故障查找向?qū)?20,如上面的段落 , ,以及 中所描述的。該聚類的頻率是SAOs110集合成故障查找向?qū)?20的數(shù)目。另外,具有相同原因的SAOs110進一步被聚類到子組,每個子組的頻率為聚類到各個子組的SAOs110的數(shù)目。如果“向?qū)А?例如,用于生成故障查找向?qū)?20的SAOs的集合)的尺寸足夠大,例如,整個向?qū)У念l率和所有子組的頻率超過某個極限,一個新(提高的)KB條款112被創(chuàng)建。
示范性的產(chǎn)品問題故障查找向?qū)г谠搶嵤┲?,客戶計算設(shè)備106包括故障查找向?qū)?20,該故障查找向?qū)?20允許客戶計算機106的終端用戶鑒于所提供的產(chǎn)品問題癥狀或說明從結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象110系統(tǒng)地呈現(xiàn)和平衡分級結(jié)構(gòu)歷史產(chǎn)品問題診斷數(shù)據(jù)。該呈現(xiàn)允許終端用戶識別問題的相應(yīng)原因和相關(guān)的解答。在這些終端,用戶將作為計算機程序應(yīng)用或產(chǎn)品(例如,瀏覽,字處理應(yīng)用程序,和/或計算機編程應(yīng)用的任何其他類型)的基于文本的癥狀或問題說明138輸入到故障查找向?qū)?20(例如,通過用戶界面(UI)控制)。故障查找向?qū)?20生成包括產(chǎn)品問題說明和/或癥狀138的查詢116,和通信查詢116以便通過網(wǎng)絡(luò)104查找PSS服務(wù)器102的供給器模塊140。
響應(yīng)所接收的查詢116,查找供給器140執(zhí)行索引130的整體文本查找以便識別與查詢116中的檢索詞相關(guān)的檢索詞和/或短語的一個或多個SAOs110。在一個實施中,該檢索詞和/或短語將具有與所查詢的檢索詞基本上較高的客觀關(guān)聯(lián)性(加權(quán)值),并且可以用于決定一個SAO110比另一個SAO110與查詢116更相關(guān)。響應(yīng)一個或多個相關(guān)SAOs110的定位,查找供給器140將一個或多個SAOs110傳送回客戶計算設(shè)備106,例如,通過應(yīng)答信息118。響應(yīng)所接收的一個或多個SAOs110,故障查找向?qū)?20從一個或多個SAOs110提取歷史的,單一和/或多種問題產(chǎn)品問題診斷數(shù)據(jù)。故障查找向?qū)?20將所提取的信息呈現(xiàn)到客戶計算設(shè)備106的終端用戶,例如,如圖2中所示。
圖2示出了從SAOs110將分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù)呈現(xiàn)到用戶用于選擇產(chǎn)品問題診斷交互的示范性的故障查找向?qū)в脩艚缑?UI)200。如UI200中所示,對于所提供的產(chǎn)品問題癥狀/說明138,UI200呈現(xiàn)一個或多個相應(yīng)的癥狀,原因,解答,和/或其他信息,每個從一個或多個SAOs110提取的信息由應(yīng)答信息118封裝。相對于癥狀的KB條款112是它的子原因/解答的相關(guān)KB條款的集合,具有疊加的頻率。
雖然UI200示出了一些癥狀,原因,和/或解答數(shù)據(jù)集合,在這里可以是許多作為特定問題138的功能被訪問的該數(shù)據(jù)和SAOs110的內(nèi)容。故障查找向?qū)?20平衡嵌入響應(yīng)118中的SAO(s)110的內(nèi)部數(shù)據(jù)表示,以便在個別層次樹結(jié)構(gòu)中呈現(xiàn)每個癥狀,原因,以及解答數(shù)據(jù)集合。在這個樹中,每個癥狀呈現(xiàn)節(jié)點具有一個或多個原因子節(jié)點。每個原因節(jié)點依次是用于一個或多個解答子節(jié)點的父節(jié)點。為了選擇UI200中的信息表示的目的,在該實施中,標點符號“+”和“-”顯示在個別癥狀和原因節(jié)點的左邊。符號“+”和“-”表示可選的UI對象,該對象允許用戶選擇地擴展和/或折疊與相應(yīng)的結(jié)構(gòu)應(yīng)答對象節(jié)點相關(guān)的信息。
故障查找向?qū)?20,鑒于所提供產(chǎn)品的癥狀或問題說明138,通過UI200將組織的歷史問題診斷數(shù)據(jù)的相互作用直接從應(yīng)答118提供給用戶用于問題的診斷和解答。因此,故障查找向?qū)?20允許終端用戶系統(tǒng)地平衡分級結(jié)構(gòu)的歷史數(shù)據(jù)對象以便用相應(yīng)的問題原因和解答匹配/識別他們的產(chǎn)品問題的癥狀,或說明。
示范性的過程圖3說明了用于產(chǎn)品支持服務(wù)服務(wù)器開采產(chǎn)品支持服務(wù)請求的示范性過程。為了討論的目的,相對于圖1的部件討論過程的操作。(所有的參考數(shù)字從附圖號開始,附圖中的部件首先被介紹)。在塊302,產(chǎn)品支持服務(wù)(PSS)服務(wù)器102(圖1)將非結(jié)構(gòu)服務(wù)請求122從PSS服務(wù)請求日志108轉(zhuǎn)換為一個或多個結(jié)構(gòu)應(yīng)答數(shù)據(jù)110。在塊304,PSS服務(wù)器102,響應(yīng)在請求信息116中接收的產(chǎn)品問題說明138,識別一組結(jié)構(gòu)應(yīng)答數(shù)據(jù)110,該應(yīng)答數(shù)據(jù)110包括與產(chǎn)品問題說明138相關(guān)的檢索詞和/或短語。在塊306,PSS服務(wù)器102將歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù)從該組中提供到終端用戶用于產(chǎn)品問題的診斷。在一個實施中,這是通過將應(yīng)答信息118傳送到客戶計算設(shè)備106來完成的。在另一個實施中,這是通過知識庫更新模塊136來執(zhí)行的,該模塊根據(jù)組中的信息動態(tài)地生成知識庫文章112。
圖4說明了客戶計算設(shè)備在故障查找向?qū)е谐尸F(xiàn)結(jié)構(gòu)應(yīng)答對象以便為終端用戶提供產(chǎn)品支持的示范性過程400。為了討論的目的,相對與圖1的部件討論過程的操作。(所有的參考數(shù)字從附圖號開始,附圖中的部件首先被介紹)。在塊402,客戶計算設(shè)備106將查找請求(圖1的查詢116)傳送到PSS服務(wù)器102。該查找請求包括產(chǎn)品問題說明138。在塊404,響應(yīng)所接收的查找請求的應(yīng)答信息118,客戶計算設(shè)備106呈現(xiàn)故障查找向?qū)?20以便呈現(xiàn)訪問產(chǎn)品問題說明138的歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù)。圖2中示出了示范性的表示。
示范性的操作環(huán)境圖5說明了一個合適的計算環(huán)境500的例子,在該環(huán)境中圖1的系統(tǒng)100以及圖3和4用于開采產(chǎn)品支持服務(wù)請求的方法可以被全部或部分地實施。示范性的計算環(huán)境500僅僅是合適的計算環(huán)境的一個例子,并不用于暗示這里所描述的有關(guān)使用范圍或系統(tǒng)和方法功能的任何限制。計算環(huán)境500也不被解釋為具有任何從屬物或要求,該從屬物或要求與所說明的計算環(huán)境500中的任何一個部件或部件的組合相關(guān)。
這里描述的方法和系統(tǒng)與計算系統(tǒng)環(huán)境或結(jié)構(gòu)的許多其他的通用目的或?qū)S媚康牟僮鞯慕Y(jié)合。公知的計算系統(tǒng),環(huán)境,和/或結(jié)構(gòu)的例子可以是適用的,包括但不限制到個人計算機,服務(wù)器計算機,多處理器系統(tǒng),基于微處理器的系統(tǒng),網(wǎng)絡(luò)PCs,小型計算機,大型計算機,包括上述任何系統(tǒng)或設(shè)備的分布式計算環(huán)境,等等。也可以在有限資源的客戶中實施網(wǎng)絡(luò)的壓縮或小型版本,諸如便攜式計算機,或其他計算設(shè)備。本發(fā)明在分布式計算環(huán)境中實現(xiàn),該環(huán)境中由通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以設(shè)置在局域或遠程存儲器存儲設(shè)備中。
參考圖5,用于開采產(chǎn)品支持服務(wù)請求的示范性系統(tǒng)包括計算機510形式的通用目的計算設(shè)備。以下描述的計算機510的方面是客戶計算設(shè)備PSS服務(wù)器102(圖1)和/或客戶計算設(shè)備106的示范性的實施。計算機510的部件可以包括但不限制到處理單元520,系統(tǒng)存儲器530,以及系統(tǒng)總線521,該系統(tǒng)總線521將包括系統(tǒng)存儲器的各種系統(tǒng)部件耦合到處理單元520。系統(tǒng)總線521可以是多種類型總線結(jié)構(gòu)的任意一種,該多種類型的總線結(jié)構(gòu)包括存儲器總線或存儲器控制器,外圍總線,以及使用不同總線體系結(jié)構(gòu)的任意一種的局部總線。作為例子而不是限制,該體系結(jié)構(gòu)可以包括工業(yè)標準體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MCA)總線,增強的ISA(EISA)總線,視頻電子標準協(xié)會(VESA)局部總線,并且外圍部件互連(PCI)總線作為附加板總線也是公知的。
計算機510典型地包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是任何可獲得的介質(zhì),所述介質(zhì)可以通過計算機510訪問并且包括易失性和非易失性介質(zhì),可移動和不可移動介質(zhì)。作為例子而不是限制,計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括易失性和非易失性,可移動和不可移動介質(zhì),該介質(zhì)用任意方法或技術(shù)執(zhí)行諸如計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或其他數(shù)據(jù)信息的存儲。計算機存儲介質(zhì)包括但不限制到RAM,ROM,EEPROM,閃存或其他存儲器技術(shù),CD-ROM,數(shù)字通用唱片(DVD)或其他光盤存儲器,磁帶盒,磁帶,磁盤存儲器或其他磁存儲設(shè)備,或任何其他可以用于存儲想要的信息并且可以由計算機510訪問的介質(zhì)。
通信介質(zhì)典型地包含計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或調(diào)制數(shù)據(jù)信號中的其他數(shù)據(jù)諸如載波或其他傳送機構(gòu),并且包括任何信息傳送介質(zhì)。術(shù)語“調(diào)制數(shù)據(jù)信號”的意思是具有它的一個或多個特征或者為了信號中的編碼信息采用這種方法改變的信號。作為例子而不是限制,通信介質(zhì)包括有線介質(zhì)諸如有線網(wǎng)絡(luò)或直接有線連接,以及無線介質(zhì)諸如聲波,RF,紅外和其他無線介質(zhì)。上述的任意組合也可以包括在計算機可讀介質(zhì)的范圍中。
系統(tǒng)存儲器530包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì)諸如只讀存儲器(ROM)531和隨機存取存儲器(RAM)532?;据斎?輸出系統(tǒng)533(BIOS),包含有助于在計算機510的部件之間傳送信息的基本例程,諸如在啟動期間典型地存儲在ROM531中。RAM532典型地包含數(shù)據(jù)和/或程序模塊,該模塊由處理單元520立即訪問和/或操作。作為例子而不是限制,圖5說明了操作系統(tǒng)534,應(yīng)用程序535,其他程序模塊536,以及程序數(shù)據(jù)537。在一個實施中,其中的計算機510是PSS服務(wù)器102。在這種情況下,應(yīng)用程序535包括結(jié)構(gòu)解決數(shù)據(jù)對象生成模塊124,增強聚類模塊132,索引模塊128,查找供給器模塊140,和知識庫(KB)更新模塊136。在相同的情況下,程序數(shù)據(jù)537包括元數(shù)據(jù)126,索引130,其他數(shù)據(jù)134,和應(yīng)答信息118。在另一個實施中,其中的計算機510是圖1的客戶計算設(shè)備106,應(yīng)用程序535包括故障查找向?qū)?20。在相同的情況下,程序數(shù)據(jù)537包括查詢116,和產(chǎn)品問題癥狀/說明138。
計算機510也可以包括其他可移動/不可移動,易失性/非易失性計算機存儲介質(zhì)。僅作為例子,圖5說明了讀或?qū)懖豢梢苿?,非易失性磁介質(zhì)的硬盤驅(qū)動器541,讀或?qū)懣梢苿樱且资源疟P552的磁盤驅(qū)動器551,以及讀或?qū)懣梢苿?,非易失性光盤556諸如CD ROM或其他光學(xué)介質(zhì)的光盤驅(qū)動器555。其他可移動/不可移動,易失性/非易失性計算機存儲介質(zhì)可以在示范性的操作環(huán)境中使用,該示范性的操作環(huán)境包括但不限制到盒式磁帶,閃存卡,數(shù)字通用唱盤,數(shù)字視頻磁帶,固態(tài)RAM,固態(tài)ROM,等等。硬盤驅(qū)動器541通過不可移動存儲器接口諸如接口540典型地連接到系統(tǒng)總線521,而磁盤驅(qū)動器551和光盤驅(qū)動器555通過可移動存儲器接口諸如接口550典型地連接到系統(tǒng)總線521。
以上討論的并在圖5中說明的驅(qū)動器和他們相關(guān)的計算機存儲介質(zhì),提供計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊和用于計算機510的其他數(shù)據(jù)的存儲。圖5中,例如,硬盤驅(qū)動器541作為存儲操作系統(tǒng)544,應(yīng)用程序545,其他程序模塊546,和程序數(shù)據(jù)547被說明。注意到,這些部件可以與操作系統(tǒng)534,應(yīng)用程序535,其他程序模塊536,和程序數(shù)據(jù)537相同或不同。這里給出操作系統(tǒng)544,應(yīng)用程序545,其他程序模塊546,和程序數(shù)據(jù)547的不同的編號來說明它們至少是不同的副本。
用戶可以通過輸入設(shè)備諸如鍵盤562和定點設(shè)備561將命令和信息輸入到計算機510,該定點設(shè)備561通常被認為是鼠標,跟蹤球或觸摸板。其他輸入設(shè)備(未示出)可以包括麥克風(fēng),操縱桿,游戲板,輔助盤,掃描儀,等等。這些和其他的輸入設(shè)備經(jīng)常通過耦合到系統(tǒng)總線521的用戶輸入接口560連接到處理單元520,但是可以通過其他接口和總線結(jié)構(gòu)連接,諸如并行端口,游戲端口或通用串行總線(USB)。
監(jiān)視器591或其他類型的顯示設(shè)備也通過接口連接到系統(tǒng)總線521,諸如視頻接口590。除了監(jiān)視器,計算機也可以包括其他外圍輸出設(shè)備諸如喇叭597和打印機596,它們可以通過輸出外圍接口595連接。
在網(wǎng)絡(luò)環(huán)境中操作的計算機510邏輯連接到一個或多個遠程計算機,諸如遠程計算機580。遠程計算機580可以是個人計算機,服務(wù)器,路由器,網(wǎng)絡(luò)PC,同等設(shè)備或其他通用網(wǎng)絡(luò)節(jié)點,并且作為它特定執(zhí)行的功能,可以包括許多或所有上述的與計算機510相關(guān)的元件,雖然圖5中僅僅說明了存儲器存儲設(shè)備581。圖5中描述的邏輯連接包括局域網(wǎng)(LAN)571和廣域網(wǎng)(WAN)573,但是也可以包括其他網(wǎng)絡(luò)。該網(wǎng)絡(luò)環(huán)境是辦公室中通常設(shè)置的,企業(yè)范圍的計算機網(wǎng)絡(luò),內(nèi)部網(wǎng)和因特網(wǎng)。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時,計算機510通過網(wǎng)絡(luò)接口或適配器570連接到LAN571。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時,計算機510典型地包括調(diào)制解調(diào)器572或用于通過WAN573設(shè)置通信的其他裝置,諸如因特網(wǎng)。調(diào)制解調(diào)器572可以是內(nèi)部的或外部的,可以通過用戶輸入接口560或其他適當(dāng)?shù)臋C制連接到系統(tǒng)總線521。在網(wǎng)絡(luò)環(huán)境中,相對于計算機510或它的一部分所描述的程序模塊可以存儲在遠程存儲器存儲設(shè)備中。作為例子而不是限制,圖5說明了保存在存儲設(shè)備581中的遠程應(yīng)用程序585。所示的網(wǎng)絡(luò)連接是示范性的并且可以使用在計算機之間設(shè)置通信連接的其他裝置。
總結(jié)雖然已經(jīng)用具體到結(jié)構(gòu)特征和/或方法操作或行為的術(shù)語描述了用于開采產(chǎn)品支持服務(wù)請求的系統(tǒng)和方法,將被理解的是,所附權(quán)利要求中定義的設(shè)備不必限制到具體的特征或行為描述。例如,雖然圖1示出了與客戶計算設(shè)備106相關(guān)的故障查找向?qū)?20,故障查找向?qū)?20也可以在服務(wù)器計算機102上實現(xiàn)。因此,作為實現(xiàn)權(quán)利要求主題的典型的形式,公開了具體的特征和行為。
附錄A典型的聚類系統(tǒng)和方法的背景聚類涉及多個對象的分組,并且用于應(yīng)用程序中諸如搜索引擎和信息開采。聚類算法基于對象的相似性來分組對象。例如,網(wǎng)頁對象基于它們的內(nèi)容,連接結(jié)構(gòu),或它們的用戶存取日志被聚類。用戶聚類基于他們所選擇的項目。用戶對象基于他們的存取歷史被聚類。與用戶有關(guān)的項目的聚類傳統(tǒng)地基于用戶所選擇的那些項目。多種聚類算法是公知的?,F(xiàn)有技術(shù)的聚類算法包括基于分割的聚類,分級聚類,和基于密度的聚類。
用戶訪問的網(wǎng)頁或圖案的內(nèi)容經(jīng)常用于創(chuàng)建用戶的概況以聚類網(wǎng)頁用戶。然后采用傳統(tǒng)的聚類技術(shù)。在合作的過濾器中,為了較好地推薦/預(yù)測,聚類也用于分組用戶或項目。
這些現(xiàn)有聚類算法的使用,通常,具有一定的局限性。傳統(tǒng)聚類技術(shù)太分散而不能獲得有效的對象聚類,該傳統(tǒng)聚類技術(shù)可能面臨對象數(shù)目或異構(gòu)對象之間的連接數(shù)目數(shù)據(jù)稀少的問題。用同族聚類,被分析的數(shù)據(jù)集合包含相同類型的對象。例如,如果同族聚類基于網(wǎng)頁和用戶,則每個網(wǎng)頁對象和用戶對象將被分別聚類。如果同族聚類基于項目和用戶,則每個項目對象和用戶對象將被分別聚類。在該同族聚類實施例中,那些相同類型的對象被一起聚類而不考慮其他類型的對象。
現(xiàn)有技術(shù)的異構(gòu)對象聚類分別聚類對象集合。該異構(gòu)對象聚類僅使用表示每個對象節(jié)點平面特征的連接。在現(xiàn)有技術(shù)的異構(gòu)聚類中,不考慮層內(nèi)部和之間的所有連接結(jié)構(gòu),或者簡單地當(dāng)作分離特征。
示范性的聚類系統(tǒng)和方法圖6中示出了可以得益于聚類的使用的計算機環(huán)境600(即通用計算機)的一個實施例。該計算機環(huán)境600包括存儲器602,處理器604,聚類部分608,和支持電路606。支持電路包括諸如顯示器和輸入/輸出電路部分,該電路允許計算機環(huán)境600的不同部件傳送信息(例如,數(shù)據(jù)對象)。
在聚類部分608中執(zhí)行聚類。該聚類部分608可以在計算機環(huán)境的存儲器602和處理器604部分中被集成。例如,處理器604處理聚類不同對象的聚類算法(該算法從存儲器檢索)。存儲器602(諸如數(shù)據(jù)庫)負責(zé)存儲聚類的對象以及相關(guān)的程序以及聚類算法以至于可以根據(jù)需要檢索(和存儲)聚類的對象。計算機環(huán)境600可以被配置為獨立的計算機,網(wǎng)絡(luò)計算機系統(tǒng),大型機,或公知的任意不同的計算機系統(tǒng)。這里公開的一些實施例描述了計算機環(huán)境的應(yīng)用(從因特網(wǎng)下載網(wǎng)頁的計算機)??梢灶A(yù)見的是,這里描述的原理適用于任何公知類型的計算機環(huán)境600。
該編寫的說明書提供了一種聚類機制,通過該機制認為可靠的返回結(jié)果的百分比(例如,應(yīng)用到用戶的查詢)被提高。聚類可以被應(yīng)用到諸如搜索工具,信息篩選,數(shù)據(jù)篩選,合作過濾器,等等的技術(shù)領(lǐng)域。搜索工具已經(jīng)得到關(guān)注,由于它們服務(wù)不同信息的能力需要并獲得增強的檢索性能。搜索工具與諸如網(wǎng)頁,用戶,查詢,等等的計算機方面有關(guān)。
當(dāng)前編寫的說明書描述了用于聚類數(shù)據(jù)對象的各種聚類算法的實施例。數(shù)據(jù)對象的聚類是一種技術(shù),通過該技術(shù)數(shù)據(jù)對象的大型集合被組合成大量的集合或數(shù)據(jù)對象的聚類(每個大量的數(shù)據(jù)對象聚類具有較少的數(shù)據(jù)對象)。包含在數(shù)據(jù)對象的聚類組中的每個數(shù)據(jù)對象具有一些相似性。因此,聚類的一方面可以被認為是多種數(shù)據(jù)對象的分組。
在編寫的說明書中描述的一種聚類機制涉及結(jié)構(gòu)圖750,圖7中說明了結(jié)構(gòu)圖的一個實施例。在不同類型的對象中提供了統(tǒng)一聚類機制的一些實施例,該對象在不同層或節(jié)點集合P和U之間被聚類,如圖7的結(jié)構(gòu)圖750中所示。同樣可以預(yù)見的是,在所編寫的說明書中描述的原理可以應(yīng)用到三個或多個層中,代替編寫的說明書中所描述的兩個層。每個節(jié)點集合P和U也可以被認為是一層。在所編寫的說明書中,術(shù)語“統(tǒng)一”聚類應(yīng)用到聚類異構(gòu)數(shù)據(jù)的技術(shù)。節(jié)點集合P包括多個數(shù)據(jù)對象p1,p2,p3,…,pi,每個數(shù)據(jù)對象是相同的數(shù)據(jù)類型。節(jié)點集合U包括多個數(shù)據(jù)對象u1,u2,u3,…,uj,每個數(shù)據(jù)對象是相同的數(shù)據(jù)類型。在每個節(jié)點集合(P或U)上聚類的對象的數(shù)據(jù)類型是一致的,因此,每個節(jié)點集合(P或U)中的數(shù)據(jù)對象是同族的。節(jié)點集合P中的數(shù)據(jù)對象p1,p2,p3,…,pi的類型與節(jié)點集合U中的數(shù)據(jù)對象u1,u2,u3,…,uj的類型不同。諸如,在不同節(jié)點集合P和U之一中的數(shù)據(jù)對象的類型是不同的,或異構(gòu)的。編寫的說明書的一些方面提供了使用從對象的同族和異構(gòu)數(shù)據(jù)類型輸入(基于連接)的聚類。
在編寫的說明書中通過在數(shù)據(jù)對象對之間的線性擴展說明了連接。連接表示聚類中數(shù)據(jù)對象對之間的關(guān)系。在一個例子中,連接可以從網(wǎng)頁對象擴展到用戶對象,并且表示用戶選擇的一些網(wǎng)頁。在另一個例子中,連接可以從網(wǎng)頁對象擴展到另一個網(wǎng)頁對象,并且表示不同網(wǎng)頁之間的關(guān)系。在聚類的一些實施例中,“連接”被認為是“邊緣”。用在編寫的說明書中的通用術(shù)語“連接”用于描述連接,邊緣,或一個對象到另一個對象的任何連接器,其描述了對象之間的關(guān)系。
存在多種不同類型的連接(如編寫的說明書中所描述的),該連接涉及與結(jié)構(gòu)圖750中說明的不同對象之一相關(guān)聯(lián)的不同類型對象的聚類。連接可以被分類為隔層連接或?qū)觾?nèi)連接。層內(nèi)連接703或705是結(jié)構(gòu)圖750中的連接的一個實施例,其描述了相同類型的不同對象之間的關(guān)系。隔層連接704是結(jié)構(gòu)圖750中的連接的一個實施例,其描述了不同類型對象之間的關(guān)系。如圖7中所示,存在多種在某個數(shù)據(jù)對象u1,u2,u3,…,uj之間擴展的層內(nèi)連接703。在圖7所示的實施例中,也存在多種在某個數(shù)據(jù)對象p1,p2,p3,…,pi之間擴展的層內(nèi)連接705。在圖7所示的實施例中,也存在多種在節(jié)點集合P的某個數(shù)據(jù)對象u1,u2,u3,…,uj以及在節(jié)點集合U的某個數(shù)據(jù)對象p1,p2,p3,…,pi之間擴展的隔層連接704。使用隔層連接識別的一種類型對象的聚類可以被另一種類型的對象影響。例如,網(wǎng)頁對象的聚類可以被用戶對象的結(jié)構(gòu),狀態(tài),和特性影響。
由于數(shù)據(jù)對象之間的關(guān)系在任何方向上可以是直接的,連接方向(由圖7中用于連接703,704,或705的箭頭提供,圖8中也是)被解釋為雙向的。連接被認為是說明性的而不是限定范圍。結(jié)構(gòu)圖750的圖形中的一些連接可以更適當(dāng)?shù)卦谝粋€方向上引導(dǎo),箭頭的方向一般不影響結(jié)構(gòu)的操作。結(jié)構(gòu)圖750由節(jié)點集合P,節(jié)點集合U,和連接集合L組成。結(jié)合結(jié)構(gòu)圖750,pi和uj表示兩種類型的數(shù)據(jù)對象,其中pi∈P(i=1,…,I)并且uj∈U(j=1,…J)。I和J分別是節(jié)點集合P和U的基數(shù)。
由參考符號704說明的連接(pi,uj)∈L是不同類型對象之間的隔層連接(其被配置為2-元組)。由705和703引用的連接(pi,pj)∈L和(ui,uj)∈L分別是在相同類型對象之間擴展的層內(nèi)連接。為簡單起見,應(yīng)用不同的參考符號代表隔層連接集合(704)和層內(nèi)連接集合(703,705)。
使用統(tǒng)一的聚類,在對象之間更全面地利用連接來增強聚類。不同層中不同類型對象的聚類通過有效的聚類被增強。如果對象被正確地聚類,則聚類結(jié)果將更合理。聚類可以提供在分析數(shù)據(jù)中使用的結(jié)構(gòu)信息。
結(jié)構(gòu)圖750說明了多種類型對象的聚類,其中每種類型的對象基本上相同(例如,屬于網(wǎng)頁組,用戶組,或文件組,等等的一種類型)。結(jié)構(gòu)圖750中的每組對象的類型一般與其他組對象的類型不同。
所公開的聚類技術(shù)在聚類時考慮并接收從不同的(異構(gòu)的)對象類型的輸入。所編寫的說明書的一方面基于固有的相互關(guān)系,其中被聚類的對象連同連接被提供到其他對象。連接到每個對象的某一連接(以及連接對象的那些連接)可以用不同的值來加權(quán)以便反映它們到那個對象的關(guān)聯(lián)性。例如,被聚類的那些相同類型的對象可以被提供得具有比不同類型的對象更大的值。所編寫的說明書提供了一種機制,通過該機制不同級別的值可以分配到不同的對象或不同類型的對象。不同級別的值分配到不同的對象(或不同類型的對象)在這里被認為是具有值的聚類。不同對象的不同級別的值經(jīng)常導(dǎo)致增強的聚類結(jié)果和效果。
用于聚類圖7中所示的異構(gòu)對象的結(jié)構(gòu)圖750的實施例中,每個表示不同層的不同節(jié)點集合P或U包含不同的對象類型。結(jié)構(gòu)圖750的多個節(jié)點集合(所說明的P和U)為聚類提供基礎(chǔ)。兩層的有向圖750包含被聚類的一組數(shù)據(jù)對象。每種類型對象的對象類型(其根據(jù)聚類算法被聚類)可以被認為是“潛在”類的例子。在某些對象節(jié)點之間擴展的連接703,704,或705反映由聚類提供的對象節(jié)點之間的固有關(guān)系。用于聚類的迭代設(shè)計方法使對象的單獨聚類能夠促進聚類過程,在編寫的說明書中描述了多個實施例。
通過使用這里所描述的迭代聚類技術(shù)增強異構(gòu)類型的對象(以及它們的有關(guān)連接)。該迭代聚類設(shè)計技術(shù)依靠從單獨類型的對象獲得的聚類信息,該對象排列在單獨的層中,每層包含相同類型的對象。與連接信息相結(jié)合的節(jié)點信息用于迭代地設(shè)計和傳送聚類結(jié)果(在層之間提供聚類算法)直到聚類匯合。迭代地將一種類型對象的聚類結(jié)果聚類到另一種類型對象的聚類結(jié)果可以減少與數(shù)據(jù)稀少相關(guān)的聚類挑戰(zhàn)。用這種迭代設(shè)計,在聚類而不是另一種類型聚類的個別組上計算一層中聚類的相關(guān)性測量。
檢查每種類型的不同種節(jié)點和連接以便獲得可以用于聚類的結(jié)構(gòu)信息。例如,考慮到連接不同數(shù)據(jù)對象的連接的類型(例如,連接是隔層連接還是層內(nèi)連接)可以獲得結(jié)構(gòu)信息。通過它的節(jié)點集合P或U指示每個對象的類型,如圖7中所顯示的。
圖7的通用結(jié)構(gòu)圖750可以應(yīng)用到特定的聚類應(yīng)用程序。也就是說,結(jié)構(gòu)圖750可以表示因特網(wǎng)上與用戶組有關(guān)的網(wǎng)頁組。網(wǎng)頁層被分組為節(jié)點集合P。用戶層的對象被分組為節(jié)點集合U。結(jié)構(gòu)圖750在兩層結(jié)構(gòu)圖750的圖示中集成多個網(wǎng)頁對象和多個用戶對象。結(jié)構(gòu)圖750使用連接(例如,邊緣)關(guān)系703,704,705來簡化不同類型對象的聚類(如圖7的通用結(jié)構(gòu)圖所概括的)。在聚類過程中檢查所有數(shù)據(jù)集合的連接結(jié)構(gòu)以便獲得不同級別值的節(jié)點。根據(jù)聚類過程中它們的值加權(quán)節(jié)點以確保更合理地聚類重要的節(jié)點。
在本發(fā)明說明書的某些實施例中,連接中聚類之間的連接703,704,和705被保留。保留的連接是那些在聚類對象而不是對象本身之間擴展的連接。例如,一種在網(wǎng)頁聚類和用戶聚類之間(而不是象原始連接一樣在網(wǎng)頁對象和用戶對象之間)擴展的保留連接。在某些實施例中,為多種將來的應(yīng)用程序提供保留連接,諸如結(jié)構(gòu)圖750中的推薦。例如,具有保留連接的網(wǎng)頁/用戶聚類的聚類結(jié)果可以被示為用戶采樣行為的略圖,其提供用戶采樣的預(yù)測。
通過個別向量fi和gj表示個別節(jié)點pi和uj的內(nèi)容(圖7中沒有示出)。根據(jù)應(yīng)用程序,每個單獨的節(jié)點pi和uj可以具有(或可以不具有任何)內(nèi)容特征。現(xiàn)有的聚類技術(shù)從節(jié)點uj獨立地聚類節(jié)點pi。相反,在說明書中描述的聚類結(jié)構(gòu)750中,基于它們的相關(guān)值從屬地聚類節(jié)點pi和節(jié)點uj。這里描述的聚類算法使用相似性函數(shù)為每種聚類測量對象之間的距離以便產(chǎn)生聚類。(1)中說明的余弦相似性函數(shù)可以用于聚類sc(x,y)=cos(fx,fy)=Σi=1kxfx(i)·Σi=1kyfy(j)Σi=1kxfx2(i)·Σj=1kyfy2(j)----(1)]]>sc(x,y)=cos(fx,fy)=fx·fy||fx||||fy||=Σkifx=fy(k)fx(k)fy(k)Σi=1kxfx2(i)·Σj=1kyfy2(j)---(2)]]>fx·fy是兩個特征向量的點積。它等于fx和fy中相同部件的加權(quán)積的和。表示相關(guān)性的sc基于內(nèi)容特征;fx(i)和fy(j)是特征向量fx和fy的第i和第j個部件。kx是個別特征fx中項目的數(shù)量;而ky是特征fy中項目的數(shù)量。
在編寫的說明書中,節(jié)點集合P用作一個例子以說明節(jié)點的隔層連接704和層內(nèi)連接703和705。假設(shè)所有的數(shù)據(jù)包括一系列節(jié)點對,對于層內(nèi)節(jié)點對(p(1),p(1),(p(2),p(2),…[其中的p(1)和p(2)與pi相同,而對(p(1),p(1),(p(2),p(2)),都代表相同層中的節(jié)點]諸如通過連接703或705連接;而對于隔層對(p(1),u(1)),(p(2),u(2)),…諸如通過連接704連接。因此,節(jié)點對(pi,pk)或(pi,uj)之間的連接表示數(shù)據(jù)序列中相同對的一個或多個事件。連接的加權(quán)值與它的事件頻率有關(guān)。
在編寫的說明書中,兩個單獨向量表示用于每個特定節(jié)點的隔層連接704和層內(nèi)連接703,705的特征。例如,使用向量表示層內(nèi)連接703,705的特征,該向量的部件與同層中其他的節(jié)點相應(yīng)。比較起來,使用向量表示隔層連接704的特征,該向量的部件與另一層中的節(jié)點相應(yīng)。每個部件可以是表示從(或到)相應(yīng)節(jié)點連接的加權(quán)值的數(shù)值。例如,節(jié)點p1和p2的隔層連接704的特征(如圖7中所示)可以被分別表示為[1,0,0,…,0]T和[1,1,1,…,0]T。
因此,相應(yīng)的相似性函數(shù)可以被定義為上面的余弦相似性。為了確定節(jié)點p1和p2之間的層內(nèi)連接703,705特征的相似性所應(yīng)用的相似性函數(shù)slx(x,y)在下面的(3)中描述sc(x,y)=cos(fx,fy)=Σi=1kxfx(i)·Σi=1kyfy(j)Σi=1kxfx2(i)·Σj=1kyfy2(j)----(1)]]>比較起來,用于確定節(jié)點p1和u2之間的隔層連接704特征的相似性的相似性函數(shù)slx(x,y)在下面的(4)中描述sl2(x,y)=cos(hx,hy)(4)其中分別表示相似性的sl1和sl2基于各自的層內(nèi)和隔層連接特征;lx和ly是節(jié)點x和節(jié)點y的層內(nèi)連接特征向量;而hx和hy是節(jié)點x和節(jié)點y的隔層連接特征向量。
可以使用連接特征的其他表示以及其他相似性測量,諸如作為集合表示每個節(jié)點的連接并且應(yīng)用Jaccard系數(shù)。這里描述的實施例存在多種優(yōu)點。一個優(yōu)點是,某一聚類算法的實施例適應(yīng)加權(quán)連接。此外,該聚類算法,諸如k-裝置聚類算法,簡化了聚類質(zhì)心的計算。該質(zhì)心在用于指示聚類對象的概括值或特征的進一步計算中是有用的。
節(jié)點x和節(jié)點y的所有相似性函數(shù)可以被定義為三個相似性的加權(quán)和,所述的三個相似性包括(5)中說明的三個加權(quán)值α,β,和γ。這里公開了兩種用于分配三個加權(quán)值的技術(shù)試探性的和通過培訓(xùn)。例如,如果沒有協(xié)調(diào)數(shù)據(jù),加權(quán)值被人工地分配一些想要的值(例如,alpha=0.5,beta=0.25,以及gamma=0.25)。如果存在一些附加的協(xié)調(diào)數(shù)據(jù),比較起來,則可以使用貪心算法,爬山算法,或者局部或全局改善或最優(yōu)化程序的一些其他類型計算加權(quán)值。貪心算法引用一種在每個步驟中尋求增強每個系數(shù)的最優(yōu)化算法,以便最終達到一個增強的(并且在某些實施例中被最優(yōu)化)答案。
s(x,y)=αsc(x,y)+βsl1(x,y)+γsl2(s,y)(5)其中α+β+γ=1。
使用這些算法,節(jié)點的內(nèi)容,以及節(jié)點的相似性被確定。根據(jù)應(yīng)用程序,可以修改三個變量以提供聚類算法的不同信息值。節(jié)點的這些內(nèi)容和相似性于是可以被用作檢索的基礎(chǔ)。
許多異構(gòu)聚類問題經(jīng)常共享不是同樣重要節(jié)點的相同屬性。異構(gòu)聚類的例子包括網(wǎng)頁/用戶聚類,用于合作過濾器的項目/用戶聚類,等等。作為這些應(yīng)用程序,在獲得更合理的聚類結(jié)果時重要的對象扮演重要的作用。在編寫的說明書中,整個數(shù)據(jù)集的連接結(jié)構(gòu)用于獲得節(jié)點的值。對于節(jié)點集合P和U中的每個節(jié)點,例如pi和uj,通過連接結(jié)構(gòu)計算加權(quán)值ipi和iuj并且用于聚類過程中。
聚類的一方面涉及連接分析算法,在編寫的說明書中提供了多個實施例。在連接分析算法的一個實施例中,圖8中所示的混合網(wǎng)模塊800被構(gòu)造。使用該混合網(wǎng)模塊800,用戶和網(wǎng)頁被用于節(jié)點的兩種說明類型。圖8中包括網(wǎng)頁和用戶類型對象的混合網(wǎng)模塊的實施例特別涉及包括因特網(wǎng),內(nèi)部網(wǎng),或其他網(wǎng)絡(luò)的聚類類型。包括網(wǎng)頁超鏈接/交互的連接如連接805所示,用戶到網(wǎng)頁的超鏈接/交互如連接804所示,而用戶到用戶的超鏈接/交互如連接803所示。圖8的混合網(wǎng)絡(luò)模型800通過指示用戶與網(wǎng)頁中以及之間的關(guān)系來解釋這些超鏈接/關(guān)系,所述的關(guān)系通過連接803,804,和805說明。
給出了一些包含在用戶集合810中的用戶808組,被訪問的所有網(wǎng)頁形成網(wǎng)頁集合812,該所有網(wǎng)頁來自用戶集合810的任何節(jié)點。通過將基本網(wǎng)頁集合傳送到搜索引擎并獲得一個基本網(wǎng)頁集合來確定網(wǎng)頁集合812。由圖8中的箭頭表示的三種連接具有不同的含義。包含在網(wǎng)頁集合812中由箭頭805表示的那些連接指示網(wǎng)頁之間的超鏈接。包含在用戶集合810中由箭頭803表示的那些連接指示用戶之間的社會關(guān)系。在用戶集合810與網(wǎng)頁集合812之間擴展的由箭頭804表示的那些連接指示用戶到網(wǎng)頁的訪問行為。由箭頭804表示的連接指示用戶的每個特定網(wǎng)頁的評價,因此,網(wǎng)頁的權(quán)限/集線器得分將更加可信。因此,不同類型的連接803,804,和805表示不同的關(guān)系。例如,可以根據(jù)連接被訪問的頻率或每個相關(guān)節(jié)點對的數(shù)量用不同的值加權(quán)每個連接,該節(jié)點由鏈接連接。
圖9說明了計算機環(huán)境600的一個實施例,該計算機環(huán)境被配置得使用因特網(wǎng)執(zhí)行聚類。該聚類一方面可以涉及根據(jù)用戶聚類網(wǎng)頁(包括有關(guān)的隔層連接和層內(nèi)連接)。該計算機環(huán)境包括多個網(wǎng)址950,搜索引擎952,服務(wù)器/代理部分954,模擬模塊956,計算模塊958,和方案/參考部分960。計算機環(huán)境600與用戶962連接諸如與圖形用戶接口(GUI)。計算模塊958包括執(zhí)行聚類算法的迭代計算模塊980(依靠迭代計算的某些實施例)。模擬模塊956起收集數(shù)據(jù)和跟蹤數(shù)據(jù)的作用(例如,與對象相關(guān)的)。搜索引擎基于用戶的查詢返回搜索結(jié)果。網(wǎng)址950表示按照原樣呈現(xiàn)給用戶的數(shù)據(jù)。服務(wù)器/代理將查詢等等傳送到執(zhí)行大量聚類的服務(wù)器。方案/參考部分960允許用戶修改或選擇聚類算法。
模擬模塊956包括預(yù)先定型部分970,網(wǎng)頁提取部分972,和用戶提取部分974。部分970,972,和974被配置得提供和/或跟蹤預(yù)先定型970的數(shù)據(jù),該數(shù)據(jù)從網(wǎng)頁提取或從用戶962提取。圖9中說明的計算機環(huán)境的實施例被配置得提供連接分析算法,在編寫的說明書中描述了一個實施例。
聚類算法的一個實施例可以通過查找兩種類型的頁面集線器,權(quán)限,和用戶,來分析網(wǎng)頁圖形。集線器是連接到多個其他頁面的頁面,該集線器在特殊的標題上提供有用的相關(guān)信息。權(quán)限頁面被認為是與許多集線器相關(guān)的頁面。用戶訪問每一個權(quán)限和集線器。從而,每對集線器,權(quán)限,和用戶表現(xiàn)出相互增強的關(guān)系。聚類算法依賴三個在當(dāng)前連接分析算法的某些實施例中使用的向量網(wǎng)頁權(quán)限加權(quán)向量a,集線器加權(quán)向量h,和用戶向量u。在編寫的說明書中描述了這些向量的某些方面。
與下面的加權(quán)計算相關(guān)的部分下面的項目沒有在圖諸如圖9中說明,并且代替相關(guān)的計算。在一個實施例中,對于給出的用戶i,用戶加權(quán)ui表示他/她的知識水平。對于網(wǎng)頁j,各個項aj和hj表示權(quán)限加權(quán)值和集線器加權(quán)值。在一個實施例中,三個向量的每一個分別被初始化為某個值(諸如1)。然后基于因特網(wǎng)的使用,考慮下面(6),(7),和(8)中分別說明的算法,迭代地更新所有三個向量h,a,和ua(p)=Σq→ph(q)+Σt→pu(r)---(6)]]>h(p)=Σp→qa(q)+Σr→pu(r)---(7)]]>u(r)=Σr→pa(p)+Σr→qh(q)---(7)]]>其中,p和q代表具體的網(wǎng)頁,而r代表具體的用戶。在所公開的網(wǎng)絡(luò)的某些實施例中存在兩種連接不同頁面之間的連接(超鏈接)和用戶與頁面之間的連接(瀏覽模式)。使A=|aij|表示三個向量h,a,和u基本集合的鄰接矩陣。如果頁面i連接到頁面j,注意到aij=1或者aij=0。V=[νij]是用戶集合到網(wǎng)頁集合的訪問矩陣。如果用戶i訪問頁面j,認為vij=1或者vij=0。同樣,如(9),(10),和(11)中所說明的a=ATh+VTu (9)h=Aa+VTu (10)u=V(a+h)(11)在一個實施例中,(9),(10),和(11)中所說明的用于向量a,h,u的算法通過多個迭代提供有意義的結(jié)果。在某些實施例中在迭代之前,隨機值分配到每個向量a,h,和u。隨著每個迭代,向量a,h,u的值將被改變和定型以便為下一個迭代提供基礎(chǔ)。隨著每個迭代,每個迭代值a,h,和u用于集中到某些個別值。具有高用戶加權(quán)值ui的用戶和具有高權(quán)限加權(quán)值aj的網(wǎng)頁和/或集線器的加權(quán)值hj可以被報告。在優(yōu)選的實施例中,某些個別的用戶或網(wǎng)頁對象可以分配有比其他個別的用戶或網(wǎng)頁對象較高的值。該值越高,所分配到的對象越重要。
編寫的說明書中描述了連接分析算法的實施例,該連接分析算法從而可以依賴來自網(wǎng)頁和用戶的迭代輸入而聚類。諸如,從用戶輸入的加權(quán)值應(yīng)用到網(wǎng)頁的聚類算法。使用被加權(quán)的用戶輸入來提高聚類查找結(jié)果的精確度,以及可以執(zhí)行的聚類算法的速度。
而這里描述的連接分析算法應(yīng)用到聚類算法,用于基于用戶聚類網(wǎng)頁,可以預(yù)見的是,連接分析算法可以應(yīng)用到任何異構(gòu)聚類算法。如這里所描述的,為聚類部分地提供加權(quán)值。
描述了可以用于聚類對象類型的聚類算法的各種實施例。聚類算法試圖根據(jù)被聚類的數(shù)據(jù)對象之間的一些相似性而得到數(shù)據(jù)對象的自然組。諸如,聚類算法在數(shù)據(jù)對象上執(zhí)行聚類作用。聚類算法的某些實施例也得到數(shù)據(jù)集合組的質(zhì)心,該質(zhì)心表示一個點,該點的參數(shù)值是聚類中所有點的參數(shù)值的平均數(shù)。為了確定聚類成員,多數(shù)聚類算法計算一個點與聚類質(zhì)心之間的距離。聚類算法的輸出基本上是每個聚類中具有部件數(shù)目的聚類質(zhì)心的統(tǒng)計說明。
編寫的說明書中描述了聚類算法的多個實施例。雙行線k-裝置聚類算法基于相互增強的聚類過程。雙行線k-裝置聚類算法是迭代聚類算法。在雙行線k-裝置聚類算法中,通過(6)-(8)或(9)-(11)首先計算對象的值,然后將結(jié)果應(yīng)用到下面的迭代聚類過程中。聚類算法基于定義的相似性函數(shù)在每層中聚類對象。雖然可以使用許多聚類算法,諸如k-裝置,k-質(zhì)心,以及聚集分級方法,編寫的說明書中描述了k-裝置聚類算法的應(yīng)用程序。
存在多種技術(shù)用以應(yīng)用節(jié)點的被計算的分值。一種技術(shù)涉及將基本的k-裝置聚類算法修改為‘加權(quán)的’k-裝置算法。在所修改的k-裝置算法中,使用特征的加權(quán)和來計算所給聚類的質(zhì)心,該特征具有用于確定分值的加權(quán)裝置。具有較高值或加權(quán)值的節(jié)點以聚類質(zhì)心的形式被更加重要地給出,作為內(nèi)容和連接特征。另一個實施例涉及通過它們的分值修改節(jié)點的連接加權(quán)值,然后在相似性函數(shù)中使用加權(quán)的連接特征。用這種方法,節(jié)點的值僅反映聚類過程中的連接特征。
圖10和11中示出了聚類算法輸入/輸出的一個實施例。聚類算法的輸入包括兩層的結(jié)構(gòu)圖750(包括節(jié)點fi和gj的內(nèi)容特征)。聚類算法的輸出包括反映聚類的新結(jié)構(gòu)圖750。在新結(jié)構(gòu)圖的某些實施例中,可以說明每個舊節(jié)點的變化,該舊節(jié)點被改變到它的新節(jié)點的位置。
流程圖的一個實施例說明了圖10和11中示出的聚類算法1050的一個實施例。聚類算法1050包括1051,在1051中輸入原始的結(jié)構(gòu)圖(優(yōu)先于每個聚類迭代)。在1052中,使用(6)-(8)或(9)-(11)確定或計算所考慮的每個節(jié)點的值。在1054中,為聚類選擇一個任意層。在1055中,用適當(dāng)?shù)姆绞?例如,根據(jù)內(nèi)容特征)聚類所選層的節(jié)點。在某些實施例中,可以使用想要的過濾算法(未示出)過濾節(jié)點以增強聚類。在1056中,每個聚類節(jié)點被合并為一個節(jié)點。例如,如果過濾器下面存在兩個候選節(jié)點,可以通過,例如,平均兩個候選節(jié)點的向量值來合并最接近的兩個候選節(jié)點。這種合并允許組合個別節(jié)點以便減少必須考慮的節(jié)點的數(shù)量。同樣,合并操作可以用于降低副本和接近副本的出現(xiàn)率。
在1057中,基于合并更新相應(yīng)的連接。在1058中,用于聚類的聚類算法轉(zhuǎn)入第二層(從任意選擇的層)。在1160中,根據(jù)它們的內(nèi)容特征和更新連接特征聚類第二層的節(jié)點。在1161中,每個聚類的節(jié)點被合并為一個節(jié)點。
在1162中,恢復(fù)其他層的原始連接結(jié)構(gòu)和原始節(jié)點。在1164中,合并第二層的每個聚類的節(jié)點,并且更新相應(yīng)的連接。在1166中,在計算機環(huán)境中繼續(xù)該迭代聚類過程。在1168中,輸出結(jié)構(gòu)圖750的修訂本。
在初始的聚類傳送中,只使用內(nèi)容特征。因為在多數(shù)情況下,開始時的連接特征太稀少對于聚類沒有用。在隨后的聚類傳送中,內(nèi)容特征和連接特征被組合以增強聚類的效果。通過組合內(nèi)容特征和連接特征,用不同的值指定加權(quán)值并且可以比較結(jié)果,可以提供精確度增強的聚類。
相對圖10和11描述的聚類算法可以應(yīng)用到許多聚類實施例。更特別地,現(xiàn)在描述基于用戶訪問網(wǎng)頁的頻率的網(wǎng)頁聚類的一個實施例。在用戶層的節(jié)點到網(wǎng)頁層的節(jié)點之間擴展的那些類型的連接中,如果存在uj到pi的一個連接,用戶uj先訪問網(wǎng)頁pi。表示為Pr(pi|uj)的連接裝置的加權(quán)值表示在特定的時間用戶uj將要訪問網(wǎng)頁pi的可能性。它可以通過統(tǒng)計觀測數(shù)據(jù)中的數(shù)字而簡單地計算,如(12)中所示。
Pr(pi|uj)=C(pi,uj)Σt∈P(uj)C(pt,uj)---(12)]]>其中,P(uj)是用戶uj之前訪問的頁面的集合。C(pi,uj)表示用戶uj已經(jīng)訪問網(wǎng)頁pi之前的統(tǒng)計。
圖12的結(jié)構(gòu)圖750的實施例中示出了聚類算法的一個實施例,包括原理層或隱蔽層。圖12中,為簡單起見,圖7的結(jié)構(gòu)圖中所示的層內(nèi)連接703和705被隱藏。然而,可以預(yù)見的是,圖12中所示的結(jié)構(gòu)圖的實施例可以依賴層內(nèi)連接和隔層連接的任何組合并且仍然保留在當(dāng)前編寫的說明書的原理中。
隱蔽層1270(在圖12中所示的結(jié)構(gòu)圖750的實施例中)位于網(wǎng)頁層和用戶層之間。隱蔽層1270提供抽象的附加層(從該層連接擴展到每個節(jié)點集合P和U),該附加層允許與原始節(jié)點集合P和U的擴展連接相比以增強的真實性模擬。諸如圖7(它沒有隱蔽層)中所示的結(jié)構(gòu)圖750的實施例的一個隔層連接704可以被模擬為結(jié)構(gòu)圖750的實施例的一對隱蔽的隔層連接諸如圖12中所示的。一個隱蔽的隔層連接在包含節(jié)點集合P的網(wǎng)頁層與隱蔽層1270之間擴展,而另一個隱蔽的隔層連接在用戶層與隱蔽層1270之間擴展。圖12中所示的每個隱蔽的隔層連接上的箭頭的方向是任意的,作為隱蔽層中的節(jié)點,是各個節(jié)點集合P和U中特定的網(wǎng)頁和用戶,該節(jié)點集合通過隱蔽的隔層連接連接。
在包含節(jié)點集合P的網(wǎng)頁層與隱蔽層1270之間擴展的連接(例如,隱蔽的隔層連接)指示隱蔽層1270中網(wǎng)頁p1,p2,等等屬于特定概念節(jié)點P(c1),P(c2),等等的可能性。在用戶層與隱蔽層1270之間擴展的連接(例如,隱蔽的隔層連接)指示特定概念節(jié)點P(c1),P(c2),等等中具有興趣的用戶節(jié)點u1,u2,等等在隱蔽層1270中的可能性。
因此,在網(wǎng)頁層與概念層之間擴展的每個連接表示網(wǎng)頁pi被分類為概念類ck的可能性,表示為Pr(pi|ck)。由結(jié)構(gòu)圖具體化的模型共享由 Bayesian分類使用的假設(shè),其中不同的單詞被認為是條件獨立的。因此,概念ck可以表示為常規(guī)分布,例如,用于預(yù)期的向量 以及用于方差的 向量。值Pr(pi|ck)可以從(13)得到。
E(Pr(pi|ck))=Pr(pi|ck)ΣtPr(pt|ck)=ΠlPr(wl,i|ck)ΣtΠlPr(wl,t|ck)=e-Σt12σl,k(wl,i-μl,k)2Σte-Σt12σl,k(wi,k-μi,k)2---(13)]]>其中的wl,i是第1個單詞上的網(wǎng)頁pj的加權(quán)值。
在用戶層中的節(jié)點與隱蔽層中的節(jié)點之間擴展的那些連接(表示為Pr(ck|uj))反映用戶的興趣,該用戶在由概念反映的分類中。因此,一個向量(Ij1,Ij2,…,Ijn),Ijk=Pr(ck|uj)相應(yīng)于每個用戶,其中的n是隱藏概念的數(shù)量。圖12中所示的連接可以被認為是用戶的向量模塊。(14)中說明了由用戶的使用數(shù)據(jù)抑制的向量。
Pr(pi|uj)=ΣlPr(pi|cl,uj)Pr(cl|uj)≈ΣlPr(pi|cl)Pr(cl|uj)---(14)]]>因此,通過從(13)查找答案可以獲得值Pr(ck|uj)。
為了簡單起見,Pr(pi|uj)=Ri,j,Pr(pi|ck)=Si,k,并且Pr(ck|uj)=Tk,j。用戶j可以被認為是(15)中所單獨說明的那樣。
R1,jR2,j···R|Page|,j=S1,1S1,2···S1,|Concept|S2,1S2,2···S|Page|,1···S|Page|,|Concept|×T1,jT2,j···T|Concept|,j---(15)]]>其中“|Page|”是網(wǎng)頁的總數(shù),而“|Concept|”是隱藏概念的總數(shù)。由于|Page|>>|Concept|,可以用(15)或(16)求Tk,j的最小二程解。
Ri,1Ri,2...Ri,|User|=Si,1Si,2...Si,|Concept|×T1,1T1,2...T1,|User|T2,1T2,2......T|Concept|,1T|Concept|,|User|]]>(16)其中“|User|”是用戶的總數(shù)。
由于|User|>>|Concept|,我們也可以用(17)中所說明的給出Si,k的最小二程解。
μj→=ΣtPt→Pr(pt|ck)=ΣkSt,kPt→----(17)]]>獲得用于預(yù)期的向量 之后,可以計算用于方差的向量 而圖12中說明的結(jié)構(gòu)圖750的實施例在節(jié)點集合P和節(jié)點集合U之間擴展,可以預(yù)見的是,節(jié)點集合的特定內(nèi)容本質(zhì)上是說明性的,并且可以應(yīng)用到節(jié)點集合的任意集合。
根據(jù)用戶對象聚類的網(wǎng)頁對象中聚類算法的一個實施例可以如下被概括,如圖13中的1300所示的,有關(guān)網(wǎng)頁聚類算法的一個實施例1.收集用戶的日志組,如1302中所示。
2.計算在特定的時間Pr(pi|uj)用戶uj將要訪問網(wǎng)頁pi的可能性,如通過(12)以及圖13中的1304所說明的。
3.在圖13的1306中定義用于隱藏概念層(如圖12中所示的670)的節(jié)點的數(shù)量|Concept|,并且在圖13的1308中,為用于預(yù)期的向量 以及用于方差的初始向量 隨機地分配初始參數(shù)。
4.計算Pr(pi|ck)的值,它表示網(wǎng)頁pI歸入概念分類ck的可能性,如(13)和圖13中的1310所說明的。
5.計算Pr(ck|uj),它表示用戶在用戶節(jié)點與隱蔽層節(jié)點之間連接的興趣,可以通過(15)獲得,如圖13中的1312中所示。
6.更新網(wǎng)頁歸入概念分類的可能性Pr(pi|ck),如通過(13)所決定的,圖13的1314中所示的。
7.使用(13)中所說明的Pr(pi|ck)重新設(shè)置每個隱蔽概念節(jié)點的參數(shù)。
8.通過(13)和(15)的多次重復(fù)來為節(jié)點集合的值(或至少到模塊穩(wěn)定地顯示節(jié)點集合的向量結(jié)果)提供某些基礎(chǔ)。
權(quán)利要求
1.一種方法,包括通過計算設(shè)備,將非結(jié)構(gòu)服務(wù)請求轉(zhuǎn)換為一個或多個結(jié)構(gòu)應(yīng)答對象,每個結(jié)構(gòu)應(yīng)答對象包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù);以及鑒于產(chǎn)品問題說明識別一個或多個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象的集合,集合中的每個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象包括與產(chǎn)品問題說明有關(guān)的檢索詞和/或短語;以及從該集合為終端用戶提供歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù),用于產(chǎn)品問題的診斷。
2.權(quán)利要求1中所述的方法,其中的問題診斷數(shù)據(jù)包括產(chǎn)品問題說明,癥狀,原因,和解答的任意一個或多個。
3.權(quán)利要求1中所述的方法,其中的問題診斷數(shù)據(jù)包括與產(chǎn)品支持條款的連接。
4.權(quán)利要求1中所述的方法,其中的轉(zhuǎn)換,識別,和提供由服務(wù)器計算設(shè)備執(zhí)行,并且其中的方法進一步包括從客戶計算設(shè)備接收產(chǎn)品問題說明;并且其中的提供進一步包括查找檢索詞和/或短語的索引,該索引與產(chǎn)品問題說明中的檢索詞相匹配以便識別集合中的一個或多個結(jié)構(gòu)應(yīng)答對象;將該集合傳送到客戶計算設(shè)備,通過故障查找向?qū)э@示給終端用戶。
5.權(quán)利要求1中所述的方法,其中的方法進一步包括根據(jù)由集合提供的信息動態(tài)地生成知識庫條款。
6.權(quán)利要求1中所述的方法,其中在轉(zhuǎn)換之后以及識別和提供之前,該方法進一步包括通過以下步驟生成索引從結(jié)構(gòu)應(yīng)答對象提取特征;分析該特征以便識別檢索詞和短語;將有關(guān)加權(quán)值分配到檢索詞和短語;規(guī)格檢索詞和短語中的術(shù)語;并且其中的識別基于索引中的信息。
7.權(quán)利要求6中所述的方法,其中在轉(zhuǎn)換之后以及識別和提供之前,該方法進一步包括基于索引分別聚類一個結(jié)構(gòu)應(yīng)答對象以便組合有關(guān)的結(jié)構(gòu)應(yīng)答對象;并且其中,如果集合中存在多于一個的結(jié)構(gòu)應(yīng)答對象,提供包括結(jié)構(gòu)應(yīng)答對象的增強聚類的集合。
8.權(quán)利要求7中所述的方法,其中的聚類包括增強以及統(tǒng)一聚類操作。
9.一種方法,包括將查找請求傳送到服務(wù)器計算設(shè)備,該查找請求包括產(chǎn)品問題說明;響應(yīng)所接收的對查找請求的應(yīng)答,通過故障查找向?qū)脑搼?yīng)答呈現(xiàn)信息;并且其中的信息包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù),該歷史問題診斷數(shù)據(jù)與和產(chǎn)品問題說明有關(guān)的檢索詞和/或短語有關(guān)。
10.權(quán)利要求9中所述的方法,其中的歷史問題診斷數(shù)據(jù)包括分級結(jié)構(gòu)產(chǎn)品問題說明,癥狀,原因,和解答信息的任意一個或多個。
11.權(quán)利要求9中所述的方法,其中的信息包括與產(chǎn)品支持條款的連接。
12.權(quán)利要求9中所述的方法,其中的信息包括結(jié)構(gòu)應(yīng)答對象的集合。
13.權(quán)利要求12中所述的方法,其中通過服務(wù)器分別聚類與另一個相應(yīng)的一個結(jié)構(gòu)應(yīng)答對象,該聚類基于增強的聚類操作。
14.權(quán)利要求13中所述的方法,其中的聚類進一步基于統(tǒng)一的聚類操作。
15.一種包括計算機可執(zhí)行指令的計算機可讀介質(zhì),用于通過計算設(shè)備,將非結(jié)構(gòu)服務(wù)請求轉(zhuǎn)換為一個或多個結(jié)構(gòu)應(yīng)答對象,每個結(jié)構(gòu)應(yīng)答對象包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù);以及鑒于產(chǎn)品問題說明識別一個或多個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象的集合,集合中的每個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象包括與產(chǎn)品問題說明有關(guān)的檢索詞和/或短語;以及從該集合為終端用戶提供歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù),用于產(chǎn)品問題的診斷。
16.權(quán)利要求15中所述的計算機可讀介質(zhì),其中的問題診斷數(shù)據(jù)包括產(chǎn)品問題說明,癥狀,原因,和解答的任意一個或多個。
17.權(quán)利要求15中所述的計算機可讀介質(zhì),其中的問題診斷數(shù)據(jù)包括與產(chǎn)品支持條款的連接。
18.權(quán)利要求15中所述的計算機可讀介質(zhì),其中的轉(zhuǎn)換,識別,和提供由服務(wù)器計算設(shè)備執(zhí)行,并且其中的計算機可執(zhí)行指令進一步包括指令,用于從客戶計算設(shè)備接收產(chǎn)品問題說明;并且其中的提供進一步包括查找檢索詞和/或短語的索引,該索引與產(chǎn)品問題說明中的檢索詞相匹配以便識別集合中的一個或多個結(jié)構(gòu)應(yīng)答對象;將該集合傳送到客戶計算設(shè)備,通過故障查找向?qū)э@示給終端用戶。
19.權(quán)利要求15中所述的計算機可讀介質(zhì),其中的計算機可執(zhí)行指令進一步包括指令,用于根據(jù)由集合提供的信息動態(tài)地生成知識庫條款。
20.權(quán)利要求15中所述的計算機可讀介質(zhì),其中在轉(zhuǎn)換之后以及識別和提供之前,該計算機可執(zhí)行指令進一步包括指令,用于通過以下步驟生成索引從結(jié)構(gòu)應(yīng)答對象提取特征;分析該特征以便識別檢索詞和短語;將有關(guān)加權(quán)值分配到檢索詞和短語;規(guī)格檢索詞和短語中的術(shù)語;并且其中的識別基于索引中的信息。
21.權(quán)利要求20中所述的計算機可讀介質(zhì),其中在轉(zhuǎn)換之后以及識別和提供之前,該計算機可執(zhí)行指令進一步包括指令,用于基于索引分別聚類一個結(jié)構(gòu)應(yīng)答對象以便組合有關(guān)的結(jié)構(gòu)應(yīng)答對象;并且其中,如果集合中存在多于一個的結(jié)構(gòu)應(yīng)答對象,提供包括結(jié)構(gòu)應(yīng)答對象的增強聚類的集合。
22.權(quán)利要求21中所述的計算機可讀介質(zhì),其中的聚類包括增強以及統(tǒng)一聚類操作。
23.一種包括計算機可執(zhí)行指令的計算機可讀介質(zhì),用于將查找請求傳送到服務(wù)器計算設(shè)備,該查找請求包括產(chǎn)品問題說明;響應(yīng)所接收的對查找請求的應(yīng)答,通過故障查找向?qū)脑搼?yīng)答呈現(xiàn)信息,該信息包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù),該歷史問題診斷數(shù)據(jù)與和產(chǎn)品問題說明有關(guān)的檢索詞和/或短語有關(guān)。
24.權(quán)利要求23中所述的計算機可讀介質(zhì),其中的歷史問題診斷數(shù)據(jù)包括分級結(jié)構(gòu)產(chǎn)品問題說明,癥狀,原因,和解答信息的任意一個或多個。
25.權(quán)利要求23中所述的計算機可讀介質(zhì),其中的信息包括與產(chǎn)品支持條款的連接。
26.權(quán)利要求23中所述的計算機可讀介質(zhì),其中的信息包括結(jié)構(gòu)應(yīng)答對象的集合。
27.權(quán)利要求26中所述的計算機可讀介質(zhì),其中通過服務(wù)器分別聚類與另一個相應(yīng)的一個結(jié)構(gòu)應(yīng)答對象,該聚類基于增強的聚類操作。
28.權(quán)利要求27中所述的計算機可讀介質(zhì),其中的聚類進一步基于統(tǒng)一的聚類操作。
29.一種包括在產(chǎn)品問題分析和診斷中使用的結(jié)構(gòu)應(yīng)答請求數(shù)據(jù)結(jié)構(gòu)的計算機可讀介質(zhì),該結(jié)構(gòu)應(yīng)答請求數(shù)據(jù)結(jié)構(gòu)包括產(chǎn)品問題說明數(shù)據(jù)區(qū);產(chǎn)品問題原因數(shù)據(jù)區(qū);產(chǎn)品問題解答數(shù)據(jù)區(qū);并且其中的產(chǎn)品問題說明數(shù)據(jù)區(qū)是產(chǎn)品問題原因數(shù)據(jù)區(qū)的父節(jié)點,而產(chǎn)品問題原因數(shù)據(jù)區(qū)是產(chǎn)品問題解答數(shù)據(jù)區(qū)的父節(jié)點。
30.權(quán)利要求29中所述的計算機可讀介質(zhì),其中的結(jié)構(gòu)應(yīng)答請求數(shù)據(jù)結(jié)構(gòu)進一步包括產(chǎn)品問題癥狀數(shù)據(jù)區(qū),作為產(chǎn)品問題癥狀數(shù)據(jù)區(qū)的父節(jié)點的產(chǎn)品問題說明區(qū)。
31.一種計算設(shè)備,包括處理器;以及耦合到該處理器的存儲器,該存儲器包括由處理器執(zhí)行的計算機程序指令,用于通過計算設(shè)備,將非結(jié)構(gòu)服務(wù)請求轉(zhuǎn)換為一個或多個結(jié)構(gòu)應(yīng)答對象,每個結(jié)構(gòu)應(yīng)答對象包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù);以及鑒于產(chǎn)品問題說明識別一個或多個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象的集合,集合中的每個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象包括與產(chǎn)品問題說明有關(guān)的檢索詞和/或短語;以及從該集合為終端用戶提供歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù),用于產(chǎn)品問題的診斷。
32.權(quán)利要求31中所述的計算設(shè)備,其中的問題診斷數(shù)據(jù)包括產(chǎn)品問題說明,癥狀,原因,和解答的任意一個或多個。
33.權(quán)利要求31中所述的計算設(shè)備,其中的問題診斷數(shù)據(jù)包括與產(chǎn)品支持條款的連接。
34.權(quán)利要求31中所述的計算設(shè)備,其中的轉(zhuǎn)換,識別,和提供由服務(wù)器計算設(shè)備執(zhí)行,并且其中的計算機可執(zhí)行指令進一步包括指令,用于從客戶計算設(shè)備接收產(chǎn)品問題說明;并且其中的提供進一步包括查找檢索詞和/或短語的索引,該索引與產(chǎn)品問題說明中的檢索詞相匹配以便識別集合中的一個或多個結(jié)構(gòu)應(yīng)答對象;將該集合傳送到客戶計算設(shè)備,通過故障查找向?qū)э@示給終端用戶。
35.權(quán)利要求31中所述的計算設(shè)備,其中的計算機可執(zhí)行指令進一步包括指令,用于根據(jù)由集合提供的信息動態(tài)地生成知識庫條款。
36.權(quán)利要求31中所述的計算設(shè)備,其中在轉(zhuǎn)換之后以及識別和提供之前,該計算機可執(zhí)行指令進一步包括指令,用于通過以下步驟生成索引從結(jié)構(gòu)應(yīng)答對象提取特征;分析該特征以便識別檢索詞和短語;將有關(guān)加權(quán)值分配到檢索詞和短語;規(guī)格檢索詞和短語中的術(shù)語;并且其中的識別基于索引中的信息。
37.權(quán)利要求36中所述的計算設(shè)備,其中在轉(zhuǎn)換之后以及識別和提供之前,該計算機可執(zhí)行指令進一步包括指令,用于基于索引分別聚類一個結(jié)構(gòu)應(yīng)答對象以便組合有關(guān)的結(jié)構(gòu)應(yīng)答對象;并且其中,如果集合中存在多于一個的結(jié)構(gòu)應(yīng)答對象,提供包括結(jié)構(gòu)應(yīng)答對象的增強聚類的集合。
38.權(quán)利要求37中所述的計算設(shè)備,其中的聚類包括增強以及統(tǒng)一聚類操作。
39.一種計算設(shè)備,包括處理器;以及耦合到該處理器的存儲器,該存儲器包括由處理器執(zhí)行的計算機程序指令,用于將查找請求傳送到服務(wù)器計算設(shè)備,該查找請求包括產(chǎn)品問題說明;響應(yīng)所接收的對查找請求的應(yīng)答,通過故障查找向?qū)脑搼?yīng)答呈現(xiàn)信息,該信息包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù),該歷史問題診斷數(shù)據(jù)與和產(chǎn)品問題說明有關(guān)的檢索詞和/或短語有關(guān)。
40.權(quán)利要求39中所述的計算設(shè)備,其中的歷史問題診斷數(shù)據(jù)包括分級結(jié)構(gòu)產(chǎn)品問題說明,癥狀,原因,和解答信息的任意一個或多個。
41.權(quán)利要求39中所述的計算設(shè)備,其中的信息包括與產(chǎn)品支持條款的連接。
42.權(quán)利要求39中所述的計算設(shè)備,其中的信息包括結(jié)構(gòu)應(yīng)答對象的集合。
43.權(quán)利要求42中所述的計算設(shè)備,其中通過服務(wù)器分別聚類與另一個相應(yīng)的一個結(jié)構(gòu)應(yīng)答對象,該聚類基于增強的聚類操作。
44.權(quán)利要求43中所述的計算設(shè)備,其中的聚類進一步基于統(tǒng)一的聚類操作。
45.一種計算設(shè)備,包括裝置,用于將非結(jié)構(gòu)服務(wù)請求轉(zhuǎn)換為一個或多個結(jié)構(gòu)應(yīng)答對象,每個結(jié)構(gòu)應(yīng)答對象包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù);并且鑒于產(chǎn)品問題說明裝置,用于識別一個或多個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象的集合,該集合中的每個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象包括與產(chǎn)品問題說明有關(guān)的檢索詞和/或短語;以及裝置,用于從該集合為終端用戶提供歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù),用于產(chǎn)品問題的診斷。
46.權(quán)利要求45中所述的計算設(shè)備,其中的問題診斷數(shù)據(jù)包括產(chǎn)品問題說明,癥狀,原因,和解答的任意一個或多個。
47.權(quán)利要求45中所述的計算設(shè)備,其中的問題診斷數(shù)據(jù)包括與產(chǎn)品支持條款的連接。
48.權(quán)利要求45中所述的計算設(shè)備,進一步包括裝置,用于從客戶計算設(shè)備接收產(chǎn)品問題說明;并且其中用于提供的裝置進一步包括裝置,用于查找檢索詞和/或短語的索引,該索引與產(chǎn)品問題說明中的檢索詞相匹配以便識別集合中的一個或多個結(jié)構(gòu)應(yīng)答對象;以及裝置,用于將該集合傳送到客戶計算設(shè)備,通過故障查找向?qū)э@示給終端用戶。
49.權(quán)利要求45中所述的計算設(shè)備,進一步包括裝置,用于根據(jù)由集合提供的信息動態(tài)地生成知識庫條款。
50.一種計算設(shè)備,包括裝置,用于將查找請求傳送到服務(wù)器計算設(shè)備,該查找請求包括產(chǎn)品問題說明;裝置,用于響應(yīng)所接收的查找請求的應(yīng)答,從該應(yīng)答呈現(xiàn)信息,該信息包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù),該歷史問題診斷數(shù)據(jù)與和產(chǎn)品問題說明有關(guān)的檢索詞和/或短語有關(guān)。
51.權(quán)利要求50中所述的計算設(shè)備,其中的歷史問題診斷數(shù)據(jù)包括分級結(jié)構(gòu)產(chǎn)品問題說明,癥狀,原因,和解答信息的任意一個或多個。
52.權(quán)利要求50中所述的計算設(shè)備,其中的信息包括與產(chǎn)品支持條款的連接。
53.權(quán)利要求50中所述的計算設(shè)備,其中的信息包括結(jié)構(gòu)應(yīng)答對象的集合。
54.權(quán)利要求53中所述的計算設(shè)備,其中其中通過服務(wù)器分別聚類與另一個相應(yīng)的一個結(jié)構(gòu)應(yīng)答對象。
全文摘要
描述了一種用于開采產(chǎn)品支持服務(wù)請求的系統(tǒng)和方法。一方面,非結(jié)構(gòu)服務(wù)請求被轉(zhuǎn)換為一個或多個結(jié)構(gòu)應(yīng)答對象。每個結(jié)構(gòu)應(yīng)答對象包括分級結(jié)構(gòu)歷史問題診斷數(shù)據(jù)。鑒于產(chǎn)品問題說明,識別一個或多個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象的集合。該集合中的每個結(jié)構(gòu)應(yīng)答數(shù)據(jù)對象包括與產(chǎn)品問題說明有關(guān)的檢索詞和/或短語。來自該集合的歷史和分級結(jié)構(gòu)問題診斷數(shù)據(jù)被提供給終端用戶,用于產(chǎn)品問題的診斷。
文檔編號G06F19/00GK1694099SQ200510071688
公開日2005年11月9日 申請日期2005年4月13日 優(yōu)先權(quán)日2004年4月15日
發(fā)明者H-J·曾, G·R·希施爾, 陳正, J-R·文, H·李, K·A·薩繆爾森, 馬維英, B·章 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
屯门区| 海林市| 城步| 达日县| 托克逊县| 溆浦县| 辽阳县| 揭西县| 通化县| 定边县| 浑源县| 茂名市| 清河县| 佛教| 白山市| 赤水市| 马边| 福鼎市| 连江县| 县级市| 达尔| 博野县| 铜鼓县| 凤凰县| 榕江县| 姚安县| 盐津县| 楚雄市| 舟曲县| 张掖市| 察哈| 新宁县| 冕宁县| 泰兴市| 桐梓县| 普宁市| 化德县| 双城市| 阿荣旗| 乌鲁木齐市| 宜兰县|