專利名稱:生成和呈現(xiàn)橫向概念的制作方法
生成和呈現(xiàn)橫向概念
背景技術(shù):
常規(guī)地,用戶從如下本地應(yīng)用或者遠程服務(wù)器接收查詢制定(queryformulation)輔助,所述本地應(yīng)用或者遠程服務(wù)器基于常規(guī)搜索引擎先前從用戶或者向常規(guī)搜索引擎提交查詢的其他用戶接收的查詢來提供高速緩存的名詞(term)。常規(guī)搜索引擎從用戶接收查詢以對如下網(wǎng)頁定位,這些網(wǎng)頁具有與在接收的查詢中包括的名詞匹配的名詞。常規(guī)搜索引擎通 過在與常規(guī)搜索引擎的所有用戶遠離的服務(wù)器上高速緩存從所述所有用戶向常規(guī)搜索引擎發(fā)送的名詞并且向針對常規(guī)搜索引擎錄入用戶查詢的用戶顯示高速緩存的名詞中的一個或者多個名詞來輔助用戶制定查詢。用戶選擇高速緩存的名詞中的任何一個名詞以完成查詢并且接收如下網(wǎng)頁的列表,這些網(wǎng)頁具有與在用戶查詢中包括的名詞匹配的名詞。
發(fā)明內(nèi)容
本發(fā)明的實施例涉及用于響應(yīng)于來自用戶的查詢而呈現(xiàn)和生成橫向概念的系統(tǒng)、方法和計算機可讀介質(zhì)。除了與用戶查詢匹配的搜索結(jié)果之外還呈現(xiàn)橫向概念。搜索引擎從客戶端設(shè)備接收查詢。又搜索儲存器(storage)以定位與查詢的匹配。如果匹配存在,則橫向概念生成器從儲存器取回與查詢對應(yīng)的內(nèi)容。橫向概念生成器又標識與內(nèi)容關(guān)聯(lián)的類別。橫向概念生成器也獲得與每個類別關(guān)聯(lián)的附加內(nèi)容。橫向概念生成器執(zhí)行在取回的內(nèi)容與附加內(nèi)容之間的比較以向每個標識的類別分配分數(shù)。橫向概念生成器基于向與每個類別對應(yīng)的內(nèi)容分配的分數(shù)選擇若干類別并且返回取回的內(nèi)容和若干類別作為橫向概念。如果匹配未存在,則橫向概念生成器比較儲存器中存儲的內(nèi)容與查詢以創(chuàng)建用來標識類別的內(nèi)容集合并且基于查詢與內(nèi)容集合中的內(nèi)容之間的相似性計算分數(shù)。提供這一發(fā)明內(nèi)容以便以簡化形式介紹下文在具體實施方式
中進一步描述的概念的選擇。這一發(fā)明內(nèi)容并非旨在標識要求保護的主題內(nèi)容的關(guān)鍵特征或者必要特征、也并非旨在用作確定要求保護的主題內(nèi)容的范圍的孤立輔助。
下文參照這里通過引用而結(jié)合于此的以下附圖具體描述本發(fā)明的示例實施例
圖I是圖示了根據(jù)本發(fā)明實施例的示例計算設(shè)備的框 圖2是圖示了根據(jù)本發(fā)明實施例的配置成生成橫向概念的計算機系統(tǒng)的示例部件的網(wǎng)絡(luò) 圖3是圖示了根據(jù)本發(fā)明實施例的用于生成橫向概念的計算機實施的方法的邏輯圖;圖4是圖示了根據(jù)本發(fā)明實施例的用于生成知識內(nèi)容的替代計算機實施的方法的邏輯圖;并且
圖5是圖示了根據(jù)本發(fā)明實施例的響應(yīng)于用戶查詢而返回的橫向概念的圖形用戶界面。
具體實施例方式本專利以滿足法定要求的特異性描述用于取得專利的主題內(nèi)容。然而該描述本身并非旨在限制本專利的范圍。而是,發(fā)明人已經(jīng)設(shè)想也可以用其它方式具體化要求保護的主題內(nèi)容以與其它當前或者將來技術(shù)結(jié)合地包括與在本專利中描述的步驟或者步驟組合相似的不同步驟或者步驟組合。另外,雖然術(shù)語“步驟”和“塊”這里可以用來意味著運用的方法的不同要素,但是除非明確描述個體步驟的順序以及除了這樣之外,術(shù)語應(yīng)當解釋為意味著在這里公開的各種步驟之中或者之間的任何特定順序。
如這里所用,術(shù)語“橫向概念”指代代表查詢的正交主題的字詞或者短語。如這里所用,術(shù)語“部件”指代硬件、固件和軟件的任何組合。本發(fā)明的實施例提供如下橫向概念,這些橫向概念允許用戶導(dǎo)航具有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和未結(jié)構(gòu)化數(shù)據(jù)的大的內(nèi)容集合。計算機系統(tǒng)通過處理與用戶提供的查詢匹配的內(nèi)容集合并且選擇用于內(nèi)容的類別來生成橫向概念。橫向概念包括所選類別的子集。橫向概念與匹配查詢的搜索結(jié)果一起呈現(xiàn)給用戶。橫向概念允許搜索引擎提供與查詢或者對應(yīng)于查詢的內(nèi)容正交的概念。用戶又可以選擇橫向概念之一以在結(jié)構(gòu)化、未結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的組合中搜索與橫向概念對應(yīng)的內(nèi)容。在一個實施例中,橫向概念可以存儲于如下索引中,該索引具有指向從用戶接收的一個或者多個查詢的指針。因而,可以響應(yīng)于在計算機系統(tǒng)中包括的搜索引擎處接收的后續(xù)查詢——與先前查詢相似——來返回橫向概念而無需處理內(nèi)容。例如,搜索引擎可以從用戶接收針對西雅圖太空針的查詢。搜索引擎處理查詢以標識橫向概念和搜索結(jié)果??梢詮呐c用于西雅圖太空針的內(nèi)容一起存儲的元數(shù)據(jù)結(jié)構(gòu)選擇橫向概念?;蛘呖梢詮耐ㄟ^解析與用戶查詢關(guān)聯(lián)的搜索結(jié)果而生成的特征矢量選擇橫向概念。存儲結(jié)構(gòu)可以包括元數(shù)據(jù)(例如用于西雅圖太空針的內(nèi)容屬性)。西雅圖太空針內(nèi)容屬性可以包括塔屬性、西雅圖吸引地屬性和建筑屬性。塔屬性可以包括如下數(shù)據(jù),該數(shù)據(jù)指定西雅圖太空針和其它塔(比如臺北101、帝國大廈、迪拜塔和上海環(huán)球金融中心)的名稱和高度。西雅圖吸引地屬性可以包括用于西雅圖中的其它吸引地(比如西雅圖太空針、派克街魚市場、西雅圖藝術(shù)博物館和國會山)的名稱和位置的數(shù)據(jù)。建筑屬性可以包括用于在塔屬性中包括的每座塔的建筑類型、現(xiàn)代的、古代的等的數(shù)據(jù)。搜索引擎可以返回西雅圖太空針內(nèi)容屬性中的任何內(nèi)容屬性作為橫向概念。取而代之,計算機系統(tǒng)可以處理搜索結(jié)果以生成與搜索結(jié)果一起返回的橫向概念。解析與搜索結(jié)果關(guān)聯(lián)的內(nèi)容以標識特征矢量。特征矢量包括與內(nèi)容關(guān)聯(lián)的類別元素。特征矢量用來比較搜索結(jié)果并且計算搜索結(jié)果之間或者搜索結(jié)果與查詢之間的相似性分數(shù)。計算機系統(tǒng)基于相似性分數(shù)來選擇特征矢量中的類別并且響應(yīng)于用戶查詢而返回這些類別作為橫向概念。生成橫向概念的計算機系統(tǒng)可以包括存儲設(shè)備、搜索引擎和附加計算設(shè)備。搜索引擎從用戶接收查詢并且返回包括內(nèi)容和橫向概念的結(jié)果。儲存器被配置成存儲內(nèi)容和橫向概念。在一些實施例中,內(nèi)容包括結(jié)構(gòu)化、未結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的集合。圖I是圖示了根據(jù)本發(fā)明實施例的示例計算設(shè)備100的框圖。計算設(shè)備100包括總線110、存儲器112、處理器114、呈現(xiàn)部件116、輸入/輸出(I/O)端口 118、輸入/輸出(I/O)部件120和電源122。計算設(shè)備100僅為適當計算環(huán)境的一個例子而并非旨在暗示關(guān)于本發(fā)明的使用或者功能范圍的任何限制。計算設(shè)備100也不應(yīng)解釋為具有涉及所示部件中的任何部件或者組合的任何依賴或者要求。計算設(shè)備100通常包括多種計算機可讀介質(zhì)。舉例而言而非限制,計算機可讀介質(zhì)可以包括隨機存取存儲器(RAM);只讀存儲器(ROM);電可擦除可編程只讀存儲器(EEPR0M)、閃存或者其它存儲器技術(shù);CDR0M、數(shù)字萬用盤(DVD)或者其它光學或者全息介質(zhì);磁盒、磁帶、磁盤存儲或者其它磁存儲設(shè)備或者可以用來對所需信息編碼并且由計算設(shè)備100訪問的任何其它介質(zhì)??梢允褂糜捎嬎阍O(shè)備100 (比如個人數(shù)據(jù)助理或者其它手持設(shè)備)執(zhí)行的計算機代碼或者機器可用指令(包括計算機可執(zhí)行指令(比如程序模塊))來實施本發(fā)明的實施例。一般而言,包括例程、程序、對象、模塊、數(shù)據(jù)結(jié)構(gòu)等的程序模塊指代執(zhí)行特定任務(wù)或者實施特定抽象數(shù)據(jù)類型的代碼??梢栽诙喾N系統(tǒng)配置(包括分布式計算環(huán)境(在這些環(huán)境中,任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備執(zhí)行))中實踐本發(fā)明的實施例。計算設(shè)備100包括直接或者間接耦合以下部件的總線110 :存儲器112、一個或者 多個處理器114、一個或者多個呈現(xiàn)模塊116、輸入/輸出(I/O)端口 118、I/O部件120和示例電源122??偩€110代表如下總線,該總線可以是一個或者多個總線(比如地址總線、數(shù)據(jù)總線或者其組合)。雖然為了清楚而用線條示出了圖I的各種部件,但是實際上描繪各種模塊并非如此清晰,并且作為比喻,線條將更準確地為灰色并且模糊。例如可以將呈現(xiàn)部件116 (比如顯示器設(shè)備)視為I/O部件。處理器114也具有存儲器112。未區(qū)分“工作站”、“服務(wù)器”、“膝上型電腦”、“手持設(shè)備”等,因為都是在圖I的范圍內(nèi)設(shè)想的。存儲器112包括形式為易失性和/或非易失性存儲器的計算機可讀介質(zhì)和計算機存儲介質(zhì)。存儲器可以是可拆卸的、不可拆卸的或者其組合。示例硬件設(shè)備包括固態(tài)存儲器、硬驅(qū)動、光盤驅(qū)動等。計算設(shè)備100包括從各種實體(比如存儲器112或者I/O部件120)讀取數(shù)據(jù)的一個或者多個處理器114。呈現(xiàn)部件116向用戶或者其它設(shè)備呈現(xiàn)數(shù)據(jù)指示。示例呈現(xiàn)部件116包括顯示器設(shè)備、揚聲器、打印機、振動模塊等。I/O端口 118允許計算設(shè)備100在物理和邏輯上耦合到包括I/O部件120的其它設(shè)備(其中一些其它設(shè)備可以是內(nèi)置的)。示例I/O部件120包括麥克風、操縱桿、游戲墊、碟形衛(wèi)星天線、掃描儀、打印機、無線設(shè)備等。生成橫向概念的計算機系統(tǒng)包括搜索引擎、儲存器(storage)和橫向概念生成器。橫向概念可以與內(nèi)容和涉及內(nèi)容的查詢一起存儲于儲存器中。搜索引擎接收查詢并且向客戶端設(shè)備發(fā)送包括與查詢對應(yīng)的內(nèi)容的結(jié)果和橫向概念??蛻舳嗽O(shè)備將結(jié)果與至少一些橫向概念的列表一起顯不。圖2是圖示了根據(jù)本發(fā)明實施例的配置成生成橫向概念的計算機系統(tǒng)200的示例部件的網(wǎng)絡(luò)圖。計算機系統(tǒng)200具有客戶端設(shè)備210、網(wǎng)絡(luò)220、搜索引擎230、橫向概念生成器240和儲存器250??蛻舳嗽O(shè)備210經(jīng)由網(wǎng)絡(luò)220連接到搜索引擎230??蛻舳嗽O(shè)備210允許用戶錄入查詢。客戶端設(shè)備210向搜索引擎230發(fā)送查詢??蛻舳嗽O(shè)備210又接收包括橫向概念的結(jié)果并且向用戶顯示結(jié)果和橫向概念。在一些實施例中,客戶端設(shè)備210可以是能夠有網(wǎng)絡(luò)可訪問性的任何計算設(shè)備。照這樣,客戶端設(shè)備210可以采用多種形式,比如個人計算機(PC)、膝上型計算機、移動電話、個人數(shù)字助理(PDA)、服務(wù)器、⑶播放器、MP3播放器、視頻播放器、手持通信設(shè)備、工作站、這些描繪的設(shè)備中的任何組合或者能夠有網(wǎng)絡(luò)可訪問性的任何其它設(shè)備。網(wǎng)絡(luò)220連接客戶端設(shè)備210、搜索引擎230、橫向概念生成器240和儲存器250。網(wǎng)絡(luò)220可以是有線的、無線的或者二者。網(wǎng)絡(luò)220可以包括多個網(wǎng)絡(luò)或者網(wǎng)絡(luò)的網(wǎng)絡(luò)。例如,網(wǎng)絡(luò)220可以包括一個或者多個廣域網(wǎng)(WAN)、一個或者多個局域網(wǎng)(LAN)、一個或者多個公共網(wǎng)(比如因特網(wǎng))或者一個或者多個專用網(wǎng)。在無線網(wǎng)絡(luò)中,諸如基站、通信塔或者甚至接入點(以及其它部件)之類的部件在一些實施例中可以提供無線連通。雖然為了清楚而圖示了單個部件,但是本領(lǐng)域技術(shù)人員將理解網(wǎng)絡(luò)220可以實現(xiàn)在任何數(shù)目的客戶端設(shè)備210之間的通信。搜索引擎230是針對從客戶端設(shè)備210接收的查詢提供結(jié)果的服務(wù)器計算機。在一些實施例中,搜索引擎230響應(yīng)于查詢而提供橫向概念。搜索引擎230可以針對從客戶端設(shè)備210接收的每個查詢而返回某一數(shù)目(例如前三個)橫向概念。搜索引擎230可以從 橫向概念生成器240或者儲存器250接收橫向概念。橫向概念生成器240響應(yīng)于查詢而生成橫向概念。在一個實施例中,橫向概念生成器240包括初始處理部件242、相似性引擎244和編索引引擎246。橫向概念生成器240從儲存器250接收類別和內(nèi)容。內(nèi)容和類別又由橫向概念生成器240的一個或者多個部件242、244 和 246 處理。初始處理部件242被配置成對與搜索引擎230接收的查詢匹配的內(nèi)容定位、分析內(nèi)容并且使用一種或者多種數(shù)據(jù)處理方法來提取信息。就這一點而言,初始處理部件242可以用來分析內(nèi)容并且從三類數(shù)據(jù)提取信息未結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。未結(jié)構(gòu)化數(shù)據(jù)可以包括具有系列文本行的文檔。包括在未結(jié)構(gòu)化的數(shù)據(jù)的類別中的文檔可以具有很少的元數(shù)據(jù)或者沒有元數(shù)據(jù)。另一方面,結(jié)構(gòu)化數(shù)據(jù)可以包括傳統(tǒng)數(shù)據(jù)庫,在該數(shù)據(jù)庫中,信息被結(jié)構(gòu)化和參考。半結(jié)構(gòu)化數(shù)據(jù)可以包括比如研究論文或者證券交易委員會歸檔之類的文檔,其中文檔的部分包括文本行而文檔的部分包括用于示例的表格和圖形。在半結(jié)構(gòu)化數(shù)據(jù)的情況下,可以分析文檔的結(jié)構(gòu)化成分作為結(jié)構(gòu)化數(shù)據(jù)并且可以分析文檔的未結(jié)構(gòu)化成分作為未結(jié)構(gòu)化數(shù)據(jù)。特征矢量用來比較與查詢匹配的內(nèi)容。特征矢量可以包括以下元素一組字詞(word)、概念和分數(shù)。該組字詞代表內(nèi)容的摘要或者采樣。概念對內(nèi)容分類。并且分數(shù)包含用于內(nèi)容和與查詢匹配的附加內(nèi)容的相似性測量。例如,用于太空針內(nèi)容的特征矢量可以包括一組字詞“為世界博覽會而建造的紀念碑”、概念“塔”和分數(shù)“零”??梢曰谙蛱卣魇噶糠峙涞姆謹?shù)選擇特征矢量的概念元素作為橫向概念??梢允謩拥鼗蛘咦詣拥厣商卣魇噶康脑氐闹怠V黝}內(nèi)容專家可以人工填充特征矢量的元素。取而代之,橫向概念生成器240可以自動填充特征矢量的元素。初始處理部件242可以包括詞法分析、語言分析、實體提取分析和屬性提取分析。在一個實施例中,初始處理部件242創(chuàng)建用于儲存器250中的內(nèi)容的特征矢量。初始處理部件242自動填充用于特征矢量的字詞和概念。在某些實施例中,初始處理部件242從儲存器250中的本體(ontology) 252或者從如下字詞選擇概念,這些字詞是從內(nèi)容提取的。相似性引擎244計算如下相似性分數(shù),該相似性分數(shù)填充用于特征矢量的分數(shù)元素。相似性引擎244是橫向概念生成器240的部件。相似性引擎計算在用于從儲存器250取回的內(nèi)容的特征矢量中存儲的相似性分數(shù)。分數(shù)可以代表與儲存器250中的與查詢匹配的其它內(nèi)容的相似性或者與搜索引擎230接收的查詢的相似性。相似性分數(shù)又用來從在與匹配查詢的內(nèi)容關(guān)聯(lián)的特征矢量中標識的概念選擇若干類別。向搜索引擎230返回所選類別作為橫向概念。在一個實施例中,相似性引擎244可以使用特征矢量來計算與查詢匹配的內(nèi)容之間的相似性??梢允褂冕槍Χ嗑S矢量的勾股定理基于特征矢量之間的距離來計算相似性分數(shù)。例如,當儲存器250包括與查詢匹配的內(nèi)容時,橫向概念生成器240可以基于向若干類別中的每個類別內(nèi)的內(nèi)容分配的分數(shù)返回若干類別。橫向概念生成器240從儲存器250獲得匹配內(nèi)容和對應(yīng)類別。橫向概念生成器240又生成用于匹配內(nèi)容的特征矢量。橫向概念生成器240還使用與匹配內(nèi)容關(guān)聯(lián)的類別來生成內(nèi)容集合。內(nèi)容集合中的每個內(nèi)容由橫向概念生成器240處理以創(chuàng)建特征矢量。又比較用于內(nèi)容集合的每個特征矢量與用于匹配內(nèi)容的特征矢量以生成相似性分數(shù)。又用相似性引擎244計算的相似性分數(shù)更新用于內(nèi)容集合的特征矢量。相似性引擎244可以選擇每個類別中的具有高相似性分數(shù)的多個特征矢 量、將分數(shù)平均并且向類別分配經(jīng)平均的分數(shù)。在一個實施例中,相似性引擎244選擇被分配最高分數(shù)的每個類別內(nèi)的三個特征矢量以計算向類別分配的平均分數(shù)。因此作為例子,可以向搜索引擎230返回具有最高分數(shù)的前五個類別作為橫向概念。在另一實施例中,相似性引擎244可以計算內(nèi)容與查詢之間的相似性??梢允褂糜糜诙嗑S矢量的勾股定理基于特征矢量之間的距離來計算相似性分數(shù)。例如,當儲存器250未包括與查詢匹配的內(nèi)容時,橫向概念生成器240可以基于向若干類別中的每個類別內(nèi)的內(nèi)容分配的分數(shù)返回若干類別。橫向概念生成器240從儲存器250獲得與查詢有關(guān)的預(yù)定數(shù)目的內(nèi)容以及對應(yīng)的類別。在一個實施例中,橫向概念生成器從儲存器250獲得具有高查詢相似性分數(shù)的五十項內(nèi)容。橫向概念生成器240又生成用于查詢的特征矢量。橫向概念生成器240也使用與獲得的內(nèi)容關(guān)聯(lián)的類別來取回內(nèi)容集合。橫向概念生成器240處理內(nèi)容集合中的內(nèi)容以創(chuàng)建特征矢量。又比較用于內(nèi)容集合中的內(nèi)容的特征矢量與用于查詢的特征矢量以生成相似性分數(shù)。又用相似性引擎244計算的相似性分數(shù)更新用于內(nèi)容集合的特征矢量。相似性引擎244可以選擇每個類別中的具有高相似性分數(shù)的多個特征矢量、將分數(shù)平均并且向類別分配經(jīng)平均的分數(shù)。在一個實施例中,相似性引擎244選擇被分配最高分數(shù)的每個類別內(nèi)的三個特征矢量以計算向類別分配的平均分數(shù)。又可以向搜索引擎返回具有最高分數(shù)的前五個類別作為橫向概念。相似性引擎244可以使用詞頻來計算用于儲存器250中的內(nèi)容的查詢相似性分數(shù)。相似性引擎在與查詢的匹配未存儲于儲存器250中時計算查詢相似性分數(shù)(S,)。Si = ,其中freq(w)是儲存器中的查詢(w)的頻率,而docfreq是
被選擇用于比較的內(nèi)容內(nèi)的查詢的頻率。相似性引擎244收集被分配最大Sq的內(nèi)容,并且前五十個文檔用來生成橫向概念。編索引引擎246是橫向概念生成器240的可選部件。編索引引擎246從相似性引擎244接收橫向概念并且將橫向概念與生成橫向概念的查詢一起存儲于索引254中。與先前處理的查詢相似的后續(xù)查詢又可以繞過橫向概念生成器240并且獲得存儲于索引254中的橫向概念。
儲存器250向搜索引擎230提供內(nèi)容和先前生成的橫向概念。儲存器250存儲內(nèi)容、本體252和索引254。在某些實施例中,儲存器250也包括存儲每個內(nèi)容的主語、賓語和謂語的一個或者多個數(shù)據(jù)倉庫,例如關(guān)系數(shù)據(jù)庫和/或平面文件數(shù)據(jù)庫等。索引254將內(nèi)容與先前生成的橫向概念一起參考。所述內(nèi)容可以包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和未結(jié)構(gòu)化的數(shù)據(jù)。在一些實施例中,內(nèi)容可以包括具有存儲于平面文件數(shù)據(jù)庫中的屬性的視頻、音頻、文檔、表格和圖像。計算機系統(tǒng)200可以用算法生成橫向概念或者內(nèi)容屬性可以用作橫向概念。例如,西雅圖太空針或者特定股票的內(nèi)容屬性可以存儲于儲存器250中??梢苑謩e響應(yīng)于針對西雅圖太空針或者特定股票的搜索查詢而提供內(nèi)容屬性作為橫向概念。西雅圖太空針內(nèi)容屬性可以包括塔屬性、西雅圖吸引地屬性和建筑屬性。塔屬性可以包括如下數(shù)據(jù),該數(shù)據(jù)指定西雅圖太空針和其它塔(比如臺北101、帝國大廈、迪拜塔和上海環(huán)球金融中心)的名稱和高度。西雅圖吸引地屬性可以包括用于西雅圖中的其它吸引地(比如西雅圖太空針、派克街魚市場、西雅圖藝術(shù)博物館和國會山)的名稱和位置的數(shù)據(jù)。建筑屬性可以包括用于針對塔屬性中包括的每座塔的建筑類型(現(xiàn)代的、古代的等)的數(shù)據(jù)。計算機系統(tǒng) 200可以返回西雅圖太空針內(nèi)容屬性中的任何內(nèi)容屬性作為橫向概念。特定股票也可以包括股票內(nèi)容屬性。例如,MSFT內(nèi)容屬性可以包括類型屬性、產(chǎn)業(yè)屬性和盈利(PE)屬性。類型屬性包括針對例如法人、公司、股份有限制等企業(yè)類型的數(shù)據(jù)。產(chǎn)業(yè)屬性可以指定例如食品、娛樂、軟件等產(chǎn)業(yè),并且PE屬性包括PE的值。計算機系統(tǒng)200可以返回任何股票內(nèi)容屬性作為橫向概念。計算機系統(tǒng)200用算法生成的橫向概念可以存儲于索引254中。在某些實施例中,又可以用存儲于索引254中的橫向概念對搜索引擎230接收的與儲存器250中的特征矢量匹配的后續(xù)查詢做出響應(yīng)。對于給定查詢,索引254可以存儲若干橫向概念。因而,搜索引擎230可以訪問索引254以獲得橫向概念列表。橫向概念使用戶能夠?qū)Ш絻Υ嫫?50中的內(nèi)容。本體252包括與儲存器250中的內(nèi)容對應(yīng)的字詞或者短語??梢詮亩鄠€本體選擇與儲存器250中的內(nèi)容關(guān)聯(lián)的類別。每個本體252包括針對領(lǐng)域的分類法和領(lǐng)域中的字詞或者短語之間的關(guān)系。分類法指定領(lǐng)域中的字詞或者短語之間的關(guān)系。領(lǐng)域可以包括醫(yī)藥、藝術(shù)、計算機等。橫向概念生成器240又可以基于相似性向與內(nèi)容關(guān)聯(lián)的類別分配分數(shù)。在一個實施例中,橫向概念生成器240基于與響應(yīng)于查詢而獲得的內(nèi)容的相似性計算分數(shù)。在另一實施例中,橫向概念生成器240基于與查詢的相似性計算分數(shù)。橫向概念生成器240基于分數(shù)選擇若干類別作為橫向概念。在一些實施例中,響應(yīng)于來自用戶的查詢而向客戶端設(shè)備發(fā)送存儲于索弓I中的一個或者多個橫向概念用于向用戶呈現(xiàn)。取而代之,可以基于從用戶接收的查詢來動態(tài)地生成橫向概念。計算機系統(tǒng)可以執(zhí)行至少兩種用于動態(tài)地生成橫向概念的計算機實施方法。在第一實施例中,基于在與查詢匹配的內(nèi)容和儲存器中的其它內(nèi)容的特征矢量之間的分數(shù)選擇橫向概念。圖3是圖示了根據(jù)本發(fā)明實施例的用于生成橫向概念的計算機實施方法的邏輯圖。該方法在計算機系統(tǒng)連接到客戶端設(shè)備網(wǎng)絡(luò)時在步驟310中初始化。在步驟320中,計算機系統(tǒng)接收用戶查詢。計算機系統(tǒng)又在步驟330中從儲存器獲得與用戶查詢對應(yīng)的內(nèi)容。在步驟340中,計算機系統(tǒng)標識與對應(yīng)于用戶查詢的獲得的內(nèi)容關(guān)聯(lián)的類別。在一個實施例中,類別包括ー個或者多個本體中的短語。在另ー實施例中,類別包括與用戶查詢對應(yīng)的獲得的內(nèi)容的屬性。計算機系統(tǒng)又在步驟350中從儲存器取回與每個標識的類別對應(yīng)的內(nèi)容集合。在步驟360中,計算機系統(tǒng)基于向內(nèi)容集合中的內(nèi)容分配的分數(shù)選擇若干標識的類別作為橫向概念。在一個實施例中,橫向概念可以包括正交概念。橫向概念可以存儲于計算機系統(tǒng)的儲存器中。在某些實施例中,將內(nèi)容表示為特征矢量。并且基于在特征矢量之間的相似性向內(nèi)容分配分數(shù)。計算機系統(tǒng)向提供用戶查詢的用戶顯示橫向概念。計算機系統(tǒng)也可以基于向內(nèi)容分配的相似性分數(shù)過濾與橫向概念一起 顯示的內(nèi)容。在一個實施例中,計算機系統(tǒng)顯示前三個橫向概念。計算機系統(tǒng)在ー些實施例中可以通過標識與獲得的內(nèi)容的特征矢量對應(yīng)的平面的法線來選擇正交概念。計算機系統(tǒng)又處理創(chuàng)建與法線創(chuàng)建的平面平行的平面的、用于內(nèi)容集合的特征矢量以獲得與那些特征矢量關(guān)聯(lián)的內(nèi)容的類別。在步驟370中,可以基于向類別內(nèi)的內(nèi)容分配的分數(shù)返回這些類別中的若干類別作為橫向概念。該方法在步驟380中終止。如上文提到的那樣,計算機系統(tǒng)可以執(zhí)行至少兩種用于動態(tài)地生成橫向概念的計算機實施方法。在第二實施例中,基于在用于查詢和儲存器中的內(nèi)容的特征矢量之間的分數(shù)選擇橫向概念。計算機系統(tǒng)可以在儲存器未包含與查詢的匹配時執(zhí)行這一方法。在ー些實施例中,確定匹配而未使用用于查詢中包括的名詞的詞干。因此,計算機系統(tǒng)的儲存器可以包括如下其它匹配,這些匹配基于查詢中包括的名詞的詞干。這些其它匹配可以用來生成橫向概念。圖4是圖示了根據(jù)本發(fā)明實施例的用于生成知識內(nèi)容的可替換計算機實施方法的邏輯圖。該方法在計算機系統(tǒng)連接到客戶端設(shè)備網(wǎng)絡(luò)時在步驟410中初始化。在步驟420中,計算機系統(tǒng)接收用戶查詢。在步驟430中,計算機系統(tǒng)計算在儲存器中的內(nèi)容與用戶查詢之間的相似性。在步驟440中,計算機系統(tǒng)創(chuàng)建如下內(nèi)容集合,該內(nèi)容集合具有與用戶查詢相似的預(yù)定數(shù)目的內(nèi)容。計算機系統(tǒng)又在步驟450中標識與內(nèi)容集合中的內(nèi)容對應(yīng)的每個類別。在步驟460中,計算機系統(tǒng)基于向內(nèi)容集合中的內(nèi)容分配的分數(shù)選擇若干標識的類別作為橫向概念。在某些實施例中,將查詢和內(nèi)容表示為特征矢量。并且基于用于查詢和內(nèi)容的特征矢量之間的相似性向內(nèi)容分配分數(shù)。計算機系統(tǒng)向提供用戶查詢的用戶顯示橫向概念。計算機系統(tǒng)也可以基于向內(nèi)容分配的相似性分數(shù)過濾與橫向概念一起顯示的內(nèi)容。在ー個實施例中,計算機系統(tǒng)顯示前三個橫向概念。在一個實施例中,可以在橫向概念中包括正交概念。通過標識與查詢的特征矢量對應(yīng)的平面的法線來選擇正交概念。計算機系統(tǒng)又處理創(chuàng)建與法線創(chuàng)建的平面平行的平面的、用于內(nèi)容集合的特征矢量以獲得與那些特征矢量關(guān)聯(lián)的內(nèi)容的類別。在步驟470中,可以基于向類別中的內(nèi)容分配的分數(shù)返回這些類別中的若干類別作為橫向概念。該方法在步驟480中終止。在某些實施例中,在由搜索引擎提供的圖形用戶界面中顯示所選的橫向概念。與如下捜索結(jié)果一起提供橫向概念,這些搜索結(jié)果匹配于搜索引擎接收的用戶查詢。用戶可以選擇橫向概念以向搜索引擎發(fā)出查詢并且取回與所選橫向概念對應(yīng)的附加內(nèi)容。圖5 是圖示了根據(jù)本發(fā)明實施例的響應(yīng)于用戶查詢而返回的橫向概念的圖形用戶界面500。圖形用戶界面包括搜索文本框510、搜索結(jié)果區(qū)域520和橫向概念區(qū)域530。響應(yīng)于在搜索文本框510中錄入的用戶查詢而顯示圖形用戶界面500。在用戶發(fā)起捜索之后向搜索引擎發(fā)送用戶查詢。搜索引擎用結(jié)果列表做出響應(yīng)并且結(jié)果顯示于捜索結(jié)果區(qū)域520中。搜索引擎也用橫向概念做出響應(yīng)。橫向概念顯不于橫向概念區(qū)域530中。如果用戶從橫向概念區(qū)域530選擇橫向概念,貝U與所選橫向概念相關(guān)的搜索結(jié)果顯不于搜索結(jié)果區(qū)域520中。 概括而言,橫向概念允許用戶使用從內(nèi)容或存儲未結(jié)構(gòu)化、結(jié)構(gòu)化和半結(jié)構(gòu)化內(nèi)容的計算機系統(tǒng)的存儲結(jié)構(gòu)導(dǎo)出的信息來遍歷未結(jié)構(gòu)化、結(jié)構(gòu)化和半結(jié)構(gòu)化內(nèi)容。用戶可以向搜索引擎發(fā)送查詢,該搜索引擎返回多個結(jié)果。此外,搜索引擎也可以提供橫向概念。橫向概念可以對應(yīng)干與在捜索結(jié)果中包括的內(nèi)容關(guān)聯(lián)的ー個或者多個類別。當用戶點擊橫向概念時,更新結(jié)果以包括與橫向概念關(guān)聯(lián)的附加內(nèi)容。描述的各種部件以及未示出的部件的許多不同布置是可能的而未脫離本發(fā)明的精神和范圍。已經(jīng)描述本發(fā)明的實施例,g在例示而非限制。應(yīng)理解,某些特征和子組合具有效用并且可以在未參考其它特征和子組合時加以運用并且是在權(quán)利要求的范圍內(nèi)設(shè)想的。無需以描述的具體順序完成在各種圖中列舉的所有步驟。
權(quán)利要求
1.一種計算機實施方法,用于向用戶呈現(xiàn)與搜索查詢對應(yīng)的橫向概念,所述方法還包括 接收用戶查詢; 從儲存器獲得與所述用戶查詢對應(yīng)的第一組內(nèi)容; 標識與所獲得的第一組內(nèi)容關(guān)聯(lián)的多個類別; 選擇所述多個標識的類別的子集作為橫向概念;以及 響應(yīng)于所述用戶查詢而返回所述第一組內(nèi)容和所選擇的橫向概念。
2.根據(jù)權(quán)利要求I所述的方法,其中所述類別包括所述內(nèi)容的短語或者屬性。
3.根據(jù)權(quán)利要求I所述的方法,其中將所述內(nèi)容表示為特征矢量并且基于特征矢量之間的相似性向所述內(nèi)容分配相似性分數(shù)。
4.根據(jù)權(quán)利要求3所述的方法,還包括向提供所述用戶查詢的用戶顯示所述橫向概念并且基于向所述內(nèi)容分配的所述相似性分數(shù)過濾與所述橫向概念一起顯示的內(nèi)容。
5.根據(jù)權(quán)利要求I所述的方法,還包括向提供所述用戶查詢的用戶顯示前三個橫向概念。
6.根據(jù)權(quán)利要求I所述的方法,還包括在所述儲存器中存儲所述橫向概念。
7.一種或者多種計算機可讀介質(zhì),存儲用于執(zhí)行一種用于生成橫向概念的方法的計算機可執(zhí)行指令,所述方法還包括 接收用戶查詢; 計算儲存器中的內(nèi)容與所述用戶查詢之間的相似性; 創(chuàng)建具有與所述用戶查詢相似的預(yù)定數(shù)目的內(nèi)容的內(nèi)容集合; 標識與所述內(nèi)容集合中的內(nèi)容對應(yīng)的每個類別;以及 響應(yīng)于所述用戶查詢而返回所述內(nèi)容集合和從所述標識的類別選擇的橫向概念。
8.根據(jù)權(quán)利要求7所述的介質(zhì),其中所述類別包括所述內(nèi)容的短語或者屬性。
9.根據(jù)權(quán)利要求7所述的介質(zhì),其中將所述內(nèi)容表示為特征矢量并且基于所述特征矢量與所述用戶查詢的相似性向所述內(nèi)容分配分數(shù)。
10.根據(jù)權(quán)利要求9所述的介質(zhì),還包括向提供所述用戶查詢的用戶顯示所述橫向概念。
11.根據(jù)權(quán)利要求10所述的介質(zhì),還包括基于向所述內(nèi)容分配的所述相似性分數(shù)過濾與所述橫向概念一起顯示的內(nèi)容。
12.根據(jù)權(quán)利要求7所述的介質(zhì),還包括在所述儲存器中存儲所述橫向概念。
13.一種具有處理器和存儲器的計算機系統(tǒng),所述計算機系統(tǒng)被配置成生成橫向概念,所述系統(tǒng)還包括 搜索引擎,配置成接收用戶查詢; 儲存器,配置成存儲內(nèi)容和對應(yīng)類別;以及 橫向概念生成器,其通信地連接到所述搜索引擎和儲存器,其中所述橫向概念生成器被配置成基于所述存儲的內(nèi)容的相似性分數(shù)從與儲存器中的內(nèi)容關(guān)聯(lián)的類別選擇橫向概念,所述搜索引擎向所述用戶查詢提供包括所生成的橫向概念的結(jié)果,并且所述儲存器存儲與所述用戶查詢對應(yīng)的所述生成的橫向概念。
14.根據(jù)權(quán)利要求13所述的計算機系統(tǒng),其中當所述用戶查詢匹配于所述儲存器中存儲的內(nèi)容時從所述儲存器中存儲的匹配內(nèi)容選擇類別。
15.根據(jù)權(quán)利要求13所述的計算機系統(tǒng),其中當所述用戶查詢在所述儲存器中不具有匹配時從與所述用戶查詢相似的內(nèi)容集合選擇類別。
全文摘要
提供用于生成橫向概念的系統(tǒng)、方法和計算機存儲介質(zhì)。該系統(tǒng)包括用于接收用戶查詢的搜索引擎、用于存儲內(nèi)容及其關(guān)聯(lián)類別的儲存器以及橫向概念生成器。橫向概念生成器連接到搜索引擎和儲存器這二者。橫向概念生成器基于用于存儲的內(nèi)容的相似性分數(shù)從與內(nèi)容關(guān)聯(lián)的類別選擇橫向概念。
文檔編號G06F17/40GK102725758SQ201180008411
公開日2012年10月10日 申請日期2011年1月12日 優(yōu)先權(quán)日2010年2月5日
發(fā)明者A.C.蘇倫德蘭, A.斯里瓦斯塔瓦, M.斯里肯思, P.瓦達迪, R.普拉薩德, T.納姆, V.瓦拉馬尼 申請人:微軟公司