两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于知識的實(shí)體檢測和消歧的制作方法

文檔序號:6385827閱讀:290來源:國知局
專利名稱:基于知識的實(shí)體檢測和消歧的制作方法
基于知識的實(shí)體檢測和消歧
背景技術(shù)
因特網(wǎng)提供了對大量信息的訪問。給予信息量的主要挑戰(zhàn)是如何查找和發(fā)現(xiàn)信息以向用戶提供針對特定環(huán)境的最相關(guān)的信息?,F(xiàn)今用于完成此的最常用的工具是提供給搜索引擎的基于關(guān)鍵詞的搜索查詢。搜索引擎將接收到的關(guān)鍵詞與搜索索引中的一個或多個詞或短語進(jìn)行匹配,以便標(biāo)識與用戶的查詢潛在相關(guān)的文檔、網(wǎng)頁或其它內(nèi)容。例如,如果用戶搜索“恐龍(dinosaurs)”,則搜索引擎給用戶提供搜索結(jié)果的列表,所述搜索結(jié)果是到包含該術(shù)語的web頁面的鏈接。用戶查詢通常包含由與實(shí)體相關(guān)聯(lián)的名稱或?qū)傩运鶚?biāo)識的一個或多個實(shí)體(例如,人、位置或組織名稱)。例如,一個查詢可能搜索“Barack Obama (巴拉克奧巴馬)”,而另一個可能搜索“President of the United States (美國總統(tǒng))”。這兩個查詢都正在尋找與特定實(shí)體相關(guān)的信息。用戶還可以搜索位置,諸如飯店、銀行、購物中心等等。實(shí)體可以包括任何類型的可命名的事物,不管它是公司、人、消費(fèi)品或是服務(wù)等等?,F(xiàn)今,當(dāng)用戶使用搜索引擎搜索命名實(shí)體時,搜索引擎呈現(xiàn)了可能是關(guān)于具有相同或類似名稱的不同實(shí)體的混合的混雜結(jié)果。例如,對于查詢“ harry shum ”, 一個最近的搜索引擎以混合的次序返回關(guān)于三個不同人的頁面:位置1、3、5和8是關(guān)于在微軟的在線服務(wù)部門的公司副總裁的;位置2、4、6和9是關(guān)于在Glee中飾演了 Mike Chang的美國演員和舞蹈家Harry Shum Jr.的;以及位置7是關(guān)于又一個Harry的,其為IP Systems (IP系統(tǒng))的網(wǎng)絡(luò)支持工程師。從用戶的查詢實(shí)際上不清楚用戶正試圖查找這些人中的哪一個,但是很可能的是,用戶僅對他們中的一個感興趣,并且結(jié)果的大量子集因此是不相關(guān)的。搜索引擎無能力解析網(wǎng)頁中的實(shí)體實(shí)例的潛在身份阻礙了它們有效地組織搜索結(jié)果的能力。

發(fā)明內(nèi)容
在本文中描述了基于實(shí)體的搜索系統(tǒng),其檢測并且識別基于因特網(wǎng)的內(nèi)容中的實(shí)體并且使用這個識別來組織搜索結(jié)果。該系統(tǒng)將一個或多個實(shí)體標(biāo)識符與某個網(wǎng)頁相關(guān)聯(lián),并且將此信息作為該頁面的元數(shù)據(jù)存儲在搜索引擎索引中。這個元數(shù)據(jù)將在搜索引擎結(jié)果頁面(SERP)中使能基于實(shí)體的查詢以及豐富的數(shù)據(jù)呈現(xiàn),包括:按實(shí)體對結(jié)果進(jìn)行分組;按一個或多個特定實(shí)體對結(jié)果進(jìn)行過濾;或者基于實(shí)體的用戶偏好對搜索結(jié)果進(jìn)行重新排名。該系統(tǒng)提供了:用于檢測文本數(shù)據(jù)中的實(shí)體實(shí)例的方法;用于基于知識儲存庫生成針對每個實(shí)體實(shí)例的候選消歧(d i s amb i gu a t i ο η )組的方法;用于解析該候選消歧組中的實(shí)體實(shí)例的身份的方法;以及用于索引被消歧的實(shí)體的實(shí)體標(biāo)識符以允許對搜索結(jié)果的基于實(shí)體的檢索和分組的方法。因此,所述基于實(shí)體的搜索系統(tǒng)允許用戶標(biāo)識該用戶有興趣查找的特定實(shí)體,并且允許接收與該實(shí)體直接相關(guān)的搜索結(jié)果。本發(fā)明內(nèi)容被提供來以簡化的形式介紹概念的選擇,這些概念下面在具體實(shí)施方式
中被進(jìn)一步描述。本發(fā)明內(nèi)容不旨在標(biāo)識所要求保護(hù)的主題的關(guān)鍵特征或必要特征,它也不旨在被使用來限制所要求保護(hù)的主題的范圍。


圖1是圖示了一個實(shí)施例中的、基于實(shí)體的搜索系統(tǒng)的構(gòu)件的方塊圖。圖2是圖示了一個實(shí)施例中的、基于實(shí)體的搜索系統(tǒng)在基于實(shí)體的知識的基礎(chǔ)上標(biāo)識搜索結(jié)果的處理的流程圖。圖3是圖示了一個實(shí)施例中的、基于實(shí)體的搜索系統(tǒng)發(fā)現(xiàn)內(nèi)容的語料(corpus)中的實(shí)體的處理的流程圖。圖4是圖示了一個實(shí)施例中的、針對術(shù)語“Harry Shum”的搜索的樣本結(jié)果的顯示圖。
具體實(shí)施例方式在本文中描述了基于實(shí)體的搜索系統(tǒng),其檢測并且識別基于因特網(wǎng)的內(nèi)容中的實(shí)體并且使用這個識別來組織搜索結(jié)果。實(shí)體檢測和消歧的一個目標(biāo)是用明白地標(biāo)識了實(shí)體的可區(qū)分的標(biāo)識符來給網(wǎng)頁(或其它類型的文本數(shù)據(jù))中的命名實(shí)體加標(biāo)簽。所述系統(tǒng)將一個或多個實(shí)體標(biāo)識符與某個網(wǎng)頁相關(guān)聯(lián),并且將此信息作為該頁面的元數(shù)據(jù)存儲在搜索引擎索引中。這個元數(shù)據(jù)將在搜索引擎結(jié)果頁面(SERP)中使能基于實(shí)體的查詢以及豐富的數(shù)據(jù)呈現(xiàn),包括:按實(shí)體對結(jié)果進(jìn)行分組;按一個或多個特定實(shí)體對結(jié)果進(jìn)行過濾;或者基于實(shí)體的用戶偏好對搜索結(jié)果進(jìn)行重新排名。 在一些實(shí)施例中,基于實(shí)體的搜索系統(tǒng)包括四個高級構(gòu)件:I)知識儲存庫,其存儲了大量的已知實(shí)體;2)命名實(shí)體檢測器,其檢測輸入查詢文本和web文檔內(nèi)容中的實(shí)體實(shí)例;3)實(shí)體消歧器,其解析每個實(shí)體實(shí)例的標(biāo)識符;以及4)實(shí)體索引器(indexer),其索引輸入文本中的每個單元所包含的實(shí)體標(biāo)識符,并且允許查詢被發(fā)出以檢索文本中包含特定實(shí)體的單元。通過這些高級構(gòu)件,所述系統(tǒng)提供了:用于檢測文本數(shù)據(jù)中的實(shí)體實(shí)例的方法;用于基于知識儲存庫針對每個實(shí)體實(shí)例來生成候選消歧組的方法;用于解析候選消歧組之中的實(shí)體實(shí)例的身份的方法;以及用于索引被消歧的實(shí)體的實(shí)體標(biāo)識符以允許對搜索結(jié)果進(jìn)行基于實(shí)體的檢索和分組的方法。因此,所述基于實(shí)體的搜索系統(tǒng)允許用戶標(biāo)識用戶有興趣查找的特定實(shí)體,以及接收與該實(shí)體直接相關(guān)的搜索結(jié)果。以下段落對所述系統(tǒng)的高級構(gòu)件進(jìn)行了更詳細(xì)的描述,后面是圖1的描述,圖1提供了所述系統(tǒng)經(jīng)由軟件的示例性實(shí)施方案。第一個高級構(gòu)件是知識儲存庫,其包括實(shí)體、它們的屬性和關(guān)系的大型可擴(kuò)展的儲存庫。知識儲存庫可以使用本領(lǐng)域內(nèi)眾所周知的各種各樣的技術(shù)(諸如用于查找信息的web爬取(crawling)、對儲存庫貢獻(xiàn)信息的專家編輯等等)來建立。儲存庫支持現(xiàn)有實(shí)體和關(guān)系上的有效查詢以及新的實(shí)體和關(guān)系的插入。實(shí)體和它們的關(guān)系能夠被表不為有向圖的節(jié)點(diǎn)和邊,所述有向圖能夠作為形式為主語-謂語-賓語條目的三元組而被存儲在儲存庫中(其它存儲方案也是可能的)。知識儲存庫維護(hù)了針對每個實(shí)體的出現(xiàn)的可能形式的列表,并且支持基于精確或模糊的字符串匹配來進(jìn)行相關(guān)實(shí)體的有效檢索。下一個高級構(gòu)件是命名實(shí)體檢測器。命名實(shí)體檢測器組合了基于模板的和統(tǒng)計(jì)的實(shí)體提取方法。對于帶有定義明確的結(jié)構(gòu)化或半結(jié)構(gòu)化頁面的網(wǎng)站(諸如imdb.com、linkedin.com、amazon, com等),檢測器允許手工制作的模板被用來從網(wǎng)頁的特定文本單元中提取實(shí)體實(shí)例。例如,特定的網(wǎng)站可能已知包括帶有以Hl超文本標(biāo)記語言(HTML)標(biāo)簽命名的實(shí)體的頁面,其后面是與該實(shí)體相關(guān)的描述性文本(例如,imdb.com上的電影頁面、linkedin.com上的簡檔頁面、amazon, com上的產(chǎn)品頁面等等)。這些站點(diǎn)不經(jīng)常改變格式,并且針對實(shí)體信息的快速提取能夠被模板化(自動地或經(jīng)由手工編輯)。對于一般網(wǎng)頁或其它非結(jié)構(gòu)化文本數(shù)據(jù),所述系統(tǒng)可以利用條件隨機(jī)域(CRF)、半馬氏(sem1-Markov)條件隨機(jī)域(Sem1-CRF)、最大熵、其它統(tǒng)計(jì)模型或正則表達(dá)式來標(biāo)識實(shí)體實(shí)例。具體地,如果輸入是HTML文檔,則HTML解析器能夠被用來從文檔中移除標(biāo)記標(biāo)簽并且提取純文本段。然后,輸入文本能夠基于HTML標(biāo)簽、標(biāo)點(diǎn)符號以及換行符而被分解成段落和句子。每個句子被進(jìn)一步分解成詞序列。對于序列中的每個詞,特征向量基于詞本身和它的上下文詞(在可調(diào)整的上下文窗口之內(nèi)的,諸如當(dāng)前詞之前的兩個詞或之后兩個詞)被計(jì)算。特征向量可以包含以下二者:典型的詞匯特征,諸如一元詞、雙元詞、統(tǒng)一碼(Unicode)腳本類型(拉丁文、漢字、西里爾文等等)、字符類別(數(shù)字、符號、字母等等),不管詞是大寫的、全部大寫、全部小寫或是混合大小寫;以及從知識儲存庫中的已知實(shí)體導(dǎo)出的特征,諸如人的第一個、中間的以及最后的名字匹配、組織名稱匹配、位置名稱匹配、專業(yè)頭銜匹配等等。特征向量的序列被饋送到模型中,所述模型將序列中的每個詞標(biāo)記為非實(shí)體或許多預(yù)定義實(shí)體類型(例如,人、位置、組織、專業(yè)頭銜等等)中的一個。被標(biāo)記為實(shí)體的所有詞或詞序列被認(rèn)為是用于消歧的實(shí)體實(shí)例。下一個高級構(gòu)件是實(shí)體消歧器,其執(zhí)行實(shí)體消歧過程。實(shí)體消歧過程包括兩個高級步驟:實(shí)體候選枚舉和候選分類/排名。給定實(shí)體實(shí)例/名稱,系統(tǒng)查詢所述知識儲存庫以便檢索一組候選實(shí)體和它們的屬性值。然后,系統(tǒng)根據(jù)實(shí)體實(shí)例以及每個候選實(shí)體來計(jì)算特征向量。特征的類型包括:1)如由實(shí)體檢測器所識別的實(shí)體類型;2)實(shí)體實(shí)例的可能的屬性類型與每個候選實(shí)體的屬性之間的重疊;3)實(shí)體實(shí)例與每個候選條目的屬性之間的相似性度量,諸如Damerau-Levenshtein編輯距離、Jaro-Winkler距離以及Jaccard距離;4)在實(shí)體實(shí)例的上下文內(nèi)頂部共同出現(xiàn)的詞與每個候選條目的屬性值內(nèi)的那些之間的相似性;5)每個候選實(shí)體的相關(guān)實(shí)體在實(shí)體實(shí)例的上下文內(nèi)的出現(xiàn)。特征被輸入到分類器或評分器,諸如用于計(jì)算每個候選實(shí)體與輸入實(shí)體實(shí)例之間的匹配分?jǐn)?shù)的稀疏提升決策樹分類器。在一些實(shí)施例中,如果匹配分?jǐn)?shù)超過了預(yù)置門限,則最高得分的候選實(shí)體的標(biāo)識符被分配給輸入實(shí)體實(shí)例。還可以使用其他類型的分類器/排名器,諸如梯度提升決策樹、梯度提升排名器、支持向量機(jī)(SVM)以及SVM-排名。下一個高級構(gòu)件是實(shí)體索引器,其執(zhí)行基于實(shí)體的索引和檢索。在一些實(shí)施例中,每個被消歧的實(shí)體實(shí)例的標(biāo)識符都被表示為字母數(shù)字字符串并且作為元詞(metaword)被存儲在倒排索引中。倒排索引中的元詞可以被按字母順序地存儲用于有效查找和檢索。每個元詞可以被與整數(shù)的列表相關(guān)聯(lián),所述整數(shù)指示帶有對應(yīng)標(biāo)識符的實(shí)體實(shí)例的位置。包含任何特定實(shí)體的文檔或文本單元可以通過參考倒排索引來使用其標(biāo)識符被有效地檢索。數(shù)值元數(shù)據(jù)可以被附屬于每個元詞以指示消歧的置信度,其可以被用作為用于檢索結(jié)果的查詢相關(guān)排名的特征。圖1是圖示了一個實(shí)施例中的、基于實(shí)體的搜索系統(tǒng)的構(gòu)件的方塊圖。系統(tǒng)100包括知識儲存庫構(gòu)件110、儲存庫更新構(gòu)件120、實(shí)體檢測構(gòu)件130、基于實(shí)體的索引構(gòu)件140、實(shí)體枚舉構(gòu)件150、實(shí)體消歧構(gòu)件160、基于實(shí)體的檢索構(gòu)件170以及結(jié)果排名構(gòu)件180。在本文中對這些構(gòu)件中的每一個進(jìn)行了更詳細(xì)的描述。
知識儲存庫構(gòu)件110是數(shù)據(jù)存儲,其存儲了與先前發(fā)現(xiàn)的實(shí)體和實(shí)體之間的關(guān)系相關(guān)的信息。數(shù)據(jù)存儲可以包括一個或多個文件、文件系統(tǒng)、硬盤驅(qū)動器、數(shù)據(jù)庫、存儲區(qū)域網(wǎng)、基于云的存儲服務(wù)、或用于永久地存儲實(shí)體信息的其它設(shè)施。知識儲存庫構(gòu)件110可以包括一個或多個接口,通過所述接口用戶或軟件程序可以添加、刪除和更新實(shí)體信息,包括與最近發(fā)現(xiàn)的實(shí)體相關(guān)的信息。在一些實(shí)施例中,系統(tǒng)100周期性地在因特網(wǎng)上爬取以發(fā)現(xiàn)實(shí)體信息,并且將實(shí)體信息添加到所述數(shù)據(jù)存儲。儲存庫更新構(gòu)件120添加和更新在儲存庫數(shù)據(jù)存儲中存儲的實(shí)體信息。儲存庫更新構(gòu)件120被調(diào)用來添加在爬取期間發(fā)現(xiàn)的新的實(shí)體和關(guān)系,并且被調(diào)用來更新改變的或被移除的實(shí)體。在某些情況下,實(shí)體檢測構(gòu)件130針對每個被發(fā)現(xiàn)的實(shí)體調(diào)用儲存庫更新構(gòu)件120來存儲發(fā)現(xiàn)的實(shí)體信息,用于以后與用戶查詢匹配。構(gòu)件120可以提供各種各樣的用戶、管理和編程接口,用于瀏覽、添加、移除以及更新實(shí)體信息。實(shí)體檢測構(gòu)件130接收發(fā)現(xiàn)的內(nèi)容,并且檢測嵌入在所發(fā)現(xiàn)的內(nèi)容中的一個或多個實(shí)體。例如,web爬取引擎可以將發(fā)現(xiàn)的網(wǎng)頁提供給實(shí)體檢測構(gòu)件130以便提取在每個網(wǎng)頁上涉及的任何實(shí)體。所述系統(tǒng)可以基于自然語言處理、使用用于擴(kuò)展其它實(shí)體的知識的已知實(shí)體、以及通過應(yīng)用本領(lǐng)域內(nèi)已知的其它文本或其它內(nèi)容分析技術(shù)來發(fā)現(xiàn)實(shí)體。構(gòu)件130可以對各種各樣的類型的內(nèi)容(包括文本的、視聽的、數(shù)據(jù)等等)進(jìn)行操作?;趯?shí)體的索引構(gòu)件140創(chuàng)建在檢測到的實(shí)體和與所檢測到的實(shí)體相關(guān)的內(nèi)容之間的索引。該索引可以包括上面描述的倒排索引,其中,實(shí)體標(biāo)識符可以被用來查找與特定實(shí)體標(biāo)識符相關(guān)的內(nèi)容頁面。基于實(shí)體的索引構(gòu)件140可以創(chuàng)建和維護(hù)單獨(dú)的索引,或者可以在內(nèi)容的現(xiàn)有索引之上通過添加適當(dāng)?shù)脑獢?shù)據(jù)和用于基于實(shí)體訪問索引的查找功能來進(jìn)行建立。許多搜索引擎包括現(xiàn)有的基于關(guān)鍵詞的索引,所述現(xiàn)有的基于關(guān)鍵詞的索引可以被擴(kuò)展為合并用于對基于實(shí)體的查詢進(jìn)行響應(yīng)的實(shí)體信息和元數(shù)據(jù)。實(shí)體檢測構(gòu)件130調(diào)用基于實(shí)體的索引構(gòu)件140來將檢測到的實(shí)體添加到索引。系統(tǒng)100可以將索引存儲在知識儲存庫或與系統(tǒng)100相關(guān)聯(lián)的另一數(shù)據(jù)存儲中。實(shí)體枚舉構(gòu) 件I50接收用戶查詢,并且枚舉潛在地和所述查詢匹配的先前檢測到的實(shí)體。查詢可以包括一個或多個關(guān)鍵詞,以及實(shí)體枚舉可以包括將關(guān)鍵詞和/或短語匹配到與每個實(shí)體相關(guān)聯(lián)的關(guān)鍵詞和/或短語。例如,“0bama(奧巴馬)”、“President of theUnited States (美國總統(tǒng))”以及“world leaders (世界領(lǐng)導(dǎo)人)”全部可以和與Barack0bama(巴拉克■奧巴馬)此人相關(guān)聯(lián)的實(shí)體進(jìn)行匹配。實(shí)體枚舉構(gòu)件150可以將任何特定查詢匹配到潛在的許多實(shí)體。然后,實(shí)體消歧構(gòu)件160的工作是排名或者從所枚舉的實(shí)體中選擇最相關(guān)的實(shí)體。實(shí)體枚舉構(gòu)件150訪問知識儲存庫和/或基于實(shí)體的索引,以便基于與每個實(shí)體相關(guān)的存儲的信息來標(biāo)識匹配實(shí)體。實(shí)體消歧構(gòu)件160對潛在地和所述用戶查詢匹配的枚舉實(shí)體進(jìn)行分類和排名,以便限制各種實(shí)體到所述查詢之間的匹配的相對水平。在某些情況下,系統(tǒng)可以輸出潛在地按匹配的水平排序的匹配實(shí)體的列表,從該列表用戶能夠選擇表示用戶的現(xiàn)在的搜索目的的實(shí)體。因此,在這樣的情況下,系統(tǒng)100提供了潛在匹配實(shí)體,并且用戶通過從潛在匹配實(shí)體中選擇一個作為最相關(guān)的一個實(shí)體來提供消歧。在其它情況下,系統(tǒng)100自動地選擇基于搜索查詢中的信息匹配的頂部的實(shí)體或多個最高排名的實(shí)體。搜索查詢可以提供充足的信息來將潛在實(shí)體的匹配水平縮小到在匹配的門限水平之內(nèi),使得系統(tǒng)100高度確定特定的實(shí)體是用戶正在尋找的那個。在其它情況下,搜索查詢可以提供不充足的信息,使得系統(tǒng)100選擇詢問用戶或者應(yīng)用其它過程來確定針對其提供搜索結(jié)果的一個或多個實(shí)體?;趯?shí)體的檢索構(gòu)件170提供了接口,通過所述接口用戶能夠提交查詢以便基于實(shí)體來搜索信息并且接收基于實(shí)體的搜索結(jié)果?;趯?shí)體的檢索構(gòu)件170可以提供與傳統(tǒng)搜索引擎類似的前端,其提供了搜索文本框,用戶能夠?qū)⒒陉P(guān)鍵詞的查詢輸入到其中并且將查詢提交給搜索引擎以用于標(biāo)識相關(guān)的結(jié)果。然而,基于實(shí)體的檢索構(gòu)件170然后調(diào)用實(shí)體枚舉構(gòu)件150來標(biāo)識潛在的匹配實(shí)體,調(diào)用實(shí)體消歧構(gòu)件160來對枚舉的實(shí)體進(jìn)行排名,以及調(diào)用基于實(shí)體的索引構(gòu)件140來標(biāo)識與排名足夠高的實(shí)體相關(guān)聯(lián)的內(nèi)容結(jié)果。系統(tǒng)100可以在一個或多個階段中提供搜索結(jié)果。例如,系統(tǒng)可以首先要求用戶在結(jié)果對其可用的多個潛在的實(shí)體之間進(jìn)行選擇,并且然后可以交付針對由用戶所選擇的實(shí)體的結(jié)果,或者系統(tǒng)可以為用戶選擇和組合這樣的階段,使用戶在沒有中間用戶接口步驟的情況下接收結(jié)果。在某些情況下,系統(tǒng)100提供了關(guān)于最可能的實(shí)體的結(jié)果并且作為鏈接提供了其它可用的實(shí)體,從所述鏈接用戶能夠選擇查看針對另一實(shí)體的替換的結(jié)果。

結(jié)果排名構(gòu)件180對基于實(shí)體的搜索結(jié)果進(jìn)行排名。結(jié)果排名構(gòu)件180可以應(yīng)用被本領(lǐng)域內(nèi)的普通技術(shù)人員眾所周知的傳統(tǒng)的搜索結(jié)果排名過程。此外,構(gòu)件180可以在基于實(shí)體的準(zhǔn)則的基礎(chǔ)上對結(jié)果進(jìn)行排名,所述準(zhǔn)則諸如:每個結(jié)果被與哪個(或哪些)實(shí)體相關(guān)聯(lián),用戶查詢和與結(jié)果相關(guān)聯(lián)的實(shí)體之間的匹配的水平,用戶或其它用戶的歷史查詢信息(例如,如果用戶先前搜索了總統(tǒng)并且然后搜索了 “Lincoln (林肯)”,則用戶更可能意指總統(tǒng)Abraham Lincoln (亞伯拉罕 林肯),而不是城市Nebraska (內(nèi)布拉斯加州)的Lincoln(林肯市)或是汽車品牌Lincoln)等等?;趯?shí)體的搜索系統(tǒng)在其上被實(shí)施的計(jì)算設(shè)備可以包括中央處理單元、存儲器、輸入設(shè)備(例如,鍵盤和指向設(shè)備)、輸出設(shè)備(例如,顯示設(shè)備)以及存儲設(shè)備(例如,磁盤驅(qū)動器或其它非易失性存儲媒體)。存儲器和存儲設(shè)備是計(jì)算機(jī)可讀存儲媒體,其可以用計(jì)算機(jī)可執(zhí)行指令(例如,軟件)被編碼,所述指令實(shí)施或者使能所述系統(tǒng)。此外,數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)可以被存儲在計(jì)算機(jī)可讀存儲媒體上。在本文中所要求保護(hù)的任何計(jì)算機(jī)可讀媒體僅包括落入法定可取得專利權(quán)的類別之內(nèi)的那些媒體。所述系統(tǒng)還可以包括數(shù)據(jù)可以通過其被傳送的一個或多個通信鏈路??梢允褂酶鞣N通信鏈路,諸如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)、點(diǎn)對點(diǎn)撥號連接、蜂窩電話網(wǎng)等等。所述系統(tǒng)的實(shí)施例可以在各種操作環(huán)境被實(shí)施,所述操作環(huán)境包括個人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程的消費(fèi)電子、數(shù)碼相機(jī)、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括上述系統(tǒng)或設(shè)備中的任何一個的分布式計(jì)算環(huán)境、機(jī)頂盒、片上系統(tǒng)(SOC)等等。計(jì)算機(jī)系統(tǒng)可以是蜂窩電話、個人數(shù)字助理、智能電話、個人計(jì)算機(jī)、可編程的消費(fèi)電子、數(shù)碼相機(jī)等等。所述系統(tǒng)可以在由一個或多個計(jì)算機(jī)或其它設(shè)備所執(zhí)行的計(jì)算機(jī)可執(zhí)行指令(諸如程序模塊)的一般上下文中進(jìn)行描述。通常,程序模塊包括例行程序、程序、對象、構(gòu)件、數(shù)據(jù)結(jié)構(gòu)等等,其執(zhí)行特定的任務(wù)或者實(shí)施特定的抽象數(shù)據(jù)類型。典型地,在各種實(shí)施例中,程序模塊的功能性可以按期望的那樣進(jìn)行組合或者分布。圖2是圖示了一個實(shí)施例中的、基于實(shí)體的搜索系統(tǒng)在基于實(shí)體知識的基礎(chǔ)上標(biāo)識搜索結(jié)果的處理的流程圖。
在方塊210中開始,系統(tǒng)接收包括一個或多個實(shí)體的搜索查詢。所述搜索可以包括查詢字符串、結(jié)構(gòu)化數(shù)據(jù)或其它形式的查詢。系統(tǒng)可以直接地通過用戶接口(例如,網(wǎng)頁或桌面搜索工具)或者程序性地從將所述系統(tǒng)利用于搜索的另一應(yīng)用或服務(wù)接收查詢。實(shí)體可以由名稱(例如,McDonald (麥當(dāng)勞)的名稱)直接地標(biāo)識,或者可以由屬性信息(例如,具有金色拱門的快餐店)間接地標(biāo)識。所述查詢還可以包括與提交查詢中的用戶的目的相關(guān)的附加信息,諸如用戶是否正在試圖查找公司的位置、確定該公司的年度收入等等。在方塊220中繼續(xù),系統(tǒng)從基于實(shí)體的知識存儲來枚舉可能和所接收到的查詢中的實(shí)體匹配的一個或多個實(shí)體。系統(tǒng)可以基于查詢關(guān)鍵詞、自然語言分析、或能夠給所述查詢與知識存儲中的已知實(shí)體之間的關(guān)系評分的其它技術(shù)來枚舉實(shí)體。知識存儲包含通過爬取、專家數(shù)據(jù)條目或其它技術(shù)發(fā)現(xiàn)的實(shí)體,諸如參考圖3所描述的那些。在方塊230中繼續(xù),系統(tǒng)根據(jù)所枚舉的實(shí)體來標(biāo)識一個或多個潛在匹配實(shí)體,其中,匹配實(shí)體是可能為所述查詢的目標(biāo)的實(shí)體。系統(tǒng)可以執(zhí)行一個或多個初始步驟以便將實(shí)體的數(shù)量從知識存儲的整個組縮小成更易管理的子集。例如,系統(tǒng)可以利用在知識存儲中存儲的數(shù)據(jù)的索引來快速地標(biāo)識潛在地和所接收到的查詢中的一個或多個實(shí)體匹配的實(shí)體。在方塊240中繼續(xù),系統(tǒng)對所標(biāo)識的潛在匹配實(shí)體進(jìn)行排名,以便區(qū)分每個標(biāo)識的實(shí)體與所接收到的查詢中的一個或多個實(shí)體之間的匹配的相對水平。在某些情況下,系統(tǒng)可以使查詢中的潛在實(shí)體分開,并且針對每個潛在的實(shí)體來標(biāo)識經(jīng)排名的一組匹配。在其它情況下,系統(tǒng)可以將查詢作為一個整體來考慮,并且針對查詢中的所有的實(shí)體對一組匹配進(jìn)行排名。排名可以包括用于對查詢中的給定實(shí)體與來自知識存儲的實(shí)體的候選組之間的匹配的水平進(jìn)行評分的各種眾所周知的技術(shù)。在方塊250中繼續(xù),系統(tǒng)將所述標(biāo)識的潛在匹配實(shí)體中的一個或多個選擇為用其來進(jìn)行搜索的匹配實(shí)體。選擇可以包括將用戶接口顯示給用戶,用于對用戶為搜索準(zhǔn)備的實(shí)體的候選組之中的實(shí)體進(jìn)行消歧。例如,系統(tǒng)可以將潛在匹配實(shí)體的經(jīng)排名的列表顯示給用戶并且要求用戶選擇一個(或多個)。在其它情況下,系統(tǒng)可以確定針對最高排名的實(shí)體的匹配水平超過了足以自動地將該實(shí)體標(biāo)識為匹配實(shí)體的門限。在其它情況下,系統(tǒng)可以針對多個最高排名的潛在匹配實(shí)體執(zhí)行下面的步驟,使得用戶被提供有針對頂部標(biāo)識的實(shí)體的結(jié)果。在方塊260中繼續(xù),系統(tǒng)使用排名最高的、選擇的匹配實(shí)體中的一個或多個來執(zhí)行基于實(shí)體的搜索。搜索應(yīng)用所標(biāo)識的實(shí)體以及查詢中的任何附加信息來查找與所述實(shí)體相關(guān)的搜索結(jié)果。系統(tǒng)可以利用在實(shí)體信息的發(fā)現(xiàn)期間創(chuàng)建的倒排索引,所述倒排索引將已知實(shí)體索引到與該已知實(shí)體最相關(guān)的一組內(nèi)容頁面或結(jié)果。例如,知識存儲可以追蹤針對每個實(shí)體所發(fā)現(xiàn)的最相關(guān)的頁面,其可以在實(shí)體被標(biāo)識的任何時間作為搜索結(jié)果被提供。通過查找在那些中還與當(dāng)前接收到的查詢中的任何附加詞或信息匹配的頁面,系統(tǒng)可以進(jìn)一步地細(xì)化搜索結(jié)果。不像傳統(tǒng)的基于關(guān)鍵詞的搜索,所提供的搜索結(jié)果將是更相關(guān)的,因?yàn)橄到y(tǒng)首先確定了與所接收到的搜索相關(guān)的實(shí)體,并且甚至可能已經(jīng)向用戶要求了進(jìn)一步消歧的信息(例如,通過從可能性的列表中選擇實(shí)體)。在方塊270中繼續(xù),系統(tǒng)對從基于實(shí)體的搜索所返回的多個結(jié)果進(jìn)行排名,以便按與所接收到的搜索查詢的相關(guān)性來對所述結(jié)果排序。排名可以包括對結(jié)果的傳統(tǒng)排名,對結(jié)果的傳統(tǒng)排名基于在將原始接收到的查詢與從基于實(shí)體的搜索過程所返回的結(jié)果組相比較的基礎(chǔ)上的關(guān)鍵詞匹配、詞親密度等等。盡管與傳統(tǒng)排名步驟類似,但這個步驟將產(chǎn)生更加準(zhǔn)確的結(jié)果,因?yàn)樗跀?shù)據(jù)中與由所接收到的查詢所標(biāo)識的一個或多個實(shí)體更相關(guān)的子集上操作,而不是在對于該查詢的所有基于關(guān)鍵詞的匹配上操作。在方塊280中繼續(xù),系統(tǒng)響應(yīng)于所接收到的查詢提供經(jīng)排名的搜索結(jié)果。系統(tǒng)可以經(jīng)由用戶接口(例如,網(wǎng)頁、桌面搜索工具、或移動搜索工具)或者程序性地將搜索結(jié)果提供給使用搜索結(jié)果的其它應(yīng)用。在方塊280之后,這些步驟結(jié)束。圖3是圖示了一個實(shí)施例中的、基于實(shí)體的搜索系統(tǒng)發(fā)現(xiàn)內(nèi)容的語料中的實(shí)體的處理的流程圖。在方塊310中開始,系統(tǒng)接收對內(nèi)容的語料進(jìn)行標(biāo)識的信息。例如,所述語料可以包括與從網(wǎng)絡(luò)爬取過程導(dǎo)出的網(wǎng)頁相關(guān)的信息。所述信息可以包括針對一個或多個內(nèi)容項(xiàng)的鏈接或統(tǒng)一資源標(biāo)識符(URI),所述內(nèi)容項(xiàng)諸如網(wǎng)頁、文檔、視聽文件等等。系統(tǒng)可以通過內(nèi)部地或者外部地從單獨(dú)的應(yīng)用發(fā)現(xiàn)內(nèi)容來接收信息,所述單獨(dú)的應(yīng)用發(fā)現(xiàn)可用的內(nèi)容。系統(tǒng)使用所述內(nèi)容來建立已知實(shí)體的知識儲存庫,用于處理從系統(tǒng)的用戶接收到的后續(xù)搜索。在方塊320中繼續(xù),系統(tǒng)在所接收到的內(nèi)容中檢測一個或多個實(shí)體。系統(tǒng)可以通過關(guān)鍵詞、上下文信息、自然語言處理、或用于標(biāo)識文檔或其它內(nèi)容中的信息的其它技術(shù)來標(biāo)識實(shí)體。在某些情況下,專家可以提供一些實(shí)體的手工輸入,并且系統(tǒng)能夠使用此信息來導(dǎo)出其它實(shí)體,諸如通過標(biāo)識與已知實(shí)體密切和相關(guān)地使用的詞。系統(tǒng)掃描所述內(nèi)容,并且存儲對在每個內(nèi)容項(xiàng)中被涉及的實(shí)體進(jìn)行描述的信息。在方塊330中繼續(xù),系統(tǒng)組織所檢測到的實(shí)體信息以指定哪些內(nèi)容項(xiàng)涉及哪些實(shí)體。這允許系統(tǒng)通過提供涉及給定實(shí)體的特定內(nèi)容項(xiàng)來響應(yīng)以后的請求。以這種方式,系統(tǒng)允許用戶基于指定的實(shí)體而不是簡單地通過關(guān)鍵詞或其它文本信息來搜索內(nèi)容。系統(tǒng)可以在存儲器中組織實(shí)體信息,或者可以將數(shù)據(jù)的各種中間組存儲到永久儲存裝置以用于進(jìn)一步的分析、元數(shù)據(jù)的添加等等。在方塊340中繼續(xù),系統(tǒng)維護(hù)索引,所述索引將所檢測到的實(shí)體映射到涉及每個實(shí)體的一個或多個內(nèi)容項(xiàng)。所述索引提供了有效的數(shù)據(jù)結(jié)構(gòu),用于以后在用戶針對其尋求信息的給定實(shí)體被標(biāo)識后查找內(nèi)容項(xiàng)。所述索引可以包括內(nèi)容項(xiàng)的鏈接、描述特定實(shí)體如何在內(nèi)容項(xiàng)中被使用的上下文信息、實(shí)體標(biāo)識符或名稱等等。系統(tǒng)可以將所述索引連同其它實(shí)體信息一起存儲在知識儲存庫中,或者可以將所述索引分布在其它存儲設(shè)施中以用于快速響應(yīng)搜索請求。在方塊350中繼續(xù),系統(tǒng)更新知識儲存庫,所述知識儲存庫將實(shí)體信息與對在內(nèi)容的語料中所檢測到的實(shí)體進(jìn)行描述的信息和所述索引存儲在一起。知識儲存庫可以包括帶有系統(tǒng)能夠創(chuàng)建或者更新來存儲最近發(fā)現(xiàn)的實(shí)體信息的記錄的數(shù)據(jù)庫或其它存儲設(shè)施。例如,系統(tǒng)可以維護(hù)針對每個實(shí)體的、帶有對與實(shí)體相關(guān)的已知信息進(jìn)行描述的元數(shù)據(jù)的數(shù)據(jù)庫行,以及維護(hù)實(shí)體與內(nèi)容項(xiàng)之間的關(guān)系的表。本領(lǐng)域的普通技術(shù)人員將考慮用于存儲這樣的信息以用于在客戶端搜索請求期間快速檢索的各種存儲機(jī)制。在方塊350之后,這些步驟結(jié)束。圖4是圖示了在一個實(shí)施例中的、針對術(shù)語“Harry Shum”的搜索的樣本結(jié)果的顯示圖。在所圖示的例子中,用戶先前已經(jīng)提供了搜索查詢,其中,所述查詢的關(guān)鍵詞中的至少一些指示了名字“Harry Shum”。作為響應(yīng),系統(tǒng)已經(jīng)標(biāo)識了和該搜索請求匹配的至少兩個實(shí)體,第一實(shí)體按名字Harry Shum與在微軟的公司副總裁相關(guān),而第二實(shí)體按名字HarryShum, Jr與美國舞蹈家和演員相關(guān)。顯示包括搜索結(jié)果的列表410,所述搜索結(jié)果包括消歧控制420和一個或多個匹配結(jié)果群組。消歧控制420為用戶提供了用戶接口以用于明確地標(biāo)識用戶針對其尋找信息的若干可能的實(shí)體之中的一個。在缺乏用戶選擇的情況下,系統(tǒng)能夠以群組的形式顯示針對多個可能的匹配實(shí)體的結(jié)果,如在這個例子中所圖示的那樣。第一結(jié)果群組430包括針對在微軟的公司副總裁的第一結(jié)果列表440。列表440中的結(jié)果中的每一個都是具體地與該實(shí)體相關(guān)的。第二結(jié)果群組450包括針對美國演員的第二結(jié)果列表460。這個列表460中的結(jié)果是具體地與該實(shí)體相關(guān)的。因此,用戶接收到了與特定實(shí)體相關(guān)的結(jié)果,并且用戶能夠提供信息以縮小用戶針對其接收結(jié)果的實(shí)體以便消除不相關(guān)的結(jié)果群組。在一些實(shí)施例中,基于實(shí)體的搜索系統(tǒng)將特定的內(nèi)容源識別為用于發(fā)現(xiàn)實(shí)體信息的權(quán)威的源。例如,系統(tǒng)可以將維基百科(Wikipedia)標(biāo)識為具有特別強(qiáng)大和可信賴的實(shí)體信息,并且可以將在該站點(diǎn)的各種頁面識別為描述實(shí)體。系統(tǒng)還可以將頁面之間的鏈接和到權(quán)威的源的鏈接識別為指示web或其它內(nèi)容中的實(shí)體信息的存在或可能存在。在某些情況下,系統(tǒng)可以存儲歷史信息,諸如用戶從先前搜索中的結(jié)果的列表中選擇了哪個或哪些搜索結(jié)果。系統(tǒng)可以針對關(guān)鍵短語、詞的親密度、到已知頁面的鏈接等等來搜索內(nèi)容頁面以便檢測可能的實(shí)體。在某些情況下,系統(tǒng)標(biāo)識了除頁面內(nèi)容之外的信息,包括單擊/錨文本、社交信號(例如,社交網(wǎng)絡(luò)信息)以及其它源。系統(tǒng)給每個頁面加標(biāo)簽,或者將每個頁面映射到特定的實(shí)體標(biāo)識符(或多個實(shí)體標(biāo)識符),其能夠被用來在后續(xù)的基于實(shí)體的搜索期間查找所述頁面。在一些實(shí)施例中,基于實(shí)體的搜索系統(tǒng)利用可用的傳統(tǒng)搜索引擎來查找基于實(shí)體的搜索結(jié)果。在接收到查詢并且標(biāo)識特定實(shí)體后,系統(tǒng)可以使用已確定的實(shí)體標(biāo)識符來重新查詢,以便允許搜索引擎查找具體地與特別指定的一個或多個實(shí)體相關(guān)聯(lián)的結(jié)果。標(biāo)識符可以包括一個或多個附加的關(guān)鍵詞,其對用戶在搜索請求中正涉及的實(shí)體的進(jìn)行消歧。在一些實(shí)施例中,基于實(shí)體的搜索系統(tǒng)在搜索結(jié)果出來之后動態(tài)地確定頁面實(shí)體標(biāo)識符。例如,系統(tǒng)可以將沒有實(shí)體標(biāo)識符的結(jié)果與帶有實(shí)體標(biāo)識符的那些結(jié)果進(jìn)行比較,以便按實(shí)體將進(jìn)入的結(jié)果放置在適當(dāng)?shù)娜航M中。這可以允許系統(tǒng)響應(yīng)于搜索包括比先前根據(jù)實(shí)體發(fā)現(xiàn)并且編入目錄的結(jié)果更多的結(jié)果。在一些實(shí)施例中,基于實(shí)體的搜索系統(tǒng)用附加的實(shí)體信息來增強(qiáng)搜索結(jié)果。例如,對于特定的人實(shí)體(例如,作為搜索結(jié)果群組的標(biāo)題被提供的),系統(tǒng)可以顯示諸如人的名字、社交網(wǎng)絡(luò)朋友、相關(guān)頁面、雇主、個人網(wǎng)頁、博客等等這樣的信息。在實(shí)體的名稱可能與其它相似命名的實(shí)體引起歧義的情況下,該信息幫助用戶知道結(jié)果與多個可能的實(shí)體中的哪一個相關(guān)。在一些實(shí)施例中,基于實(shí)體的搜索系統(tǒng)應(yīng)用實(shí)體信息以用于對標(biāo)準(zhǔn)搜索結(jié)果輸出進(jìn)行排名。在本文中對按實(shí)體進(jìn)行索引、檢索以及排名進(jìn)行了討論。另一方法是將文檔與實(shí)體相關(guān)聯(lián),基于關(guān)鍵詞相關(guān)性對文檔結(jié)果進(jìn)行檢索/排名,以及然后基于與那些文檔相關(guān)聯(lián)的實(shí)體信息來對所返回的文檔進(jìn)行組織/過濾/重新排名。例如,對于查詢Iharryshum},系統(tǒng)可以首先檢索文檔研究結(jié)果,查找與每個返回的文檔相關(guān)聯(lián)的實(shí)體,以及然后基于實(shí)體信息對搜索結(jié)果重新分組。在一些實(shí)施例中,基于實(shí)體的搜索系統(tǒng)通過將某個文檔與其它文檔進(jìn)行比較來確定對于所述文檔的實(shí)體。在本文中詳細(xì)討論了根據(jù)文檔的并將所提取的實(shí)體與數(shù)據(jù)庫中的那些實(shí)體候選相比較的實(shí)體標(biāo)識。用于從文檔進(jìn)行實(shí)體提取/消歧的另一方法是將它與已經(jīng)與某些實(shí)體相關(guān)聯(lián)的其它文檔相比較,并且然后對來自前一文檔的實(shí)體進(jìn)行標(biāo)識和消歧。例如,對于包含關(guān)鍵詞“harry shum”的文檔,系統(tǒng)可能將該文檔與對演員Harry Shum進(jìn)行描述的IMDB頁面、關(guān)于微軟公司副總裁Harry Shum的維基百科頁面、以及關(guān)于工程師Harry Shum的LinkedIn頁面進(jìn)行比較。如果系統(tǒng)發(fā)現(xiàn)所述頁面和與實(shí)體相關(guān)聯(lián)的那些頁面中的一個接近,則系統(tǒng)然后可以將第一頁面中的“harry shum”映射到與所匹配的頁面相關(guān)聯(lián)的實(shí)體。從前述內(nèi)容,應(yīng)當(dāng)理解,出于說明的目的在本文中已經(jīng)對基于實(shí)體的搜索系統(tǒng)的特定實(shí)施例進(jìn)行了描述,但是在不背離本發(fā)明的精神和范圍的情況下可以進(jìn)行各種修改。因此,本發(fā)明除由所附權(quán)利要求限制外不受限制。
權(quán)利要求
1.一種在基于實(shí)體的知識的基礎(chǔ)上來標(biāo)識搜索結(jié)果的計(jì)算機(jī)實(shí)施的方法,所述方法包括: 接收(210)包括一個或多個實(shí)體的搜索查詢; 從基于實(shí)體的知識存儲來枚舉(220)可以和已接收到的查詢中的實(shí)體匹配的一個或多個實(shí)體; 根據(jù)所枚舉的實(shí)體來標(biāo)識(230)—個或多個潛在匹配實(shí)體,其中,匹配實(shí)體是可能為所述查詢的目標(biāo)的實(shí)體; 對所標(biāo)識的潛在匹配實(shí)體進(jìn)行排名(240),以便區(qū)分每個標(biāo)識的實(shí)體與所述接收到的查詢中的一個或多個實(shí)體之間的匹配的相對水平; 將所述標(biāo)識的潛在匹配實(shí)體中的一個或多個選擇(250)為用其來進(jìn)行搜索的匹配實(shí)體; 執(zhí)行(260)基于實(shí)體的搜索,其通過應(yīng)用排名最高的、選擇的匹配實(shí)體中的一個或多個來縮小結(jié)果; 對從所述基于實(shí)體的搜索返回的多個結(jié)果進(jìn)行排名(270),以便按與所述接收到的搜索查詢的相關(guān)性來對所述結(jié)果排序;以及 響應(yīng)于所述接收到的查詢來提供(280)經(jīng)排名的搜索結(jié)果,其中,前述步驟由至少一個處理器執(zhí)行。
2.根據(jù)權(quán)利要求1所述的方法,其中,接收所述搜索查詢包括通過用戶接口直接地接收所述查詢。`
3.根據(jù)權(quán)利要求1所述的方法,其中,接收所述搜索查詢包括接收與提交所述查詢中的用戶的目的相關(guān)的附加信息。
4.根據(jù)權(quán)利要求1所述的方法,其中,枚舉實(shí)體包括基于查詢關(guān)鍵詞或自然語言分析來訪問潛在匹配實(shí)體,以便對所述查詢與所述知識存儲中的已知實(shí)體之間的關(guān)系進(jìn)行評分。
5.根據(jù)權(quán)利要求1所述的方法,其中,標(biāo)識潛在匹配實(shí)體包括執(zhí)行一個或多個初始步驟,以便將實(shí)體的數(shù)量從所述知識存儲的整個組縮小成與所述接收到的查詢相關(guān)的子集。
6.根據(jù)權(quán)利要求1所述的方法,其中,對潛在匹配實(shí)體進(jìn)行排名包括使所述查詢中的多個潛在實(shí)體分開并且針對每個潛在實(shí)體標(biāo)識經(jīng)排名的一組匹配。
7.根據(jù)權(quán)利要求1所述的方法,其中,對潛在匹配實(shí)體進(jìn)行排名包括將所述查詢作為一個整體來考慮并且對針對所述查詢中的所有的實(shí)體的一組匹配進(jìn)行排名。
8.根據(jù)權(quán)利要求1所述的方法,其中,為搜索選擇匹配實(shí)體包括將用戶接口顯示給用戶,以用于對用戶為所述搜索準(zhǔn)備的實(shí)體的候選組之中的實(shí)體進(jìn)行消歧。
9.根據(jù)權(quán)利要求1所述的方法,其中,為搜索選擇匹配實(shí)體包括確定針對最高排名實(shí)體的匹配的水平超過了足以自動地將所述實(shí)體標(biāo)識為針對搜索的匹配實(shí)體的門限。
10.根據(jù)權(quán)利要求1所述的方法,其中,執(zhí)行所述基于實(shí)體的搜索包括應(yīng)用所述標(biāo)識的實(shí)體以及所述查詢中的任何附加信息來查找與所述標(biāo)識的實(shí)體相關(guān)的搜索結(jié)果。
11.根據(jù)權(quán)利要求1所述的方法,其中,執(zhí)行所述基于實(shí)體的搜索包括利用在實(shí)體信息的發(fā)現(xiàn)期間所創(chuàng)建的倒排索引,所述倒排索引將已知實(shí)體索引到與該已知實(shí)體最相關(guān)的一組內(nèi)容結(jié)果。
12.根據(jù)權(quán)利要求1所述的方法,其中,執(zhí)行所述基于實(shí)體的搜索包括通過查找在那些中還和當(dāng)前接收到的查詢中的任何附加詞或信息匹配的頁面來進(jìn)一步地細(xì)化所述搜索結(jié)果O
13.根據(jù)權(quán)利要求1所述的方法,其中,對多個結(jié)果進(jìn)行排名包括按所述結(jié)果與其相關(guān)聯(lián)的實(shí)體來對結(jié)果進(jìn)行分組。
14.一種針對基于知識的實(shí)體檢測和消歧的計(jì)算機(jī)系統(tǒng),所述系統(tǒng)包括: 處理器和存儲器,其被配置成執(zhí)行在下面的構(gòu)件內(nèi)所體現(xiàn)的軟件指令; 知識儲存庫構(gòu)件(110),其存儲與先前發(fā)現(xiàn)的實(shí)體和實(shí)體之間的關(guān)系相關(guān)的信息; 儲存庫更新構(gòu)件(120),其添加和更新在儲存庫數(shù)據(jù)存儲中存儲的實(shí)體信息; 實(shí)體檢測構(gòu)件(130),其接收發(fā)現(xiàn)的內(nèi)容并且檢測嵌入在所述發(fā)現(xiàn)的內(nèi)容中的一個或多個實(shí)體; 基于實(shí)體的索引構(gòu)件(140),其創(chuàng)建和維護(hù)檢測到的實(shí)體和與所檢測到的實(shí)體相關(guān)的內(nèi)容之間的索引; 實(shí)體枚舉構(gòu)件(150),其接收用戶查詢并且枚舉潛在地和所述查詢匹配的先前檢測到的實(shí)體; 實(shí)體消歧構(gòu)件(160),其對潛在地和所述用戶查詢匹配的枚舉的實(shí)體進(jìn)行分類和排名,以便限制各種實(shí)體到所述查詢之間的匹配的相對水平; 基于實(shí)體的檢索構(gòu)件(170),其提供了接口,通過所述接口用戶能夠提交查詢以便基于實(shí)體來搜索信息以及接 收基于實(shí)體的搜索結(jié)果;以及 結(jié)果排名構(gòu)件(180),其對提供給所述用戶的所述基于實(shí)體的搜索結(jié)果進(jìn)行排名。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中,所述基于實(shí)體的索引構(gòu)件提供了倒排索引,所述倒排索引將實(shí)體標(biāo)識符映射到與特定的實(shí)體標(biāo)識符相關(guān)的內(nèi)容頁面。
全文摘要
本發(fā)明描述了基于實(shí)體的搜索系統(tǒng),其檢測并且識別基于因特網(wǎng)的內(nèi)容中的實(shí)體并且使用這個識別來組織搜索結(jié)果。所述系統(tǒng)將一個或多個實(shí)體標(biāo)識符與網(wǎng)頁相關(guān)聯(lián),并且將這個信息作為所述頁面的元數(shù)據(jù)存儲在搜索引擎索引中。這個元數(shù)據(jù)將在搜索引擎結(jié)果頁面(SERP)中使能基于實(shí)體的查詢以及豐富的數(shù)據(jù)呈現(xiàn),包括按實(shí)體對結(jié)果進(jìn)行分組、按一個或多個特定實(shí)體對結(jié)果進(jìn)行過濾、或者基于實(shí)體的用戶偏好對搜索結(jié)果進(jìn)行重新排名。因此,所述基于實(shí)體的搜索系統(tǒng)允許用戶標(biāo)識所述用戶有興趣查找的特定實(shí)體,并且允許接收與該實(shí)體直接相關(guān)的搜索結(jié)果。
文檔編號G06F17/30GK103177075SQ20121058222
公開日2013年6月26日 申請日期2012年12月28日 優(yōu)先權(quán)日2011年12月30日
發(fā)明者李康, 李鹢, 周一萍, 呂正東, 曹涌 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
景洪市| 开封市| 鄂伦春自治旗| 同江市| 酒泉市| 英吉沙县| 连云港市| 德格县| 丹东市| 衡东县| 正定县| 咸宁市| 太原市| 钟祥市| 青铜峡市| 定兴县| 绍兴县| 彭州市| 新竹县| 清水河县| 泗洪县| 江孜县| 汾西县| 郓城县| 祁阳县| 黔西县| 景洪市| 巴中市| 三穗县| 旬阳县| 桃园县| 沂南县| 邵阳县| 措勤县| 湖南省| 耿马| 大余县| 温州市| 调兵山市| 祁连县| 宜都市|