專利名稱:具有實體檢測的查詢改寫的制作方法
技術(shù)領(lǐng)域:
根據(jù)本發(fā)明原理的系統(tǒng)和方法通常涉及信息檢索,并且尤其涉及基于對搜索查詢中某些實體名稱的檢測而改寫該搜索查詢。
背景技術(shù):
萬維網(wǎng)(“web”)包含巨量的信息。搜索引擎通過分類web文檔來幫助用戶定位這些信息的期望部分。通常,響應于用戶的請求,搜索引擎返回到與該請求相關(guān)的文檔的鏈接。
搜索引擎可以基于由用戶提供的搜索項(被稱為搜索查詢)確定用戶的興趣。搜索引擎的目標是標識到基于該搜索查詢的相關(guān)結(jié)果的鏈接。通常,搜索引擎通過將搜索查詢中的項目(term)與預先存儲的web文檔的文集(corpus)進行匹配來實現(xiàn)它。包含用戶搜索項的web文檔被認為是“命中”,并且將其返回到用戶。
一些搜索引擎通過在搜索查詢中包括特殊字符或者項目、而允許用戶將搜索限制到諸如與相同網(wǎng)站相關(guān)聯(lián)的文檔之類的相關(guān)文檔集合。然而,時常地,用戶忘記了包括這些特殊字符/項目或者不知道它們。
發(fā)明內(nèi)容
根據(jù)按照本發(fā)明原理的一個方面,一種方法可以包括接收搜索查詢;確定所接收的搜索查詢是否包括實體名稱;基于與涉及該實體名稱的先前搜索有關(guān)的信息、確定是否要改寫所接收的搜索查詢;以及當確定應當改寫所接收的搜索查詢時,改寫所接收的搜索查詢。該方法還可以包括基于所接收的搜索查詢和改寫的搜索查詢之一執(zhí)行搜索以獲得搜索結(jié)果,以及給出該搜索結(jié)果。
根據(jù)又一個方面,一個系統(tǒng)可以包括存儲器和處理器。該存儲器可以存儲與先前搜索有關(guān)的信息。該處理器可以接收搜索查詢,確定所接收的搜索查詢是否包括實體名稱,基于存儲器中的信息、確定是否要提供改寫所接收的搜索查詢的建議作為改寫建議,以及當確定應該提供改寫建議時生成該改寫建議。該處理器還可以基于所接收的搜索查詢執(zhí)行搜索以獲得搜索結(jié)果,給出該搜索結(jié)果,并且當應該提供改寫建議時提供該改寫建議。
根據(jù)又一個方面,一個系統(tǒng)可以包括存儲器和處理器。該存儲器可以存儲與先前搜索有關(guān)的信息。該處理器可以標識實體名稱,生成該實體名稱的變體,以及基于與先前搜索有關(guān)的信息評估該實體名稱的每個變體、以確定在表格中是否包括該實體名稱的變體。該處理器可以使用該表格來在基于搜索查詢執(zhí)行搜索之前改寫該搜索查詢。
根據(jù)進一步的方面,一種方法可以包括獲得實體名稱,生成該實體名稱的變體,基于與先前搜索有關(guān)的信息評估該實體名稱的每個變體,以及確定在表格中是否包括該實體名稱的變體。該方法還可以包括接收包括該實體名稱的變體之一的搜索查詢,確定該實體名稱的一個變體是否被包括在該表格中,以及當該實體名稱的一個變體被包括在該表格中時,為所接收的搜索查詢建議不同的搜索查詢。
根據(jù)另一方面,一種方法可以包括接收搜索查詢,并且確定所接收的搜索查詢是否包括實體名稱。該方法還可以包括基于與涉及該實體名稱的先前搜索有關(guān)的信息、確定是否要改寫所接收的搜索查詢,以及當確定應當改寫所接收的搜索查詢時,改寫所接收的搜索查詢。該方法還可以包括當確定所接收的搜索查詢不應當被改寫時,基于與涉及該實體名稱的先前搜索有關(guān)的信息、確定是否要提供改寫所接收的搜索查詢的建議作為改寫建議;以及當確定應該提供該改寫建議時,生成該改寫建議。該方法還可以包括基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索,以獲得搜索結(jié)果;給出該搜索結(jié)果;以及當確定應該提供該改寫建議時,給出該改寫建議。
并入這個說明書中并且構(gòu)成其一部分的附圖,舉例說明了本發(fā)明的實施例,而且它連同該描述一起來闡述本發(fā)明。在附圖中,圖1是其中可以實現(xiàn)根據(jù)本發(fā)明原理的系統(tǒng)和方法的示范性網(wǎng)絡的圖示;圖2是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、圖1中的客戶端和/或服務器的示范性圖示;圖3是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、圖1中的服務器的一部分的示范性功能框圖;圖4是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、查詢?nèi)罩镜氖痉缎詧D示;圖5是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、候選字符串列表的示范性圖示;圖6是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、圖3中的查詢改寫表格的示范性圖示;圖7是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、圖3中的提議查詢改寫表格的示范性圖示;圖8是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、用于生成查詢改寫表格和提議查詢改寫表格的示范性處理的流程圖;圖9是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、有選擇地改寫查詢的示范性處理的流程圖;圖10和11是根據(jù)按照本發(fā)明的原理的實現(xiàn)方式的、在商店環(huán)境中的自動查詢改寫示例的圖示;圖12-14是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、在商店環(huán)境中的查詢改寫建議示例的圖示;圖15和16是根據(jù)按照本發(fā)明的原理的實現(xiàn)方式的、在新聞環(huán)境中的自動查詢改寫示例的圖示;以及圖17-19是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、在新聞環(huán)境中的查詢改寫建議示例的圖示。
具體實施例方式
下面對本發(fā)明的詳細說明需要引用附圖。在不同附圖中的相同參考數(shù)字可以標識相同或者類似的單元。此外,以下的詳細說明不對本發(fā)明構(gòu)成限制。
概述根據(jù)本發(fā)明原理的系統(tǒng)和方法可以在檢測到某些實體的名稱時,改寫搜索查詢或者生成到改寫的搜索查詢的建議鏈接。此處使用的“實體”可以指任何可以被標記為與某些文檔相關(guān)聯(lián)的事物。實體的示例可以包括諸如在線商店之類的商店、新聞來源、產(chǎn)品類別、商標或者生產(chǎn)商、特定產(chǎn)品模型、狀態(tài)(例如,新的、用過的、整修的等)、作者、藝術(shù)家、人、地點、和組織。
一些實體名稱是明確的,并且唯一地標識特定實體。然而,大量的名稱多少有一些是不明確或者通用的,這使得當將它們包括在用戶的搜索查詢中時,更加難以標識它們想要對應的實體。根據(jù)本發(fā)明原理的系統(tǒng)和方法提供了用于確定實體名稱所對應的實體、以及當確定該名稱對應于實體時改寫用戶的搜索查詢或者提議改寫用戶的搜索查詢的機制。因此,可以將用戶的搜索查詢限制為對與用戶在該搜索中想要的實體相關(guān)聯(lián)的文檔(一個或多個)的搜索。
示范性網(wǎng)絡配置圖1是其中可以實現(xiàn)根據(jù)本發(fā)明原理的系統(tǒng)和方法的網(wǎng)絡100的示范性圖示。網(wǎng)絡100可以包括經(jīng)由網(wǎng)絡150連接到多個服務器120-140的多個客戶端110。網(wǎng)絡150可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、諸如公共交換電話網(wǎng)(PSTN)之類的電話網(wǎng)絡、企業(yè)內(nèi)部網(wǎng)、Internet、存儲器設(shè)備、另一類型的網(wǎng)絡、或者網(wǎng)絡的組合。為了簡化起見,已經(jīng)示出了有兩個客戶端110和三個服務器120-140連接到網(wǎng)絡150。實際上,可以有更多或者更少的客戶端和服務器。此外,在有些情況下,客戶端可以執(zhí)行服務器的功能,而服務器可以執(zhí)行客戶端的功能。
客戶端110可以包括客戶端部件。部件可以被定義為諸如無線電話、個人計算機、個人數(shù)字助理(PDA)、膝上型或者另一類型的計算或者通訊設(shè)備之類的設(shè)備,在這些設(shè)備之一上運行的線程或者處理,和/或可由這些設(shè)備之一執(zhí)行的對象。服務器120-140可以包括服務器部件,其以根據(jù)本發(fā)明原理的方式收集、處理、搜索、和/或維護文檔??蛻舳?10和服務器120-140可以經(jīng)由有線、無線、和/或光學連接而連接到網(wǎng)絡150。
在根據(jù)本發(fā)明原理的實現(xiàn)方式中,服務器120可以包括可由客戶端110使用的搜索引擎125。服務器120可以在文檔(例如,網(wǎng)頁)的文集(corpus)上爬行(crawl),索引該文檔,并且在所爬行文檔的儲存庫(repository)中存儲與這些文檔相關(guān)聯(lián)的信息。服務器130和140可以存儲或者維護可由服務器120爬行的文檔。雖然服務器120-140被示為是單獨的實體,但是有可能讓服務器120-140中的一個或者多個執(zhí)行其它一個或者多個服務器120-140的一個或者多個功能。例如,服務器120-140中的兩個或多個有可能被實現(xiàn)為單個服務器。還有可能將服務器120-140中的單個服務器實現(xiàn)為兩個或多個單獨的(并且有可能是分布式的)設(shè)備。
此處使用的術(shù)語“文檔”被廣泛地解釋為包括任何機器可讀的和機器可存儲的工作成果。文檔可以包括電子郵件、網(wǎng)站、文件、文件的組合、具有到其它文件的嵌入式鏈接的一個或者多個文件、新聞組發(fā)布(posting)、博客、網(wǎng)絡廣告等。在Internet的環(huán)境中,常用的文檔是網(wǎng)頁。網(wǎng)頁經(jīng)常包括文本信息,而且可以包括嵌入的信息(諸如元信息、圖像、超鏈接等)和/或嵌入的指令(諸如Javascript(Java腳本)等)。
示范性客戶端/服務器結(jié)構(gòu)圖2是根據(jù)按照本發(fā)明原理的實現(xiàn)方式、可以對應于客戶端110和服務器120-140中的一個或多個的客戶端或者服務器部件(在下文中被稱為“客戶端/服務器部件”)的示范性框圖。該客戶端/服務器部件可以包括總線210、處理器220、主存儲器230、只讀存儲器(ROM)240、存儲設(shè)備250、輸入設(shè)備260、輸出設(shè)備270、和通信接口280??偩€210可以包括允許在該客戶端/服務器部件的單元當中進行通信的導線集合。
處理器220可以包括用于解釋并且執(zhí)行指令的傳統(tǒng)處理器或者微處理器。主存儲器230可以包括隨機存取存儲器(RAM)或者另一類型的動態(tài)存儲設(shè)備,其存儲信息以及由處理器220執(zhí)行的指令。ROM240可以包括傳統(tǒng)的ROM設(shè)備或者另一類型的靜態(tài)存儲設(shè)備,其存儲用于由處理器220使用的靜態(tài)信息和指令。存儲設(shè)備250可以包括磁和/或光記錄介質(zhì)以及其相應的驅(qū)動器。
輸入設(shè)備260可以包括諸如鍵盤、鼠標、筆、語音識別和/或生物機構(gòu)等之類的、允許操作者將信息輸入到該客戶端/服務器部件中的傳統(tǒng)機構(gòu)。輸出設(shè)備270可以包括一個包括顯示器、打印機、揚聲器等在內(nèi)的、將信息輸出到操作者的傳統(tǒng)機構(gòu)。通信接口280可以包括任何類似于收發(fā)信機的機構(gòu),其允許該客戶端/服務器部件與其它設(shè)備和/或系統(tǒng)進行通信。例如,通信接口280可以包括用于經(jīng)由諸如網(wǎng)絡150之類的網(wǎng)絡與另一設(shè)備或者系統(tǒng)進行通信的機構(gòu)。
如下面詳細描述的那樣,根據(jù)本發(fā)明原理的客戶端/服務器部件可以執(zhí)行某些與搜索相關(guān)的操作。該客戶端/服務器部件可以響應于處理器220執(zhí)行包含在諸如存儲器230之類的計算機可讀介質(zhì)中的軟件指令,而執(zhí)行這些操作。計算機可讀介質(zhì)可被定義為物理或者邏輯存儲器設(shè)備和/或載波。
軟件指令可以從諸如數(shù)據(jù)存儲設(shè)備250之類的另一計算機可讀介質(zhì)中、或者經(jīng)由通信接口280從另一設(shè)備中讀入到存儲器230中。包含在存儲器230中的軟件指令可以導致處理器220執(zhí)行稍后所述的處理。作為選擇,可以使用硬布線的電路來代替軟件指令或者與軟件指令相結(jié)合以實現(xiàn)根據(jù)本發(fā)明原理的處理。因此,根據(jù)本發(fā)明原理的實現(xiàn)方式不局限于任何硬件電路和軟件的特定組合。
示范性服務器圖3是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、服務器120的一部分的示范性功能框圖。根據(jù)一個實現(xiàn)方式,如下所述的一個或多個功能可以由搜索引擎125執(zhí)行。根據(jù)另一實現(xiàn)方式,這些功能中的一個或多個可以由諸如與服務器120相關(guān)聯(lián)的計算機或者服務器130和140之一之類的、在服務器120外部的部件執(zhí)行。
服務器120可以包括連接到儲存庫的實體標識單元310和實體處理單元320。儲存庫可以包括與先前例如由服務器120爬行和存儲的文檔相關(guān)聯(lián)的信息。儲存庫還可以存儲與關(guān)于先前執(zhí)行的搜索的用戶行為相關(guān)聯(lián)的信息。例如,儲存庫可以存儲一個查詢?nèi)罩荆涿枋隽擞脩暨^去已經(jīng)進行的搜索、他們選擇(例如,通過點擊來選擇)的結(jié)果,并且還可能描述了與這個搜索處理相關(guān)的其它用戶行為。
圖4是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、可以存儲在該儲存庫中的查詢?nèi)罩?00的示范性框圖。查詢?nèi)罩?00可以包括多個與先前執(zhí)行的搜索相關(guān)聯(lián)的條目。查詢?nèi)罩?00中的條目可以包括查詢字段410、選中實體標識符(ID)字段420,并且可能還包括用戶行為信息字段430。查詢字段410可以存儲與包括在由用戶輸入的搜索查詢中的項目(一個或多個)相關(guān)的信息。選中實體ID字段420可以存儲諸如域(或者主機名或者統(tǒng)一資源定位符(URL))、類別標識符、產(chǎn)品標識符等之類的、可以唯一地標識特定實體的信息,該特定實體與由用戶從使用該搜索查詢執(zhí)行的搜索的結(jié)果中選擇的文檔相關(guān)聯(lián)。用戶行為信息字段430可以存儲關(guān)于用戶對與該實體相關(guān)聯(lián)的文檔的訪問的信息,諸如可以趨向于顯示用戶對該實體的興趣的信息。因為用戶可以選擇超過一個的與搜索查詢相關(guān)聯(lián)的結(jié)果,所以相同的搜索查詢可能在該查詢?nèi)罩?00中的多個條目中出現(xiàn)(例如,查詢2)。
查詢?nèi)罩?00中的條目的示例可以包括用于查詢字段410的“harry potter barnes and noble”,和用于選中實體ID字段420的“barnesandnoble.com”。用戶行為信息字段430可以存儲與用戶訪問barnesandnoble.com域所花費的時間量相關(guān)的信息、是否出現(xiàn)了轉(zhuǎn)化(conversion)(即,是否出現(xiàn)了在barnesandnoble.com上的后續(xù)購買)、是否出現(xiàn)了部分轉(zhuǎn)化(即,用戶是否只是在barnesandnoble.com域上將一件物品增加到購物車中)、和/或其它可以趨向于示出用戶對barnesandnoble.com域的興趣的信息。
返回圖3,實體標識單元310可以生成實體名稱列表。實體標識單元310可以獲得在特定環(huán)境中的實體的實體名稱的初始集合(例如,在商店環(huán)境中的商店名稱或者在新聞來源環(huán)境中的新聞來源名稱)。有很多種實體標識單元310可以獲得特定環(huán)境中的實體名稱的初始集合的方法。例如,實體標識單元310可以通過分析文檔文集等從在線目錄、列表、組發(fā)布中獲得實體名稱。
對于這些名稱中的每一個,實體標識單元310還可以標識與該名稱相關(guān)聯(lián)的、諸如主頁域名或者類別標識符之類的實體標識符。例如,如果名稱是Barnes & Noble,則相關(guān)聯(lián)的實體標識符可以是barnesandnoble.com。實體標識單元310可以根據(jù)例如對儲存庫中的文檔信息的分析,標識出相關(guān)聯(lián)的實體標識符。
實體標識單元310然后可以處理該實體名稱以生成該名稱的變體列表。實體標識單元310可以向該名稱和其實體標識符應用幾個轉(zhuǎn)換,諸如按原樣使用實體名稱;按原樣使用實體標識符;從實體名稱中刪除諸如“一”、“該”、“公司”、“股份有限公司”之類的修飾詞;在實體名稱內(nèi)用連字符或者下劃線替換空格,或者反過來用空格代替連字符或者下劃線;刪除實體名稱中的單引號;在實體名稱和/或?qū)嶓w標識符中互換“and”和“&”;刪除實體名稱和/或?qū)嶓w標識符中的“and”和“&”;刪除實體標識符中的開頭的“www.”和/或結(jié)尾的“.com”;和/或?qū)嶓w標識符中兩邊沒有空格的句點視為空格或者刪除這些句點。還可以使用其它或者不同的轉(zhuǎn)換。
實體標識單元310可以將這些名稱變體形成為候選字符串列表。圖5是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、候選字符串列表500的示范性圖示。候選字符串列表500可以包括與實體名稱的各個版本相關(guān)聯(lián)的許多條目(候選字符串)和它們的相關(guān)聯(lián)的實體標識符。列表500中的條目可以包括實體名稱字段510和實體ID字段520。實體名稱字段510可以包括實體名稱的變體或者其相關(guān)聯(lián)的實體標識符。實體ID字段520可以包括諸如域、URL、或者類別標識符之類的、唯一地標識與實體名稱字段510中的實體名稱相對應的實體的信息。用于Barnes & Noble的條目的示例可以在實體名稱字段510中包括“barnes&noble”,并且在實體ID字段520中包括“www.barnesandnoble.com”。
返回圖3,實體處理單元320可以處理該候選字符串列表以生成兩個表格查詢改寫表格330和建議查詢改寫表格340。如下面更詳細描述的那樣,查詢改寫表格330可以指示是否應該自動地改寫搜索查詢,而建議查詢改寫表格340可以指示是否應該建議改寫查詢。
實體處理單元320可以使用查詢?nèi)罩?00(圖4)評估每個候選字符串(即,實體名稱和/或?qū)嶓w標識符的每個版本)。例如,實體處理單元320可以檢查查詢?nèi)罩?00以標識包括候選字符串的全部搜索查詢。實體處理單元320然后可以檢查與所標識的查詢相關(guān)聯(lián)的點擊。例如,實體處理單元320可以與所標識的查詢相關(guān)聯(lián)地分析與由用戶(例如,通過點擊)選擇的文檔相關(guān)聯(lián)的實體標識符。
實體處理單元320然后可以分析點擊的分布。例如,實體處理單元320可以確定被最頻繁點擊的實體標識符是否為被認為對應于這個候選字符串的實體標識符。如果不是的話,則實體處理單元320可以忽略這個候選字符串,并且選擇下一個候選字符串來評估。
如果最頻繁點擊的實體標識符是被認為對應于這個候選字符串的實體標識符,則實體處理單元320可以確定到正確的、最頻繁點擊的實體標識符的點擊總數(shù)是否超過了一個小的閾值(例如,5)。使用這個閾值確保了與一個用戶點擊一次的意外不同、這個候選字符串常用到足以證明改寫它是對的。如果點擊總數(shù)低于該閾值,則實體處理單元320可以忽略這個候選字符串,并且選擇下一個候選字符串來評估。
如果該正確的、最頻繁點擊的實體標識符具有高于該閾值的點擊總數(shù),則實體處理單元320可以分析有多少點擊與每個實體標識符相關(guān)聯(lián)的分布情況。如果在統(tǒng)計意義上該分布是足夠“峰值化的(peaked)”(例如,大多數(shù)點擊是對正確實體標識符的點擊,而非常少的點擊是對其它實體標識符的點擊),則實體處理單元320可以將該候選字符串添加到查詢改寫表格330中。相反,如果該分布不是峰值化的,而是下落得非常緩慢(例如,其它實體標識符獲得幾乎一樣多的點擊),則實體處理單元320可以將該候選字符串添加到建議查詢改寫表格340中。
可以使用許多可能的對峰度(peakedness)的檢測,其中包括像分布(被視作多項式分布)熵值這樣的信息理論度量。為了高效和簡單起見,可以使用簡單的測試,諸如,如果對正確的、最頻繁點擊的實體標識符的點擊數(shù)目超過對次于最頻繁點擊的N個實體標識符(例如,N=4)的點擊數(shù)目組合,則可以認為它足夠峰值化到可以添加到查詢改寫表格330中。
除了點擊總數(shù)之外,還可以使用查詢?nèi)罩?00中的、諸如用戶行為信息字段430中的信息之類的其它數(shù)據(jù)來確定峰度。例如,與用戶訪問與該實體相關(guān)聯(lián)的文檔所花費的時間量相關(guān)的信息、是否出現(xiàn)全部或者部分轉(zhuǎn)化、和/或可以趨向于示出用戶對該實體的興趣的其它信息可以是確定峰度的因素。趨向于指示期望結(jié)果的任何數(shù)據(jù)可以與連續(xù)的權(quán)重相關(guān)聯(lián)。例如,可以一起使用這些數(shù)據(jù)中的多個數(shù)據(jù),并且向它們分配權(quán)重(例如,轉(zhuǎn)化與部分轉(zhuǎn)化相比可以被更多地加權(quán),而部分轉(zhuǎn)化與點擊相比可以被更多地加權(quán))。作為選擇,取決于用戶訪問與該實體相關(guān)聯(lián)的文檔所花費的時間量、或者與用戶訪問與該實體相關(guān)聯(lián)的文檔所花費的時間量相關(guān)的某些類別,可以將這些點擊用可變的量加權(quán)。然后,峰度可以基于總體加權(quán)的度量。
這個技術(shù)的優(yōu)點是它直接獲取當用戶提供搜索查詢時用戶想要的內(nèi)容。例如,Amazon.com是常用的商店,但是它也是南美洲的河流。如果當大多數(shù)用戶將它包括在搜索查詢中時他們僅僅意指商店,則將它添加到查詢改寫表格330中。如果顯著一部分的用戶意指河流或者別的東西,則他們將會點擊其它結(jié)果,而且該分布將不會足夠峰值化到可以將Amazon添加到查詢改寫表格330中。在這種情況下,可以將Amazon添加到建議查詢改寫表格340中。
查詢改寫表格330可以存儲與其名稱明確的實體(即,相當確信它們的名稱對應于該實體而不是別的東西,諸如“barnes and noble”)相關(guān)聯(lián)的信息。圖6是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的查詢改寫表格330的示范性圖示。查詢改寫表格330可以包括多個與名稱字符串相關(guān)聯(lián)的條目,如果這些名稱字符串出現(xiàn)在用戶搜索查詢中,則可以自動地將它們改寫為特定的實體標識符(例如,域、URL、或者類別標識符)。查詢改寫表格330中的條目可以包括字符串字段610和“改寫為(rewrite to)”字段620。字符串字段610可以存儲如上所述的候選字符串。“改寫為”字段620可以存儲可以將該候選字符串改寫成的實體標識符。例如,如果用戶搜索查詢包括“barnes & noble”,則基于查詢改寫表格330,可以將該查詢改寫為“storebarnesandnoble”,以指示該搜索將只限于與商店Barnes & Noble相關(guān)聯(lián)的實體標識符(域)?!皊tore”可以對應于商店環(huán)境中的限制標識符,其指示該搜索應該被限于遵循該限制標識符的商店。在其它環(huán)境中可以使用類似的限制標識符。
建議查詢改寫表格330可以存儲與其名稱不明確的實體相關(guān)聯(lián)的信息(即,該名稱可以包括可具有其它意思的通用字,諸如除了是指商店Coach.com之外還具有幾個用法的“coach”)。圖7是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、建議查詢改寫表格340的示范性圖示。建議查詢改寫表格340可以包括多個與名稱字符串相關(guān)聯(lián)的條目,如果這些名稱字符串出現(xiàn)在用戶搜索查詢中,則可以建議到特定實體標識符(例如,域、URL、或者類別標識符)的鏈接。建議查詢改寫表格340中的條目可以包括字符串字段710和“建議改寫為(suggest rewriteto)”字段720。字符串字段710可以存儲如上所述的候選字符串?!敖ㄗh改寫為”字段720可以存儲可以為候選字符串建議到其的鏈接的實體標識符。例如,如果用戶搜索查詢包括“coach”,則基于建議查詢生成表格340,可以生成一個鏈接,以便將該搜索查詢改寫為“storecoach”,以指示該搜索將只限于與商店Coach相關(guān)聯(lián)的實體標識符(域)。
在一個實現(xiàn)方式中,可以在生成查詢改寫表格330和建議查詢改寫表格340后人工評估它們。這可以有助于將新的實體放入正確的表格中。此外,可以定期更新表格330和340。當更新表格330和340時不同地加權(quán)用戶行為(例如,點擊)可能是所期望的,這是因為,如下面詳細描述的那樣,用戶的行為可能受到自動查詢改寫的影響。
示范性處理圖8是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、用于生成表格330和340(圖3)的示范性處理的流程圖。處理可以從獲得用于特定環(huán)境的實體名稱列表開始(動作810)。對于每個實體名稱,還可以標識出相應的實體標識符(動作820)。存在幾種用于為該列表標識出實體名稱和/或?qū)嶓w標識符的技術(shù)。例如,可以通過分析文檔文集等,從在線目錄、列表、組發(fā)布中標識出實體名稱和/或?qū)嶓w標識符。
然后,可以通過轉(zhuǎn)換實體名稱和/或?qū)嶓w標識符生成候選字符串列表(動作830)。例如,用于特定實體名稱及其相關(guān)聯(lián)的實體標識符的候選字符串列表可以包括按照原樣的實體名稱,按照原樣的實體標識符,沒有修飾詞(例如,“一”、“該”、“股份有限公司”、“公司”)的實體名稱,用連字符或者下劃線代替空格以及反過來用空格代替連字符或者下劃線的實體名稱,沒有單引號的實體名稱,用“and”代替“&”以及反過來用“&”代替“and”的實體名稱和/或?qū)嶓w標識符,沒有“and”和“&”的實體名稱和/或?qū)嶓w標識符,沒有開頭的“www.”和/或結(jié)尾的“.com”的實體標識符,以及用空格代替在兩邊都沒有空格的句點或者刪除了該句點的實體標識符。還可以使用其它或者不同的轉(zhuǎn)換。
然后可以評估候選字符串(即,實體名稱和/或?qū)嶓w標識符的每個版本),并且將其用于形成查詢改寫表格330和建議查詢改寫表格340(動作840和850)。例如,可以搜索查詢?nèi)罩?00,以標識出所有在它們的查詢字段410中包括特定候選字符串的條目。然后,可以檢查所標識出的條目,以確定為相應的搜索查詢點擊了哪些實體標識符(例如,域、URL、或者類別標識符)??梢苑治鲈擖c擊的分布,以便例如確定被最頻繁點擊的實體標識符是否是被認為對應于這個候選字符串的實體標識符。如果不是的話,則可以忽略該候選字符串,并且選擇下一個候選字符串用于評估。
如果被最頻繁點擊的實體標識符是被認為對應于這個候選字符串的實體標識符,則可以確定對正確的、最頻繁點擊的實體標識符的點擊總數(shù)是否超過了一個小的閾值(例如,5)。如果點擊總數(shù)低于該閾值,則可以忽略這個候選字符串,并且選擇下一個候選字符串來評估。
如果該正確的、最頻繁點擊的實體標識符具有高于該閾值的點擊總數(shù),則可以確定有多少點擊與每個實體標識符相關(guān)聯(lián)的分布情況。如果該分布是足夠“峰值化的”(例如,大多數(shù)點擊是對正確實體標識符的點擊,而比較少的點擊是對其它實體標識符的點擊),則可以將該候選字符串添加到查詢改寫表格330中。如果該分布不是峰值化的,而是下落得非常緩慢(例如,其它實體標識符獲得幾乎一樣多的點擊),則可以將該候選字符串添加到建議查詢改寫表格340中。上面已經(jīng)描述了用于確定峰度的一些可能測試。
圖9是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、用于有選擇地改寫搜索查詢的示范性處理的流程圖。處理可以從接收來自用戶的搜索查詢開始(動作910)。該搜索查詢可包含一個或多個項目,這些項目可以包括或者可以不包括實體名稱。
可以使用查詢改寫表格330和/或建議查詢改寫表格340評估該搜索查詢(動作920)。例如,可以搜索查詢改寫表格330中的條目,以確定該搜索查詢中的項目(或者項目的組合)與字符串字段610(圖6)中的名稱字符串相匹配。如果搜索查詢中的一個項目(或者多個項目)與名稱字符串之一相匹配,則可以自動地改寫該查詢(動作930和940)。例如,如果原有的查詢包括“harry potter barnes&noble”,則可以將該查詢改寫為“harry potter storebarnesandnoble”,以指示用戶想要在Barnes & Noble網(wǎng)站上查找有關(guān)Harry Potter的產(chǎn)品或者信息,而不是簡單地搜索包含項目“harry”、“potter”、“barnes”、“&”、和“noble”的文檔。
可選地,可以生成查詢鏈接以向用戶提供原有查詢,用于詢問用戶是否想要不同于自動改寫的查詢的搜索查詢(動作950)。在這種情況下,該查詢鏈接可以向用戶提供原有的查詢“harry potter barnes&noble”。
如果該搜索查詢中沒有項目與查詢改寫表格330中的名稱字符串相匹配,則可以搜索建議查詢改寫表格340中的條目,以確定該查詢中的項目(或者項目的組合)是否與字符串字段710(圖7)中的名稱字符串相匹配。如果搜索查詢中的一個項目(或者多個項目)與名稱字符串之一相匹配,則可以生成查詢鏈接(動作960和970)。該查詢鏈接可以向用戶提供查詢改寫,以詢問用戶是否想要不同的搜索查詢。例如,如果原有的查詢包括“purse coach”,則該查詢鏈接可以提供改寫的查詢“purse storecoach”(在商店環(huán)境中),以指示該用戶想要在Coach網(wǎng)站上查找有關(guān)purse的產(chǎn)品或者信息,而不是僅僅搜索包含項目“purse”和“coach”的文檔。
然后,如果可應用改寫的查詢,則基于改寫的查詢執(zhí)行搜索,或者如果可應用原有查詢,則基于原有查詢執(zhí)行搜索,以標識出與改寫/原有的查詢相關(guān)的文檔。例如,可以搜索文檔儲存庫以標識出包括該查詢中的一個或多個項目的文檔。所獲得的文檔可以形成可向用戶給出的搜索結(jié)果(動作980)。在一個實現(xiàn)方式中,該搜索結(jié)果可以采用到文檔的鏈接的形式。
自動查詢改寫示例-商店環(huán)境圖10和11是根據(jù)按照本發(fā)明的原理的實現(xiàn)方式的、在商店環(huán)境中的自動查詢改寫示例的圖示。如圖10所示,用戶可以經(jīng)由與諸如搜索引擎125(圖1)之類的搜索引擎相關(guān)聯(lián)的圖形用戶接口輸入搜索查詢。在這個示例中,用戶輸入搜索查詢“harry potter amazon”。假定項目“amazon”清楚地標識了商店Amazon.com,并因此作為名稱字符串被包括在查詢改寫表格330(圖3)中。
搜索引擎125可以基于查詢改寫表格330和建議查詢改寫表格340評估該搜索查詢中的項目。在這種情況下,搜索引擎125發(fā)現(xiàn)項目“amazon”出現(xiàn)在查詢改寫表格330中。如圖11所示,搜索引擎125然后將該搜索查詢改寫為“harry potter storeamazon”。
搜索引擎125在儲存庫中搜索與改寫的查詢相關(guān)的、與商店amazon.com相關(guān)聯(lián)的文檔(例如,產(chǎn)品)。有許多種確定文檔相關(guān)性的方法。例如,可以將包含該改寫的查詢中的一個或多個搜索項的文檔標識為是相關(guān)的。包括更多數(shù)量的搜索項的文檔可以被標識為比包含較少數(shù)量的搜索項的文檔更相關(guān)。
搜索引擎125然后可以將相關(guān)的文檔作為搜索結(jié)果向用戶給出。如圖11所示,每個搜索結(jié)果可以包括到相應文檔的鏈接1110、與該文檔相關(guān)聯(lián)的價格和商店標識符1120、以及相應文檔的簡短描述1130。如果可用的話,該搜索結(jié)果還可以包括與該文檔相關(guān)聯(lián)的圖像1140。可選地,搜索引擎125還可以提供到由用戶輸入的原有查詢的鏈接1150。在這種情況下,鏈接1150可以對應于與對搜索項“harry”、搜索項“potter”、和/或搜索項“amazon”的搜索相關(guān)聯(lián)的查詢。
建議查詢改寫示例-商店環(huán)境圖12-14是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、在商店環(huán)境中的查詢改寫建議示例的圖示。如圖12所示,用戶可以經(jīng)由與諸如搜索引擎125(圖1)之類的搜索引擎相關(guān)聯(lián)的圖形用戶接口輸入搜索查詢。在這個示例中,用戶輸入搜索查詢“purse coach”。假定項目“coach”是通用項目,并且不明確地標識商店Coach.com。進一步假定“coach”作為名稱字符串被包括在建議查詢改寫表格340(圖3)中。
搜索引擎125可以基于查詢改寫表格330和建議查詢改寫表格340評估該搜索查詢中的項目。在這種情況下,搜索引擎125發(fā)現(xiàn)搜索項都沒有出現(xiàn)在查詢改寫表格330中,但是項目“coach”出現(xiàn)在建議查詢改寫表格340中。如圖13所示,搜索引擎125然后將該搜索查詢改寫為“purse storecoach”,并且生成到所改寫的查詢的鏈接1310(“Search Merchant Coach forPurse(在商店Coach中搜索Purse)”)。
搜索引擎125在儲存庫中搜索與原有搜索查詢相關(guān)的文檔(例如,產(chǎn)品)。如上所述,有許多種確定文檔相關(guān)性的方法。例如,可以將包含該原有查詢中的一個或多個搜索項的文檔標識為是相關(guān)的。包括更多數(shù)量的搜索項的文檔可以被標識為比包含較少數(shù)量的搜索項的文檔更相關(guān)。在這種情況下,搜索引擎125搜索包括搜索項“purse”和/或搜索項“coach”的文檔。
搜索引擎125然后可以將相關(guān)的文檔作為搜索結(jié)果向用戶給出。如圖13所示,每個搜索結(jié)果可以包括到相應文檔的鏈接1320、與該文檔相關(guān)聯(lián)的價格和商店標識符1330、以及相應文檔的簡短描述1340。因為該搜索不局限于商店Coach,所以搜索結(jié)果與多個不同的商店(例如,Yahoo!Auctions和Vendio)相關(guān)聯(lián)。該搜索結(jié)果還可以包括鏈接1350,其是到與由商店標識符1330所標識的商店相關(guān)聯(lián)的附加文檔的鏈接。如果可用的話,該搜索結(jié)果還可以包括與該文檔相關(guān)聯(lián)的圖像1360。
如果用戶選擇了與改寫的查詢相關(guān)聯(lián)的鏈接1310,則搜索引擎125在儲存庫中搜索與該改寫的查詢相關(guān)的、與商店Coach.com相關(guān)聯(lián)的文檔(例如,產(chǎn)品)。搜索引擎125然后可以將相關(guān)的文檔作為搜索結(jié)果向用戶給出。如圖14所示,每個搜索結(jié)果可以包括到相應文檔的鏈接1410、與該文檔相關(guān)聯(lián)的價格和商店標識符1420、以及相應文檔的簡短描述1430。如果可用的話,該搜索結(jié)果還可以包括與該文檔相關(guān)聯(lián)的圖像1440??蛇x地,搜索引擎125還可以提供到由用戶輸入的原有查詢的鏈接1450。在這種情況下,鏈接1450可以對應于與對搜索項“purse”和/或搜索項“coach”的搜索相關(guān)聯(lián)的查詢。
自動查詢改寫示例-新聞環(huán)境圖15和16是根據(jù)按照本發(fā)明的原理的實現(xiàn)方式的、在新聞環(huán)境中的自動查詢改寫示例的圖示。如圖15所示,用戶可以經(jīng)由與諸如搜索引擎125(圖1)之類的搜索引擎相關(guān)聯(lián)的圖形用戶接口輸入搜索查詢。在這個示例中,用戶輸入搜索查詢“george bush washingtonpost”。假定項目“washingtonpost”明確地標識新聞來源washingtonpost.com,并因此作為名稱字符串被包括在查詢改寫表格330(圖3)中。
搜索引擎125可以基于查詢改寫表格330和建議查詢改寫表格340評估該搜索查詢中的項目。在這種情況下,搜索引擎125發(fā)現(xiàn)項目“washingtonpost”出現(xiàn)在查詢改寫表格330中。如圖16所示,搜索引擎125然后可以將該搜索查詢改寫為“george bush sourcewashington_post”。
搜索引擎125在儲存庫中搜索與改寫的查詢相關(guān)的、與來源washingtonpost.com相關(guān)聯(lián)的文檔(例如,新聞文檔)。有許多種確定文檔相關(guān)性的方法。例如,可以將包含該改寫的查詢中的一個或多個搜索項的文檔標識為是相關(guān)的。包括更多數(shù)量的搜索項的文檔可以被標識為比包含較少數(shù)量的搜索項的文檔更相關(guān)。
搜索引擎125然后可以將相關(guān)的文檔作為搜索結(jié)果向用戶給出。如圖16所示,每個搜索結(jié)果可以包括到相應文檔的鏈接1610、新聞來源標識符以及文檔創(chuàng)建時間的指示符1620、以及相應文檔的簡短描述1630。該搜索結(jié)果還可以包括鏈接1640,其是到和與鏈接1610相關(guān)聯(lián)的文檔的主題相關(guān)的其它文檔的鏈接??蛇x地,搜索引擎125還可以提供到由用戶輸入的原有查詢的鏈接1650。在這種情況下,鏈接1650可以對應于與對搜索項“george”、搜索項“bush”、和/或搜索項“washingtonpost”的搜索相關(guān)聯(lián)的查詢。
提議查詢改寫示例-新聞環(huán)境圖17-19是根據(jù)按照本發(fā)明原理的實現(xiàn)方式的、在新聞環(huán)境中的查詢改寫建議示例的圖示。如圖17所示,用戶可以經(jīng)由與諸如搜索引擎125(圖1)之類的搜索引擎相關(guān)聯(lián)的圖形用戶接口輸入搜索查詢。在這個示例中,用戶輸入搜索查詢“mutual funds business week”。假定項目“business week”是通用項目,并且不明確地標識新聞來源businessweek.com。進一步假定“business week”作為名稱字符串被包括在建議查詢改寫表格340(圖3)中。
搜索引擎125可以基于查詢改寫表格330和建議查詢改寫表格340評估該搜索查詢中的項目。在這種情況下,搜索引擎125發(fā)現(xiàn)搜索項都沒有出現(xiàn)在查詢改寫表格330中,但是項目“business week”出現(xiàn)在建議查詢改寫表格340中。如圖18所示,搜索引擎125然后將該搜索查詢改寫為“mutual funds sourcebusinessweek”,并且生成到所改寫的查詢的鏈接1810(“Search News Source Business Week forMutual Funds(在新聞來源Business Week中搜索Mutual Funds)”)。
搜索引擎125在儲存庫中搜索與原有搜索查詢相關(guān)的文檔(例如,新聞文檔)。如上所述,有許多確定文檔相關(guān)性的方法。例如,可以將包含該改寫的查詢中的一個或多個搜索項的文檔標識為是相關(guān)的。包括更多數(shù)量的搜索項的文檔可以被標識為比包含較少數(shù)量的搜索項的文檔更相關(guān)。在這種情況下,搜索引擎125搜索包括搜索項“mutual”、“funds”、“business”和/或“week”的文檔。
搜索引擎125然后可以將相關(guān)的文檔作為搜索結(jié)果向用戶給出。如圖18所示,每個搜索結(jié)果可以包括到相應文檔的鏈接1820、新聞來源標識符以及文檔創(chuàng)建時間的指示符1830、以及相應文檔的簡短描述1840。因為該搜索不局限于新聞來源Business Week(商業(yè)周刊),所以搜索結(jié)果與多個不同的新聞來源(例如,San Antonio Express(圣安東尼奧快報)、Baltimore Sun(巴爾的摩太陽報)、和ArizonaBusiness Gazette(亞利桑那州商業(yè)公報))相關(guān)聯(lián)。
如果用戶選擇了與改寫的查詢相關(guān)聯(lián)的鏈接1810,則搜索引擎125在儲存庫中搜索與該改寫的查詢相關(guān)的、與新聞來源businessweek.com相關(guān)聯(lián)的文檔(例如,新聞文檔)。搜索引擎125然后可以將相關(guān)的文檔作為搜索結(jié)果向用戶給出。如圖19所示,每個搜索結(jié)果可以包括到相應文檔的鏈接1910、新聞來源標識符以及與該文檔創(chuàng)建日期相對應的日期指示符1920、以及相應文檔的簡短描述1930??蛇x地,搜索引擎125還可以提供到由用戶輸入的原有查詢的鏈接1950。在這種情況下,鏈接1950可以對應于與對搜索項“mutual”、搜索項“funds”、搜索項“business”、和/或搜索項“week”的搜索相關(guān)聯(lián)的查詢。
結(jié)論根據(jù)本發(fā)明原理的系統(tǒng)和方法可以在檢測到某些實體的名稱時,有選擇地改寫搜索查詢。
對本發(fā)明優(yōu)選實施例的上述描述提供了舉例說明和描述,但是不是窮舉的,并且也不打算將本發(fā)明限制為所公開的準確形式。根據(jù)上述示教,許多修改和變化是可能的,或者可以從本發(fā)明的實踐中獲取這些修改和變化。
例如,已經(jīng)描述了生成查詢改寫表格330和建議查詢改寫表格340,然后使用它們用于幫助自動改寫搜索查詢或者生成到改寫的搜索查詢的建議鏈接。在另一實現(xiàn)方式中,可以在接收到來自用戶的搜索查詢時即時地執(zhí)行可生成表格330和340的分析。在這種情況下,可以使用搜索查詢中的項目(一個或多個)來搜索查詢?nèi)罩?00(圖4)。然后,可以用與如上所述的方式類似的方式確定點擊和峰度的分布??梢允褂门c上述分析類似的、用于在查詢改寫表格330或者建議查詢改寫表格340中存儲搜索項(一個或多個)的分析,來確定是否自動地改寫該查詢或者生成到改寫的查詢的建議鏈接。
此外,可以使用不同的技術(shù)來確定怎樣以及是否改寫搜索查詢中的項目。一種技術(shù)是手動創(chuàng)建表格330和340。另一類常用技術(shù)是基于大量文本文集(有可能是被搜索的文檔的儲存庫)進行對任何潛在名稱的統(tǒng)計分析,并且基于該名稱出現(xiàn)于其中的環(huán)境的易變性,或者基于該名稱在已知適當字段(例如,商店名稱字段)而不是在其它更通用字段的一般文本(諸如文章的描述或者正文)中出現(xiàn)的相對次數(shù),來確定該名稱是否為通用項目。這些方法的組合也是可能的,諸如,使用自動化方法,并繼之以人工評估和少量編輯所生成的表格條目。
此外,雖然已經(jīng)就圖8和9描述了一系列動作,但是在根據(jù)本發(fā)明原理的其它實現(xiàn)方式中,可以修改這些動作的次序。此外,不相關(guān)的動作可以并行執(zhí)行。
在一個實現(xiàn)方式中,服務器120可以執(zhí)行大多數(shù)(如果不是全部的話)的就圖8和/或9中的處理所描述的動作。在按照本發(fā)明原理的另一個實現(xiàn)方式中,這些動作中的一個或者多個、或者其全部都可以由諸如另一個服務器130和/或140或者客戶端110之類的另一部件所執(zhí)行。
本領(lǐng)域的普通技術(shù)人員還應當明白,在附圖所說明的實現(xiàn)方式中,如上所述的本發(fā)明的各個方面可以用軟件、固件、和硬件的許多不同形式實現(xiàn)。用于實現(xiàn)根據(jù)本發(fā)明原理的各個方面的實際軟件代碼或者專用控制硬件不是對本發(fā)明的限制。因此,在沒有參考特定的軟件代碼的情況下描述了各個方面的操作和動作--應當理解,基于此處的描述,本領(lǐng)域的普通技術(shù)人員將能夠設(shè)計出軟件和控制硬件以實現(xiàn)這些方面。
除非被明確描述為這樣,否則在當前申請中所使用的要素、動作、或者指令都不應該被看作是本發(fā)明關(guān)鍵和必要的。此外,此處使用的冠詞“一“意圖包括一或多項。在意圖表示僅僅一項的地方,使用了術(shù)語“一個”或者類似的語言。此外,除非明確申明不是這樣,否則短語“基于”意指“至少部分地基于”。
權(quán)利要求
1.一種方法,包含接收搜索查詢;確定所接收的搜索查詢是否包括實體名稱;基于與涉及該實體名稱的先前搜索有關(guān)的信息,確定是否改寫所接收的搜索查詢;當確定應當改寫所接收的搜索查詢時,改寫所接收的搜索查詢;基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索,以獲得搜索結(jié)果;以及給出該搜索結(jié)果。
2.如權(quán)利要求1所述的方法,還包含當基于所改寫的搜索查詢執(zhí)行搜索時,提供到所接收的搜索查詢的鏈接。
3.如權(quán)利要求1所述的方法,還包含當確定所接收的搜索查詢不應當被改寫時,基于與涉及該實體名稱的先前搜索有關(guān)的信息,確定是否提供改寫所接收的搜索查詢的建議作為改寫建議;以及當確定應該提供改寫建議時,生成該改寫建議。
4.如權(quán)利要求3所述的方法,其中,所述改寫建議包括到改寫的搜索查詢的鏈接。
5.如權(quán)利要求3所述的方法,其中,所述給出搜索結(jié)果的步驟包含當確定應該提供改寫建議時,與搜索結(jié)果一起給出該改寫建議。
6.如權(quán)利要求3所述的方法,其中,所述確定是否提供改寫所接收的搜索查詢的建議的步驟包含標識與在涉及該實體名稱的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù);以及當與該實體名稱相關(guān)聯(lián)的實體標識符接收到的選擇總數(shù)大于其他所標識的實體標識符時,確定應該提供改寫建議。
7.如權(quán)利要求1所述的方法,其中,所述確定是否改寫所接收的搜索查詢的步驟包含標識與在涉及該實體名稱的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù);以及當與該實體名稱相關(guān)聯(lián)的實體標識符接收到的選擇總數(shù)大于其他所標識的實體標識符時,確定應該改寫所接收的搜索查詢。
8.如權(quán)利要求7所述的方法,其中,所述確定是否改寫所接收的搜索查詢的步驟還包含確定與該實體名稱相關(guān)聯(lián)的實體標識符的選擇總數(shù)是否大于閾值;以及當與該實體名稱相關(guān)聯(lián)的實體標識符的選擇總數(shù)不大于該閾值時,確定不應當改寫所接收的搜索查詢。
9.如權(quán)利要求1所述的方法,其中,所述確定是否改寫所接收的搜索查詢的步驟包含標識與在涉及該實體名稱的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù)的分布;以及當所述分布指示與該實體名稱相關(guān)聯(lián)的實體標識符的選擇總數(shù)和其它所標識的實體標識符的子集的選擇總數(shù)相比被峰值化了時,確定應該改寫所接收的搜索查詢。
10.如權(quán)利要求1所述的方法,其中,所述改寫所接收的搜索查詢的步驟包含修改所接收的搜索查詢,以包括與該實體名稱相關(guān)聯(lián)的限制標識符。
11.如權(quán)利要求1所述的方法,其中,所述基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索的步驟包含當改寫了所接收的搜索查詢時,使用所改寫的搜索查詢搜索文檔儲存庫。
12.一種系統(tǒng),包含用于接收搜索查詢的裝置;用于確定所接收的搜索查詢是否包括實體名稱的裝置;用于當所接收的搜索查詢包括實體名稱時、確定是否改寫所接收的搜索查詢的裝置;用于當確定應當改寫所接收的搜索查詢時、改寫所接收的搜索查詢的裝置;用于基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索以獲得搜索結(jié)果的裝置;以及用于提供該搜索結(jié)果的裝置。
13.一種系統(tǒng),包含存儲器,用于存儲與先前搜索有關(guān)的信息;以及處理器,用于接收搜索查詢;確定所接收的搜索查詢是否包括實體名稱;基于該存儲器中的信息確定是否改寫所接收的搜索查詢;當確定應當改寫所接收的搜索查詢時,改寫所接收的搜索查詢;基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索,以獲得搜索結(jié)果;以及給出該搜索結(jié)果。
14.一種方法,包含接收搜索查詢;確定所接收的搜索查詢是否包括實體名稱;基于與涉及該實體名稱的先前搜索有關(guān)的信息,確定是否提供改寫所接收的搜索查詢的建議作為改寫建議;當確定應該提供改寫建議時,生成該改寫建議;基于所接收的搜索查詢執(zhí)行搜索,以獲得搜索結(jié)果;給出該搜索結(jié)果;以及當應該提供改寫建議時,提供該改寫建議。
15.如權(quán)利要求14所述的方法,其中,所述改寫建議包括到改寫的搜索查詢的鏈接。
16.如權(quán)利要求14所述的方法,還包含接收對該改寫建議的選擇;改寫所接收的搜索查詢;基于所改寫的搜索查詢執(zhí)行搜索,以獲得新的搜索結(jié)果;以及給出該新的搜索結(jié)果。
17.如權(quán)利要求14所述的方法,其中,所述確定是否提供改寫所接收的搜索查詢的建議的步驟包含標識與在涉及該實體名稱的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù);以及當與該實體名稱相關(guān)聯(lián)的實體標識符接收到的選擇總數(shù)大于其他所標識的實體標識符時,確定應該提供改寫建議。
18.如權(quán)利要求14所述的方法,還包含基于與涉及該實體名稱的先前搜索有關(guān)的信息,確定是否改寫所接收的搜索查詢;以及當確定應當改寫所接收的搜索查詢時,改寫所接收的搜索查詢。
19.如權(quán)利要求18所述的方法,其中,所述確定是否改寫所接收的搜索查詢的步驟包含標識與在涉及該實體名稱的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù);以及當與該實體名稱相關(guān)聯(lián)的實體標識符接收到的選擇總數(shù)大于其他所標識的實體標識符時,確定應該改寫所接收的搜索查詢。
20.如權(quán)利要求19所述的方法,其中,所述確定是否改寫所接收的搜索查詢的步驟還包含確定與該實體名稱相關(guān)聯(lián)的實體標識符的選擇總數(shù)是否大于閾值;以及當與該實體名稱相關(guān)聯(lián)的實體標識符的選擇總數(shù)不大于該閾值時,確定不應當改寫所接收的搜索查詢。
21.如權(quán)利要求18所述的方法,其中,所述確定是否改寫所接收的搜索查詢的步驟包含標識與在涉及該實體名稱的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù)的分布;以及當所述分布指示與該實體名稱相關(guān)聯(lián)的實體標識符的選擇總數(shù)和其它所標識的實體標識符的子集的選擇總數(shù)相比被峰值化了時,確定應該改寫所接收的搜索查詢。
22.如權(quán)利要求18所述的方法,其中,所述改寫所接收的搜索查詢的步驟包含修改所接收的搜索查詢,以包括與該實體名稱相關(guān)聯(lián)的限制標識符。
23.如權(quán)利要求18所述的方法,其中,所述執(zhí)行搜索的步驟包含當改寫了所接收的搜索查詢時,使用所改寫的搜索查詢搜索文檔儲存庫。
24.如權(quán)利要求14所述的方法,還包含接收對該改寫建議的選擇;改寫所接收的搜索查詢;基于所改寫的搜索查詢執(zhí)行搜索,以獲得結(jié)果;以及提供該結(jié)果以及到所接收的搜索查詢的鏈接。
25.一種系統(tǒng),包含用于接收搜索查詢的裝置;用于確定所接收的搜索查詢是否包括實體名稱的裝置;用于當所接收的搜索查詢包括實體名稱時、確定是否提供鏈接以便改寫所接收的搜索查詢的裝置;用于當確定應當提供鏈接時生成該鏈接的裝置;用于基于所接收的搜索查詢執(zhí)行搜索以獲得搜索結(jié)果的裝置;用于提供該搜索結(jié)果的裝置;以及用于當應該提供鏈接時提供該鏈接的裝置。
26.一種系統(tǒng),包含存儲器,用于存儲與先前搜索有關(guān)的信息;以及處理器,用于接收搜索查詢;確定所接收的搜索查詢是否包括實體名稱;基于存儲器中的信息,確定是否提供改寫所接收的搜索查詢的建議作為改寫建議;當確定應該提供改寫建議時,生成該改寫建議;基于所接收的搜索查詢執(zhí)行搜索以獲得搜索結(jié)果;給出該搜索結(jié)果;以及當應該提供改寫建議時,提供該改寫建議。
27.一種方法,包含獲得實體名稱;標識對應于該實體名稱的實體標識符;基于該實體名字的變體和實體標識符產(chǎn)生候選字符串列表;基于與先前搜索有關(guān)的信息評估每個候選字符串;確定是否將候選字符串包括在表格中;以及在基于搜索查詢執(zhí)行搜索之前,使用該表格來改寫該搜索查詢。
28.如權(quán)利要求27所述的方法,其中,所述產(chǎn)生候選字符串列表的步驟包含通過下列至少其中之一來轉(zhuǎn)換該實體名稱刪除修飾詞、用連字符或者下劃線替換空格、用空格替換連字符或者下劃線、刪除單引號、用“&”替換“and”、用“and”替換“&”、以及刪除“and”與“&”。
29.如權(quán)利要求27所述的方法,其中,所述產(chǎn)生候選字符串列表的步驟包含通過下列至少其中之一來轉(zhuǎn)換該實體標識符用“&”替換“and”、用“and”替換“&”、冊除“and”與“&”、刪除“www.”、冊除“.com”、以及將兩邊沒有空格的句點視為空格或者刪除該句點。
30.如權(quán)利要求27所述的方法,其中,所述確定是否將候選字符串包括在表格中的步驟包含標識與在涉及候選字符串中的一個候選字符串的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù);以及當與所述一個候選字符串相關(guān)聯(lián)的實體標識符接收到的選擇總數(shù)大于其他所標識的實體標識符時,確定應該將所述一個候選字符串包括在該表格中。
31.如權(quán)利要求30所述的方法,其中,所述確定是否將每個候選字符串包括在表格中的步驟還包含確定與所述一個候選字符串相關(guān)聯(lián)的實體標識符的選擇總數(shù)是否大于閾值;以及當與所述一個候選字符串相關(guān)聯(lián)的實體標識符的選擇總數(shù)不大于該閾值時,確定所述一個候選字符串不應當被包括在該表格中。
32.如權(quán)利要求27所述的方法,其中,所述確定是否將候選字符串包括在表格中的步驟包含標識與在涉及候選字符串中的一個候選字符串的先前搜索中被選擇的文檔相關(guān)聯(lián)的實體標識符;確定每個被標識的實體標識符的選擇總數(shù)的分布;以及當所述分布指示與所述一個候選字符串相關(guān)聯(lián)的實體標識符的選擇總數(shù)與其它所標識的實體標識符的子集的選擇總數(shù)相比被峰值化了時,確定應該將所述一個候選字符串包括在該表格中。
33.如權(quán)利要求27所述的方法,其中,所述使用該表格來改寫搜索查詢的步驟包含接收包括該實體名稱的變體或者實體標識符的搜索查詢;確定該實體名稱的變體或者該實體標識符是否被包括在該表格中;以及當該實體名稱的變體或者該實體標識符被包括在該表格中時,改寫該搜索查詢。
34.如權(quán)利要求33所述的方法,其中,所述改寫該搜索查詢的步驟包含修改該搜索查詢,以包括與該實體名稱相關(guān)聯(lián)的限制標識符。
35.一種系統(tǒng),包含用于獲得實體名稱的裝置;用于基于該實體名字的變體生成候選字符串列表的裝置;用于基于與先前搜索有關(guān)的信息評估每個候選字符串的裝置;用于確定是否將候選字符串包括在表格中的裝置;以及用于在基于搜索查詢執(zhí)行搜索之前,使用該表格來改寫該搜索查詢的裝置。
36.一種系統(tǒng),包含存儲器,用于存儲與先前搜索有關(guān)的信息;以及處理器,用于標識實體名稱;生成該實體名稱的變體;基于與先前搜索有關(guān)的信息評估該實體名稱的每個變體,以確定是否將該實體名稱的變體包括到表格中;以及在基于搜索查詢執(zhí)行搜索之前,使用該表格來改寫該搜索查詢。
37.一種方法,包含獲得實體名稱;生成該實體名稱的變體;基于與先前搜索有關(guān)的信息評估該實體名稱的每個變體;確定是否將該實體名稱的變體包括在表格中;接收包括該實體名稱的變體之一的搜索查詢;確定該實體名稱的所述一個變體是否被包括在該表格中;以及當該實體名稱的所述一個變體被包括在該表格中時,為所接收的搜索查詢建議不同的搜索查詢。
38.一種方法,包含接收搜索查詢;確定所接收的搜索查詢是否包括實體名稱;基于與涉及該實體名稱的先前搜索有關(guān)的信息,確定是否改寫所接收的搜索查詢;當確定應當改寫所接收的搜索查詢時,改寫所接收的搜索查詢;當確定所接收的搜索查詢不應當被改寫時,基于與涉及該實體名稱的先前搜索有關(guān)的信息,確定是否提供改寫所接收的搜索查詢的建議作為改寫建議;當確定應該提供改寫建議時,生成該改寫建議;基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索,以獲得搜索結(jié)果;給出該搜索結(jié)果;以及當確定應該提供改寫建議時,給出該改寫建議。
39.一種方法,包含接收搜索查詢;確定所接收的搜索查詢是否包括商店名稱;基于與涉及該商店名稱的先前搜索有關(guān)的信息,確定是否改寫所接收的搜索查詢;當確定應該改寫所接收的搜索查詢時,改寫所接收的搜索查詢,以包括與該商店名稱相關(guān)聯(lián)的限制標識符;基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索,以獲得搜索結(jié)果;以及給出該搜索結(jié)果。
40.一種方法,包含接收搜索查詢;確定所接收的搜索查詢是否包括新聞來源名稱;基于與涉及該新聞來源名稱的先前搜索有關(guān)的信息,確定是否改寫所接收的搜索查詢;當確定應該改寫所接收的搜索查詢時,改寫所接收的搜索查詢,以包括與該新聞來源名稱相關(guān)聯(lián)的限制標識符;基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索,以獲得搜索結(jié)果;以及給出該搜索結(jié)果。
全文摘要
一種系統(tǒng),確定接收的搜索查詢是否包括實體名稱,基于與涉及該實體名稱的先前搜索有關(guān)的信息、確定是否改寫所接收的搜索查詢,以及當確定應當改寫所接收的搜索查詢時,改寫所接收的搜索查詢。該系統(tǒng)還在確定所接收的搜索查詢不應當被改寫時,基于與涉及該實體名稱的先前搜索有關(guān)的信息、確定是否提供改寫所接收的搜索查詢的建議作為改寫建議。當確定應該提供改寫建議時,該系統(tǒng)還生成該改寫建議。該系統(tǒng)基于所接收的搜索查詢和所改寫的搜索查詢之一執(zhí)行搜索以獲得搜索結(jié)果,給出該搜索結(jié)果,以及當確定應該提供改寫建議時,給出該改寫建議。
文檔編號G06F17/30GK101027667SQ200580015720
公開日2007年8月29日 申請日期2005年3月29日 優(yōu)先權(quán)日2004年3月31日
發(fā)明者卡爾·菲勒格 申請人:Google公司