基于搜索數(shù)據(jù)的查詢建議的制作方法
【專利說明】
【背景技術】
[0001]本說明書涉及接收查詢并且基于該查詢確定話題提示的系統(tǒng)。
[0002]互聯(lián)網提供對于例如視頻文件、圖像文件、音頻文件或者網頁的各種資源的訪問,包括關于特定主題、書籍文章或者新聞文章的內容。響應于接收到搜索查詢,搜索系統(tǒng)可選擇一個或多個資源。搜索查詢是用戶提交給搜索引擎以滿足用戶的信息需求的數(shù)據(jù)。搜索查詢通常為文本的形式,例如,一個或多個查詢項,并且也可包括口述搜索查詢的轉錄。搜索系統(tǒng)基于其與搜索查詢的相關度以及相對于其它資源的重要性來選擇資源并評分,以提供搜索結果。搜索結果通常根據(jù)得分來排序,并且根據(jù)該順序來呈現(xiàn)。
【發(fā)明內容】
[0003]通常,本說明書中所描述的主題的一個創(chuàng)新方面可在方法中具體實現(xiàn),該方法包括以下動作:由一個或多個計算機接收第一查詢;基于第一查詢確定查詢精化;從查詢精化生成精化集群,每個精化集群與特定話題對應并且每個精化集群包括被確定為屬于精化集群所對應于的特定話題的查詢精化;對精化集群進行排名;選擇在排名中相對于其它精化集群排名最高的精化集群作為第一查詢的第一搜索精化集群;以及基于與第一搜索精化集群關聯(lián)的話題來生成第一話題提示數(shù)據(jù),第一話題提示數(shù)據(jù)描述了對屬于與第一搜索精化集群關聯(lián)的話題的η元(n-gram)的第一用戶輸入的請求。這一方面的其它實施例包括被配置為執(zhí)行該方法的動作的對應系統(tǒng)、設備以及在計算機存儲裝置上編碼的計算機程序。
[0004]可實現(xiàn)本說明書中所描述的主題的特定實施例,以實現(xiàn)以下優(yōu)點中的一個或多個。在一些實現(xiàn)方式中,搜索引擎訪問查詢日志并且基于滿足與所接收的查詢的閾值水平的相似度的之前查詢或者查詢序列來為該查詢確定話題提示,從而減少用戶裝置上的用戶輸入量。在一些實現(xiàn)方式中,搜索引擎限制話題提示以降低話題偏離的可能性,從而提供更有可能滿足用戶的信息需求的建議。該建議可在與話題有關的對話情境中呈現(xiàn),而非具體查詢建議。在一些實現(xiàn)方式中,此對話可包含用于選擇的圖片或表意文字或者用于不同查詢精化選擇的搜索結果組。利用這樣的對話情境中的話題提示精化查詢的能力使得用戶能夠以更流暢的談話的方式來輸入查詢,這繼而導致用戶易于使用搜索引擎,并且可更快速地將用戶指引至用戶所需的搜索結果。這在對查詢的鍵入校正無法進行或者不切實際的情況下或者在這樣的裝置上允許搜索引擎的完全解放雙手的操作。
[0005]本說明書中所描述的主題的一個或多個實施例的細節(jié)在附圖和以下描述中闡述。主題的其它特征、方面和優(yōu)點將從描述、附圖和權利要求書變得顯而易見。
【附圖說明】
[0006]圖1A-B是基于查詢確定話題提示的示例環(huán)境的框圖。
[0007]圖2是響應于接收到查詢,提供話題提示的過程的流程圖。
[0008]圖3是基于與話題提示關聯(lián)的得分選擇話題提示的過程的流程圖。
[0009]各種圖中的相似標號和名稱指示相似的元件。
【具體實施方式】
[0010]§1.0 概述
[0011]有時當用戶錄入搜索查詢時,呈現(xiàn)給用戶的搜索結果不是用戶所要尋找的,用戶必須修正搜索查詢。例如,用戶可查詢“舊金山的餐館”,查看搜索結果,然后查詢“舊金山的意式餐館”。當用戶在移動平臺上利用口述查詢或者文本查詢交互時,后者的查詢修正可能特別難以輸入,因為在這些裝置上輸入方法常常受到限制。
[0012]下面所述的系統(tǒng)和方法有利于以流暢和直觀的方式精化查詢。當搜索系統(tǒng)從用戶裝置接收第一查詢時,搜索系統(tǒng)從日志檢索其它查詢,其中其它查詢滿足與第一查詢的閾值水平的相似度,針對第一查詢確定查詢精化,其中查詢精化來自其它查詢,使查詢精化群集,其中每個精化集群與精化話題關聯(lián),并且基于精化集群選擇一個或多個精化集群話題。搜索系統(tǒng)可基于所選擇的精化集群話題來提供精化集群話題作為對用戶的話題提示,以允許用戶精化提供給用戶裝置的搜索結果。
[0013]例如,當用戶請求“舊金山的餐館”時,搜索系統(tǒng)可確定對餐館的先前查詢常常包括風味類型(例如,基于集群),向用戶提供搜索結果,并且提示用戶“你要尋找哪種風味類型? ”。當用戶以“我要尋找法式”響應系統(tǒng)提示時,系統(tǒng)向用戶提供響應于“舊金山的法式餐館”的搜索結果,并且可包括附加查詢精化,例如提示用戶在舊金山的具體位置。
[0014]§1.1示例操作環(huán)境
[0015]圖1是基于查詢來確定話題提示的示例環(huán)境100的框圖。對話題提示的用戶響應允許用戶精化查詢,而無需錄入新的查詢,并且響應于查詢和話題提示響應二者來向用戶提供搜索結果。
[0016]諸如局域網(LAN)、廣域網(WAN)、互聯(lián)網或其組合的計算機網絡102連接發(fā)布者網站104、用戶裝置106和搜索引擎110。在線環(huán)境100可包括成千上萬的發(fā)布者網站104和用戶裝置106。
[0017]發(fā)布者網站104包括與域關聯(lián)的一個或多個資源105并且通過一個或多個位置中的一個或多個服務器來托管。通常,網站是超文本標記語言(HTML)格式的網頁的集合,其可包含文本、圖像、多媒體內容和編程元素,例如,腳本。各個發(fā)布者網站104由內容發(fā)布者來維護,內容發(fā)布者是控制、管理和/或擁有發(fā)布者網站104的實體。
[0018]資源是可由發(fā)布者網站104經網絡102提供并且具有資源地址(例如,統(tǒng)一資源定位符(URL))的任何數(shù)據(jù)。資源105可以是HTML頁面、電子文檔、圖像文件、視頻文件、音頻文件和原料來源等等。資源可包括嵌入式信息,例如,元信息和超鏈接,和/或嵌入式指令,例如,客戶端腳本。
[0019]用戶裝置106是在用戶的控制下的電子裝置并且能夠經網絡102來請求和接收資源。示例用戶裝置106包括個人計算機、移動通信裝置以及可經網絡102發(fā)送和接收數(shù)據(jù)的其它裝置。用戶裝置106通常包括用戶應用,例如,web瀏覽器,以方便經網絡102的數(shù)據(jù)的發(fā)送和接收。web瀏覽器可使得用戶能夠顯示通常在萬維網或局域網上的網站處的網頁上的文本、圖像、視頻、音樂以及其它信息并與其交互。
[0020]為了方便這些資源105的搜索,搜索引擎110通過抓取發(fā)布者網站104并且索引發(fā)布者網站104所提供的資源105來識別資源。資源105被索引,并且索引數(shù)據(jù)被存儲在索引112中。
[0021]用戶裝置106向搜索引擎110提交搜索查詢109。搜索查詢109以搜索請求的形式提交,其包括搜索請求,以及可選地,標識提交請求的用戶裝置106的唯一標識符。唯一標識符可以是來自存儲在用戶裝置處的cookie的數(shù)據(jù),或者如果用戶有搜索引擎110的賬戶的話,用戶賬戶標識符,或者標識用戶裝置106或者使用用戶裝置的用戶的一些其它標識符。
[0022]響應于搜索請求,搜索引擎110使用索引112來識別與查詢相關的資源。搜索引擎110以搜索結果的形式識別資源,并且在搜索結果頁面資源111中將搜索結果返回給用戶裝置106。搜索結果是由搜索引擎110生成的數(shù)據(jù),其識別資源或者提供滿足特定搜索查詢的信息。對資源的搜索結果可包括網頁標題、從網頁提取的文本片段以及該資源的資源定位符,例如,網頁的URL。
[0023]基于與搜索結果所標識的資源有關的得分,諸如,信息檢索(“IR”)得分以及可選地各個資源相對于其它資源的單獨排名(例如,權威得分),來排名搜索結果。搜索結果根據(jù)這些得分來排序并且根據(jù)該順序提供給用戶裝置。
[0024]用戶裝置106接收搜索結果頁面111并且渲染該頁面以便于呈現(xiàn)給用戶。響應于用戶在用戶裝置106處選擇搜索結果,用戶裝置106請求由包括在所選擇的搜索結果中的資源定位符標識的資源105。托管資源105的發(fā)布者網站104的發(fā)布者從用戶裝置106接收對資源的請求,并且將資源105提供給請求方用戶裝置106。
[0025]在一些實現(xiàn)方式中,從用戶裝置106提交的搜索查詢109被存儲在查詢日志114中。針對被搜索結果引用并且被用戶選擇的查詢和網頁的選擇數(shù)據(jù)被存儲在選擇日志116中。查詢日志114和選擇日志116限定搜索歷史數(shù)據(jù)117,其包括來自與唯一標識符關聯(lián)的先前搜索請求并與之有關的數(shù)據(jù)。選擇日志表示響應于搜索引擎110所提供的搜索結果采取的動作。查詢日志114和選擇日志116可用于將用戶裝置所提交的查詢映射至在搜索結果中標識的資源以及在響應于查詢呈現(xiàn)搜索結果時用戶所采取的動作。在一些實現(xiàn)方式中,數(shù)據(jù)與來自搜索請求的標識符關聯(lián),以使得可訪問各個標識符的搜索歷史。搜索引擎因此可使用選擇日志116和查詢日志114來確定用戶裝置106所提交的相應查詢序列、響應于查詢所采取的動作以及多久提交查詢一次。
[0026]搜索引擎110在搜索會話期間使用查詢日志和查詢序列來確定對搜索查詢所作的查詢精化。例如,搜索引擎110確定用戶可利用風味類型,諸如法式或意式,或者利用價格范圍等等來修改初始搜索查詢。
[0027]§ 1.2話題提示
[0028]搜索引擎110使用這些查詢精化來確定話題提示以用于稍后的搜索會話。例如,在時間?\,用戶錄入搜索查詢“舊金山的餐館”并且用戶的裝置106將搜索查詢提供給搜索引擎110。
[0029]精化生成器118利用搜索歷史數(shù)據(jù)117,例如,查詢日志114,來針對查詢選擇查詢精化,其中查詢精化滿足與查詢的閾值水平的相似度。例如,精化生成器118選擇查詢精化“舊金山的意式餐館”、“舊金山的法式餐館”、“舊金山的日式餐館”、“舊金山聯(lián)合廣場附近的餐館”和“舊金山碼頭附近的日式餐館”。
[0030]在時間Τ2,精化生成器118為查詢精化確定精化集群,其中各個精化集群與來自查詢精化的話題關聯(lián)。例如,精化生成器118按照類型來使查詢精化群集,并且基于查詢精化中的η元“意式”、“法式”和“日式”選擇“風味”精化集群,并且基于η元“聯(lián)合廣場附近”和“碼頭附近”選擇“位置”精化集群。這里,風味精化集群包括查詢精化“舊金山的意式餐館”、“舊金山的法式餐館”、“舊金山的日式餐館”和“舊金山碼頭附近的的日式餐館”,并且位置精化集群包括查詢精化“舊金山聯(lián)合廣場附近的餐館”和“舊金山碼頭附近的日式餐館”。
[0031]η元可以是來自給定文本序列的η個項的連續(xù)序列。η個項中的每一個可以是音素、音節(jié)、字母、單詞、數(shù)字或者基礎對等等。η的值可變化,例如對于一元為一,對于二元為二,依此類推。
[0032]精化生成器118將精化集群提供給集群評分系統(tǒng)120,其對各個精化集群進行評分。例如,基于η元在與相應集群話題關聯(lián)的查詢精化中出現(xiàn)的數(shù)量,集群評分系統(tǒng)120將風味精化集群與最高得分關聯(lián),并且將位置精化集群與較低