本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種查詢目標(biāo)匹配方法及裝置。
背景技術(shù):
一般情況下,對海量數(shù)據(jù)的搜索查詢,借助于計算機顯得尤為重要。在自然語言處理技術(shù)中,由于中文自身的語言特點,中文處理要比其他西文處理復(fù)雜得多。
現(xiàn)有技術(shù)中,針對用戶輸入的查詢詞,通常是計算查詢詞與待推薦內(nèi)容的相關(guān)短文本(例如文件的名稱等)二者之間的語義相似度,按照語義相似度由高到低的順序?qū)⑴c短文本相關(guān)的內(nèi)容推薦給用戶,但是由于計算語義相似度的準(zhǔn)確性有限,常常導(dǎo)致推薦給用戶的內(nèi)容并不是用戶想得到的內(nèi)容
舉例來說,當(dāng)用戶輸入“英雄”這個查詢詞的時候,通常是想獲得李連杰主演的電影《英雄》,假設(shè)有兩個短文本:1、英雄聯(lián)盟2、李連杰電影英雄國語完整版,一般來說,從現(xiàn)有技術(shù)的機械的文本匹配來看,第一個短文本相比于第二個短文本與查詢詞更相似,但是從語義理解來看,第二個短文本相比于第一個短文本與用戶的查詢意圖匹配度可能更高一些。再舉例來說,用戶通常會通過輸入“是否”這個詞來獲得一首名字為《是否》的歌曲的相關(guān)視頻,假設(shè)有兩個短文本:1、你是否愛我?2、電影《搭錯車》插曲-是否,機械的文本匹配很難分辨出哪一個與短文本相關(guān)的內(nèi)容更適合推薦給用戶。
技術(shù)實現(xiàn)要素:
技術(shù)問題
有鑒于此,本發(fā)明提出一種查詢目標(biāo)匹配方法及裝置,能夠更為準(zhǔn)確地將與用戶輸入的查詢詞相匹配的查詢目標(biāo)推薦給用戶,以提高用戶的查詢效率。
解決方案
一方面,提出了一種查詢目標(biāo)匹配方法,包括:獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;對所述關(guān)聯(lián)查詢詞進行分詞操作,以獲得詞;計算各所述詞的詞向量;根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;根據(jù)當(dāng)前查詢詞中各詞的詞向量以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。
又一方面,提出了一種查詢目標(biāo)匹配裝置,包括:獲取單元,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;分詞單元,對所述關(guān)聯(lián)查詢詞進行分詞操作,以獲得詞;計算單元,計算各所述詞的詞向量;第一確定單元,根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;第二確定單元,根據(jù)當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;第三確定單元,根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。
有益效果
根據(jù)本發(fā)明的各個方面,通過對獲取的針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞進行分詞操作以獲得詞,并計算各所述詞的詞向量,再根據(jù)所確定的詞向量來確定當(dāng)前查詢詞中各詞的詞向量以及待匹配的查詢目標(biāo)相應(yīng)的文本中包含的詞的詞向量,并確定當(dāng)前查詢詞與所述文本的語義相似度,進而從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。根據(jù)該方法和裝置,使得詞向量的確定考慮到了針對相同查詢目標(biāo)的查詢詞之間的關(guān)聯(lián)性,能夠使得到的當(dāng)前查詢詞和與待匹配的查詢目標(biāo)相對應(yīng)的文本的語義相似度的準(zhǔn)確性更高,便于更準(zhǔn)確地將與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)推薦給用戶,提高匹配度,從而提高用戶的查詢效率。
根據(jù)下面參考附圖對示例性實施例的詳細說明,本發(fā)明的其它特征及方面將變得清楚。
附圖說明
包含在說明書中并且構(gòu)成說明書的一部分的附圖與說明書一起示出了本發(fā)明的示例性實施例、特征和方面,并且用于解釋本發(fā)明的原理。
圖1示出根據(jù)本發(fā)明一實施例的查詢目標(biāo)匹配方法的流程圖。
圖2示出根據(jù)本發(fā)明一實施例選擇查詢詞中的各詞以及位于查詢詞中各詞附近的詞的方法示意圖。
圖3示出根據(jù)本發(fā)明一實施例的查詢目標(biāo)匹配裝置的結(jié)構(gòu)圖。
圖4示出根據(jù)本發(fā)明一實施例的查詢目標(biāo)匹配設(shè)備的結(jié)構(gòu)圖。
具體實施方式
以下將參考附圖詳細說明本發(fā)明的各種示例性實施例、特征和方面。附圖中相同的附圖標(biāo)記表示功能相同或相似的元件。盡管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪制附圖。
在這里專用的詞“示例性”意為“用作例子、實施例或說明性”。這里作為“示例性”所說明的任何實施例不必解釋為優(yōu)于或好于其它實施例。
另外,為了更好的說明本發(fā)明,在下文的具體實施方式中給出了眾多的具體細節(jié)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,沒有某些具體細節(jié),本發(fā)明同樣可以實施。在一些實例中,對于本領(lǐng)域技術(shù)人員熟知的方法、手段、元件和電路未作詳細描述,以便于凸顯本發(fā)明的主旨。
實施例1
圖1示出根據(jù)本發(fā)明一實施例的查詢目標(biāo)匹配方法的流程圖。如圖1所示,該方法主要包括:
步驟S101,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;
步驟S102,對所述關(guān)聯(lián)查詢詞進行分詞操作,以獲得詞;
步驟S103,計算各所述詞的詞向量;
步驟S104,根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;
步驟S105,根據(jù)當(dāng)前查詢詞中各詞的詞向量以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;
步驟S106,根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。
根據(jù)該實施例的方法,通過對獲取的針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞進行分詞操作以獲得詞,并計算各所述詞的詞向量,再根據(jù)所確定的詞向量來確定當(dāng)前查詢詞中各詞的詞向量以及待匹配的查詢目標(biāo)相應(yīng)的文本中包含的詞的詞向量,并確定當(dāng)前查詢詞與所述文本的語義相似度,進而從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。根據(jù)本實施例,使得詞向量的確定考慮到了針對相同查詢目標(biāo)的查詢詞之間的關(guān)聯(lián)性,能夠使得到的當(dāng)前查詢詞和與待匹配的查詢目標(biāo)相對應(yīng)的文本的語義相似度的準(zhǔn)確性更高,便于更準(zhǔn)確地將與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)推薦給用戶,提高匹配度,從而提高用戶的查詢效率。
以下結(jié)合一些具體示例,來對本實施例的各種可能的具體實現(xiàn)方式進行說明,這些示例是示例性和說明性的,并非意在限制本發(fā)明。
在一個示例中,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞可以包括:獲取相同用戶連續(xù)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。具體來說,相同用戶在針對某一查詢目標(biāo)使用搜索引擎進行搜索的情況下,通??赡軙ú恢挂淮蔚乃阉餍袨?,尤其是在用戶對搜索結(jié)果不滿意的情況下,用戶可能會通過改變查詢詞來查找想要得到的內(nèi)容,而這種相同用戶連續(xù)輸入不同查詢詞的搜索行為實際上是人為建立了不同查詢詞之間的關(guān)聯(lián)關(guān)系。例如,某一用戶希望得到歌曲《是否》的相關(guān)視頻,第一次通過輸入“是否”來進行搜索,但是對于搜索引擎的推薦,用戶并沒有得到滿意的結(jié)果,該用戶第二次通過輸入“電影插曲是否”來進行再次搜索,且得到了滿意的結(jié)果。基于該用戶的上述行為,可以建立“是否”與“電影插曲是否”之間的關(guān)聯(lián)關(guān)系,“是否電影插曲是否”可以作為關(guān)聯(lián)查詢詞。在一個示例中,可統(tǒng)計用戶輸入第一個查詢詞之后的預(yù)定時間(例如5到10分鐘)內(nèi)輸入的查詢詞,作為用戶連續(xù)輸入的查詢詞,并由此形成關(guān)聯(lián)查詢詞。
在一個示例中,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞還可以包括:獲取不同用戶針對相同的查詢目標(biāo)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。具體來說,通常,不同用戶可能會針對相同的查詢目標(biāo)采用相同或者不同的查詢詞進行搜索,進而來查找想要得到的內(nèi)容,也可以將不同用戶針對相同的查詢目標(biāo)采用不同的查詢詞進行搜索的搜索行為視為人為建立了不同查詢詞之間的關(guān)聯(lián)關(guān)系。例如,用戶A和用戶B的查詢目標(biāo)都是歌曲《是否》的相關(guān)視頻,用戶A采用“電影插曲是否”來進行搜索,得到了滿意的結(jié)果,用戶B采用“搭錯車插曲是否”來進行搜索,同樣得到了滿意的結(jié)果。基于用戶A的上述行為,以及用戶B的上述行為,可以建立“電影插曲是否”與“搭錯車插曲是否”之間的關(guān)聯(lián)關(guān)系,“電影插曲是否搭錯車插曲是否”可以作為關(guān)聯(lián)查詢詞。在一個示例中,可以統(tǒng)計用戶輸入的查詢詞以及用戶最終點擊的查詢目標(biāo)之間的關(guān)聯(lián)關(guān)系,從而確定關(guān)聯(lián)查詢詞。
舉例來說,可以利用搜索引擎的查詢?nèi)罩緛泶_定關(guān)聯(lián)查詢詞,本領(lǐng)域技術(shù)人員還可以通過其他途徑,例如網(wǎng)頁內(nèi)容、新聞報道、視頻標(biāo)題等來獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞,本發(fā)明對此不作限制。
在一個示例中,可以將每條關(guān)聯(lián)查詢詞作為一條語料存入語料庫,以便對關(guān)聯(lián)查詢詞進行后續(xù)處理。其中,可以針對每個查詢目標(biāo)建立單獨的語料庫。
在一個示例中,可以通過例如語料庫來記錄一段時間內(nèi)(例如一年)統(tǒng)計得到的上述關(guān)聯(lián)查詢詞,以供后續(xù)處理。
在一個示例中,可以對獲得的關(guān)聯(lián)查詢詞進行分詞操作,以獲得詞。可以采用本領(lǐng)域技術(shù)人員已知的分詞方法來實現(xiàn)分詞操作。舉例來說,可以采用前述方法獲取針對歌曲《是否》的相關(guān)視頻的關(guān)聯(lián)查詢詞,關(guān)聯(lián)查詢詞例如是“是否電影插曲是否電影搭錯車”等,可以采用本領(lǐng)域技術(shù)人員已知的分詞方法對“是否電影插曲是否電影搭錯車”進行分詞操作,獲得“是否、電影、插曲、是否、電影、搭錯車”等詞。以便于后續(xù)計算詞的詞向量,并根據(jù)相關(guān)的詞向量確定當(dāng)前查詢詞與文本的語義相似度,進而確定與當(dāng)前查詢詞相匹配的查詢目標(biāo)。后文將詳細進行描述。
在一個示例中,還可以記錄獲得的關(guān)聯(lián)查詢詞經(jīng)分詞操作后每個詞出現(xiàn)的次數(shù)。仍以上一示例中的例子為例,可以對關(guān)聯(lián)查詢詞“是否電影插曲是否電影搭錯車”進行分詞操作,并記錄“是否”出現(xiàn)的次數(shù)為2,“電影”出現(xiàn)的次數(shù)為2,“插曲”出現(xiàn)的次數(shù)為1,“搭錯車”出現(xiàn)的次數(shù)為1。
詞向量的計算可以采用本領(lǐng)域技術(shù)人員已知的任何方法來實現(xiàn),例如,在一個示例中,可以根據(jù)word2vec模型計算關(guān)聯(lián)查詢詞經(jīng)分詞操作后獲得的詞的詞向量。word2vec模型一種是通過神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)算法來訓(xùn)練N-gram語言,并在訓(xùn)練過程中計算詞所對應(yīng)的向量的方法?;谇笆鲫P(guān)聯(lián)查詢詞及分詞操作后獲得的詞,利用word2vec模型可以通過計算得到各所述詞的詞向量。
本實施例是針對“關(guān)聯(lián)查詢詞”進行分詞并計算詞向量,因此,所計算的詞向量能夠體現(xiàn)針對相同查詢目標(biāo)的查詢詞之間的關(guān)聯(lián)性,后續(xù)再基于這些詞向量來進行語義相似度的確定,就能使得所確定的語義相似度準(zhǔn)確性更高,提高查詢詞與查詢目標(biāo)之間的匹配度。
在一個示例中,可以根據(jù)通過上述關(guān)聯(lián)查詢詞確定的詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量。例如,如果當(dāng)前查詢詞為“是否”,查詢目標(biāo)(例如《是否》這首歌的MV)的標(biāo)題(即文本)為“電影插曲是否”,可以將前文得到的關(guān)聯(lián)查詢詞“是否電影插曲是否電影搭錯車”中相應(yīng)的詞“是否“的詞向量,作為當(dāng)前查詢詞“是否”的詞向量,將“電影”、“插曲”、“是否”的詞向量,作為文本“電影插曲是否”分詞后得到的詞“電影”、“插曲”、“是否”的詞向量,以用于語義相似度的計算。舉例來說,當(dāng)用戶輸入當(dāng)前查詢詞“是否”時,可以通過例如文本匹配的手段將其匹配到包含該當(dāng)前查詢詞中的詞的語料庫,再根據(jù)該語料庫中的關(guān)聯(lián)查詢詞中各詞的詞向量,確定該當(dāng)前查詢詞的各詞的詞向量。而文本中各詞的詞向量,可以事先根據(jù)各個語料庫中關(guān)聯(lián)查詢詞中各詞的詞向量進行確定。
在一個示例中,步驟S105的一種示例性的具體實現(xiàn)方式如下:在文本中,選擇當(dāng)前查詢詞中的各詞以及位于該當(dāng)前查詢詞中各詞附近的詞,根據(jù)當(dāng)前查詢詞中各詞的詞向量,以及文本中所選擇的詞的詞向量,確定當(dāng)前查詢詞與文本的語義相似度。
在一個示例中,在文本中,選擇所述當(dāng)前查詢詞中的各詞以及位于該當(dāng)前查詢詞中各詞附近的詞可以采用如下方式進行選擇,例如,查詢詞為Q=<a,f>,文本為S=<a,b,d,e,f,c,h,i,j,d>,在文本S中選擇查詢詞Q中的各詞以及位于查詢詞Q中各詞附近的詞,可以是選擇a和f以及a和f附近的詞,比如a,b,e,f,c,如圖2所示。再例如,查詢詞為Q=<b,f>,文本為S=<a,b,d,e,f,c,h,i,j,d>,則在文本S中所選擇的詞可以是a,b,d,e,f,c。其中,“附近”可以是根據(jù)需要選擇的附近預(yù)定數(shù)量的詞(例如左右各1-3個),本發(fā)明對此不做限制。
通過選擇文本中當(dāng)前查詢詞中的各詞以及位于該當(dāng)前查詢詞中各詞附近的詞,相當(dāng)于只選擇了文本中與當(dāng)前查詢詞關(guān)聯(lián)性最高的詞,排除了文本中與當(dāng)前查詢詞關(guān)聯(lián)性不高的一部分詞,由此可以減少后續(xù)語義相似度計算的計算量,提高計算效率,有利于針對較長文本的計算,同時也能夠排除不相關(guān)詞的干擾,提高計算精度,真正反映當(dāng)前查詢詞和文本之間在語義上的相似度。
在一個示例中,可以計算當(dāng)前查詢詞中包含的全部詞的詞向量的加權(quán)和,作為第一加權(quán)向量;計算文本中所選擇的詞的詞向量的加權(quán)和,作為第二加權(quán)向量;計算第一加權(quán)向量和第二加權(quán)向量的夾角的余弦值,作為當(dāng)前查詢詞與文本的語義相似度。
舉例來說,針對某一查詢目標(biāo),當(dāng)前查詢詞為Q=<q1,q2,…qi,…qm>,與待匹配的查詢目標(biāo)(例如多個待匹配的視頻中的一個)相對應(yīng)的文本(例如視頻的標(biāo)題、簡要描述等)為S=<s1,s2,…sj,…sn>,其中,Q為當(dāng)前查詢詞;qi為查詢詞經(jīng)分詞操作后獲得的第i個詞,m為當(dāng)前查詢詞Q中詞的總個數(shù);S為與待匹配的查詢目標(biāo)相對應(yīng)的文本;sj為所述文本經(jīng)分詞操作后獲得的第j個詞,n為文本S中詞的總個數(shù),i和j為詞的序數(shù),文本中的詞可以包括查詢詞中的所有詞或者一部分詞??捎嬎鉗中包含的全部詞q1,q2,…qi,…qm的詞向量的加權(quán)和,作為第一加權(quán)和vec(Q),計算S中如上文所選擇的詞的詞向量的加權(quán)和,作為第二加權(quán)和vec(S),計算第一加權(quán)向量和第二加權(quán)向量的夾角的余弦值,作為當(dāng)前查詢詞與所述文本的語義相似度。
本領(lǐng)域技術(shù)人員可以根據(jù)需要或者統(tǒng)計經(jīng)驗來確定上述求加權(quán)和中使用的加權(quán)系數(shù),以下給出一種確定加權(quán)系數(shù)的示例性方式。
在一個示例中,可以根據(jù)以下公式(1),確定針對當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù):
其中,idf(qi)為當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù);DOC_NUM為文本的總數(shù)量;為詞qi在所述關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù)。
根據(jù)以下公式(2),確定所述第一加權(quán)向量vec(Q):
也就是對qi進行加權(quán)求和,其中idf(qi)已利用公式(1)計算獲得,qi為前述計算得到的詞qi的詞向量。
根據(jù)以下公式(3),確定針對文本S中所選擇的詞sj的加權(quán)系數(shù):
其中,idf(sj)為文本S中所選擇的詞sj的加權(quán)系數(shù);DOC_NUM為所述文本的總數(shù)量,為詞sj在關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù)。
根據(jù)以下公式(4),確定所述第二加權(quán)向量vec(S):
也就是對sj進行加權(quán)求和,其中idf(sj)已利用公式(3)計算獲得,sj為前述計算得到的詞sj的詞向量。k為文本S中所選擇的詞的總個數(shù)。
本領(lǐng)域技術(shù)人員可以根據(jù)需要來設(shè)置文本的總數(shù)量DOC_NUM的統(tǒng)計范圍。舉例來說,文本的總數(shù)量DOC_NUM可取決于相對應(yīng)的待匹配的查詢目標(biāo)的總數(shù)量,待匹配的查詢目標(biāo)可以從服務(wù)器中存儲的全部內(nèi)容中選取,也可以從預(yù)先通過人工或機器篩選出的待匹配的查詢目標(biāo)的集合中選取,本發(fā)明對此不做限制。的統(tǒng)計范圍也可以根據(jù)需要進行設(shè)置,舉例來說,可以在針對同一查詢目標(biāo)的關(guān)聯(lián)查詢詞范圍內(nèi)統(tǒng)計詞qi出現(xiàn)的次數(shù),比如說,如上文所述,當(dāng)用戶輸入當(dāng)前查詢詞時,可以通過例如文本匹配的手段將其匹配到包含該當(dāng)前查詢詞中的詞的語料庫,再在該語料庫中統(tǒng)計和
可以根據(jù)已計算獲得的所述第一加權(quán)向量和所述第二加權(quán)向量,通過如下計算二者的夾角的余弦值的方式來確定當(dāng)前查詢詞Q與所述文本S的語義相似度,即
similarity(Q,S)=cos(vec(Q),vec(S))
其中,similarity(表示當(dāng)前查詢詞Q與文本S的語義相似度,cos(vec(Q),vec(S))表示第一加權(quán)向量和第二加權(quán)向量的夾角的余弦值。
本領(lǐng)域技術(shù)人員還可以采用其他已知的可以計算得到當(dāng)前查詢詞與所述文本之間的語義相似度的方法來計算二者之間的語義相似度,例如通過計算第一加權(quán)向量和第二加權(quán)向量之間的歐式距離來確定語義相似度等,本發(fā)明對此不作限制。
在一個示例中,可以根據(jù)已確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。具體地,可以根據(jù)已確定的語義相似度,從待匹配的查詢目標(biāo)中確定語義相似度最高的一個或多個查詢目標(biāo)推薦給用戶。
實施例2
圖3示出根據(jù)本發(fā)明另一實施例的查詢目標(biāo)匹配裝置的結(jié)構(gòu)圖。該裝置可用于實現(xiàn)實施例1中方法各步驟的操作,與實施例1相對應(yīng)的示例的描述可參見實施例1,這里不再重復(fù)描述。如圖3所示,該查詢目標(biāo)匹配裝置300主要包括:
獲取模塊301,用于獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;
分詞模塊302,用于對所述關(guān)聯(lián)查詢詞進行分詞操作,以獲得詞;
計算模塊303,用于計算各所述詞的詞向量;
詞向量確定模塊304,用于根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;
相似度確定模塊305,用于根據(jù)當(dāng)前查詢詞中各詞的詞向量以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;
匹配查詢目標(biāo)確定模塊306,根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。
在一個示例中,所述獲取模塊可以包括:第一獲取子模塊,用于獲取相同用戶連續(xù)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。
在一個示例中,所述獲取模塊可以包括:第二獲取子模塊,用于獲取不同用戶針對相同的查詢目標(biāo)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。
在一個示例中,所述相似度確定模塊可以包括:選擇單元,用于在所述文本中,選擇所述當(dāng)前查詢詞中的各詞以及位于所述當(dāng)前查詢詞中各詞附近的詞;確定單元,用于根據(jù)當(dāng)前查詢詞中各詞的詞向量,以及所述文本中所選擇的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度。
在一個示例中,所述確定單元可以包括:第一加權(quán)向量計算單元,用于計算所述當(dāng)前查詢詞中包含的全部詞的詞向量的加權(quán)和,作為第一加權(quán)向量,第二加權(quán)向量計算單元,用于計算所述文本中所選擇的詞的詞向量的加權(quán)和,作為第二加權(quán)向量;相似度計算單元,用于計算所述第一加權(quán)向量和所述第二加權(quán)向量的夾角的余弦值,作為當(dāng)前查詢詞與所述文本的語義相似度。
在一個示例中,所述第一加權(quán)向量計算單元可以用于:
根據(jù)以下公式(1),確定針對當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù):
其中,idf(qi)為當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù);DOC_NUM為所述文本的總數(shù)量,為詞qi在所述關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù);
根據(jù)以下公式(2),確定所述第一加權(quán)向量vec(Q):
m為當(dāng)前查詢詞Q中詞的總個數(shù);
所述第二加權(quán)向量計算單元可以用于:
根據(jù)以下公式(3),確定針對所述文本S中所選擇的詞sj的加權(quán)系數(shù):
其中,idf(sj)為所述文本S中所選擇的詞sj的加權(quán)系數(shù);DOC_NUM為所述文本的總數(shù)量,為詞sj在所述關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù);
根據(jù)以下公式(4)確定所述第二加權(quán)向量vec(S):
k為所述文本S中所選擇的詞的總個數(shù)。
實施例3
圖4示出了本發(fā)明的另一個實施例的一種查詢目標(biāo)匹配處理設(shè)備的結(jié)構(gòu)框圖。所述查詢目標(biāo)匹配處理設(shè)備1100可以是具備計算能力的主機服務(wù)器、個人計算機PC、或者可攜帶的便攜式計算機或終端等。本發(fā)明具體實施例并不對計算節(jié)點的具體實現(xiàn)做限定。
所述查詢目標(biāo)匹配處理設(shè)備1100包括處理器(processor)1110、通信接口(Communications Interface)1120、存儲器(memory)1130和總線1140。其中,處理器1110、通信接口1120、以及存儲器1130通過總線1140完成相互間的通信。
通信接口1120用于與網(wǎng)絡(luò)設(shè)備通信,其中網(wǎng)絡(luò)設(shè)備包括例如虛擬機管理中心、共享存儲等。
處理器1110用于執(zhí)行程序。處理器1110可能是一個中央處理器CPU,或者是專用集成電路ASIC(Application Specific Integrated Circuit),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路。
存儲器1130用于存放文件。存儲器1130可能包含高速RAM存儲器,也可能還包括非易失性存儲器(non-volatile memory),例如至少一個磁盤存儲器。存儲器1130也可以是存儲器陣列。存儲器1130還可能被分塊,并且所述塊可按一定的規(guī)則組合成虛擬卷。
在一種可能的實施方式中,上述程序可為包括計算機操作指令的程序代碼。該程序具體可用于實現(xiàn)實施例1所述的方法。
本領(lǐng)域普通技術(shù)人員可以意識到,本文所描述的實施例中的各示例性單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件形式來實現(xiàn),取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以針對特定的應(yīng)用選擇不同的方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本發(fā)明的范圍。
如果以計算機軟件的形式來實現(xiàn)所述功能并作為獨立的產(chǎn)品銷售或使用時,則在一定程度上可認為本發(fā)明的技術(shù)方案的全部或部分(例如對現(xiàn)有技術(shù)做出貢獻的部分)是以計算機軟件產(chǎn)品的形式體現(xiàn)的。該計算機軟件產(chǎn)品通常存儲在計算機可讀取的非易失性存儲介質(zhì)中,包括若干指令用以使得計算機設(shè)備(可以是個人計算機、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各實施例方法的全部或部分步驟。而前述的存儲介質(zhì)包括U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準(zhǔn)。