基于關(guān)鍵詞進(jìn)行檢索的方法及裝置制造方法
【專利摘要】本發(fā)明公開了基于關(guān)鍵詞進(jìn)行檢索的方法及裝置。該方法包括:根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,其中所述關(guān)鍵詞的預(yù)測權(quán)重是根據(jù)基礎(chǔ)關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定的;根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞;根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。本發(fā)明提出的技術(shù)方案能夠提高檢索結(jié)果的準(zhǔn)確率和召回率,更符合用戶需求。
【專利說明】基于關(guān)鍵詞進(jìn)行檢索的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實施例涉及數(shù)據(jù)搜索【技術(shù)領(lǐng)域】,尤其涉及基于關(guān)鍵詞進(jìn)行檢索的方法及裝置。
【背景技術(shù)】
[0002]目前,一些檢索系統(tǒng)通常是根據(jù)用戶輸入的檢索請求,按照一定的策略搜索相關(guān)文檔庫中的信息,從而為用戶提供文檔檢索服務(wù)。例如,所述檢索系統(tǒng)為金山例句檢索服務(wù)系統(tǒng),該系統(tǒng)在接收到用戶輸入的查詢語句后,能夠根據(jù)該查詢語句對文檔庫中的各文檔進(jìn)行關(guān)鍵詞匹配查找,進(jìn)而為用戶提供文檔中所記載的優(yōu)秀例句或者范文。
[0003]在現(xiàn)有技術(shù)中,檢索系統(tǒng)在接收到檢索請求后,首先對該請求中所包含的搜索語句進(jìn)行分詞,之后將這些分詞作為關(guān)鍵詞在文檔庫中進(jìn)行基于字面的檢索,最終在將檢索結(jié)果進(jìn)行合并后返回給用戶。
[0004]現(xiàn)有技術(shù)中存在的缺陷是:
[0005]一方面,檢索結(jié)果準(zhǔn)確率低下,與用戶意圖差距較大。例如,用戶輸入的搜索語句為“描寫下雪場景的句子”,現(xiàn)有的檢索系統(tǒng)會將在文檔中出現(xiàn)次數(shù)較多的“下雪”、“場景”、“描寫”等分詞所在文檔,在檢索結(jié)果中按照次數(shù)多少進(jìn)行排序,用戶真正需求的“下雪”這一分詞所在的文檔往往不能占據(jù)優(yōu)先位置。
[0006]另一方面,不能全面的提取能夠代表用戶需求的其他文檔,召回率低下。例如,用戶輸入的搜索語句為“春天”,現(xiàn)有的檢索系統(tǒng)只能找到含有“春天”的文檔,而此時有一些例句往往是描寫春天景色的,這種例句往往更能符合用戶的需求,但是現(xiàn)有的技術(shù)卻無法找到此類語義是描述春天的例句但是字面卻不含有“春天”的文本。
【發(fā)明內(nèi)容】
[0007]本發(fā)明實施例提供基于關(guān)鍵詞進(jìn)行檢索的方法及裝置,以提高檢索結(jié)果的準(zhǔn)確率和召回率,更符合用戶需求。
[0008]第一方面,本發(fā)明實施例提供了一種基于關(guān)鍵詞進(jìn)行檢索的方法,所述方法包括:
[0009]根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,其中所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重是根據(jù)基礎(chǔ)關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定的;
[0010]根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞;
[0011]根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
[0012]第二方面,本發(fā)明實施例還提供了一種基于關(guān)鍵詞進(jìn)行檢索的裝置,所述裝置包括:
[0013]候選關(guān)鍵詞確定模塊,用于根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,其中所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重是根據(jù)基礎(chǔ)關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定的;[0014]擴(kuò)展關(guān)鍵詞確定模塊,用于根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞;
[0015]檢索模塊,用于根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
[0016]在本發(fā)明實施例提出的技術(shù)方案中,根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的結(jié)構(gòu)信息,得到基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重,根據(jù)所得到的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,這樣能夠區(qū)別對待檢索請求中的各分詞,提取到能夠表達(dá)用戶意圖的候選關(guān)鍵詞,使得檢索結(jié)果準(zhǔn)確率較高;根據(jù)候選關(guān)鍵詞在文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞,根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在文檔庫中進(jìn)行檢索,從而實現(xiàn)了對檢索請求基于語義層面的檢索,可以準(zhǔn)確、全面的提取代表用戶需求的文檔,召回率較高。
【專利附圖】
【附圖說明】
[0017]圖1為本發(fā)明實施例一提供的一種基于關(guān)鍵詞進(jìn)行檢索的方法流程示意圖;
[0018]圖2為本發(fā)明實施例二提供的一種基于關(guān)鍵詞進(jìn)行檢索的方法流程示意圖;
[0019]圖3為本發(fā)明實施例三提供的一種基于關(guān)鍵詞進(jìn)行檢索的方法流程示意圖;
[0020]圖4為本發(fā)明實施例四提供的一種基于關(guān)鍵詞進(jìn)行檢索的裝置結(jié)構(gòu)示意圖;
[0021]圖5為本發(fā)明實施例五提供的一種基于關(guān)鍵詞進(jìn)行檢索的裝置結(jié)構(gòu)示意圖;
[0022]圖6為本發(fā)明實施例六提供的一種基于關(guān)鍵詞進(jìn)行檢索的裝置結(jié)構(gòu)示意圖;
[0023]圖7為本發(fā)明實施例七提供的一種確定檢索請求中的候選關(guān)鍵詞的示意圖;
[0024]圖8為本發(fā)明實施例七提供的一種確定擴(kuò)展關(guān)鍵詞和檢索的示意圖。
【具體實施方式】
[0025]下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0026]實施例一
[0027]圖1為本發(fā)明實施例一提供的一種基于關(guān)鍵詞進(jìn)行檢索的方法流程示意圖。本實施例可適用于在接收到用戶輸入的檢索請求后,根據(jù)該請求進(jìn)行相關(guān)信息的檢索,以便為用戶提供服務(wù)的情況。該方法可由具有檢索功能的設(shè)備來執(zhí)行,具體包括:
[0028]101、根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞。
[0029]檢索設(shè)備會預(yù)先確定文檔庫中各基礎(chǔ)關(guān)鍵詞,并通過設(shè)定的算法計算與每個基礎(chǔ)關(guān)鍵詞相對應(yīng)的一個預(yù)測權(quán)重。其中,文檔庫中的各文檔可以是檢索設(shè)備本地存儲的,也可以是通過互聯(lián)網(wǎng)技術(shù)從相關(guān)網(wǎng)站服務(wù)器獲取得到的。文檔庫中的基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重由根據(jù)該關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定。各基礎(chǔ)關(guān)鍵詞在各文檔中的結(jié)構(gòu)信息可包括該基礎(chǔ)關(guān)鍵詞在各文檔中的位置、基礎(chǔ)關(guān)鍵詞的詞性、前一個詞的詞性和/或后一個詞的詞性。例如,檢索設(shè)備在進(jìn)行范文檢索、用戶的搜索對象較多的是一些修飾詞語而非動詞時,如果文檔中某個詞的詞性為名詞,前一個詞的詞性為動詞,則該詞成為基礎(chǔ)關(guān)鍵詞的概率較大,賦予該詞相對較大的預(yù)測權(quán)重。
[0030]檢索設(shè)備在接收到包含有用戶輸入的搜索語句的檢索請求后,可對檢索請求中的搜索語句進(jìn)行分詞,然后根據(jù)預(yù)先計算得到的文檔庫中各基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重對各個分詞進(jìn)行分析,將滿足設(shè)定條件下的分詞作為檢索請求中的候選關(guān)鍵詞。具體的,在將檢索請求的搜索語句進(jìn)行分詞后,可查找文檔庫中的基礎(chǔ)關(guān)鍵詞集合中與所述分詞一致的基礎(chǔ)關(guān)鍵詞及其對應(yīng)的預(yù)測權(quán)重,如果判斷預(yù)測權(quán)重達(dá)到一個設(shè)定的閾值,則將所述分詞作為一個候選關(guān)鍵詞。
[0031]102、根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞。
[0032]103、根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
[0033]檢索設(shè)備在得到檢索請求中的候選關(guān)鍵詞后,可以直接在文檔庫中進(jìn)行檢索,但優(yōu)選的是根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,進(jìn)一步確定其他擴(kuò)展關(guān)鍵詞,而后根據(jù)部分或全部的擴(kuò)展關(guān)鍵詞和候選關(guān)鍵詞進(jìn)行檢索。具體的,可將文檔中與候選關(guān)鍵詞屬于同一個主題上的其他分布概率較高的關(guān)鍵詞作為擴(kuò)展關(guān)鍵詞,因為這些關(guān)鍵詞在文檔中所處的上下文環(huán)境比較類似,在描述場景時語義上具有相似的特征。
[0034]在本實例中,一方面,通過對待檢索請求中的各分詞進(jìn)行分析,來提取能夠表達(dá)用戶意圖的候選關(guān)鍵詞,可以提高檢索結(jié)果的準(zhǔn)確率。例如,對于檢索請求中的搜索語句是“描寫春天生氣勃勃場景的句子”的情況而言,如果采用現(xiàn)有的技術(shù),如基于詞性和單詞IDF(Inverse Document Frequency,逆文本頻率指數(shù))權(quán)重信息的候選關(guān)鍵詞提取策略,會得到“春天”、“生氣勃勃”、“場景”、“句子”關(guān)鍵詞,進(jìn)而利用這些關(guān)鍵詞進(jìn)行檢索,其檢索結(jié)果往往包含諸多與用戶的預(yù)期不相符合的描述“場景”、“句子”之類的文檔。雖然“場景”、“句子”是搜索語句的主要名詞短語,但是在描寫類檢索中,更多表示用戶意圖的是修飾語,如果將抽取得到的關(guān)鍵詞同等對待的話,就會造成結(jié)果的混亂。而在本發(fā)明中,可通過關(guān)鍵詞在文檔庫的各文檔中的結(jié)構(gòu)信息,將修飾詞賦予較大的預(yù)測權(quán)重,然后根據(jù)所述預(yù)測權(quán)重確定檢索請求中能表達(dá)用戶意圖的候選關(guān)鍵詞“春天”、“生氣勃勃”,進(jìn)而能夠提高檢索結(jié)果的正確率。
[0035]在本實例中,另一方面,通過根據(jù)候選關(guān)鍵詞在文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞,根據(jù)所有的候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在文檔庫中進(jìn)行檢索,實現(xiàn)了對檢索請求基于語義層面的檢索,可以準(zhǔn)確、全面的提取代表用戶需求的文檔,能夠提高檢索結(jié)果的召回率。例如,對于得到的檢索請求中的候選關(guān)鍵詞為“春天”的情況而言,采用現(xiàn)有的技術(shù),只能找到含有“春天”的文檔,或者對于“春天”進(jìn)行同義詞擴(kuò)展,找到其他一些含有“春潮”等同義詞的文檔;而在本發(fā)明實施例中,根據(jù)“春天”在文檔庫中所屬的主題,可獲得包含有諸如“綠草”、“春風(fēng)”等擴(kuò)展關(guān)鍵詞的文檔,檢索結(jié)果的召回率提升。
[0036]實施例二
[0037]圖2為本發(fā)明實施例二提供的一種基于關(guān)鍵詞進(jìn)行檢索的方法流程示意圖。本實施例在實施例一的基礎(chǔ)上,增加了基于圖的非監(jiān)督關(guān)鍵詞抽取方法和設(shè)定的二分類算法來獲得文檔中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重的操作,以采用半監(jiān)督的方式對文檔庫中的關(guān)鍵詞進(jìn)行分析,進(jìn)而有效、快速確定檢索請求中能夠表達(dá)用戶意圖的候選關(guān)鍵詞。參見圖2,所述方法包括:
[0038]201、基于圖的非監(jiān)督關(guān)鍵詞抽取方法,對文檔庫中的文檔進(jìn)行關(guān)鍵詞抽取,得到所述文檔庫的基礎(chǔ)關(guān)鍵詞集,并生成基礎(chǔ)關(guān)鍵詞集中基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和在文檔中的結(jié)構(gòu)信息;
[0039]202、利用設(shè)定的二分類算法,根據(jù)所得到的基礎(chǔ)關(guān)鍵詞及其在文檔中的結(jié)構(gòu)信息,得到所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重;
[0040]203、根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞;
[0041]204、根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞;
[0042]205、根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
[0043]在本實施例中,首選采用基于圖的非監(jiān)督關(guān)鍵詞抽取方法,對文檔庫中的部分或全部文檔進(jìn)行基礎(chǔ)關(guān)鍵詞的抽取工作,之后利用抽取得到的基礎(chǔ)關(guān)鍵詞建立基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重信息,同時分析抽取得到的基礎(chǔ)關(guān)鍵詞的結(jié)構(gòu)信息,其中所述統(tǒng)計權(quán)重為文檔庫中該基礎(chǔ)關(guān)鍵詞所在文檔的數(shù)量與文檔總數(shù)量的比值;然后,根據(jù)抽取得到的基礎(chǔ)關(guān)鍵詞及其對應(yīng)的結(jié)構(gòu)信息這些特征,利用設(shè)定的二分類法,得到基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重。其中,設(shè)定的二分類法為基于支持向量機(jī)模型的二分類法、基于最大熵的二分類法、或者基于邏輯回歸模型的二分類法。例如,利用抽取到的結(jié)構(gòu)信息等特征,將抽取得到的文檔庫中的基礎(chǔ)關(guān)鍵詞標(biāo)記為正例,非基礎(chǔ)關(guān)鍵詞標(biāo)記為負(fù)例,訓(xùn)練一個支持向量機(jī)模型,進(jìn)而得到一個基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重。在此在本發(fā)明實施例中,改進(jìn)了支持向量機(jī)的預(yù)測方式,將原有的零一輸出改變?yōu)閷儆趦蓚€類別的預(yù)測權(quán)重。
[0044]在本實施例中,采用半監(jiān)督的方式對文檔庫中的基礎(chǔ)關(guān)鍵詞進(jìn)行分析,進(jìn)而有效、快速的確定檢索請求中能夠表達(dá)用戶意圖的候選關(guān)鍵詞,克服了單獨采用非監(jiān)督方式無法綜合利用多種信息提取候選關(guān)鍵詞的弊端,和單獨采用監(jiān)督方式提取候選關(guān)鍵詞耗時耗力的問題。
[0045]在此需要說明的是,用于執(zhí)行生成文檔庫各基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和預(yù)測權(quán)重的操作,與針對檢索請求的檢索操作,并沒有嚴(yán)格的時序關(guān)系。在首次接收到檢索請求進(jìn)行檢索時,操作201與202須先于操作203-205執(zhí)行一次,但是隨著時間的推移,當(dāng)再次接收到新的檢索請求進(jìn)行檢索時,可無需再重復(fù)執(zhí)行操作201與操作202,或者在檢測到文檔庫中的文檔更新程度達(dá)到一個設(shè)定的閾值的情況下,可再次執(zhí)行操作201與操作202。
[0046]在上述技術(shù)方案的基礎(chǔ)上,根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,進(jìn)一步優(yōu)選為:
[0047]從基礎(chǔ)關(guān)鍵詞集中搜索與所述檢索請求中分詞匹配的基礎(chǔ)關(guān)鍵詞,獲取匹配的基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重和統(tǒng)計權(quán)重;
[0048]對所匹配的基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和預(yù)測權(quán)重進(jìn)行加權(quán),生成所匹配的基礎(chǔ)關(guān)鍵詞的新的權(quán)重;
[0049]將新的權(quán)重滿足設(shè)定條件下的基礎(chǔ)關(guān)鍵詞作為候選關(guān)鍵詞。
[0050]例如,可將檢索請求中所包含的在文檔庫中的預(yù)測權(quán)重和統(tǒng)計權(quán)重均比較高的基礎(chǔ)關(guān)鍵詞對應(yīng)的分詞作為候選關(guān)鍵詞。在此優(yōu)選的技術(shù)方案下,考慮文檔庫中各基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重和統(tǒng)計權(quán)重這兩個因素來確定候選關(guān)鍵詞,能夠進(jìn)一步提高檢索結(jié)果的準(zhǔn)確率。
[0051]實施例三
[0052]圖3為本發(fā)明實施例三提供的一種基于關(guān)鍵詞進(jìn)行檢索的方法流程示意圖。本實施例在上述各實施例的基礎(chǔ)上,增加了獲取文檔及其分詞的主題向量這一技術(shù)特征,并在該技術(shù)特征下,將根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題確定其他擴(kuò)展關(guān)鍵詞,以及根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索的技術(shù)特征進(jìn)一步優(yōu)化。參見圖3,所述方法包括:
[0053]301、根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞;
[0054]302、對文檔庫中的文檔進(jìn)行分詞,生成由文檔庫中分詞在文檔中的權(quán)重組成的矩陣;
[0055]303、利用主題模型對文檔庫中的文檔進(jìn)行訓(xùn)練,將所述矩陣分解為由分詞的主題向量組成的第一矩陣和由文檔的主題向量組成的第二矩陣的乘積;
[0056]304、從第一矩陣中查詢候選關(guān)鍵詞的主題向量,根據(jù)查詢得到的主題向量確定候選關(guān)鍵詞分布權(quán)重最大的前M個主題;
[0057]305、從第一矩陣中查詢所述M個主題的分詞向量,根據(jù)查詢得到的分詞向量確定所述M個主題中的主題分布權(quán)重最大的前N個分詞,作為相應(yīng)主題的擴(kuò)展關(guān)鍵詞;
[0058]306、根據(jù)第一矩陣中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞的主題向量確定一個新的主題向量;
[0059]307、根據(jù)新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔。
[0060]其中,分詞的主題向量由該分詞在各主題中的權(quán)重組成,文檔的主題向量由各主題在該文檔中的權(quán)重組成…和N均為自然數(shù)。
[0061 ] 在本實施例中,在根據(jù)文檔庫中各基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞之后:首先,從由主題模型訓(xùn)練得到的文檔的主題向量中,查找到候選關(guān)鍵詞所屬的權(quán)重較大的主題;然后,再從由主題模型訓(xùn)練得到的分詞的主題向量中,查找候選關(guān)鍵詞所屬的權(quán)重較大的主題下權(quán)重較大的分詞;進(jìn)而,將所查找的這些分詞作為擴(kuò)展關(guān)鍵詞。區(qū)別于基于同義詞的擴(kuò)展方式,采 用本發(fā)明實施例中的擴(kuò)展方式得到的擴(kuò)展關(guān)鍵詞,能夠在語義上符合檢索請求中的搜索語句所體現(xiàn)的用戶搜索意圖。利用該擴(kuò)展關(guān)鍵詞和候選關(guān)鍵詞進(jìn)行檢索,能夠大大提高文檔的召回率,且符合用戶需求。
[0062]與實施二類似,在此需要說明的是,用于執(zhí)行生成第一矩陣和第二矩陣的操作302-303,與操作301以及操作304-307,并沒有嚴(yán)格的時序關(guān)系,本實施例只是作為其中的一種情況進(jìn)行闡述。在首次接收到檢索請求進(jìn)行檢索時,操作302-303須先于操作304-307執(zhí)行一次,也可以先于操作301執(zhí)行。但是隨著時間的推移,當(dāng)再次接收到新的檢索請求進(jìn)行檢索時,可無需再重復(fù)執(zhí)行操作302-303,或者在檢測到文檔庫中的文檔更新程度達(dá)到一個設(shè)定的閾值的情況下,可再次執(zhí)行操作302-303。
[0063]在上述各個實施例的基礎(chǔ)上,根據(jù)第一矩陣中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞的主題向量確定一個新的主題向量,根據(jù)新的主題向量和各文檔的主題向量確定文檔庫中的目標(biāo)文檔,進(jìn)一步優(yōu)選為:
[0064]將所述M個主題中主題對應(yīng)的候選關(guān)鍵詞的主題向量與該主題對應(yīng)的擴(kuò)展關(guān)鍵詞的主題向量進(jìn)行加權(quán),得到主題向量集;
[0065]將主題向量集中的主題向量在相加后進(jìn)行歸一化,得到新的主題向量;
[0066]將新的主題向量與第二矩陣中的文檔的主題向量進(jìn)行相似度計算,根據(jù)相似度的計算結(jié)果確定文檔庫中的目標(biāo)文檔。
[0067]其中,加權(quán)因子根據(jù)所述M個主題中主題對應(yīng)的候選關(guān)鍵詞在該主題中的權(quán)重得到。
[0068]在此優(yōu)選的技術(shù)方案下,可將新的主題向量和利用主題模型生成的各文檔的主題向量進(jìn)行K-L距離或者余弦相似度的計算,如果相似度越高,則判斷這兩個向量在每個主題上的分布越相似,可將此相似度下所對應(yīng)的文檔作為目標(biāo)文檔。
[0069]在上述各個實施例的基礎(chǔ)上,在根據(jù)新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔之后,所述方法還可包括:
[0070]計算所確定的目標(biāo)文檔中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞所在語句和檢索請求中的搜索語句的相關(guān)度;
[0071]將相關(guān)度滿足設(shè)定閾值時所對應(yīng)的文檔中的語句進(jìn)行輸出顯示;
[0072]在接收到對所顯示語句的觸發(fā)操作時,將該顯示語句對應(yīng)的文檔進(jìn)行輸出顯示。
[0073]在此技術(shù)方案中,只將目標(biāo)文檔中的相關(guān)語句進(jìn)行輸出顯示,能夠節(jié)省用戶的閱讀時間;在當(dāng)接收到對所顯示語句的觸發(fā)操作時,再將該顯示語句對應(yīng)的文檔進(jìn)行輸出顯示,能夠幫助用戶快速定位到具體文檔。
[0074]實施例四
[0075]圖4為本發(fā)明實施例四提供的一種基于關(guān)鍵詞進(jìn)行檢索的裝置結(jié)構(gòu)示意圖。本實施例可適用于在接收到用戶輸入的檢索請求后,根據(jù)該請求進(jìn)行相關(guān)信息的檢索,以便為用戶提供服務(wù)的情況。參見圖4,所述裝置,包括:
[0076]候選關(guān)鍵詞確定模塊401,用于根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,其中所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重是根據(jù)基礎(chǔ)關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定的;
[0077]擴(kuò)展關(guān)鍵詞確定模塊402,用于根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞;
[0078]檢索模塊403,用于根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
[0079]其中,所述基礎(chǔ)關(guān)鍵詞在文檔中的結(jié)構(gòu)信息包括基礎(chǔ)關(guān)鍵詞在文檔中的位置、所述基礎(chǔ)關(guān)鍵詞的詞性、前一個詞的詞性和/或后一個詞的詞性。
[0080]實施例五
[0081]圖5為本發(fā)明實施例五提供的一種基于關(guān)鍵詞進(jìn)行檢索的裝置結(jié)構(gòu)示意圖。該技術(shù)方案在上述技術(shù)方案的基礎(chǔ)上,增加了關(guān)鍵詞提取模塊501和預(yù)測權(quán)重確定模塊502。參見圖5,在所述裝置中:
[0082]關(guān)鍵詞提取模塊501,用于基于圖的非監(jiān)督關(guān)鍵詞抽取方法,對文檔庫中的文檔進(jìn)行關(guān)鍵詞抽取,得到所述文檔庫的基礎(chǔ)關(guān)鍵詞集,并生成基礎(chǔ)關(guān)鍵詞集中基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和在文檔中的結(jié)構(gòu)信息;
[0083]預(yù)測權(quán)重確定模塊502,用于利用設(shè)定的二分類算法,根據(jù)所得到的基礎(chǔ)關(guān)鍵詞及其在文檔中的結(jié)構(gòu)信息,得到所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重;
[0084]優(yōu)選的,候選關(guān)鍵詞確定模塊503,具體用于:
[0085]從所述基礎(chǔ)關(guān)鍵詞集中搜索與檢索請求中分詞匹配的基礎(chǔ)關(guān)鍵詞,獲取匹配的基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重和統(tǒng)計權(quán)重;
[0086]對所匹配的基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和預(yù)測權(quán)重進(jìn)行加權(quán),生成所匹配的基礎(chǔ)關(guān)鍵詞的新的權(quán)重;
[0087]將新的權(quán)重滿足設(shè)定條件下的所匹配的基礎(chǔ)關(guān)鍵詞作為候選關(guān)鍵詞;
[0088]擴(kuò)展關(guān)鍵詞確定模塊504,用于根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞;
[0089]檢索模塊505,用于根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
[0090]其中,所述統(tǒng)計權(quán)重為所述文檔庫中基礎(chǔ)關(guān)鍵詞所在文檔的數(shù)量與文檔總數(shù)量的比值;所述設(shè)定的二分類法為基于支持向量機(jī)模型的二分類法、基于最大熵的二分類法、或者基于邏輯回歸模型的二分類法。
[0091]實施例六
[0092]圖6為本發(fā)明實施例六提供的一種基于關(guān)鍵詞進(jìn)行檢索的裝置結(jié)構(gòu)示意圖。該裝置上述各技術(shù)方案的基礎(chǔ)上,增加了權(quán)重矩陣生成模塊602和主題向量生成模塊603。參見圖6,在所述裝置中:
[0093]候選關(guān)鍵詞確定模塊601,用于根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,其中所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重是根據(jù)基礎(chǔ)關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定的;
[0094]權(quán)重矩陣生成模塊602,用于對所述文檔庫中的文檔進(jìn)行分詞,生成由所述文檔庫中分詞在所述文檔中的權(quán)重組成的矩陣;
[0095]主題向量生成模塊603,用于利用主題模型對所述文檔庫中的文檔進(jìn)行訓(xùn)練,將所述矩陣分解為由分詞的主題向量組成的第一矩陣和由文檔的主題向量組成的第二矩陣的乘積,其中,分詞的主題向量由分詞在主題中的權(quán)重組成,文檔的主題向量由主題在文檔中的權(quán)重組成。
[0096]擴(kuò)展關(guān)鍵詞確定模塊604,具體用于:從所述第一矩陣中查詢候選關(guān)鍵詞的主題向量,根據(jù)查詢得到的主題向量確定候選關(guān)鍵詞分布權(quán)重最大的前M個主題;從所述第一矩陣中查詢主題的分詞向量,根據(jù)查詢得到的分詞向量確定所述M個主題中的主題分布權(quán)重最大的前N個分詞,作為相應(yīng)主題的擴(kuò)展關(guān)鍵詞;其中,所述M和N均為自然數(shù)。
[0097]檢索模塊605,具體用于:根據(jù)所述第一矩陣中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞的主題向量確定一個新的主題向量;根據(jù)所述新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔。
[0098]優(yōu)選的,檢索模塊605進(jìn)一步包括:
[0099]主題向量集生成單元,用于將所述M個主題中主題對應(yīng)的候選關(guān)鍵詞的主題向量與該主題對應(yīng)的擴(kuò)展關(guān)鍵詞的主題向量進(jìn)行加權(quán),得到主題向量集,其中加權(quán)因子根據(jù)所述M個主題中主題對應(yīng)的候選關(guān)鍵詞在該主題中的權(quán)重得到;
[0100]新主題向量生成單元,用于將所述主題向量集中的主題向量在相加后進(jìn)行歸一化,得到所述新的主題向量;
[0101]相似度計算單元,用于將所述新的主題向量與所述第二矩陣中的文檔的主題向量進(jìn)行相似度計算,根據(jù)所述相似度的計算結(jié)果確定所述文檔庫中的目標(biāo)文檔。
[0102]在上述各技術(shù)方案的基礎(chǔ)上,所述裝置還包括顯示處理模塊(未示出),用于在所述檢索模塊根據(jù)所述新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔之后:
[0103]計算所確定的目標(biāo)文檔中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞所在語句和檢索請求中的搜索語句的相關(guān)度;
[0104]將相關(guān)度滿足設(shè)定閾值時所對應(yīng)的文檔中的語句進(jìn)行輸出顯示;
[0105]在接收到對所顯示語句的觸發(fā)操作時,將該顯示語句對應(yīng)的文檔進(jìn)行輸出顯示。[0106]在上述本發(fā)明的各實施例中,方法實施例與裝置實施例屬于同一發(fā)明構(gòu)思,在裝置實施例中未詳盡描述的,可參見用于描述基于關(guān)鍵詞進(jìn)行檢索方法的實施例一至三。上述產(chǎn)品可執(zhí)行本發(fā)明任意實施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果O
[0107]實施例七
[0108]圖7為本發(fā)明實施例七提供的一種確定檢索請求中的候選關(guān)鍵詞的示意圖。圖8為本發(fā)明實施例七提供的一種確定擴(kuò)展關(guān)鍵詞和檢索的示意圖。本實施例可以以上述實施例為基礎(chǔ),提供一種優(yōu)選實例。
[0109]參見圖7,確定檢索請求中的候選關(guān)鍵詞的過程包括:
[0110](I)提供范文資源701,該資源也即文檔庫中的所有文檔;(2)基于圖的非監(jiān)督的關(guān)鍵詞抽取模型702,提取范文關(guān)鍵詞703 (基礎(chǔ)關(guān)鍵詞);(3)基于主題詞權(quán)重分析模塊704,得到范文關(guān)鍵詞703中每個詞為關(guān)鍵詞的信息705,即范文關(guān)鍵詞703每個詞的統(tǒng)計權(quán)重;(4)基于特征抽取模塊及支持向量機(jī)訓(xùn)練模塊706,生成一個關(guān)鍵詞判斷模型707,得到范文關(guān)鍵詞703中每個詞的預(yù)測權(quán)重;(5)根據(jù)范文關(guān)鍵詞703每個詞的預(yù)測權(quán)重和統(tǒng)計權(quán)重確定檢索請求中的候選關(guān)鍵詞。
[0111]參見圖8,確定擴(kuò)展關(guān)鍵詞和檢索的過程包括:
[0112](I)基于主題模型訓(xùn)練模塊802,對范文資源801進(jìn)行訓(xùn)練,得到單詞主題分布矩陣803 (實施例三中所述的第一矩陣)和文檔主題分布矩陣804 (實施例三中所述的第二矩陣);(2)根據(jù)從查詢中得到的主題詞805 (從檢索請求中提取的候選關(guān)鍵詞)及單詞主題分布矩陣803,主題詞拓展模塊806得到能夠全面、準(zhǔn)確的表達(dá)用戶意圖的擴(kuò)展關(guān)鍵詞和候選關(guān)鍵詞;(3)根據(jù)擴(kuò)展關(guān)鍵詞和候選關(guān)鍵詞在單詞主題分布矩陣803中的主題向量得到一個查詢語義向量807 (實施例三中所述的新的向量);(4)語義相似度計算模塊808計算查詢語義向量807和文檔主題分布矩陣804中各文檔的主題向量的相似度,根據(jù)相似度的計算結(jié)果確定范文資源801中的目標(biāo)范文。
[0113]注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【權(quán)利要求】
1.一種基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,包括: 根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,其中所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重是根據(jù)基礎(chǔ)關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定的; 根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞; 根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
2.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,還包括: 基于圖的非監(jiān)督關(guān)鍵詞抽取方法,對文檔庫中的文檔進(jìn)行關(guān)鍵詞抽取,得到所述文檔庫的基礎(chǔ)關(guān)鍵詞集,并生成基礎(chǔ)關(guān)鍵詞集中基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和在文檔中的結(jié)構(gòu)信息; 利用設(shè)定的二分類算法,根據(jù)所得到的基礎(chǔ)關(guān)鍵詞及其在文檔中的結(jié)構(gòu)信息,得到所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重; 其中,所述統(tǒng)計權(quán)重為所述文檔庫中基礎(chǔ)關(guān)鍵詞所在文檔的數(shù)量與文檔總數(shù)量的比值。
3.根據(jù)權(quán)利要求2所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,所述根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,包括: 從所述基礎(chǔ)關(guān)鍵詞集中搜索與所述檢索請求中分詞匹配的基礎(chǔ)關(guān)鍵詞,獲取匹配的基礎(chǔ)關(guān)鍵 詞的預(yù)測權(quán)重和統(tǒng)計權(quán)重; 對所匹配的基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和預(yù)測權(quán)重進(jìn)行加權(quán),生成所匹配的基礎(chǔ)關(guān)鍵詞的新的權(quán)重; 將新的權(quán)重滿足設(shè)定條件下的所匹配的基礎(chǔ)關(guān)鍵詞作為候選關(guān)鍵詞。
4.根據(jù)權(quán)利要求2所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,所述設(shè)定的二分類法為基于支持向量機(jī)模型的二分類法、基于最大熵的二分類法、或者基于邏輯回歸模型的二分類法。
5.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,所述基礎(chǔ)關(guān)鍵詞在文檔中的結(jié)構(gòu)信息包括基礎(chǔ)關(guān)鍵詞在文檔中的位置、所述基礎(chǔ)關(guān)鍵詞的詞性、前一個詞的詞性和/或后一個詞的詞性。
6.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,還包括: 對所述文檔庫中的文檔進(jìn)行分詞,生成由所述文檔庫中分詞在所述文檔中的權(quán)重組成的矩陣; 利用主題模型對所述文檔庫中的文檔進(jìn)行訓(xùn)練,將所述矩陣分解為由分詞的主題向量組成的第一矩陣和由文檔的主題向量組成的第二矩陣的乘積,其中,分詞的主題向量由分詞在主題中的權(quán)重組成,文檔的主題向量由主題在文檔中的權(quán)重組成。
7.根據(jù)權(quán)利要求6所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,所述根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞,包括: 從所述第一矩陣中查詢候選關(guān)鍵詞的主題向量,根據(jù)查詢得到的主題向量確定候選關(guān)鍵詞分布權(quán)重最大的前M個主題; 從所述第一矩陣中查詢所述M個主題的分詞向量,根據(jù)查詢得到的分詞向量確定所述M個主題中的主題分布權(quán)重最大的前N個分詞,作為相應(yīng)主題的擴(kuò)展關(guān)鍵詞; 其中,所述M和N均為自然數(shù)。
8.根據(jù)權(quán)利要求7所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,所述根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索,包括: 根據(jù)所述第一矩陣中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞的主題向量確定一個新的主題向量; 根據(jù)所述新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔。
9.根據(jù)權(quán)利要求8所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,所述根據(jù)所述第一矩陣中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞的主題向量確定一個新的主題向量,根據(jù)所述新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔,包括: 將所述M個主題中主題對應(yīng)的候選關(guān)鍵詞的主題向量與該主題對應(yīng)的擴(kuò)展關(guān)鍵詞的主題向量進(jìn)行加權(quán),得到主題向量集,其中加權(quán)因子根據(jù)所述M個主題中主題對應(yīng)的候選關(guān)鍵詞在該主題中的權(quán)重得到; 將所述主題向量集中的主題向量在相加后進(jìn)行歸一化,得到所述新的主題向量; 將所述新的主題向量與所述第二矩陣中的文檔的主題向量進(jìn)行相似度計算,根據(jù)所述相似度的計算結(jié)果確定所述文檔庫中的目標(biāo)文檔。
10.根據(jù)權(quán)利要求8所述的基于關(guān)鍵詞進(jìn)行檢索的方法,其特征在于,在根據(jù)所述新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔之后,還包括: 計算所確定的目標(biāo)文檔中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞所在語句和檢索請求中的搜索語句的相關(guān)度; 將相關(guān)度滿足設(shè)定閾值時所對應(yīng)的文檔中的語句進(jìn)行輸出顯示; 在接收到對所顯示語句的觸發(fā)操作時,將該顯示語句對應(yīng)的文檔進(jìn)行輸出顯示。
11.一種基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,包括: 候選關(guān)鍵詞確定模塊,用于根據(jù)文檔庫中基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重確定檢索請求中的候選關(guān)鍵詞,其中所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重是根據(jù)基礎(chǔ)關(guān)鍵詞在文檔庫的文檔中的結(jié)構(gòu)信息確定的; 擴(kuò)展關(guān)鍵詞確定模塊,用于根據(jù)所述候選關(guān)鍵詞在所述文檔庫中所屬的主題,確定其他擴(kuò)展關(guān)鍵詞; 檢索模塊,用于根據(jù)候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞在所述文檔庫中進(jìn)行檢索。
12.根據(jù)權(quán)利要求11所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,還包括: 關(guān)鍵詞提取模塊,用于基于圖的非監(jiān)督關(guān)鍵詞抽取方法,對文檔庫中的文檔進(jìn)行關(guān)鍵詞抽取,得到所述文檔庫的基礎(chǔ)關(guān)鍵詞集,并生成基礎(chǔ)關(guān)鍵詞集中基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和在文檔中的結(jié)構(gòu)信息; 預(yù)測權(quán)重確定模塊,用于利用設(shè)定的二分類算法,根據(jù)所得到的基礎(chǔ)關(guān)鍵詞及其在文檔中的結(jié)構(gòu)信息,得到所述基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重; 其中,所述統(tǒng)計權(quán)重為所述文檔庫中基礎(chǔ)關(guān)鍵詞所在文檔的數(shù)量與文檔總數(shù)量的比值。
13.根據(jù)權(quán)利要求12所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,所述候選關(guān)鍵詞確定模塊,具體用于: 從所述基礎(chǔ)關(guān)鍵詞集中搜索與所述檢索請求中分詞匹配的基礎(chǔ)關(guān)鍵詞,獲取匹配的基礎(chǔ)關(guān)鍵詞的預(yù)測權(quán)重和統(tǒng)計權(quán)重; 對所匹配的基礎(chǔ)關(guān)鍵詞的統(tǒng)計權(quán)重和預(yù)測權(quán)重進(jìn)行加權(quán),生成所匹配的基礎(chǔ)關(guān)鍵詞的新的權(quán)重; 將新的權(quán)重滿足設(shè)定條件下的所匹配的基礎(chǔ)關(guān)鍵詞作為候選關(guān)鍵詞。
14.根據(jù)權(quán)利要求12所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,所述設(shè)定的二分類法為基于支持向量機(jī)模型的二分類法、基于最大熵的二分類法、或者基于邏輯回歸模型的二分類法。
15.根據(jù)權(quán)利要求11所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,所述基礎(chǔ)關(guān)鍵詞在文檔中的結(jié)構(gòu)信息包括基礎(chǔ)關(guān)鍵詞在文檔中的位置、所述基礎(chǔ)關(guān)鍵詞的詞性、前一個詞的詞性和/或后一個詞的詞性。
16.根據(jù)權(quán)利要求11所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,還包括: 權(quán)重矩陣生成模塊,用于對所述文檔庫中的文檔進(jìn)行分詞,生成由所述文檔庫中分詞在所述文檔中的權(quán)重組成的矩陣; 主題向量生成模塊,用于利用主題模型對所述文檔庫中的文檔進(jìn)行訓(xùn)練,將所述矩陣分解為由分詞的主題向量組成的第一矩陣和由文檔的主題向量組成的第二矩陣的乘積,其中,分詞的主題向量由分詞在主題中的權(quán)重組成,文檔的主題向量由主題在文檔中的權(quán)重組成。
17.根據(jù)權(quán)利要求16所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,所述擴(kuò)展關(guān)鍵詞確定模塊,具體用于: 從所述第一矩陣中查詢候選關(guān)鍵詞的主題向量,根據(jù)查詢得到的主題向量確定候選關(guān)鍵詞分布權(quán)重最大的前M個主題; 從所述第一矩陣中查詢`所述M個主題的分詞向量,根據(jù)查詢得到的分詞向量確定所述M個主題中的主題分布權(quán)重最大的前N個分詞,作為相應(yīng)主題的擴(kuò)展關(guān)鍵詞; 其中,所述M和N均為自然數(shù)。
18.根據(jù)權(quán)利要求16所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,所述檢索模塊,具體用于根據(jù)所述第一矩陣中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞的主題向量確定一個新的主題向量;根據(jù)所述新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔。
19.根據(jù)權(quán)利要求18所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,所述檢索模塊,包括: 主題向量集生成單元,用于將所述M個主題中主題對應(yīng)的候選關(guān)鍵詞的主題向量與該主題對應(yīng)的擴(kuò)展關(guān)鍵詞的主題向量進(jìn)行加權(quán),得到主題向量集,其中加權(quán)因子根據(jù)所述M個主題中主題對應(yīng)的候選關(guān)鍵詞在該主題中的權(quán)重得到; 新主題向量生成單元,用于將所述主題向量集中的主題向量在相加后進(jìn)行歸一化,得到所述新的主題向量; 相似度計算單元,用于將所述新的主題向量與所述第二矩陣中的文檔的主題向量進(jìn)行相似度計算,根據(jù)所述相似度的計算結(jié)果確定所述文檔庫中的目標(biāo)文檔。
20.根據(jù)權(quán)利要求18所述的基于關(guān)鍵詞進(jìn)行檢索的裝置,其特征在于,還包括顯示處理模塊,用于在所述檢索模塊根據(jù)所述新的主題向量和文檔的主題向量確定文檔庫中的目標(biāo)文檔之后: 計算所確定的目標(biāo)文檔中候選關(guān)鍵詞和擴(kuò)展關(guān)鍵詞所在語句和檢索請求中的搜索語句的相關(guān)度;將相關(guān)度滿足設(shè)定閾值時所對應(yīng)的文檔中的語句進(jìn)行輸出顯示;在接收到對 所顯示語句的觸發(fā)操作時,將該顯示語句對應(yīng)的文檔進(jìn)行輸出顯示。
【文檔編號】G06F17/30GK103699625SQ201310710834
【公開日】2014年4月2日 申請日期:2013年12月20日 優(yōu)先權(quán)日:2013年12月20日
【發(fā)明者】姜宇, 吳華, 胡曉光 申請人:北京百度網(wǎng)訊科技有限公司