專利名稱:索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)。
背景技術(shù):
目前,搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的主要入口,人們通過搜索引擎查詢和定位互聯(lián)網(wǎng)信息資源。為了便于用戶快速、準(zhǔn)確地查詢到所需信息,搜索引擎提供多種檢索方式。其中,精確串檢索(PhraseQuery)、鄰近檢索(ProximityQuery)等通過綜合評(píng)價(jià)查詢串在文檔中出現(xiàn)的位置、順序、頻率等信息,有效地提高了搜索引擎的查詢相關(guān)度。通常,用戶的查詢請(qǐng)求包含多個(gè)詞(統(tǒng)計(jì)表明大于2. 5詞),詞之間的順序在語義上具備較強(qiáng)的關(guān)聯(lián)性。對(duì)于精確串檢索,用戶要求查詢返回的文檔必須包含完整的檢索串。對(duì)于鄰近檢索,檢索結(jié)果集優(yōu)先提供詞出現(xiàn)順序與檢索串一致的文檔。由此可見,用戶請(qǐng)求串在文檔中出現(xiàn)與否,出現(xiàn)頻率等屬性,是文檔相關(guān)性評(píng)價(jià)的重要因素。精確串檢索、鄰近檢索等檢索方式有效地提聞了檢索的相關(guān)性,但檢索過程中需要對(duì)文檔的關(guān)鍵詞位置進(jìn)行匹配計(jì)算,致使檢索速度大幅下降。目前,搜索引擎進(jìn)行用戶提交的精確串檢索請(qǐng)求的處理邏輯如下,首先對(duì)檢索請(qǐng)求涉及的關(guān)鍵詞串進(jìn)行“與”檢索,對(duì)“與”檢索的結(jié)果文檔,進(jìn)行位置判斷,判斷和統(tǒng)計(jì)完整檢索串出現(xiàn)的頻次,然后計(jì)算相關(guān)性。在搜索引擎索引中,一般都采用關(guān)鍵詞到文檔信息的倒排索引結(jié)構(gòu),每一個(gè)關(guān)鍵詞都出現(xiàn)在它所指向的文檔鏈表的每一個(gè)文檔。對(duì)于在所有文檔中經(jīng)常出現(xiàn)的詞,我們稱其為“高頻詞”,顧名思義就是出現(xiàn)的頻率比較高的詞,比如說“的”、“了”、“我”等。這類關(guān)鍵詞不僅出現(xiàn)的文檔頻率高,在每一篇出現(xiàn)的文檔中,出現(xiàn)的次數(shù)也高,為了后期計(jì)算相關(guān)性的準(zhǔn)確性,在文檔鏈表中都會(huì)記錄文檔中關(guān)鍵詞出現(xiàn)的位置信息,所以在倒排鏈表中,此類關(guān)鍵詞指向的文檔鏈表就相當(dāng)?shù)拇蟆T倮?,用戶查詢“我的大學(xué)”,搜索引擎的分詞模塊將用戶請(qǐng)求處理成關(guān)鍵詞串“我/的/大學(xué)”,根據(jù)倒排索引,對(duì)“我”、“的”、“大學(xué)”的倒排索引列表,進(jìn)行與操作。對(duì)于同時(shí)包含有上述三個(gè)詞的文檔,讀取三個(gè)詞在文檔中的位置信息,進(jìn)行相應(yīng)統(tǒng)計(jì)判斷。由于檢索關(guān)鍵詞“我”、“的”都是中文文獻(xiàn)中高頻出現(xiàn)的詞,其倒排索引列表長度很長,同時(shí)在文檔中出現(xiàn)的頻率也很高,位置列表也很長,致使整個(gè)查詢過程計(jì)算量巨大,嚴(yán)重影響查詢速度,極端情況下耗時(shí)達(dá)到秒級(jí)以上。傳統(tǒng)的技術(shù)方案,在檢索帶有高頻詞的檢索串的時(shí)候,因?yàn)楦哳l詞在文檔中出現(xiàn)的頻率高,幾乎所有的文檔中都會(huì)出現(xiàn)高頻詞,所以對(duì)于這類的檢索串就需要對(duì)全部文檔計(jì)算一次相關(guān)性,針對(duì)搜索引擎上億個(gè)文檔來說,計(jì)算量是相當(dāng)龐大的,搜索一次很耗時(shí),不利于用戶的體驗(yàn)。因此,需求提供一種新的索引、檢索方法,能夠克服現(xiàn)有技術(shù)的缺點(diǎn),在保持相關(guān)性準(zhǔn)確率的情況下,有效地利用計(jì)算機(jī)硬件資源,提高搜索效率,提升用戶的體驗(yàn)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,提供一種新的索引、檢索方法,能夠克服現(xiàn)有技術(shù)的缺點(diǎn),在保持相關(guān)性準(zhǔn)確率的情況下,有效地利用計(jì)算機(jī)硬件資源,提高搜索效率,提升用戶的體驗(yàn)。有鑒于此,本發(fā)明提出一種索引裝置,包括高頻詞處理模塊,在文檔中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;索引建立模塊,根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中,通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中,優(yōu)選地,所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí),將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí),例如“我的祖國”中,“的”為高頻詞,對(duì)其進(jìn)行擴(kuò)展時(shí),前側(cè)的關(guān)鍵詞“我”同樣是高頻詞,則將“的”與“我”組合擴(kuò)展為“我的”,作為新的關(guān)鍵詞用于建立索引。在上述技術(shù)方案中,優(yōu)選地,所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí),將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合,和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)或字符與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí),例如“書桌上的鼠標(biāo)墊”,若取“的”作為高頻詞,而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞,則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符,即至少擴(kuò)展為“上的”,當(dāng)然也可以為“桌上的”或其它;而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符,即至少擴(kuò)展為“的鼠”,當(dāng)然也可以為“的鼠標(biāo)”或其它,具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展,可以根據(jù)需要靈活設(shè)定,然后利用擴(kuò)展后得到的新的關(guān)鍵詞建立索引。本發(fā)明還提出了一種索引方法,包括步驟202,高頻詞處理模塊在文檔中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;步驟204,索引建立模塊根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中,通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在該技術(shù)方案中,優(yōu)選地,所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí),將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí),例如“我的祖國”中,“的”為高頻詞,對(duì)其進(jìn)行擴(kuò)展時(shí),前側(cè)的關(guān)鍵詞“我”同樣是高頻詞,則將“的”與“我”組合擴(kuò)展為“我的”,作為新的關(guān)鍵詞用于建立索引。在該技術(shù)方案中,優(yōu)選地,所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí),將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合,和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)字或字符與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí),例如“書桌上的鼠標(biāo)墊”,若取“的”作為高頻詞,而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞,則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符,即至少擴(kuò)展為“上的”,當(dāng)然也可以為“桌上的”或其它;而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符,即至少擴(kuò)展為“的鼠”,當(dāng)然也可以為“的鼠標(biāo)”或其它,具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展,可以根據(jù)需要靈活設(shè)定,然后利用擴(kuò)展后得到的新的關(guān)鍵詞建立索引。本發(fā)明還提出了一種檢索裝置,包括高頻詞處理模塊,在檢索串中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;檢索模塊,使用擴(kuò)展得到的新詞,在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中,通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中,優(yōu)選地,還包括如上述的索引裝置,預(yù)建立所述索引。通過技術(shù)方案,結(jié)合按上述技術(shù)方案得到的索引,能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中,優(yōu)選地,所述高頻詞處理模塊還在所述新詞的兩側(cè)添加標(biāo)記;所述檢索模塊根據(jù)所述標(biāo)記,獲取所述新詞,并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù),以用于為所述文檔計(jì)算相關(guān)性,并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案,采用精確串子查詢,能夠保證檢索的準(zhǔn)確性。本發(fā)明還提出了一種檢索方法,包括步驟402,高頻詞處理模塊在檢索串中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;步驟404,檢索模塊根據(jù)擴(kuò)展得到的新詞,在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中,通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中,優(yōu)選地,在所述步驟404之前,還包括通過如上述的索引方法,預(yù)建立所述索引。通過技術(shù)方案,結(jié)合按上述技術(shù)方案得到的索引,能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中,優(yōu)選地,在所述步驟402中,還包括所述高頻詞處理模塊在所述新詞的兩側(cè)添加標(biāo)記;所述步驟404具體包括所述檢索模塊根據(jù)所述標(biāo)記,獲取所述新詞,并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù),以用于為所述文檔計(jì)算相關(guān)性,并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案,采用精確串子查詢,能夠保證檢索的準(zhǔn)確性。本發(fā)明還提出了一種檢索系統(tǒng),包括如上所述的索引裝置;如上所述的檢索裝置,所述檢索裝置使用其生成的新詞,在所述索引裝置建立的索引中進(jìn)行檢索。在該技術(shù)方案中,將利用高頻詞擴(kuò)展生成新關(guān)鍵詞的方式建立的索引對(duì)應(yīng)于同樣采用高頻詞擴(kuò)展方式的檢索過程相關(guān)聯(lián),形成一個(gè)完整的信息檢索系統(tǒng),使整個(gè)系統(tǒng)在運(yùn)行時(shí),可以在現(xiàn)有的計(jì)算機(jī)硬件環(huán)境下,在保證相關(guān)性準(zhǔn)確率的前提下,有效地利用計(jì)算機(jī)的硬件資源,提升用戶體驗(yàn)。
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引裝置的框圖;圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索裝置的框圖;圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程圖;圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的框圖;圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法中的高頻詞處理流程圖;圖7是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法中的高頻詞處理示意圖;圖8是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程示意圖;圖9是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程示意圖;圖10是現(xiàn)有搜索引擎中使用的數(shù)據(jù)結(jié)構(gòu)的示意圖;圖11是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程示意圖;圖12是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程示意圖。
具體實(shí)施例方式為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明并不限于下面公開的具體實(shí)施例的限制。首先,關(guān)于本發(fā)明對(duì)減少文檔鏈表的大小、提高檢索效率等優(yōu)勢(shì)的作用原理在此處予以說明。用戶搜索單個(gè)高頻詞的概率很小,且沒有意義,一般的高頻詞查詢都是與其他詞組合而成進(jìn)行查詢的,在此前提下,本發(fā)明提出的方法是將文檔中的高頻詞與高頻詞后面的或者前面的一個(gè)字組合成一個(gè)非高頻關(guān)鍵詞做索引,在做查詢時(shí),對(duì)于帶高頻詞的查詢串,分詞的時(shí)候可以將高頻詞與非高頻詞組合查詢,減少非命中文檔,提高計(jì)算效率。關(guān)于通過組合高頻詞減少倒排索引中關(guān)鍵詞(本申請(qǐng)中,將對(duì)文檔或檢索串分詞處理后得到的詞稱為關(guān)鍵詞)指向的文檔鏈表的大小,過程如下假設(shè)有一文檔集合U,文檔的個(gè)數(shù)是Nu,文檔集合中包含有高頻詞W1的文檔個(gè)數(shù)是N1 (O < = N1 < = Nu),所以高頻詞W1出現(xiàn)的概率G1是Fwi =NlZNu另一關(guān)鍵詞W2 (不管是高頻詞還是非高頻詞)出現(xiàn)的文檔個(gè)數(shù)是N2 (O < = N2 < =Nu),關(guān)鍵詞W2出現(xiàn)的概率&2是Fwi =N2ZNu此時(shí),若將W1與W2組合成一個(gè)關(guān)鍵詞W1W2 (或者W2W1),這個(gè)組合關(guān)鍵詞在文檔中出現(xiàn)的概率就是在出現(xiàn)關(guān)鍵詞W1的文檔中查找包含關(guān)鍵詞W2的文檔,概率的大小€^2是Fwiwi =Fwi *FWi=N1* N2/Ni如果W2是非高頻詞,那么N2肯定不會(huì)等于Nu,也就是不是所有的文檔都包含關(guān)鍵詞W2,索引頻率Fw2的大小肯定是ο<=Fw2<1的,因此&lW2肯定小于' ,也就是組合串W1W2的倒排索引指向的文檔鏈表大小減少。
如果W2是高頻詞,那么N2有可能等于Nu,即可能所有的文檔都包含關(guān)鍵詞W2,這時(shí)如果高頻詞W1出現(xiàn)的文檔數(shù)N1等于Nu,在不考慮位置的情況下,仏lW2出現(xiàn)的概率是1,如果考慮位置,W1與W2必須出現(xiàn)在一起,那&&出現(xiàn)的概率肯定比Fwi出現(xiàn)的概率低。因此,通過上述分析可以得知,當(dāng)檢索關(guān)鍵詞中存在高頻詞W1時(shí),若與其前側(cè)或后側(cè)的詞W2進(jìn)行組合,無論W2是否為高頻詞,則組合后的新關(guān)鍵詞W1W2(或W2W1)對(duì)應(yīng)倒排索引指向的文檔鏈表會(huì)減小。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引裝置的框圖。如圖1所示,本發(fā)明提出一種索引裝置100,包括高頻詞處理模塊102,在文檔中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;索引建立模塊104,根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中,通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中,所述高頻詞處理模塊102在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí),將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞·前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí),例如“我的祖國”中,“的”為高頻詞,對(duì)其進(jìn)行擴(kuò)展時(shí),前側(cè)的關(guān)鍵詞“我”同樣是高頻詞,則將“的”與“我”組合擴(kuò)展為“我的”,作為新的關(guān)鍵詞用于建立索引。在上述技術(shù)方案中,所述高頻詞處理模塊102在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí),將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合,和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)或字符與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí),例如“書桌上的鼠標(biāo)墊”,若取“的”作為高頻詞,而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞,則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符,即至少擴(kuò)展為“上的”,當(dāng)然也可以為“桌上的”或其它;而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符,即至少擴(kuò)展為“的鼠”,當(dāng)然也可以為“的鼠標(biāo)”或其它,具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展,可以根據(jù)需要靈活設(shè)定,然后利用擴(kuò)展·后得到的新的關(guān)鍵詞建立索引。
·
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程圖。如圖2所示,本發(fā)明還提出了一種索引方法,包括步驟202,高頻詞處理模塊在文檔中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;步驟204,索引建立模塊根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中,通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在該技術(shù)方案中,所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí),將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí),例如“我的祖國”中,“的”為高頻詞,對(duì)其進(jìn)行擴(kuò)展時(shí),前側(cè)的關(guān)鍵詞“我”同樣是高頻詞,則將“的”與“我”組合擴(kuò)展為“我的”,作為新的關(guān)鍵詞用于建立索引。在該技術(shù)方案中,所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí),將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合,和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)字或字符與所述當(dāng)前詞組合,以形成所述新詞。在該技術(shù)方案中,在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí),例如“書桌上的鼠標(biāo)墊”,若取“的”作為高頻詞,而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞,則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符,即至少擴(kuò)展為“上的”,當(dāng)然也可以為“桌上的”或其它;而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符,即至少擴(kuò)展為“的鼠”,當(dāng)然也可以為“的鼠標(biāo)”或其它,具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展,可以根據(jù)需要靈活設(shè)定,然后利用擴(kuò)展后得到的新的關(guān)鍵詞建立索引。圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索裝置的框圖。如圖3所示,本發(fā)明還提出了一種檢索裝置300,包括高頻詞處理模塊302,在檢索串中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;檢索模塊304,使用擴(kuò)展得到的新詞,在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中,通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中,還包括如上述的索引裝置100,預(yù)建立所述索引。通過技術(shù)方案,結(jié)合按上述技術(shù)方案得到的索引,能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中,所述高頻詞處理模塊302還在所述新詞的兩側(cè)添加標(biāo)記;所述檢索模塊304根據(jù)所述標(biāo)記,獲取所述新詞,并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù),以用于為所述文檔計(jì)算相關(guān)性,并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案,采用精確串子查詢,能夠保證檢索的準(zhǔn)確性。圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程圖。如圖4所示,本發(fā)明還提出了一種檢索方法,包括步驟402,高頻詞處理模塊在檢索串中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;步驟404,檢索模塊根據(jù)擴(kuò)展得到的新詞,在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中,通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中,在所述步驟404之前,還包括通過如上述的索引方法,預(yù)建立所述索引。通過技術(shù)方案,結(jié)合按上述技術(shù)方案得到的索引,能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中,在所述步驟402中,還包括所述高頻詞處理模塊在所述新詞的兩側(cè)添加標(biāo)記;所述步驟404具體包括所述檢索模塊根據(jù)所述標(biāo)記,獲取所述新詞,并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù),以用于為所述文檔計(jì)算相關(guān)性,并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案,采用精確串子查詢,能夠保證檢索的準(zhǔn)確性。圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的框圖。如圖5所示,本發(fā)明還提出了一種檢索系統(tǒng)500,包括如上所述的索引裝置100 ;如上所述的檢索裝置300,所述檢索裝置300使用其生成的新詞,在所述索引裝置100建立的索引中進(jìn)行檢索。在該技術(shù)方案中,將利用高頻詞擴(kuò)展生成新關(guān)鍵詞的方式建立的索引對(duì)應(yīng)于同樣采用高頻詞擴(kuò)展方式的檢索過程相關(guān)聯(lián),形成一個(gè)完整的信息檢索系統(tǒng),使整個(gè)系統(tǒng)在運(yùn)行時(shí),可以在現(xiàn)有的計(jì)算機(jī)硬件環(huán)境下,在保證相關(guān)性準(zhǔn)確率的前提下,有效地利用計(jì)算機(jī)的硬件資源,提升用戶體驗(yàn)。以下詳細(xì)說明本發(fā)明的技術(shù)方案。在用戶使用搜索串搜索信息的時(shí)候,高頻詞一般是與其它詞組合后進(jìn)行搜索的,因?yàn)閱为?dú)搜索高頻詞是沒有任何意義的,比如說用戶想搜索帶有“我的中國”字符串的文檔,用戶肯定是拿搜索串“我的中國”去檢索,而不是搜索一個(gè)“的”字,然后在結(jié)果中用人眼去遍歷是否含有“我的中國”字符串的文檔。高頻詞與它在檢索串中的前后兩個(gè)關(guān)鍵詞密切相關(guān),在檢索串中如果出現(xiàn)高頻詞,那用戶肯定是想要與檢索串中它前后兩個(gè)詞的位置信息完全的匹配的結(jié)果,如果不需要位置信息匹配,則完全可以去掉高頻詞,假如用戶搜索“我的中國”,那用戶是想要文檔中有“我的中國”這四個(gè)字的文檔,搜索“我中國”,那用戶是想要文檔中包含“我”和“中國”這兩個(gè)詞的文檔,所以用戶搜索帶有高頻詞的檢索串,目的是連接它左右兩個(gè)結(jié)果,確定左右兩個(gè)關(guān)鍵詞在文檔中的位置關(guān)系(既必須出現(xiàn)在當(dāng)前高頻詞的左右兩端)?;谶@種情況,在本發(fā)明的實(shí)施例的技術(shù)方案中,建索引的時(shí)候,將高頻詞擴(kuò)展,與它在文檔中的前后兩個(gè)字連接組成新的關(guān)鍵詞。高頻詞與其在文檔中緊挨的兩個(gè)詞的組合關(guān)鍵詞做索引,檢索效率會(huì)更快,本發(fā)明的實(shí)施例中所提出的技術(shù)方案是高頻詞與其文檔中緊挨的兩個(gè)字組合關(guān)鍵詞做索引。這是因?yàn)殛P(guān)鍵詞的數(shù)量很大,并且每天都有新詞出現(xiàn),那高頻詞與詞組合的新關(guān)鍵詞的數(shù)量也同樣非常大,如果現(xiàn)在有N個(gè)高頻詞,詞的總數(shù)是M (包含非高頻詞和高頻詞),高頻詞組合的關(guān)鍵詞數(shù)量最大值達(dá)到N*M,為了檢索的速度,一般索引的關(guān)鍵詞列表都放在計(jì)算機(jī)內(nèi)存中,內(nèi)存的大小也制約著關(guān)鍵詞列表的大小,對(duì)聞?lì)l詞組合后,關(guān)鍵詞列表的大小增加了N倍,很有可能導(dǎo)致內(nèi)存不能滿足關(guān)鍵詞列表。而高頻詞加字的組合,單個(gè)字的個(gè)數(shù)有限,高頻詞與字組合的關(guān)鍵詞的數(shù)量最多為不同的單個(gè)字?jǐn)?shù)量的兩倍,內(nèi)存是可以放下的。高頻詞組合過程如圖6所示。首先要組合的兩個(gè)關(guān)鍵詞中有一個(gè)必須是高頻詞,不然對(duì)于兩個(gè)非高頻詞就沒有組合的必要。過程如下步驟602,確認(rèn)緊挨的詞WlWl中,至少有一個(gè)是高頻詞。步驟604,判斷關(guān)鍵詞Wl與關(guān)鍵詞W2是不是都是高頻詞,如果是進(jìn)行步驟606,如果不是進(jìn)行步驟608。步驟606,將關(guān)鍵詞Wl與關(guān)鍵詞W2連接組合成新的關(guān)鍵詞,組合過程結(jié)束。步驟608,判斷Wl是不是高頻詞。如果是,進(jìn)入步驟610,如果不是,進(jìn)入步驟612。步驟610,將Wl與W2的第一個(gè)漢字或者字符組合形成新的關(guān)鍵詞(W2的第一個(gè)字符如果是漢字則與漢字組合,如果是非漢字,則與第一個(gè)字符組合),組合過程結(jié)束。步驟612,將W2與Wl的第一個(gè)漢字或者字符組成新的關(guān)鍵詞(Wl的第一個(gè)字符如果是漢字則與漢字組合,如果是非漢字,則與第一個(gè)字符組合),組合過程結(jié)束。例如圖7 所示,有字符串 “ala2a3a4a5blb2b3b4b5clc2c3c4c5”,被切詞成 Wl 詞 “ala2a3a4a5”、W2 詞 “blb2b3b4b5”、W3 詞 “clc2c3c4c5”。如果 W2 是高頻詞,W2將與Wl和W2都組合一個(gè)新的關(guān)鍵詞,如果Wl是高頻詞,那W2與Wl組合的新關(guān)鍵詞是“ala2a3a4a5blb2b3b4b5”,如果Wl是非高頻詞,那W2與Wl組合的新關(guān)鍵詞是“a5blb2b3b4b5”,這里如果a5是漢字的話,將占2個(gè)字符(GBK編碼漢字占兩個(gè)字符),如果是非漢字占一個(gè)字符。如果W3是高頻詞,那W2與W3組合的新關(guān)鍵詞是“blb2b3b4b5clc2c3c4c5”,如果W3是非高頻詞,那么W2與W3組合的新關(guān)鍵詞是“blb2b3b4b5cl”,Cl是漢字的話,將占2個(gè)字符,如果是非漢字占一個(gè)字符。與傳統(tǒng)高頻詞索引不同的是,本實(shí)施例的技術(shù)方案中,添加了高頻詞的組合詞來做索引,索引過程與檢索過程跟傳統(tǒng)模式就不一樣,如圖8所示索引過程步驟802,對(duì)新文檔數(shù)據(jù)進(jìn)行切詞。切詞后的文檔數(shù)據(jù)中,有高頻詞的話,高頻詞是獨(dú)立的,沒有組合。步驟804,對(duì)文檔中高頻詞按圖7所示的方式進(jìn)行組合。統(tǒng)計(jì)組合后的文檔關(guān)鍵詞詞頻,位置信息。步驟806,按關(guān)鍵詞信息,添加文檔信息到倒排索引庫中,直至加載文檔結(jié)束。而對(duì)應(yīng)的檢索過程如圖9所示步驟902,接收用戶輸入的帶高頻詞的檢索串。步驟904,對(duì)檢索串進(jìn)行切詞。步驟906,分析切詞后的數(shù)據(jù),在用戶的檢索串中存在高頻詞或者是獨(dú)立的高頻詞(不排除用戶只查高頻詞的特殊情況),對(duì)檢索串中的高頻詞與前后詞進(jìn)行組合。組合后的關(guān)鍵詞中可能有重合的關(guān)鍵詞,高頻詞與前后詞組合,所以位置上不是依次出現(xiàn)的。步驟908,依照切詞后的關(guān)鍵詞檢索索引庫。按照位置信息,排除位置重合。步驟910,計(jì)算相關(guān)性,輸出最相關(guān)的TopN個(gè)結(jié)果。例如,在查詢帶高頻詞的檢索串時(shí),對(duì)組合后的新關(guān)鍵詞要做標(biāo)記,表示新詞是由兩個(gè)詞組合而成的新關(guān)鍵詞,一般采用在組合的新關(guān)鍵詞后加做標(biāo)記,如圖7所示字符串“ala2a3a4a5blb2b3b4b5clc2c3c4c5”做查詢串時(shí),切分為Wl、W2、W3三個(gè)關(guān)鍵詞,假設(shè)W2為聞?lì)l詞,組合后的新關(guān)鍵詞有“ala2aa3a4a5blb2b3b4b5#,,Wl 是高頻詞,“a5blb2b3b4b5#”Wl 是非高頻詞,“blb2b3b4b5clc2c3c4c5#”W3 是高頻詞,“blb2b3b4b5cl#”W3 是非高頻詞。所有的新詞后面都帶有標(biāo)記符號(hào)“#,,,用以區(qū)分一般的非高頻關(guān)鍵詞。以下繼續(xù)說明本發(fā)明的技術(shù)方案。目前,主流的搜索引擎主要依賴于詞典文件、倒排列表文件、位置列表文件等三個(gè)數(shù)據(jù)結(jié)構(gòu)實(shí)施檢索操作邏輯,如圖10所示。其中,詞典文件記錄詞和詞的倒排文檔列表在倒排列表文件中的偏移信息。倒排列表文件記錄了所有詞的倒排文檔列表數(shù)據(jù)。位置列表文件記錄所有詞的在文檔中出現(xiàn)的位置信息。由于高頻詞頻繁出現(xiàn)在文檔集中(有些詞出現(xiàn)在70%的文檔中),同時(shí)在單片文檔中出現(xiàn)的頻率也很高,因此,詞對(duì)應(yīng)的倒排列表長度和位置列表長度都很長。本發(fā)明的實(shí)施例提出在索引建立過程中,將高頻詞與其前后出現(xiàn)的詞進(jìn)行某種方式的組合,形成高頻級(jí)聯(lián)詞,并設(shè)置高頻級(jí)聯(lián)詞的位置為原詞位置。在檢索時(shí),對(duì)用戶提交檢索請(qǐng)求串進(jìn)行相同的處理,將對(duì)高頻詞的查詢,替換成高頻級(jí)聯(lián)詞的查詢。由于,高頻級(jí)聯(lián)詞的在文檔集合和在單片文檔中出現(xiàn)頻率都遠(yuǎn)低于原高頻詞,因此大大減少了需要進(jìn)行“與”操作和位置計(jì)算的規(guī)模,有效提高了串檢索的速度,并不損失查詢正確性。建立索引的整體技術(shù)方案如圖11所示
具體包括步驟1102,判斷是否有需要進(jìn)行索引的文檔。步驟1104,讀取待索引的文檔。步驟1106,對(duì)文檔進(jìn)行分詞和位置標(biāo)記。步驟1108,對(duì)高頻詞進(jìn)行級(jí)聯(lián)處理。步驟1110,將生成的索引添加到索引庫。高頻級(jí)聯(lián)詞的處理邏輯如下,首先對(duì)輸入文本進(jìn)行分詞、位置標(biāo)記處理,生成正排索引,其他步驟如下步驟1202,依次讀取正排索引的詞。步驟1204,判斷是否還有詞,是則進(jìn)入步驟1206,否則結(jié)束操作。步驟1206,根據(jù)預(yù)先生成的高頻詞表,對(duì)正排索引中的每一個(gè)詞進(jìn)行過濾,判斷是否是高頻詞。如果非高頻詞,則進(jìn)入步驟1208,否則,返回步驟1204。步驟1208,析該詞前面的詞。如果前詞存在,進(jìn)入步驟1210,不存在則進(jìn)入步驟1214。步驟1210,判斷前詞是否為高頻詞,是則進(jìn)入步驟1214,否則進(jìn)入步驟1212。步驟1212,將前詞的第一個(gè)中文字(如果是英文單詞,則取單詞的第一個(gè)字符)和該詞組成新詞。步驟1214,分析該詞后面的詞。如果后詞存在,進(jìn)入步驟1216,否則返回步驟1204。步驟1216,判斷后詞是否為高頻詞,是則進(jìn)入步驟1218,否則進(jìn)入步驟1220。步驟1218,則將該詞與后詞進(jìn)行組合,生成高頻級(jí)聯(lián)詞,并將高頻級(jí)聯(lián)詞的位置記錄為當(dāng)前詞的位置。步驟1220,如果后詞存在,并且非高頻詞,則將該詞與后詞的第一個(gè)中文字(如果是英文單詞,則取單詞的第一個(gè)字符)進(jìn)行組合。步驟1222,為新詞加上級(jí)聯(lián)標(biāo)記符號(hào),生成高頻級(jí)聯(lián)詞。步驟1224,將高頻級(jí)聯(lián)詞的位置記錄為當(dāng)前位置,插入到正排索引。級(jí)聯(lián)標(biāo)記符號(hào)可以是任意一個(gè)不參與索引和檢索的符號(hào)。本系統(tǒng)為了表述方便,選取“#”作為級(jí)聯(lián)標(biāo)記符號(hào)。由于級(jí)聯(lián)標(biāo)記符號(hào)不參與索引和檢索,因此由分詞模塊生成的正常分詞結(jié)果中不會(huì)包含高頻級(jí)聯(lián)詞,不會(huì)產(chǎn)生沖突。例如,索引建立過程中,對(duì)于文檔“我的大學(xué)非常美麗”,進(jìn)行切詞、詞位置標(biāo)記處理后為(我,1)/(的,2)/(大學(xué),3)/(非常,4)/(美麗,5)通過高頻詞表查詢,可以獲知“我”和“的”為高頻詞,進(jìn)行高頻級(jí)聯(lián)詞處理邏輯,處理后需要建立索引的正排文檔如下(我,1)/(#我的 #,1)/(的,2)/(# 的大 #,2)/(大學(xué),3)/(非常,4)/(美麗,5)針對(duì)上述正排文檔,按照正常處理邏輯,建立倒排文檔。(我的,I)、(的大,2)是高頻級(jí)聯(lián)詞索引項(xiàng)。串查詢過程也進(jìn)行同樣的處理邏輯。比如,對(duì)于串查詢請(qǐng)求“我的大學(xué)”,進(jìn)行切詞、詞位置標(biāo)記處理后為(我,1)/(的,2)/(大學(xué),3)進(jìn)行高頻級(jí)聯(lián)詞處理邏輯,獲得最終檢索詞項(xiàng)集合
(我,l)/(#我的 #,1)/(的,2)/(# 的大 #,2)/(大學(xué),3)檢索階段,串檢索邏輯只需對(duì)查詢集合(我的,1)/(的大,2)/(大學(xué),3)進(jìn)行檢索,首先讀取“我的”、“的大”、“大學(xué)”的倒排列表,進(jìn)行“與”邏輯的檢索。對(duì)于包含上述三詞的文檔,讀取三個(gè)詞的位置列表信息,采用一定方法,判斷各詞是否順序出現(xiàn)。僅當(dāng)三個(gè)詞順序出現(xiàn),統(tǒng)計(jì)出現(xiàn)次數(shù),以此作為相關(guān)性評(píng)價(jià)的因素。顯然,“#我的#”、“#的大#”的出現(xiàn)頻率遠(yuǎn)低于“我”、“的”,其倒排索引列表和位置列表長度都遠(yuǎn)小有后者,大大的減少計(jì)算量,提高了檢索速度。高頻級(jí)聯(lián)詞的加入增大了搜索引擎詞表的大小,同時(shí)也增加了倒排文檔列表文件和位置文件的規(guī)模?;诓樵冃士紤],搜索引擎在運(yùn)行狀態(tài)通常將詞典文件導(dǎo)入內(nèi)存中。理論上,高頻級(jí)聯(lián)詞生成模塊可能產(chǎn)生2*n*n+2*n*m個(gè)新詞,其中,η為高頻詞的個(gè)數(shù),m為漢字和英文字母的個(gè)數(shù),由于級(jí)聯(lián)方向的原因,詞的個(gè)數(shù)需要乘2。但,由于文檔通常符合一定的語法語用規(guī)則,在實(shí)際文本索引過程中產(chǎn)生的新詞要遠(yuǎn)小于理論值。通過控制n、m的值,新生成詞的規(guī)模可以控制在目前運(yùn)行態(tài)檢索服務(wù)器硬件內(nèi)存可接受的范圍之內(nèi)。倒排文檔列表文件和位置文件都保存于磁盤,其規(guī)模上的增長,并沒有帶來檢索性能的損失。由此,高頻級(jí)聯(lián)詞處理策略,通過空間換時(shí)間的方法,大幅提高了檢索中串查找和頻率計(jì)算的效率,提高了檢索速度。綜上所述,根據(jù)本發(fā)明的技術(shù)方案,可以實(shí)現(xiàn)索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng),在搜索引擎的文檔索引和檢索過程,將高頻詞與前后詞就進(jìn)行某種方式的組合,形成高頻級(jí)聯(lián)詞進(jìn)行索引,在檢索階段,用高頻級(jí)聯(lián)詞替代原高頻詞參與檢索。由于高頻級(jí)聯(lián)詞的倒排列表長度和位置列表長度遠(yuǎn)小于原高頻詞,從而大大減少了檢索過程中串查找和串頻統(tǒng)計(jì)的運(yùn)算量,在保證檢索準(zhǔn)確性的同時(shí),大幅提聞了檢索的效率。本發(fā)明考慮了計(jì)算機(jī)硬件環(huán)境下,針 對(duì)目前傳統(tǒng)的索引結(jié)構(gòu),解決了帶有高頻詞的串檢索計(jì)算量大,速度慢的問題,用有限的空間資源換取時(shí)間上快速查詢,提高用戶體驗(yàn)。以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案,通過對(duì)所述高頻詞進(jìn)行擴(kuò)展組合為新的關(guān)鍵詞,并利用該組合關(guān)鍵詞建立索引庫及進(jìn)行檢索,從而在現(xiàn)有的計(jì)算機(jī)硬件環(huán)境下,在保證相關(guān)性準(zhǔn)確率的前提下,利用有限的空間資源實(shí)現(xiàn)檢索效率的有效提高,提升用戶體驗(yàn)。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種索引裝置,其特征在于,包括 高頻詞處理模塊,在文檔中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展; 索引建立模塊,根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。
2.根據(jù)權(quán)利要求1所述的索引裝置,其特征在于,所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí),將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合,以形成所述新詞。
3.根據(jù)權(quán)利要求1所述的索引裝置,其特征在于,所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí),將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合,和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)或字符與所述當(dāng)前詞組合,以形成所述新詞。
4.一種索引方法,其特征在于,包括 步驟202,高頻詞處理模塊在文檔中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展; 步驟204,索引建立模塊根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。
5.根據(jù)權(quán)利要求4所述的索引方法,其特征在于,所述步驟202具體包括 所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí),將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合,以形成所述新詞。
6.根據(jù)權(quán)利要求4所述的索引方法,其特征在于,所述步驟202具體包括 所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí),將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合,和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)字或字符與所述當(dāng)前詞組合,以形成所述新詞。
7.一種檢索裝置,其特征在于,包括 高頻詞處理模塊,在檢索串中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展; 檢索模塊,使用擴(kuò)展得到的新詞,在預(yù)建立的索引中進(jìn)行檢索。
8.根據(jù)權(quán)利要求7所述的檢索裝置,其特征在于,還包括 如權(quán)利要求1至4中任一項(xiàng)所述的索引裝置,預(yù)建立所述索引。
9.根據(jù)權(quán)利要求8所述的檢索裝置,其特征在于,所述高頻詞處理模塊還在所述新詞的兩側(cè)添加標(biāo)記; 所述檢索模塊根據(jù)所述標(biāo)記,獲取所述新詞,并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù),以用于為所述文檔計(jì)算相關(guān)性,并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。
10.一種檢索方法,其特征在于,包括 步驟402,高頻詞處理模塊在檢索串中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展; 步驟404,檢索模塊根據(jù)擴(kuò)展得到的新詞,在預(yù)建立的索引中進(jìn)行檢索。
11.根據(jù)權(quán)利要求10所述的檢索方法,其特征在于,在所述步驟404之前,還包括 通過如權(quán)利要求4至6中任一項(xiàng)所述的索引方法,預(yù)建立所述索引。
12.根據(jù)權(quán)利要求11所述的檢索方法,其特征在于,在所述步驟402中,還包括 所述高頻詞處理模塊在所述新詞的兩側(cè)添加標(biāo)記;所述步驟404具體包括所述檢索模塊根據(jù)所述標(biāo)記,獲取所述新詞,并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù),以用于為所述文檔計(jì)算相關(guān)性,并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。
13.一種檢索系統(tǒng),其特征在于,包括 權(quán)利要求1至3中任一項(xiàng)所述的索引裝置; 權(quán)利要求7至9中任一項(xiàng)所述的檢索裝置,所述檢索裝置使用其生成的新詞,在所述索引裝置建立的索引中進(jìn)行檢索。
全文摘要
本發(fā)明提出一種索引裝置,包括高頻詞處理模塊,在文檔中的當(dāng)前詞為高頻詞時(shí),根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞,對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展;索引建立模塊,根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中,通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理,降低了關(guān)鍵詞中高頻詞的數(shù)量,避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。本發(fā)明還提供索引方法、檢索裝置、檢索方法和檢索系統(tǒng)。
文檔編號(hào)G06F17/30GK103064840SQ201110319548
公開日2013年4月24日 申請(qǐng)日期2011年10月20日 優(yōu)先權(quán)日2011年10月20日
發(fā)明者許歡慶, 吳尉林, 夏亮, 郭永福, 陳沛 申請(qǐng)人:北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司