索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)的制作方法

文檔序號(hào)：6435906閱讀：211來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域，具體而言，涉及索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)。
背景技術(shù)：
目前，搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的主要入口，人們通過搜索引擎查詢和定位互聯(lián)網(wǎng)信息資源。為了便于用戶快速、準(zhǔn)確地查詢到所需信息，搜索引擎提供多種檢索方式。其中，精確串檢索(PhraseQuery)、鄰近檢索(ProximityQuery)等通過綜合評(píng)價(jià)查詢串在文檔中出現(xiàn)的位置、順序、頻率等信息，有效地提高了搜索引擎的查詢相關(guān)度。通常，用戶的查詢請(qǐng)求包含多個(gè)詞(統(tǒng)計(jì)表明大于2. 5詞)，詞之間的順序在語義上具備較強(qiáng)的關(guān)聯(lián)性。對(duì)于精確串檢索，用戶要求查詢返回的文檔必須包含完整的檢索串。對(duì)于鄰近檢索，檢索結(jié)果集優(yōu)先提供詞出現(xiàn)順序與檢索串一致的文檔。由此可見，用戶請(qǐng)求串在文檔中出現(xiàn)與否，出現(xiàn)頻率等屬性，是文檔相關(guān)性評(píng)價(jià)的重要因素。精確串檢索、鄰近檢索等檢索方式有效地提聞了檢索的相關(guān)性，但檢索過程中需要對(duì)文檔的關(guān)鍵詞位置進(jìn)行匹配計(jì)算，致使檢索速度大幅下降。目前，搜索引擎進(jìn)行用戶提交的精確串檢索請(qǐng)求的處理邏輯如下，首先對(duì)檢索請(qǐng)求涉及的關(guān)鍵詞串進(jìn)行“與”檢索，對(duì)“與”檢索的結(jié)果文檔，進(jìn)行位置判斷，判斷和統(tǒng)計(jì)完整檢索串出現(xiàn)的頻次，然后計(jì)算相關(guān)性。在搜索引擎索引中，一般都采用關(guān)鍵詞到文檔信息的倒排索引結(jié)構(gòu)，每一個(gè)關(guān)鍵詞都出現(xiàn)在它所指向的文檔鏈表的每一個(gè)文檔。對(duì)于在所有文檔中經(jīng)常出現(xiàn)的詞，我們稱其為“高頻詞”，顧名思義就是出現(xiàn)的頻率比較高的詞，比如說“的”、“了”、“我”等。這類關(guān)鍵詞不僅出現(xiàn)的文檔頻率高，在每一篇出現(xiàn)的文檔中，出現(xiàn)的次數(shù)也高，為了后期計(jì)算相關(guān)性的準(zhǔn)確性，在文檔鏈表中都會(huì)記錄文檔中關(guān)鍵詞出現(xiàn)的位置信息，所以在倒排鏈表中，此類關(guān)鍵詞指向的文檔鏈表就相當(dāng)?shù)拇蟆Ｔ倮?，用戶查詢“我的大學(xué)”，搜索引擎的分詞模塊將用戶請(qǐng)求處理成關(guān)鍵詞串“我/的/大學(xué)”，根據(jù)倒排索引，對(duì)“我”、“的”、“大學(xué)”的倒排索引列表，進(jìn)行與操作。對(duì)于同時(shí)包含有上述三個(gè)詞的文檔，讀取三個(gè)詞在文檔中的位置信息，進(jìn)行相應(yīng)統(tǒng)計(jì)判斷。由于檢索關(guān)鍵詞“我”、“的”都是中文文獻(xiàn)中高頻出現(xiàn)的詞，其倒排索引列表長度很長，同時(shí)在文檔中出現(xiàn)的頻率也很高，位置列表也很長，致使整個(gè)查詢過程計(jì)算量巨大，嚴(yán)重影響查詢速度，極端情況下耗時(shí)達(dá)到秒級(jí)以上。傳統(tǒng)的技術(shù)方案，在檢索帶有高頻詞的檢索串的時(shí)候，因?yàn)楦哳l詞在文檔中出現(xiàn)的頻率高，幾乎所有的文檔中都會(huì)出現(xiàn)高頻詞，所以對(duì)于這類的檢索串就需要對(duì)全部文檔計(jì)算一次相關(guān)性，針對(duì)搜索引擎上億個(gè)文檔來說，計(jì)算量是相當(dāng)龐大的，搜索一次很耗時(shí)，不利于用戶的體驗(yàn)。因此，需求提供一種新的索引、檢索方法，能夠克服現(xiàn)有技術(shù)的缺點(diǎn)，在保持相關(guān)性準(zhǔn)確率的情況下，有效地利用計(jì)算機(jī)硬件資源，提高搜索效率，提升用戶的體驗(yàn)。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于，提供一種新的索引、檢索方法，能夠克服現(xiàn)有技術(shù)的缺點(diǎn)，在保持相關(guān)性準(zhǔn)確率的情況下，有效地利用計(jì)算機(jī)硬件資源，提高搜索效率，提升用戶的體驗(yàn)。有鑒于此，本發(fā)明提出一種索引裝置，包括高頻詞處理模塊，在文檔中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；索引建立模塊，根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中，通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中，優(yōu)選地，所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí)，將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí)，例如“我的祖國”中，“的”為高頻詞，對(duì)其進(jìn)行擴(kuò)展時(shí)，前側(cè)的關(guān)鍵詞“我”同樣是高頻詞，則將“的”與“我”組合擴(kuò)展為“我的”，作為新的關(guān)鍵詞用于建立索引。在上述技術(shù)方案中，優(yōu)選地，所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí)，將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合，和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)或字符與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí)，例如“書桌上的鼠標(biāo)墊”，若取“的”作為高頻詞，而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞，則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符，即至少擴(kuò)展為“上的”，當(dāng)然也可以為“桌上的”或其它；而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符，即至少擴(kuò)展為“的鼠”，當(dāng)然也可以為“的鼠標(biāo)”或其它，具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展，可以根據(jù)需要靈活設(shè)定，然后利用擴(kuò)展后得到的新的關(guān)鍵詞建立索引。本發(fā)明還提出了一種索引方法，包括步驟202，高頻詞處理模塊在文檔中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；步驟204，索引建立模塊根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中，通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在該技術(shù)方案中，優(yōu)選地，所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí)，將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí)，例如“我的祖國”中，“的”為高頻詞，對(duì)其進(jìn)行擴(kuò)展時(shí)，前側(cè)的關(guān)鍵詞“我”同樣是高頻詞，則將“的”與“我”組合擴(kuò)展為“我的”，作為新的關(guān)鍵詞用于建立索引。在該技術(shù)方案中，優(yōu)選地，所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí)，將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合，和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)字或字符與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí)，例如“書桌上的鼠標(biāo)墊”，若取“的”作為高頻詞，而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞，則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符，即至少擴(kuò)展為“上的”，當(dāng)然也可以為“桌上的”或其它；而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符，即至少擴(kuò)展為“的鼠”，當(dāng)然也可以為“的鼠標(biāo)”或其它，具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展，可以根據(jù)需要靈活設(shè)定，然后利用擴(kuò)展后得到的新的關(guān)鍵詞建立索引。本發(fā)明還提出了一種檢索裝置，包括高頻詞處理模塊，在檢索串中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；檢索模塊，使用擴(kuò)展得到的新詞，在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中，通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中，優(yōu)選地，還包括如上述的索引裝置，預(yù)建立所述索引。通過技術(shù)方案，結(jié)合按上述技術(shù)方案得到的索引，能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中，優(yōu)選地，所述高頻詞處理模塊還在所述新詞的兩側(cè)添加標(biāo)記；所述檢索模塊根據(jù)所述標(biāo)記，獲取所述新詞，并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù)，以用于為所述文檔計(jì)算相關(guān)性，并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案，采用精確串子查詢，能夠保證檢索的準(zhǔn)確性。本發(fā)明還提出了一種檢索方法，包括步驟402，高頻詞處理模塊在檢索串中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；步驟404，檢索模塊根據(jù)擴(kuò)展得到的新詞，在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中，通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中，優(yōu)選地，在所述步驟404之前，還包括通過如上述的索引方法，預(yù)建立所述索引。通過技術(shù)方案，結(jié)合按上述技術(shù)方案得到的索引，能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中，優(yōu)選地，在所述步驟402中，還包括所述高頻詞處理模塊在所述新詞的兩側(cè)添加標(biāo)記；所述步驟404具體包括所述檢索模塊根據(jù)所述標(biāo)記，獲取所述新詞，并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù)，以用于為所述文檔計(jì)算相關(guān)性，并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案，采用精確串子查詢，能夠保證檢索的準(zhǔn)確性。本發(fā)明還提出了一種檢索系統(tǒng)，包括如上所述的索引裝置；如上所述的檢索裝置，所述檢索裝置使用其生成的新詞，在所述索引裝置建立的索引中進(jìn)行檢索。在該技術(shù)方案中，將利用高頻詞擴(kuò)展生成新關(guān)鍵詞的方式建立的索引對(duì)應(yīng)于同樣采用高頻詞擴(kuò)展方式的檢索過程相關(guān)聯(lián)，形成一個(gè)完整的信息檢索系統(tǒng)，使整個(gè)系統(tǒng)在運(yùn)行時(shí)，可以在現(xiàn)有的計(jì)算機(jī)硬件環(huán)境下，在保證相關(guān)性準(zhǔn)確率的前提下，有效地利用計(jì)算機(jī)的硬件資源，提升用戶體驗(yàn)。

圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引裝置的框圖；圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索裝置的框圖；圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程圖；圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的框圖；圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法中的高頻詞處理流程圖；圖7是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法中的高頻詞處理示意圖；圖8是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程示意圖；圖9是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程示意圖；圖10是現(xiàn)有搜索引擎中使用的數(shù)據(jù)結(jié)構(gòu)的示意圖；圖11是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程示意圖；圖12是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程示意圖。
具體實(shí)施例方式為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn)，下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，但是，本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施，因此，本發(fā)明并不限于下面公開的具體實(shí)施例的限制。首先，關(guān)于本發(fā)明對(duì)減少文檔鏈表的大小、提高檢索效率等優(yōu)勢(shì)的作用原理在此處予以說明。用戶搜索單個(gè)高頻詞的概率很小，且沒有意義，一般的高頻詞查詢都是與其他詞組合而成進(jìn)行查詢的，在此前提下，本發(fā)明提出的方法是將文檔中的高頻詞與高頻詞后面的或者前面的一個(gè)字組合成一個(gè)非高頻關(guān)鍵詞做索引，在做查詢時(shí)，對(duì)于帶高頻詞的查詢串，分詞的時(shí)候可以將高頻詞與非高頻詞組合查詢，減少非命中文檔，提高計(jì)算效率。關(guān)于通過組合高頻詞減少倒排索引中關(guān)鍵詞(本申請(qǐng)中，將對(duì)文檔或檢索串分詞處理后得到的詞稱為關(guān)鍵詞)指向的文檔鏈表的大小，過程如下假設(shè)有一文檔集合U，文檔的個(gè)數(shù)是Nu，文檔集合中包含有高頻詞W1的文檔個(gè)數(shù)是N1 (O < = N1 < = Nu)，所以高頻詞W1出現(xiàn)的概率G1是Fwi =NlZNu另一關(guān)鍵詞W2 (不管是高頻詞還是非高頻詞)出現(xiàn)的文檔個(gè)數(shù)是N2 (O < = N2 < =Nu)，關(guān)鍵詞W2出現(xiàn)的概率&2是Fwi =N2ZNu此時(shí)，若將W1與W2組合成一個(gè)關(guān)鍵詞W1W2 (或者W2W1)，這個(gè)組合關(guān)鍵詞在文檔中出現(xiàn)的概率就是在出現(xiàn)關(guān)鍵詞W1的文檔中查找包含關(guān)鍵詞W2的文檔，概率的大小€^2是Fwiwi =Fwi *FWi=N1* N2/Ni如果W2是非高頻詞，那么N2肯定不會(huì)等于Nu，也就是不是所有的文檔都包含關(guān)鍵詞W2，索引頻率Fw2的大小肯定是ο<=Fw2<1的，因此&lW2肯定小于' ,也就是組合串W1W2的倒排索引指向的文檔鏈表大小減少。
如果W2是高頻詞，那么N2有可能等于Nu，即可能所有的文檔都包含關(guān)鍵詞W2,這時(shí)如果高頻詞W1出現(xiàn)的文檔數(shù)N1等于Nu，在不考慮位置的情況下，仏lW2出現(xiàn)的概率是1，如果考慮位置，W1與W2必須出現(xiàn)在一起，那&&出現(xiàn)的概率肯定比Fwi出現(xiàn)的概率低。因此，通過上述分析可以得知，當(dāng)檢索關(guān)鍵詞中存在高頻詞W1時(shí)，若與其前側(cè)或后側(cè)的詞W2進(jìn)行組合，無論W2是否為高頻詞，則組合后的新關(guān)鍵詞W1W2(或W2W1)對(duì)應(yīng)倒排索引指向的文檔鏈表會(huì)減小。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引裝置的框圖。如圖1所示，本發(fā)明提出一種索引裝置100，包括高頻詞處理模塊102，在文檔中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；索引建立模塊104，根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中，通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中，所述高頻詞處理模塊102在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí)，將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞·前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí)，例如“我的祖國”中，“的”為高頻詞，對(duì)其進(jìn)行擴(kuò)展時(shí)，前側(cè)的關(guān)鍵詞“我”同樣是高頻詞，則將“的”與“我”組合擴(kuò)展為“我的”，作為新的關(guān)鍵詞用于建立索引。在上述技術(shù)方案中，所述高頻詞處理模塊102在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí)，將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合，和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)或字符與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí)，例如“書桌上的鼠標(biāo)墊”，若取“的”作為高頻詞，而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞，則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符，即至少擴(kuò)展為“上的”，當(dāng)然也可以為“桌上的”或其它；而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符，即至少擴(kuò)展為“的鼠”，當(dāng)然也可以為“的鼠標(biāo)”或其它，具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展，可以根據(jù)需要靈活設(shè)定，然后利用擴(kuò)展·后得到的新的關(guān)鍵詞建立索引。
·
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的索引方法的流程圖。如圖2所示，本發(fā)明還提出了一種索引方法，包括步驟202，高頻詞處理模塊在文檔中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；步驟204，索引建立模塊根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中，通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在該技術(shù)方案中，所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí)，將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞也是高頻詞時(shí)，例如“我的祖國”中，“的”為高頻詞，對(duì)其進(jìn)行擴(kuò)展時(shí)，前側(cè)的關(guān)鍵詞“我”同樣是高頻詞，則將“的”與“我”組合擴(kuò)展為“我的”，作為新的關(guān)鍵詞用于建立索引。在該技術(shù)方案中，所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí)，將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合，和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)字或字符與所述當(dāng)前詞組合，以形成所述新詞。在該技術(shù)方案中，在高頻詞前側(cè)和/或后側(cè)的關(guān)鍵詞均為非高頻詞時(shí)，例如“書桌上的鼠標(biāo)墊”，若取“的”作為高頻詞，而前側(cè)“書桌上”和后側(cè)的“鼠標(biāo)墊”均為非高頻詞，則與前側(cè)非高頻詞組合擴(kuò)展的方式為取前側(cè)關(guān)鍵詞的最后的至少一個(gè)字或字符，即至少擴(kuò)展為“上的”，當(dāng)然也可以為“桌上的”或其它；而與后側(cè)非高頻詞組合擴(kuò)展的方式為取后側(cè)關(guān)鍵詞的最前的至少一個(gè)字或字符，即至少擴(kuò)展為“的鼠”，當(dāng)然也可以為“的鼠標(biāo)”或其它，具體選用幾個(gè)字或字符進(jìn)行擴(kuò)展，可以根據(jù)需要靈活設(shè)定，然后利用擴(kuò)展后得到的新的關(guān)鍵詞建立索引。圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索裝置的框圖。如圖3所示，本發(fā)明還提出了一種檢索裝置300，包括高頻詞處理模塊302，在檢索串中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；檢索模塊304，使用擴(kuò)展得到的新詞，在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中，通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中，還包括如上述的索引裝置100，預(yù)建立所述索引。通過技術(shù)方案，結(jié)合按上述技術(shù)方案得到的索引，能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中，所述高頻詞處理模塊302還在所述新詞的兩側(cè)添加標(biāo)記；所述檢索模塊304根據(jù)所述標(biāo)記，獲取所述新詞，并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù)，以用于為所述文檔計(jì)算相關(guān)性，并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案，采用精確串子查詢，能夠保證檢索的準(zhǔn)確性。圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程圖。如圖4所示，本發(fā)明還提出了一種檢索方法，包括步驟402，高頻詞處理模塊在檢索串中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；步驟404，檢索模塊根據(jù)擴(kuò)展得到的新詞，在預(yù)建立的索引中進(jìn)行檢索。在該技術(shù)方案中，通過對(duì)檢索串關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞來檢索索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。在上述技術(shù)方案中，在所述步驟404之前，還包括通過如上述的索引方法，預(yù)建立所述索引。通過技術(shù)方案，結(jié)合按上述技術(shù)方案得到的索引，能夠進(jìn)一步優(yōu)化檢索。在上述技術(shù)方案中，在所述步驟402中，還包括所述高頻詞處理模塊在所述新詞的兩側(cè)添加標(biāo)記；所述步驟404具體包括所述檢索模塊根據(jù)所述標(biāo)記，獲取所述新詞，并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù)，以用于為所述文檔計(jì)算相關(guān)性，并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。通過該技術(shù)方案，采用精確串子查詢，能夠保證檢索的準(zhǔn)確性。圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的框圖。如圖5所示，本發(fā)明還提出了一種檢索系統(tǒng)500，包括如上所述的索引裝置100 ；如上所述的檢索裝置300，所述檢索裝置300使用其生成的新詞，在所述索引裝置100建立的索引中進(jìn)行檢索。在該技術(shù)方案中，將利用高頻詞擴(kuò)展生成新關(guān)鍵詞的方式建立的索引對(duì)應(yīng)于同樣采用高頻詞擴(kuò)展方式的檢索過程相關(guān)聯(lián)，形成一個(gè)完整的信息檢索系統(tǒng)，使整個(gè)系統(tǒng)在運(yùn)行時(shí)，可以在現(xiàn)有的計(jì)算機(jī)硬件環(huán)境下，在保證相關(guān)性準(zhǔn)確率的前提下，有效地利用計(jì)算機(jī)的硬件資源，提升用戶體驗(yàn)。以下詳細(xì)說明本發(fā)明的技術(shù)方案。在用戶使用搜索串搜索信息的時(shí)候，高頻詞一般是與其它詞組合后進(jìn)行搜索的，因?yàn)閱为?dú)搜索高頻詞是沒有任何意義的，比如說用戶想搜索帶有“我的中國”字符串的文檔，用戶肯定是拿搜索串“我的中國”去檢索，而不是搜索一個(gè)“的”字，然后在結(jié)果中用人眼去遍歷是否含有“我的中國”字符串的文檔。高頻詞與它在檢索串中的前后兩個(gè)關(guān)鍵詞密切相關(guān)，在檢索串中如果出現(xiàn)高頻詞，那用戶肯定是想要與檢索串中它前后兩個(gè)詞的位置信息完全的匹配的結(jié)果，如果不需要位置信息匹配，則完全可以去掉高頻詞，假如用戶搜索“我的中國”，那用戶是想要文檔中有“我的中國”這四個(gè)字的文檔，搜索“我中國”，那用戶是想要文檔中包含“我”和“中國”這兩個(gè)詞的文檔，所以用戶搜索帶有高頻詞的檢索串，目的是連接它左右兩個(gè)結(jié)果，確定左右兩個(gè)關(guān)鍵詞在文檔中的位置關(guān)系(既必須出現(xiàn)在當(dāng)前高頻詞的左右兩端)?；谶@種情況，在本發(fā)明的實(shí)施例的技術(shù)方案中，建索引的時(shí)候，將高頻詞擴(kuò)展，與它在文檔中的前后兩個(gè)字連接組成新的關(guān)鍵詞。高頻詞與其在文檔中緊挨的兩個(gè)詞的組合關(guān)鍵詞做索引，檢索效率會(huì)更快，本發(fā)明的實(shí)施例中所提出的技術(shù)方案是高頻詞與其文檔中緊挨的兩個(gè)字組合關(guān)鍵詞做索引。這是因?yàn)殛P(guān)鍵詞的數(shù)量很大，并且每天都有新詞出現(xiàn)，那高頻詞與詞組合的新關(guān)鍵詞的數(shù)量也同樣非常大，如果現(xiàn)在有N個(gè)高頻詞，詞的總數(shù)是M (包含非高頻詞和高頻詞)，高頻詞組合的關(guān)鍵詞數(shù)量最大值達(dá)到N*M，為了檢索的速度，一般索引的關(guān)鍵詞列表都放在計(jì)算機(jī)內(nèi)存中，內(nèi)存的大小也制約著關(guān)鍵詞列表的大小，對(duì)聞?lì)l詞組合后，關(guān)鍵詞列表的大小增加了N倍，很有可能導(dǎo)致內(nèi)存不能滿足關(guān)鍵詞列表。而高頻詞加字的組合，單個(gè)字的個(gè)數(shù)有限，高頻詞與字組合的關(guān)鍵詞的數(shù)量最多為不同的單個(gè)字?jǐn)?shù)量的兩倍，內(nèi)存是可以放下的。高頻詞組合過程如圖6所示。首先要組合的兩個(gè)關(guān)鍵詞中有一個(gè)必須是高頻詞，不然對(duì)于兩個(gè)非高頻詞就沒有組合的必要。過程如下步驟602，確認(rèn)緊挨的詞WlWl中，至少有一個(gè)是高頻詞。步驟604，判斷關(guān)鍵詞Wl與關(guān)鍵詞W2是不是都是高頻詞，如果是進(jìn)行步驟606，如果不是進(jìn)行步驟608。步驟606，將關(guān)鍵詞Wl與關(guān)鍵詞W2連接組合成新的關(guān)鍵詞，組合過程結(jié)束。步驟608，判斷Wl是不是高頻詞。如果是，進(jìn)入步驟610，如果不是，進(jìn)入步驟612。步驟610，將Wl與W2的第一個(gè)漢字或者字符組合形成新的關(guān)鍵詞(W2的第一個(gè)字符如果是漢字則與漢字組合，如果是非漢字，則與第一個(gè)字符組合)，組合過程結(jié)束。步驟612，將W2與Wl的第一個(gè)漢字或者字符組成新的關(guān)鍵詞(Wl的第一個(gè)字符如果是漢字則與漢字組合，如果是非漢字，則與第一個(gè)字符組合)，組合過程結(jié)束。例如圖7 所示，有字符串 “ala2a3a4a5blb2b3b4b5clc2c3c4c5”，被切詞成 Wl 詞 “ala2a3a4a5”、W2 詞 “blb2b3b4b5”、W3 詞 “clc2c3c4c5”。如果 W2 是高頻詞，W2將與Wl和W2都組合一個(gè)新的關(guān)鍵詞，如果Wl是高頻詞，那W2與Wl組合的新關(guān)鍵詞是“ala2a3a4a5blb2b3b4b5”，如果Wl是非高頻詞，那W2與Wl組合的新關(guān)鍵詞是“a5blb2b3b4b5”，這里如果a5是漢字的話，將占2個(gè)字符(GBK編碼漢字占兩個(gè)字符)，如果是非漢字占一個(gè)字符。如果W3是高頻詞，那W2與W3組合的新關(guān)鍵詞是“blb2b3b4b5clc2c3c4c5”，如果W3是非高頻詞，那么W2與W3組合的新關(guān)鍵詞是“blb2b3b4b5cl”，Cl是漢字的話，將占2個(gè)字符，如果是非漢字占一個(gè)字符。與傳統(tǒng)高頻詞索引不同的是，本實(shí)施例的技術(shù)方案中，添加了高頻詞的組合詞來做索引，索引過程與檢索過程跟傳統(tǒng)模式就不一樣，如圖8所示索引過程步驟802，對(duì)新文檔數(shù)據(jù)進(jìn)行切詞。切詞后的文檔數(shù)據(jù)中，有高頻詞的話，高頻詞是獨(dú)立的，沒有組合。步驟804，對(duì)文檔中高頻詞按圖7所示的方式進(jìn)行組合。統(tǒng)計(jì)組合后的文檔關(guān)鍵詞詞頻，位置信息。步驟806，按關(guān)鍵詞信息，添加文檔信息到倒排索引庫中，直至加載文檔結(jié)束。而對(duì)應(yīng)的檢索過程如圖9所示步驟902，接收用戶輸入的帶高頻詞的檢索串。步驟904，對(duì)檢索串進(jìn)行切詞。步驟906，分析切詞后的數(shù)據(jù)，在用戶的檢索串中存在高頻詞或者是獨(dú)立的高頻詞(不排除用戶只查高頻詞的特殊情況)，對(duì)檢索串中的高頻詞與前后詞進(jìn)行組合。組合后的關(guān)鍵詞中可能有重合的關(guān)鍵詞，高頻詞與前后詞組合，所以位置上不是依次出現(xiàn)的。步驟908，依照切詞后的關(guān)鍵詞檢索索引庫。按照位置信息，排除位置重合。步驟910，計(jì)算相關(guān)性，輸出最相關(guān)的TopN個(gè)結(jié)果。例如，在查詢帶高頻詞的檢索串時(shí)，對(duì)組合后的新關(guān)鍵詞要做標(biāo)記，表示新詞是由兩個(gè)詞組合而成的新關(guān)鍵詞，一般采用在組合的新關(guān)鍵詞后加做標(biāo)記，如圖7所示字符串“ala2a3a4a5blb2b3b4b5clc2c3c4c5”做查詢串時(shí)，切分為Wl、W2、W3三個(gè)關(guān)鍵詞，假設(shè)W2為聞?lì)l詞,組合后的新關(guān)鍵詞有“ala2aa3a4a5blb2b3b4b5#，，Wl 是高頻詞，“a5blb2b3b4b5#”Wl 是非高頻詞，“blb2b3b4b5clc2c3c4c5#”W3 是高頻詞，“blb2b3b4b5cl#”W3 是非高頻詞。所有的新詞后面都帶有標(biāo)記符號(hào)“#，，，用以區(qū)分一般的非高頻關(guān)鍵詞。以下繼續(xù)說明本發(fā)明的技術(shù)方案。目前，主流的搜索引擎主要依賴于詞典文件、倒排列表文件、位置列表文件等三個(gè)數(shù)據(jù)結(jié)構(gòu)實(shí)施檢索操作邏輯，如圖10所示。其中，詞典文件記錄詞和詞的倒排文檔列表在倒排列表文件中的偏移信息。倒排列表文件記錄了所有詞的倒排文檔列表數(shù)據(jù)。位置列表文件記錄所有詞的在文檔中出現(xiàn)的位置信息。由于高頻詞頻繁出現(xiàn)在文檔集中(有些詞出現(xiàn)在70%的文檔中)，同時(shí)在單片文檔中出現(xiàn)的頻率也很高，因此，詞對(duì)應(yīng)的倒排列表長度和位置列表長度都很長。本發(fā)明的實(shí)施例提出在索引建立過程中，將高頻詞與其前后出現(xiàn)的詞進(jìn)行某種方式的組合，形成高頻級(jí)聯(lián)詞，并設(shè)置高頻級(jí)聯(lián)詞的位置為原詞位置。在檢索時(shí)，對(duì)用戶提交檢索請(qǐng)求串進(jìn)行相同的處理，將對(duì)高頻詞的查詢,替換成高頻級(jí)聯(lián)詞的查詢。由于，高頻級(jí)聯(lián)詞的在文檔集合和在單片文檔中出現(xiàn)頻率都遠(yuǎn)低于原高頻詞，因此大大減少了需要進(jìn)行“與”操作和位置計(jì)算的規(guī)模，有效提高了串檢索的速度，并不損失查詢正確性。建立索引的整體技術(shù)方案如圖11所示
具體包括步驟1102，判斷是否有需要進(jìn)行索引的文檔。步驟1104，讀取待索引的文檔。步驟1106，對(duì)文檔進(jìn)行分詞和位置標(biāo)記。步驟1108，對(duì)高頻詞進(jìn)行級(jí)聯(lián)處理。步驟1110，將生成的索引添加到索引庫。高頻級(jí)聯(lián)詞的處理邏輯如下，首先對(duì)輸入文本進(jìn)行分詞、位置標(biāo)記處理，生成正排索引，其他步驟如下步驟1202，依次讀取正排索引的詞。步驟1204，判斷是否還有詞，是則進(jìn)入步驟1206，否則結(jié)束操作。步驟1206，根據(jù)預(yù)先生成的高頻詞表，對(duì)正排索引中的每一個(gè)詞進(jìn)行過濾，判斷是否是高頻詞。如果非高頻詞，則進(jìn)入步驟1208，否則，返回步驟1204。步驟1208，析該詞前面的詞。如果前詞存在，進(jìn)入步驟1210，不存在則進(jìn)入步驟1214。步驟1210，判斷前詞是否為高頻詞，是則進(jìn)入步驟1214，否則進(jìn)入步驟1212。步驟1212，將前詞的第一個(gè)中文字(如果是英文單詞，則取單詞的第一個(gè)字符)和該詞組成新詞。步驟1214,分析該詞后面的詞。如果后詞存在，進(jìn)入步驟1216,否則返回步驟1204。步驟1216，判斷后詞是否為高頻詞，是則進(jìn)入步驟1218，否則進(jìn)入步驟1220。步驟1218，則將該詞與后詞進(jìn)行組合，生成高頻級(jí)聯(lián)詞，并將高頻級(jí)聯(lián)詞的位置記錄為當(dāng)前詞的位置。步驟1220，如果后詞存在，并且非高頻詞，則將該詞與后詞的第一個(gè)中文字(如果是英文單詞，則取單詞的第一個(gè)字符)進(jìn)行組合。步驟1222，為新詞加上級(jí)聯(lián)標(biāo)記符號(hào)，生成高頻級(jí)聯(lián)詞。步驟1224，將高頻級(jí)聯(lián)詞的位置記錄為當(dāng)前位置，插入到正排索引。級(jí)聯(lián)標(biāo)記符號(hào)可以是任意一個(gè)不參與索引和檢索的符號(hào)。本系統(tǒng)為了表述方便，選取“#”作為級(jí)聯(lián)標(biāo)記符號(hào)。由于級(jí)聯(lián)標(biāo)記符號(hào)不參與索引和檢索，因此由分詞模塊生成的正常分詞結(jié)果中不會(huì)包含高頻級(jí)聯(lián)詞，不會(huì)產(chǎn)生沖突。例如，索引建立過程中，對(duì)于文檔“我的大學(xué)非常美麗”，進(jìn)行切詞、詞位置標(biāo)記處理后為(我，1)/(的，2)/(大學(xué)，3)/(非常，4)/(美麗，5)通過高頻詞表查詢，可以獲知“我”和“的”為高頻詞，進(jìn)行高頻級(jí)聯(lián)詞處理邏輯，處理后需要建立索引的正排文檔如下(我，1)/(#我的 #，1)/(的，2)/(# 的大 #，2)/(大學(xué)，3)/(非常，4)/(美麗，5)針對(duì)上述正排文檔，按照正常處理邏輯，建立倒排文檔。(我的，I)、(的大，2)是高頻級(jí)聯(lián)詞索引項(xiàng)。串查詢過程也進(jìn)行同樣的處理邏輯。比如，對(duì)于串查詢請(qǐng)求“我的大學(xué)”，進(jìn)行切詞、詞位置標(biāo)記處理后為(我，1)/(的，2)/(大學(xué)，3)進(jìn)行高頻級(jí)聯(lián)詞處理邏輯，獲得最終檢索詞項(xiàng)集合
(我，l)/(#我的 #，1)/(的，2)/(# 的大 #，2)/(大學(xué)，3)檢索階段，串檢索邏輯只需對(duì)查詢集合(我的，1)/(的大，2)/(大學(xué)，3)進(jìn)行檢索，首先讀取“我的”、“的大”、“大學(xué)”的倒排列表，進(jìn)行“與”邏輯的檢索。對(duì)于包含上述三詞的文檔，讀取三個(gè)詞的位置列表信息，采用一定方法，判斷各詞是否順序出現(xiàn)。僅當(dāng)三個(gè)詞順序出現(xiàn)，統(tǒng)計(jì)出現(xiàn)次數(shù)，以此作為相關(guān)性評(píng)價(jià)的因素。顯然，“#我的#”、“#的大#”的出現(xiàn)頻率遠(yuǎn)低于“我”、“的”，其倒排索引列表和位置列表長度都遠(yuǎn)小有后者，大大的減少計(jì)算量，提高了檢索速度。高頻級(jí)聯(lián)詞的加入增大了搜索引擎詞表的大小，同時(shí)也增加了倒排文檔列表文件和位置文件的規(guī)模?；诓樵冃士紤]，搜索引擎在運(yùn)行狀態(tài)通常將詞典文件導(dǎo)入內(nèi)存中。理論上，高頻級(jí)聯(lián)詞生成模塊可能產(chǎn)生2*n*n+2*n*m個(gè)新詞，其中，η為高頻詞的個(gè)數(shù)，m為漢字和英文字母的個(gè)數(shù)，由于級(jí)聯(lián)方向的原因，詞的個(gè)數(shù)需要乘2。但，由于文檔通常符合一定的語法語用規(guī)則，在實(shí)際文本索引過程中產(chǎn)生的新詞要遠(yuǎn)小于理論值。通過控制n、m的值，新生成詞的規(guī)模可以控制在目前運(yùn)行態(tài)檢索服務(wù)器硬件內(nèi)存可接受的范圍之內(nèi)。倒排文檔列表文件和位置文件都保存于磁盤，其規(guī)模上的增長，并沒有帶來檢索性能的損失。由此，高頻級(jí)聯(lián)詞處理策略，通過空間換時(shí)間的方法，大幅提高了檢索中串查找和頻率計(jì)算的效率，提高了檢索速度。綜上所述，根據(jù)本發(fā)明的技術(shù)方案，可以實(shí)現(xiàn)索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)，在搜索引擎的文檔索引和檢索過程，將高頻詞與前后詞就進(jìn)行某種方式的組合，形成高頻級(jí)聯(lián)詞進(jìn)行索引，在檢索階段，用高頻級(jí)聯(lián)詞替代原高頻詞參與檢索。由于高頻級(jí)聯(lián)詞的倒排列表長度和位置列表長度遠(yuǎn)小于原高頻詞，從而大大減少了檢索過程中串查找和串頻統(tǒng)計(jì)的運(yùn)算量，在保證檢索準(zhǔn)確性的同時(shí)，大幅提聞了檢索的效率。本發(fā)明考慮了計(jì)算機(jī)硬件環(huán)境下，針對(duì)目前傳統(tǒng)的索引結(jié)構(gòu)，解決了帶有高頻詞的串檢索計(jì)算量大，速度慢的問題，用有限的空間資源換取時(shí)間上快速查詢，提高用戶體驗(yàn)。以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案，通過對(duì)所述高頻詞進(jìn)行擴(kuò)展組合為新的關(guān)鍵詞，并利用該組合關(guān)鍵詞建立索引庫及進(jìn)行檢索，從而在現(xiàn)有的計(jì)算機(jī)硬件環(huán)境下，在保證相關(guān)性準(zhǔn)確率的前提下，利用有限的空間資源實(shí)現(xiàn)檢索效率的有效提高，提升用戶體驗(yàn)。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種索引裝置，其特征在于，包括高頻詞處理模塊，在文檔中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；索引建立模塊，根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。
2.根據(jù)權(quán)利要求1所述的索引裝置，其特征在于，所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí)，將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合，以形成所述新詞。
3.根據(jù)權(quán)利要求1所述的索引裝置，其特征在于，所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí)，將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合，和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)或字符與所述當(dāng)前詞組合，以形成所述新詞。
4.一種索引方法，其特征在于，包括步驟202，高頻詞處理模塊在文檔中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；步驟204，索引建立模塊根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。
5.根據(jù)權(quán)利要求4所述的索引方法，其特征在于，所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞也為高頻詞時(shí)，將所述前側(cè)詞和/或所述后側(cè)詞與所述當(dāng)前詞組合，以形成所述新詞。
6.根據(jù)權(quán)利要求4所述的索引方法，其特征在于，所述步驟202具體包括所述高頻詞處理模塊在所述前側(cè)詞和/或所述后側(cè)詞為非高頻詞時(shí)，將所述前側(cè)詞中最后的至少一個(gè)字或字符與所述當(dāng)前詞組合，和/或?qū)⑺龊髠?cè)詞中最前的至少一個(gè)字或字符與所述當(dāng)前詞組合，以形成所述新詞。
7.一種檢索裝置，其特征在于，包括高頻詞處理模塊，在檢索串中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；檢索模塊，使用擴(kuò)展得到的新詞，在預(yù)建立的索引中進(jìn)行檢索。
8.根據(jù)權(quán)利要求7所述的檢索裝置，其特征在于，還包括如權(quán)利要求1至4中任一項(xiàng)所述的索引裝置，預(yù)建立所述索引。
9.根據(jù)權(quán)利要求8所述的檢索裝置，其特征在于，所述高頻詞處理模塊還在所述新詞的兩側(cè)添加標(biāo)記；所述檢索模塊根據(jù)所述標(biāo)記，獲取所述新詞，并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù)，以用于為所述文檔計(jì)算相關(guān)性，并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。
10.一種檢索方法，其特征在于，包括步驟402，高頻詞處理模塊在檢索串中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；步驟404，檢索模塊根據(jù)擴(kuò)展得到的新詞，在預(yù)建立的索引中進(jìn)行檢索。
11.根據(jù)權(quán)利要求10所述的檢索方法，其特征在于，在所述步驟404之前，還包括通過如權(quán)利要求4至6中任一項(xiàng)所述的索引方法，預(yù)建立所述索引。
12.根據(jù)權(quán)利要求11所述的檢索方法，其特征在于，在所述步驟402中，還包括所述高頻詞處理模塊在所述新詞的兩側(cè)添加標(biāo)記；所述步驟404具體包括所述檢索模塊根據(jù)所述標(biāo)記，獲取所述新詞，并統(tǒng)計(jì)所述新詞在所述文檔中順序出現(xiàn)的次數(shù)，以用于為所述文檔計(jì)算相關(guān)性，并根據(jù)得到的相關(guān)性來選取作為檢索結(jié)果的文檔。
13.一種檢索系統(tǒng)，其特征在于，包括權(quán)利要求1至3中任一項(xiàng)所述的索引裝置；權(quán)利要求7至9中任一項(xiàng)所述的檢索裝置，所述檢索裝置使用其生成的新詞，在所述索引裝置建立的索引中進(jìn)行檢索。
全文摘要
本發(fā)明提出一種索引裝置，包括高頻詞處理模塊，在文檔中的當(dāng)前詞為高頻詞時(shí)，根據(jù)所述當(dāng)前詞鄰接的前側(cè)詞和/或后側(cè)詞，對(duì)所述當(dāng)前詞進(jìn)行擴(kuò)展；索引建立模塊，根據(jù)擴(kuò)展得到的新詞和所述文檔建立索引。在該技術(shù)方案中，通過對(duì)文檔關(guān)鍵詞中的高頻詞進(jìn)行擴(kuò)展處理，降低了關(guān)鍵詞中高頻詞的數(shù)量，避免了利用大量高頻詞建立索引而導(dǎo)致過高的檢索量和過長的檢索時(shí)間。本發(fā)明還提供索引方法、檢索裝置、檢索方法和檢索系統(tǒng)。
文檔編號(hào)G06F17/30GK103064840SQ201110319548
公開日2013年4月24日申請(qǐng)日期2011年10月20日優(yōu)先權(quán)日2011年10月20日
發(fā)明者許歡慶, 吳尉林, 夏亮, 郭永福, 陳沛申請(qǐng)人:北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許歡慶;吳尉林;夏亮;郭永福;陳沛
技術(shù)所有人：北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司
我是此專利的發(fā)明人

上一篇：檢索裝置和檢索方法
上一篇：一種遺留物檢測方法及裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

法律法規(guī)檢索系統(tǒng)相關(guān)技術(shù)

中國專利檢索系統(tǒng)相關(guān)技術(shù)

圖書檢索系統(tǒng)相關(guān)技術(shù)

專利之星檢索系統(tǒng)相關(guān)技術(shù)

圖書館書目檢索系統(tǒng)相關(guān)技術(shù)

全宋詩檢索系統(tǒng)相關(guān)技術(shù)

中國法律法規(guī)檢索系統(tǒng)相關(guān)技術(shù)

萬象云檢索系統(tǒng)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)的制作方法

索引裝置、索引方法、檢索裝置、檢索方法和檢索系統(tǒng)的制作方法