两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種數(shù)據(jù)檢索方法及一種數(shù)據(jù)檢索系統(tǒng)的制作方法

文檔序號(hào):6613616閱讀:218來(lái)源:國(guó)知局
專利名稱:一種數(shù)據(jù)檢索方法及一種數(shù)據(jù)檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)檢索領(lǐng)域,特別涉及一種用于網(wǎng)站數(shù)據(jù)檢索的數(shù)據(jù) 檢索方法及數(shù)據(jù)檢索系統(tǒng)。
背景技術(shù)
眾所周知,利用索引查詢技術(shù)可以迅速?gòu)臄?shù)據(jù)源中找到符合條件的 數(shù)據(jù),而不必掃描整個(gè)數(shù)據(jù)源,從而可以有效提高檢索效率和系統(tǒng)性能, 隨著網(wǎng)站信息量的增多和產(chǎn)品的網(wǎng)絡(luò)化轉(zhuǎn)移,這種索引查詢技術(shù)常用于 網(wǎng)站數(shù)據(jù)沖企索中。在實(shí)際中,網(wǎng)站數(shù)據(jù)檢索的需求是各種各樣的,例如,檢索需要針對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行;檢索需要針對(duì)論壇資源進(jìn)行;檢索需要針對(duì)數(shù)據(jù)庫(kù)的 內(nèi)容進(jìn)行等,可以理解的是,不同的檢索需求,可能對(duì)應(yīng)不同的數(shù)據(jù)格 式,在這種情況下,現(xiàn)有技術(shù)的處理方法是,針對(duì)不同數(shù)據(jù)格式的檢索 需求單獨(dú)編寫程序,例如,根據(jù)某個(gè)檢索需求建立索引,將檢索的過(guò)程 封裝成API;對(duì)于新的^r索需求,則重新建立新的索引,再重新組織API。 可以看出,這種現(xiàn)有技術(shù)的處理方法需要針對(duì)新的檢索需求重新編寫程 序,當(dāng)需要實(shí)現(xiàn)新的檢索時(shí),則需要重新編寫一套檢索程序,創(chuàng)建新的 檢索系統(tǒng),所花費(fèi)的代價(jià)與成本極高。而且,在實(shí)際中,這種現(xiàn)有技術(shù)的處理方法往往是將檢索結(jié)果和數(shù) 據(jù)與顯示頁(yè)面的代碼混合在一起處理,當(dāng)結(jié)果顯示需求發(fā)生變化時(shí),還 需要修改原來(lái)的程序,例如,當(dāng)頁(yè)面設(shè)計(jì)修改時(shí),還需要程序開發(fā)人員 協(xié)作美工人員對(duì)相應(yīng)的原始程序做相應(yīng)修改,不僅嚴(yán)重浪費(fèi)成本,還不 利于檢索結(jié)果顯示的靈活性。因此,本領(lǐng)域技術(shù)人員迫切需要發(fā)展出一種可以有效節(jié)省成本、方 便顯示結(jié)果調(diào)整的數(shù)據(jù)檢索方法及數(shù)據(jù)檢索系統(tǒng)
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種數(shù)據(jù)檢索方法,用以節(jié)省檢 索實(shí)現(xiàn)的成本,并提高檢索結(jié)果顯示的靈活性。本發(fā)明還提供了 一種數(shù)據(jù)檢索系統(tǒng),用以保證上述方法在實(shí)際中的 實(shí)現(xiàn)及應(yīng)用。為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例公開了一種數(shù)據(jù)檢索方法,包括確定檢索所需的數(shù)據(jù)源;提取所述數(shù)據(jù)源的字段,并針對(duì)各個(gè)字段設(shè)置配置參數(shù),所述配置參數(shù)包括存儲(chǔ)方式參數(shù)和索引方式參數(shù);依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件;根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng)的檢索結(jié)果。優(yōu)選的是,所述配置參數(shù)位于配置文件或配置表中。優(yōu)選的是,所述索引文件具有索引文件標(biāo)識(shí),所述檢索結(jié)果的獲取步驟進(jìn)一步包括根據(jù)用戶的檢索需求生成檢索信息,所述檢索信息包括索引文件標(biāo) 識(shí)、;險(xiǎn)索字段信息和關(guān)鍵詞;根據(jù)所述檢索信息獲取相應(yīng)的檢索結(jié)果。優(yōu)選的是,所述檢索結(jié)果為根據(jù)所述索引文件的檢索字段信息查找 到的,包含所述關(guān)4走詞的記錄。優(yōu)選的是,所述的方法,還包括 以XML格式返回所述檢索結(jié)果。優(yōu)選的是,所述檢索信息還包括檢索結(jié)果顯示位置信息和顯示數(shù)量 信息,所述的方法還包括解析所述XML格式的檢索結(jié)果;按照所述檢索結(jié)果顯示位置信息和顯示數(shù)量信息顯示所述檢索結(jié)果。本發(fā)明實(shí)施例還公開了一種數(shù)據(jù)檢索系統(tǒng),包括 確定單元,用于確定檢索所需的數(shù)據(jù)源;
提取單元,用于提取所述數(shù)據(jù)源的字段;配置單元,用于針對(duì)各個(gè)字段設(shè)置配置參數(shù),所述配置參數(shù)包括存儲(chǔ)方式參數(shù)和索引方式參數(shù);索引創(chuàng)建單元,用于依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件; 檢索單元,用于根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng)的檢索結(jié)果。優(yōu)選的是,所述配置參數(shù)位于配置文件或配置表中。 優(yōu)選的是,所述索引文件具有索引文件標(biāo)識(shí),所述檢索單元進(jìn)一步 包括生成子單元,用于根據(jù)用戶的檢索需求生成檢索信息,所述檢索信 息包括索引文件標(biāo)識(shí)、檢索字段信息和關(guān)鍵詞;獲取子單元,用于根據(jù)所述檢索信息獲取相應(yīng)的檢索結(jié)果。優(yōu)選的是,所述的系統(tǒng),還包括返回單元,用于以XML格式返回所述檢索結(jié)果。優(yōu)選的是,所述檢索信息還包括檢索結(jié)果顯示位置信息和顯示數(shù)量 信息,所述的系統(tǒng)還包括解析單元,用于解析所述XML格式的檢索結(jié)果;顯示單元,用于按照所述檢索結(jié)果顯示位置信息和顯示數(shù)量信息顯 示所述檢索結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn)首先,應(yīng)用本發(fā)明針對(duì)不同的檢索需要,只需要設(shè)置相應(yīng)數(shù)據(jù)源的 配置參數(shù),然后按照該配置參數(shù)建立索引即可,從而無(wú)需針對(duì)每個(gè)檢索 需求重新編寫程序和創(chuàng)建新的檢索系統(tǒng),有效節(jié)省了資源成本和開發(fā)成本;再者,所述配置參數(shù)可由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況任意設(shè)置, 具有較好的可擴(kuò)展性;此外,本發(fā)明在檢索過(guò)程中,可以包含顯示格式參數(shù),該參數(shù)用于 設(shè)置檢索結(jié)果的顯示格式,當(dāng)需要對(duì)頁(yè)面進(jìn)行修改時(shí),只需要調(diào)整該顯 示格式參數(shù)即可,使美工人員和相關(guān)程序人員的工作分離開來(lái),有效提
高了檢索結(jié)果顯示的靈活性;最后,本發(fā)明對(duì)于服務(wù)提供商來(lái)說(shuō),技術(shù)實(shí)現(xiàn)簡(jiǎn)單,無(wú)技術(shù)障礙, 無(wú)特殊保密算法,成本和風(fēng)險(xiǎn)較低。


圖1是本發(fā)明的一種數(shù)據(jù)檢索方法實(shí)施例的流程圖;圖2是本發(fā)明的一種數(shù)據(jù)檢索系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖;圖3是應(yīng)用圖2所示的優(yōu)選實(shí)施例進(jìn)行數(shù)據(jù)檢索的流程圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合 附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明實(shí)施例的核心構(gòu)思之一在于,在實(shí)現(xiàn)新的檢索需求時(shí),提取 其可變因素,將其設(shè)為配置參數(shù),使用戶可以根據(jù)需求靈活設(shè)置。然后, 依據(jù)相應(yīng)的配置參數(shù)建立索引或更新索引,即針對(duì)不同的檢索需要,只 需要修改相應(yīng)的配置文件即可,有效節(jié)省了資源成本和開發(fā)成本;本發(fā) 明還通過(guò)將檢索結(jié)果的顯示和檢索過(guò)程分離開,當(dāng)檢索結(jié)果的顯示需求 發(fā)生變化時(shí),也只需要調(diào)整檢索信息中顯示格式參數(shù),即可獲得所需的 檢索結(jié)果顯示,而無(wú)需修改原來(lái)的程序。參考圖1,示出了本發(fā)明的一種數(shù)據(jù)檢索方法實(shí)施例的流程圖,具體 可以包括以下步驟步驟IOI、確定檢索所需的數(shù)據(jù)源;步驟102、提取所述數(shù)據(jù)源的字段,并針對(duì)各個(gè)字段設(shè)置配置參數(shù); 其中,所述配置參數(shù)包括存儲(chǔ)方式參數(shù)和索引方式參數(shù)。在實(shí)際中,進(jìn)行設(shè)置,例如,所述存儲(chǔ)方式參數(shù)可以設(shè)置為0表示不存儲(chǔ)字段值(即 檢索時(shí)不能獲得相應(yīng)的字段值),1表示存儲(chǔ)字段值(即檢索時(shí)可以獲得 相應(yīng)的字段值),2以壓縮的方式存儲(chǔ)字段值;所述索引方式參數(shù)可以設(shè) 置為O表示對(duì)字段不進(jìn)行分詞,1表示對(duì)字段進(jìn)行分詞處理。當(dāng)然,上述設(shè)置方式僅僅用于舉例,本領(lǐng)域技術(shù)人員根據(jù)需要自行
設(shè)置所述配置參數(shù)或添加配置參數(shù)都是可行的,本發(fā)明對(duì)此不需要進(jìn)行 限定。為便于對(duì)所述配置參數(shù)的管理、設(shè)置和修改,優(yōu)選的是,所述配置 參數(shù)可以位于配置文件或配置表中。步驟103、依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件; 在實(shí)際中,可以按照所述配置參數(shù)讀取所述數(shù)據(jù)源的數(shù)據(jù),創(chuàng)建其 索引文件。優(yōu)選的是,所述索引文件可以采用Lucene創(chuàng)建。公知的是, Lucene是一個(gè)基于Java的文檢索工具包,可以利用它來(lái)為應(yīng)用程序加入 索引和檢索功能。Lucene的索引機(jī)制是使用各種解析器對(duì)各種不同類型 的文檔進(jìn)行解析。比如對(duì)于HTML文檔,HTML解析器會(huì)做一些預(yù)處理 的工作,如過(guò)濾文檔中的HTML標(biāo)簽等等。HTML解析器的輸出的是文 本內(nèi)容,接著Lucene的分詞器(Analyzer)從文本內(nèi)容中提取出索引項(xiàng)以及 相關(guān)信息,如索引項(xiàng)的出現(xiàn)頻率。接著Lucene的分詞器把這些信息寫到 索引文件中。如, 一段釆用Lucene創(chuàng)建索引的代碼示例為 private String[] keywords = {"20001895", "20001896"}; private String[] unindexed = {"Red star","good morning"}; private String[] unstored = { "I am a programer" , "you are programmer , too", };private String[] textl = { " programer ","morning" }; private String[] text2 = { "200606", "200609" private String[] text3 = { "/Computers/red","/Computers/star" }; private Directory dir; protected void AddDocuments()string indexDir = "index";dir = FSDirectory.GetDirectory(indexDir, true);Index Writer writer=new Index Writer(dir, GetAnalyzer(), true);for (int i = 0;i < keywords丄ength; i++)Document doc = new Document(); doc.Add(Field.Keyword("isbn", keywords [i])); doc.Add(Field.Unlndexed("title", unindexed[i])); doc. Add(Field.UnStored("contents", unstored[i])); doc.Add(Field.Text("subject", textl [i])); doc.Add(Field.Text("pubmonth", text2[i])); doc.Add(Field.Text("category", text3 [i])); writer. AddDocument(doc);writer. Optimize(); writer. Close();當(dāng)然,本領(lǐng)域技術(shù)人員采用其它索引創(chuàng)建方法,或在不同的程序語(yǔ) 言環(huán)境下,采用不同的程序語(yǔ)言創(chuàng)建索引都是可行的,本發(fā)明對(duì)此不作 限制。需要說(shuō)明的是,應(yīng)用本實(shí)施例在首次實(shí)現(xiàn)檢索需求時(shí),初始設(shè)置相 應(yīng)的配置參數(shù)、生成相應(yīng)的索引文件后,在以后實(shí)現(xiàn)新的檢索需要時(shí), 只需要對(duì)相應(yīng)的配置參數(shù)進(jìn)行修改,進(jìn)而更新相應(yīng)的索引文件即可,從 而可以有效節(jié)省資源成本和開發(fā)成本。步驟104、根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng)的檢索結(jié)果。在實(shí)際應(yīng)用中,所述索引文件都會(huì)設(shè)置相應(yīng)的索引文件標(biāo)識(shí),在這 種情況下,本實(shí)施例可以通過(guò)以下子步驟獲取檢索結(jié)果子步驟A1、根據(jù)用戶的檢索需求生成檢索信息,所述檢索信息包括 索引文件標(biāo)識(shí)、檢索字段信息和關(guān)鍵詞;子步驟A2 、根據(jù)所述檢索信息獲取相應(yīng)的檢索結(jié)果。具體而言,所述檢索結(jié)果為根據(jù)所述索引文件的檢索字段信息查找 到的,包含所述關(guān)鍵詞的記錄。需要說(shuō)明的是,所述關(guān)鍵詞包括單字和/或詞組成的關(guān)鍵詞,優(yōu)選的 是,所述檢索字段信息包括檢索字段、檢索字段是否出現(xiàn)的與/或關(guān)系、
檢索字段值是否需要分詞和返回結(jié)果字段。對(duì)于分詞,眾所周知的是, 英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。例如,英文句子I am a student, 用中文則為"我是一個(gè)學(xué)生"。計(jì)算機(jī)可以4艮簡(jiǎn)單通過(guò)空格知道student 是一個(gè)單詞,但是不能很容易明白"學(xué)"、"生"兩個(gè)字合起來(lái)才表示一個(gè)詞。 把中文的漢字序列切分成有意義的詞,就是中文分詞。例如,我是一個(gè) 學(xué)生,分詞的結(jié)果是我/是/一個(gè)/學(xué)生。 下面介紹一些常用的分詞方法1、 基于字符串匹配的分詞方法是指按照一定的策略將待分析的漢 字串與一個(gè)預(yù)置的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字 符串,則匹配成功(識(shí)別出一個(gè)詞)。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械 分詞作為一種初分手段,還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提 高切分的準(zhǔn)確率。2、 基于特征掃描或標(biāo)志切分的分詞方法是指優(yōu)先在待分析字符串 中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字 符串分為較小的串再來(lái)進(jìn)行機(jī)械分詞,從而減少匹配的錯(cuò)誤率;或者將 分詞和詞類標(biāo)注結(jié)合起來(lái),利用豐富的詞類信息對(duì)分詞決策提供幫助, 并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而提高切分 的準(zhǔn)確率。3、 基于理解的分詞方法是指通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解, 達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析, 利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分分詞 子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系 統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷, 即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知 識(shí)和4言息。4、 基于統(tǒng)計(jì)的分詞方法是指,中文信息中由于字與字相鄰共現(xiàn)的 頻率或概率能夠較好的反映成詞的可信度,所以可以對(duì)語(yǔ)料中相鄰共現(xiàn) 的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息,以及計(jì)算兩個(gè) 漢字X、 Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息可以體現(xiàn)漢字之間結(jié)合關(guān)系的緊密
程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè) 詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典。為保證數(shù)據(jù)可以被唯一標(biāo)識(shí),優(yōu)選的是,本實(shí)施例還可以包括以下步驟以XML ( extensible Markup Language,擴(kuò)展標(biāo)記語(yǔ)言)才各式返回所 述檢索結(jié)果。為提高檢索結(jié)果顯示的靈活性,優(yōu)選的是,所述檢索信息還可以包 括檢索結(jié)果顯示位置信息和顯示數(shù)量信息,在這種情況下,本實(shí)施例所 述的方法還可以包括以下步驟解析所述XML格式的檢索結(jié)果;按照所述檢索結(jié)果顯示位置信息和顯示數(shù)量信息顯示所述檢索結(jié)果??梢岳斫獾氖牵绢I(lǐng)域技術(shù)人員采用其它語(yǔ)言格式返回檢索結(jié)果, 然后采用相應(yīng)方法解析所述格式也是可行的,本發(fā)明對(duì)此不需要進(jìn)行限 定。為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明,以下通過(guò)具體實(shí)例對(duì)本發(fā) 明的數(shù)據(jù)檢索過(guò)程進(jìn)行說(shuō)明。 假設(shè)有一個(gè)檢索需求為A、根據(jù)用戶的查詢關(guān)鍵詞在某個(gè)論壇數(shù)據(jù)庫(kù)的"內(nèi)容"字段中進(jìn)行檢索;按照本發(fā)明實(shí)施例的處理過(guò)程如下 步驟al、確定檢索所需的數(shù)據(jù)源為該論壇數(shù)據(jù)庫(kù); 步驟a2、提取該論壇數(shù)據(jù)庫(kù)的字段帖子id、作者、時(shí)間、標(biāo)題和 內(nèi)容;步驟a3、針對(duì)各個(gè)字段設(shè)置配置參數(shù)為 #帖子id10#作者 10#時(shí)間10#標(biāo)題1 1#內(nèi)容1 1其中,"#,,號(hào)標(biāo)識(shí)字段的起始;字段名后的第一個(gè)標(biāo)識(shí)為存儲(chǔ)方式參 數(shù),其具體定義為0表示不存儲(chǔ)字段值(即檢索時(shí)不能獲得相應(yīng)的字段 值),1——表示存儲(chǔ)字段值(即檢索時(shí)可以獲得相應(yīng)的字段值);字段名 后的第二個(gè)標(biāo)識(shí)為索引方式參數(shù),其具體定義為0表示對(duì)字段不進(jìn)行分 詞,1表示對(duì)字段進(jìn)行分詞處理。步驟a4、將上述配置參數(shù)存儲(chǔ)于配置文件bbs.conf中。當(dāng)然,本領(lǐng)域技術(shù)人員也可以將所述配置參數(shù)存儲(chǔ)于配置表bbs.conf 中,其具體存儲(chǔ)格式由本領(lǐng)域技術(shù)人員任意設(shè)置都是可行的,本發(fā)明對(duì) 此不需要進(jìn)行限定。步驟a5、依據(jù)所述配置文件創(chuàng)建所述數(shù)據(jù)源的索引文件bbs—index;使用指定的數(shù)據(jù)源并結(jié)合配置文件建立索引,通過(guò)讀取配置文件獲
取如何處理數(shù)據(jù)源中數(shù)據(jù)的信息,例如,對(duì)于"內(nèi)容"這個(gè)字段,在配置文 件中設(shè)定的是1, 1,表示對(duì)"內(nèi)容"中的內(nèi)容,在索引中進(jìn)行存儲(chǔ)和分詞 處理。統(tǒng)一檢索系統(tǒng)就對(duì)數(shù)據(jù)源中的所有"內(nèi)容"對(duì)應(yīng)的數(shù)據(jù)在索引中進(jìn)行 存儲(chǔ)和分詞。步驟 a6 、 根據(jù)用戶的檢索需求生成檢索信息 start=0:num=10:from—field=內(nèi)容-l-查詢關(guān)4建詞-1 :return—field—乍者隱時(shí)間-標(biāo)題-內(nèi)容index二bbs—index;其中,start為檢索結(jié)果顯示位置信息,O表示從第一個(gè)檢索結(jié)果記錄 開始顯示;num為檢索結(jié)果顯示數(shù)量信息,10表示在當(dāng)前頁(yè)面顯示的檢 索結(jié)果記錄條數(shù)為10條;from—field為檢索字段信息,分別為,字段名-是否出現(xiàn)-字段值-字段值是否需要分詞,其中,"是否出現(xiàn)"的值為0表 示or(或)關(guān)系,l表示and(和)關(guān)系;"字段值是否需要分詞"的值為 0表示不需要進(jìn)行分詞,l表示需要分詞;以及,return—field為返回結(jié)果 字段;index為索引文件標(biāo)識(shí)。顯然,上述檢索信息清楚構(gòu)造了本例的檢索需求。步驟a7 、采用Lucene根據(jù)所述檢索信息在所述索引文件中進(jìn)行檢索, 獲得相應(yīng)的檢索結(jié)果,并將所述檢索結(jié)果以XML的格式返回;步驟a8、解析所述XML格式的檢索結(jié)果,按照所述檢索結(jié)果顯示位 置信息和顯示數(shù)量信息顯示所述^r索結(jié)果。假設(shè)有另一個(gè)檢索需求為B 、根據(jù)用戶的查詢關(guān)鍵詞在某個(gè)新聞網(wǎng)站的數(shù)據(jù)庫(kù)中的"內(nèi)容"和 "標(biāo)題"字段中進(jìn)行檢索;按照本發(fā)明實(shí)施例的處理過(guò)程如下步驟b 1 、確定檢索所需的數(shù)據(jù)源為該新聞網(wǎng)站數(shù)據(jù)庫(kù);步驟b2、提取該論壇數(shù)據(jù)庫(kù)的字段發(fā)布時(shí)間,標(biāo)題,內(nèi)容,作者;步驟b3、針對(duì)各個(gè)字段修改配置文件的內(nèi)容為#發(fā)布時(shí)間10#標(biāo)題11#內(nèi)容11#作者 10其中,"#"號(hào)標(biāo)識(shí)字段的起始;字段名后的第一個(gè)標(biāo)識(shí)為存儲(chǔ)方式參 數(shù),其具體定義為0表示不存儲(chǔ)字段值(即檢索時(shí)不能獲得相應(yīng)的字段 值),l表示存儲(chǔ)字段值(即檢索時(shí)可以獲得相應(yīng)的字段值);字段名后的 第二個(gè)標(biāo)識(shí)為索引方式參數(shù),其具體定義為0表示對(duì)字段不進(jìn)行分詞, 1表示對(duì)字段進(jìn)行分詞處理。對(duì)該配置文件重新命名為news.conf。步驟b4、依據(jù)所述配置文件更新所述索引文件為news—index;步驟b5 、 根據(jù)用戶的檢索需求生成檢索信息 start=0:num= 10:from—field=內(nèi)容-0-查詢關(guān)4定詞-1 -標(biāo)題-0-查詢關(guān)4建詞 -1 :return—field:發(fā)布時(shí)間-標(biāo)題-內(nèi)容index:news—index;其中,start為檢索結(jié)果顯示位置信息,O表示從第一個(gè)檢索結(jié)果記錄 開始顯示;num為檢索結(jié)果顯示數(shù)量信息,10表示在當(dāng)前頁(yè)面顯示的檢 索結(jié)果記錄條數(shù)為10條;from—field為檢索字段信息,分別為,字段名-是否出現(xiàn)-字段值-字段值是否需要分詞,其中,"是否出現(xiàn)"的值為0表 示or(或)關(guān)系,l表示and(和)關(guān)系;"字段值是否需要分詞"的值為 0表示不需要進(jìn)行分詞,l表示需要分詞;以及,return一field為返回結(jié)果 字段;index為索引文件標(biāo)識(shí)。 步驟b6 、采用Lucene根據(jù)所述檢索信息在所述索引文件中進(jìn)行4全索, 獲得相應(yīng)的檢索結(jié)果,并將所述檢索結(jié)果以XML的格式返回;步驟b7、解析所述XML格式的檢索結(jié)果,按照所述檢索結(jié)果顯示位 置信息和顯示數(shù)量信息顯示所述檢索結(jié)果。對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列 的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng) 作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí) 進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書中所描述的實(shí)施例均 屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。參考圖2,示出了本發(fā)明的一種數(shù)據(jù)檢索系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖,具 體可以包i舌以下單元確定單元201,用于確定檢索所需的數(shù)據(jù)源;提取單元202,用于提取所述數(shù)據(jù)源的字段;配置單元203,用于針對(duì)各個(gè)字段設(shè)置配置參數(shù);其中,所述配置參數(shù)包括存儲(chǔ)方式參數(shù)和索引方式參數(shù);索引創(chuàng)建單元204,用于依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件;檢索單元205,用于根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng) 的檢索結(jié)果。優(yōu)選的是,所述配置參數(shù)位于配置文件或配置表中。在實(shí)際應(yīng)用中,所述索引文件具有索引文件標(biāo)識(shí),在這種情況下, 所述^r索單元可以包括以下子單元生成子單元,用于根據(jù)用戶的檢索需求生成檢索信息,所述檢索信 息包括索引文件標(biāo)識(shí)、檢索字段信息和關(guān)鍵詞;獲取子單元,用于根據(jù)所述檢索信息獲取相應(yīng)的檢索結(jié)果。優(yōu)選的是,在本實(shí)施例中,還可以包括以下單元返回單元,用于以XML格式返回所述檢索結(jié)果。作為另一實(shí)施例,所述檢索信息還包括檢索結(jié)果顯示位置信息和顯 示數(shù)量信息,在這種情況下,本實(shí)施例還可以包括以下單元解析單元,用于解析所述XML格式的檢索結(jié)果; 顯示單元,用于按照所述檢索結(jié)果顯示位置信息和顯示數(shù)量信息顯 示所述檢索結(jié)果。參考圖3,示出了應(yīng)用圖2所示的優(yōu)選實(shí)施例進(jìn)行數(shù)據(jù)檢索的流程圖, 具體可以包括以下步驟步驟301、確定單元確定檢索所需的數(shù)據(jù)源;步驟302、提取單元提取所述數(shù)據(jù)源的字段;步驟303、配置單元針對(duì)各個(gè)字段設(shè)置配置參數(shù);所述配置參數(shù)包括存儲(chǔ)方式參數(shù)和索引方式參數(shù);此外,所述配置 參數(shù)還可以存儲(chǔ)于配置文件或配置表中。步驟304、索引創(chuàng)建單元依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件;步驟305、檢索單元根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng) 的檢索結(jié)果。具體而言,可以通過(guò)以下子步驟進(jìn)行4企索 子步驟S1、生成子單元根據(jù)用戶的檢索需求生成檢索信息; 其中,所述檢索信息包括索引文件標(biāo)識(shí)、檢索字段信息和關(guān)鍵詞。 子步驟S2、獲取子單元根據(jù)所述檢索信息獲取相應(yīng)的檢索結(jié)果。 在本實(shí)施例中,所述檢索結(jié)果為根據(jù)所述索引文件的檢索字段信息 查找到的,包含所述關(guān)鍵詞的記錄。對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相應(yīng)于方法實(shí)施例,所以描述的 比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說(shuō)明即可。本發(fā)明可以用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如 個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多 處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費(fèi)電子設(shè)備、 網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式 計(jì)算環(huán)境等等。此外,本發(fā)明還可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指 令的一般上下文中描述,例如程序模塊。 一般地,程序模塊包括執(zhí)行特 定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu) 等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境 中,由通過(guò)通訊網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì) 算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存 儲(chǔ)介質(zhì)中。以上對(duì)本發(fā)明所提供的一種數(shù)據(jù)檢索方法及一種數(shù)據(jù)檢索系統(tǒng)進(jìn)行闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方 式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為 對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種數(shù)據(jù)檢索方法,其特征在于,包括確定檢索所需的數(shù)據(jù)源;提取所述數(shù)據(jù)源的字段,并針對(duì)各個(gè)字段設(shè)置配置參數(shù),所述配置參數(shù)包括存儲(chǔ)方式參數(shù)和索引方式參數(shù);依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件;根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng)的檢索結(jié)果。
2、 如權(quán)利要求l所述的方法,其特征在于,所述配置參數(shù)位于配置 文件或配置表中。
3、 如權(quán)利要求l或2所述的方法,其特征在于,所述索引文件具有 索引文件標(biāo)識(shí),所述檢索結(jié)果的獲取步驟進(jìn)一步包括根據(jù)用戶的檢索需求生成檢索信息,所述檢索信息包括索引文件標(biāo) 識(shí)、檢索字段信息和關(guān)鍵詞;根據(jù)所述檢索信息獲取相應(yīng)的檢索結(jié)果。
4、 如權(quán)利要求3所述的方法,其特征在于,所述檢索結(jié)果為根據(jù)所 述索引文件的檢索字段信息查找到的,包含所述關(guān)鍵詞的記錄。
5、 如權(quán)利要求4所述的方法,其特征在于,還包括 以XML格式返回所述檢索結(jié)果。
6、 如權(quán)利要求5所述的方法,其特征在于,所述檢索信息還包括檢 索結(jié)果顯示位置信息和顯示數(shù)量信息,所述的方法還包括解析所述XML格式的檢索結(jié)果;按照所述檢索結(jié)果顯示位置信息和顯示數(shù)量信息顯示所述檢索結(jié)果。
7、 一種數(shù)據(jù)檢索系統(tǒng),其特征在于,包括 確定單元,用于確定檢索所需的數(shù)據(jù)源; 提取單元,用于提取所述數(shù)據(jù)源的字段;配置單元,用于針對(duì)各個(gè)字段設(shè)置配置參數(shù),所述配置參數(shù)包括存 儲(chǔ)方式參數(shù)和索引方式參數(shù); 索引創(chuàng)建單元,用于依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件;檢索單元,用于根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng)的 檢索結(jié)果。
8、 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述配置參數(shù)位于配置 文件或配置表中。
9、 如權(quán)利要求7或8所述的系統(tǒng),其特征在于,所述索引文件具有 索引文件標(biāo)識(shí),所述檢索單元進(jìn)一步包括生成子單元,用于根據(jù)用戶的檢索需求生成檢索信息,所述檢索信 息包括索引文件標(biāo)識(shí)、檢索字段信息和關(guān)鍵詞;獲取子單元,用于根據(jù)所述檢索信息獲取相應(yīng)的檢索結(jié)果。
10、 如權(quán)利要求9所述的系統(tǒng),其特征在于,還包括 返回單元,用于以XML格式返回所述4企索結(jié)果。
11、 如權(quán)利要求IO所述的系統(tǒng),其特征在于,所述檢索信息還包括 檢索結(jié)果顯示位置信息和顯示數(shù)量信息,所述的系統(tǒng)還包括解析單元,用于解析所述XML格式的檢索結(jié)果; 顯示單元,用于按照所述檢索結(jié)果顯示位置信息和顯示數(shù)量信息顯 示所述檢索結(jié)果。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)檢索方法,包括確定檢索所需的數(shù)據(jù)源;提取所述數(shù)據(jù)源的字段,并針對(duì)各個(gè)字段設(shè)置配置參數(shù),所述配置參數(shù)包括存儲(chǔ)方式參數(shù)和索引方式參數(shù);依據(jù)所述配置參數(shù)創(chuàng)建所述數(shù)據(jù)源的索引文件;根據(jù)用戶的檢索需求在所述索引文件中獲取相應(yīng)的檢索結(jié)果。應(yīng)用本發(fā)明無(wú)需針對(duì)每個(gè)檢索需求重新編寫程序和創(chuàng)建新的檢索系統(tǒng),有效節(jié)省了資源成本和開發(fā)成本;此外,本發(fā)明在檢索過(guò)程中,可以包含用于設(shè)置檢索結(jié)果顯示格式的顯示格式參數(shù),當(dāng)需要對(duì)頁(yè)面進(jìn)行修改時(shí),只需要調(diào)整該顯示格式參數(shù)即可,使美工人員和相關(guān)程序人員的工作分離開來(lái),有效提高了檢索結(jié)果顯示的靈活性。
文檔編號(hào)G06F17/30GK101154241SQ20071017575
公開日2008年4月2日 申請(qǐng)日期2007年10月11日 優(yōu)先權(quán)日2007年10月11日
發(fā)明者挺 劉, 浩 曹, 高立琦 申請(qǐng)人:北京金山軟件有限公司;北京金山數(shù)字娛樂(lè)科技有限公司;哈爾濱工業(yè)大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
廉江市| 寿宁县| 罗源县| 塔城市| 定西市| 左云县| 渝中区| 阿克陶县| 徐水县| 汉寿县| 四川省| 阳原县| 宁德市| 聊城市| 洛阳市| 芜湖市| 津市市| 驻马店市| 莱阳市| 江都市| 敖汉旗| 大丰市| 望都县| 乐安县| 余江县| 乾安县| 中阳县| 兴安盟| 永和县| 关岭| 十堰市| 新巴尔虎右旗| 泰州市| 台中县| 溆浦县| 赞皇县| 盈江县| 古浪县| 旌德县| 天峻县| 浮梁县|