两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種分布式全文檢索系統(tǒng)的制作方法

文檔序號:6377765閱讀:985來源:國知局
專利名稱:一種分布式全文檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,特別是涉及一種分布式全文檢索系統(tǒng)的。
背景技術(shù)
文檔檢索系統(tǒng)主要實現(xiàn)對調(diào)度管理應用中的各類文檔、資料和知識庫的索引提取及資料搜索功能。a)編制索引對doc、txt、pdf等常用文檔文件的文字信息進行文字索引提取。 b)資料搜索根據(jù)文字索引模糊搜索定位文檔、資料。分布式查詢主要實現(xiàn)調(diào)度機構(gòu)之間、調(diào)度管理類應用中各模塊標準化的數(shù)據(jù)庫信息分布式查詢?;谄脚_的遠程服務代理和數(shù)據(jù)公共服務實現(xiàn)遠程數(shù)據(jù)查詢。分布式查詢應包含但不限于以下功能
c)跨調(diào)度機構(gòu)的數(shù)據(jù)查詢;
d)按照數(shù)據(jù)分類進行查詢;
e)數(shù)據(jù)展示功能。由于電力行業(yè)相關(guān)文件,電子信息材料,新聞應用比較多,很多系統(tǒng)都有自己的管理文檔的功能,但是面對大量的信息資源,很難定位想要找的文件在那個系統(tǒng)中,存儲在哪個服務器上,如何方便快捷、準確地從各個分布式的服務器上上獲取所需文件信息,成為至關(guān)重要的問題?,F(xiàn)有技術(shù)中的文檔檢索系統(tǒng)存在著檢索速度慢、占用系統(tǒng)資源過多等的缺陷。

發(fā)明內(nèi)容
本發(fā)明的目的,是提供一種分布式全文檢索系統(tǒng),從而實現(xiàn)提升檢索速度,達到優(yōu)化目的。本發(fā)明的具體技術(shù)方案如下I、一種分布式全文檢索系統(tǒng),所述系統(tǒng)由設(shè)置在各網(wǎng)絡節(jié)點上的全文檢索服務器組成,包括分布式節(jié)點服務器及系統(tǒng)中心服務器;
所述分布式節(jié)點服務器包括文件信息檢索模塊及服務器間通訊模塊;
所述文件信息檢索模塊對本節(jié)點服務器上文件定時進行全文信息的檢索,按照定義好的詞庫進行切詞,提取關(guān)鍵詞信息并建立索引文件;
所述服務器間通訊模塊實現(xiàn)分布式節(jié)點服務器與系統(tǒng)中心服務器與之間的信息交換,將本節(jié)點的索引文件發(fā)送到系統(tǒng)中心服務器;
所述系統(tǒng)中心服務器對各節(jié)點服務器傳送的索引文件進行合并,生成新的索引文件并更新已有索引信息,增加新的文件信息;向用戶提供查詢接口,響應用戶查詢文件的請求、分析用戶請求,將查詢關(guān)鍵詞在新的索引文件中進行檢索比對,將符合的文件作為查詢結(jié)果展示給用戶。進一步的,所述分布式節(jié)點服務器上生成的索引文件包括文件名稱、關(guān)鍵詞條、文件分類、所在服務器的IP地址、服務器信息、文件大小、文件作者等相關(guān)信息。進一步的,所述系統(tǒng)中心服務器進一步包括各個分布式節(jié)點服務器狀態(tài)查詢模塊及系統(tǒng)重啟服務模塊;并具有文件在線瀏覽與下載模塊,即系統(tǒng)中心服務器接收下載文件請求,并根據(jù)該文件在索引文件中的描述,將請求轉(zhuǎn)發(fā)給相應的節(jié)點服務器,將讀取文件的字節(jié)流返給用戶實現(xiàn)下載。進一步的,所述分布式節(jié)點服務器還包括詞庫管理模塊,所述詞庫管理模塊在遍歷文件全文內(nèi)容時根據(jù)已有詞庫進行切詞劃分,將文件內(nèi)容切成不同的關(guān)鍵詞,然后統(tǒng)計關(guān)鍵詞出現(xiàn)的頻度和關(guān)鍵詞的分類,一同寫入到索引文件中。
進一步的,所述詞庫管理模塊按照電網(wǎng)相關(guān)技術(shù)知識進行統(tǒng)計劃分,包括電網(wǎng)文件類、技術(shù)論文類、電網(wǎng)設(shè)備類、新聞類等;對普通的助詞、語氣詞或普通描述性的詞進行過濾。進一步的,所述分布式節(jié)點服務器上安裝詞庫管理客戶端,所述客戶端對在文件中出現(xiàn)頻度較高的詞,通過用戶手動維護的關(guān)鍵詞等添加到索引文件中更新詞庫。
本發(fā)明的有益效果是
(I)在查詢效率上,由于使用了依據(jù)電力行業(yè)知識的詞庫管理,在生成索引文件時就會過濾一些不明感的、不關(guān)心詞匯,減小生成的索引文件,提高檢索速度。(2)提供了各節(jié)點管理的界面,可以維護各節(jié)點相關(guān)文件配置,索引生成、詞庫管理以及與服務器通信等功能,加強了分布式系統(tǒng)的穩(wěn)定性。(3)索引文件格式獨立于應用平臺,定義了一套以8位字節(jié)為基礎(chǔ)的索引文件格式,使得兼容系統(tǒng)或者不同平臺的應用能夠共享建立的索引文件。(4)在傳統(tǒng)全文檢索引擎的倒排索引的基礎(chǔ)上,實現(xiàn)了分塊索引,能夠針對新的文件建立小文件索引,提升索引速度。然后通過與原有索引的合并,達到優(yōu)化的目的。(5)實現(xiàn)了一套強大的查詢引擎,默認實現(xiàn)了布爾操作、模糊查詢、分組查詢等等。


圖I是本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖。
具體實施例方式下面具體闡述本發(fā)明的技術(shù)方案。本發(fā)明針對于常規(guī)分布式策略,如果在一個機器上沒有找到匹配的文件,則將用戶請求轉(zhuǎn)發(fā)到其他機器上繼續(xù)檢索索引文件。這樣每次請求都會遍歷所有機器的索引文件,效率以及負載較大,該系統(tǒng)采用將各節(jié)點索引文件統(tǒng)一到一個中心服務器機器上,減少轉(zhuǎn)發(fā)請求的時間,同時只在中心服務器上進行檢索,減輕其他節(jié)點機器的負載如圖I所示承擔一種分布式全文檢索系統(tǒng),由設(shè)置在各網(wǎng)絡節(jié)點上的全文檢索服務器組成,按照功能劃分又分為分布式節(jié)點服務器及系統(tǒng)中心服務器,圖I中包括一系統(tǒng)中心服務器及4個分布式節(jié)點服務器。其中,每個節(jié)點服務器包括文件信息檢索模塊及服務器間通訊模塊;文件信息檢索模塊對本節(jié)點服務器上文件定時進行全文信息的檢索,并且頻率可設(shè)置,按照定義好的詞庫進行切詞,提取關(guān)鍵詞信息并建立索引文件。生成的索引文件包括文件名稱、關(guān)鍵詞條、文件分類、所在服務器的IP地址、服務器信息、文件大小、文件作者等相關(guān)信息。服務器間通訊模塊則實現(xiàn)分布式節(jié)點服務器與系統(tǒng)中心服務器與之間的信息交換,包括將本節(jié)點的索引文件發(fā)送到系統(tǒng)中心服務器,或者相應來自系統(tǒng)中心服務器的用戶請求等。系統(tǒng)中心服務器對各節(jié)點服務器傳送的索引文件進行合并,生成新的索引文件,并且在此基礎(chǔ)上不斷更新已有索引信息,增加新的文件信息。向用戶提供查詢接口,響應用戶查詢文件的請求、分析用戶請求,將查詢關(guān)鍵詞在新的索引文件中進行檢索比對,將符合的文件作為查詢結(jié)果展示給用戶。進一步的,本發(fā)明的系統(tǒng)中心服務器進一步包括包括各個節(jié)點索引文件信息,管理節(jié)點與中心服務器通信,配置各個節(jié)點文件索引信息等,并提供重啟服務等功能模塊;并 具有文件在線瀏覽與下載模塊,即系統(tǒng)中心服務器接收下載文件請求,并根據(jù)該文件在索引文件中的描述,將請求轉(zhuǎn)發(fā)給相應的節(jié)點服務器,將讀取文件的字節(jié)流返給用戶實現(xiàn)下載。本發(fā)明為了進一步提供查詢的效率,在分布式節(jié)點服務器還包括詞庫管理模塊,該詞庫管理模塊在遍歷文件全文內(nèi)容時根據(jù)已有詞庫進行切詞劃分,將文件內(nèi)容切成不同的關(guān)鍵詞,然后統(tǒng)計關(guān)鍵詞出現(xiàn)的頻度和關(guān)鍵詞的分類,一同寫入到索引文件中。詞庫管理模塊按照電網(wǎng)相關(guān)技術(shù)知識進行統(tǒng)計劃分,包括電網(wǎng)文件類、技術(shù)論文類、電網(wǎng)設(shè)備類、新聞類等;對普通的助詞、語氣詞或普通描述性的詞進行過濾。在本系統(tǒng)的分布式節(jié)點服務器上還安裝詞庫管理客戶端,客戶端對在文件中出現(xiàn)頻度較高的詞,通過用戶手動維護的關(guān)鍵詞等添加到索引文件中更新詞庫。更進一步提高了查詢的效率,更具有針對性。該分布式全文檢索系統(tǒng)的使用,大大提高了用戶查找所需文件的效率。而且,針對現(xiàn)有的搜索引擎在搜索效率、信息維護、分布式節(jié)點管理、負載壓力等方面存在的問題有了提聞與優(yōu)化。
權(quán)利要求
1.一種分布式全文檢索系統(tǒng),所述系統(tǒng)由設(shè)置在各網(wǎng)絡節(jié)點上的全文檢索服務器組成,包括分布式節(jié)點服務器及系統(tǒng)中心服務器;其特征在于 所述分布式節(jié)點服務器包括文件信息檢索模塊及服務器間通訊模塊; 所述文件信息檢索模塊對本節(jié)點服務器上文件定時進行全文信息的檢索,按照定義好的詞庫進行切詞,提取關(guān)鍵詞信息并建立索引文件; 所述服務器間通訊模塊實現(xiàn)分布式節(jié)點服務器與系統(tǒng)中心服務器與之間的信息交換,將本節(jié)點的索引文件發(fā)送到系統(tǒng)中心服務器; 所述系統(tǒng)中心服務器對各節(jié)點服務器傳送的索引文件進行合并,生成新的索引文件并更新已有索引信息,增加新的文件信息;向用戶提供查詢接口,響應用戶查詢文件的請求、分析用戶請求,將查詢關(guān)鍵詞在新的索引文件中進行檢索比對,將符合的文件作為查詢結(jié)果展示給用戶。
2.根據(jù)權(quán)利要求I所述的一種分布式全文檢索系統(tǒng),其特征在于所述分布式節(jié)點服務器上生成的索引文件包括文件名稱、關(guān)鍵詞條、文件分類、所在服務器的IP地址、服務器信息、文件大小、文件作者等相關(guān)信息。
3.根據(jù)權(quán)利要求I所述的一種分布式全文檢索系統(tǒng),其特征在于,所述系統(tǒng)中心服務器進一步包括 各個分布式節(jié)點服務器狀態(tài)查詢模塊及系統(tǒng)重啟服務模塊;并具有文件在線瀏覽與下載模塊,即系統(tǒng)中心服務器接收下載文件請求,并根據(jù)該文件在索引文件中的描述,將請求轉(zhuǎn)發(fā)給相應的節(jié)點服務器,將讀取文件的字節(jié)流返給用戶實現(xiàn)下載。
4.根據(jù)權(quán)利要求I所述的一種分布式全文檢索系統(tǒng),其特征在于所述分布式節(jié)點服務器還包括詞庫管理模塊,所述詞庫管理模塊在遍歷文件全文內(nèi)容時根據(jù)已有詞庫進行切詞劃分,將文件內(nèi)容切成不同的關(guān)鍵詞,然后統(tǒng)計關(guān)鍵詞出現(xiàn)的頻度和關(guān)鍵詞的分類,一同寫入到索引文件中。
5.根據(jù)權(quán)利要求4所述的一種分布式全文檢索系統(tǒng),其特征在于所述詞庫管理模塊按照電網(wǎng)相關(guān)技術(shù)知識進行統(tǒng)計劃分,包括電網(wǎng)文件類、技術(shù)論文類、電網(wǎng)設(shè)備類、新聞類等;對普通的助詞、語氣詞或普通描述性的詞進行過濾。
6.根據(jù)權(quán)利要求5所述的一種分布式全文檢索系統(tǒng),其特征在于所述分布式節(jié)點服務器上安裝詞庫管理客戶端,所述客戶端對在文件中出現(xiàn)頻度較高的詞,通過用戶手動維護的關(guān)鍵詞等添加到索引文件中更新詞庫。
全文摘要
本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,特別是涉及一種分布式全文檢索系統(tǒng)。所述系統(tǒng)由設(shè)置在各網(wǎng)絡節(jié)點上的全文檢索服務器組成,包括分布式節(jié)點服務器及系統(tǒng)中心服務器;所述分布式節(jié)點服務器包括文件信息檢索模塊及服務器間通訊模塊;所述文件信息檢索模塊對本節(jié)點服務器上文件定時進行全文信息的檢索,按照定義好的詞庫進行切詞,提取關(guān)鍵詞信息并建立索引文件;所述服務器間通訊模塊實現(xiàn)分布式節(jié)點服務器與系統(tǒng)中心服務器與之間的信息交換,所述系統(tǒng)中心服務器對各節(jié)點服務器傳送的索引文件進行合并,向用戶提供查詢接口,將符合的文件作為查詢結(jié)果展示給用戶。
文檔編號G06F17/30GK102831253SQ20121036293
公開日2012年12月19日 申請日期2012年9月25日 優(yōu)先權(quán)日2012年9月25日
發(fā)明者何蕾, 李勇, 曹宇, 喻宏元, 蘇迤, 龐傳軍, 聶春元, 楊笑宇, 徐家慧, 武毅, 林海峰, 方偉 申請人:北京科東電力控制系統(tǒng)有限責任公司, 華中電網(wǎng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
云梦县| 聂荣县| 肥城市| 福海县| 正安县| 鹤庆县| 英吉沙县| 图片| 绥江县| 石泉县| 嵩明县| 眉山市| 沙湾县| 精河县| 通江县| 岚皋县| 五华县| 洪泽县| 文山县| 宁都县| 轮台县| 茶陵县| 新疆| 福鼎市| 荔波县| 运城市| 麻城市| 视频| 宁波市| 安顺市| 盘锦市| 开阳县| 横山县| 响水县| 嘉禾县| 万载县| 宜章县| 武平县| 陇西县| 偃师市| 南丰县|