專利名稱:一種基于云計算技術(shù)的搜索方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)軟件技術(shù)領(lǐng)域,尤其涉及一種基于云計算技術(shù)的搜索方法及系統(tǒng)。
背景技術(shù):
搜索引擎及對應(yīng)搜索方法的出現(xiàn),大大提高了人們對互聯(lián)網(wǎng)信息檢索的能力和效率,已經(jīng)成為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用之一。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心在2008年中期的統(tǒng)計,中國網(wǎng)民搜索引擎的使用率為69.2%,并處在高速增長之中,而在互聯(lián)網(wǎng)高度普及的美國,網(wǎng)民對搜索引擎的使用率已達(dá)91%??梢姡暇W(wǎng)用戶對搜索引擎及搜索方法產(chǎn)生了強(qiáng)烈的依賴。近年來,搜索引擎和搜索方法發(fā)展迅速。例如,美國專利(US20060106)提出了“用于生成搜索引擎搜索結(jié)果的方法和系統(tǒng)”,提供搜索引擎;將搜索查詢輸入到所述搜索引擎中;使用所述搜索引擎來對與所述搜索查詢有關(guān)的聯(lián)機(jī)文件進(jìn)行定位;對駐留在客戶端計算機(jī)上的與所述搜索查詢有關(guān)的脫機(jī)文件進(jìn)行定位;將所述聯(lián)機(jī)文件與所述脫機(jī)文件合并以生成單一的搜索結(jié)果概覽;以及在所述搜索引擎的顯示中提供所述單一的搜索結(jié)果概覽。中國專利(申請?zhí)朇N200910020951)提出了 “基于用戶興趣的個性化元搜索引擎及搜索結(jié)果處理方法”,其搜索引擎包括用戶注冊/登錄單元、元搜索結(jié)果收集單元和個性化處理單元,該個性化處理單元通過搜索結(jié)果預(yù)處理模塊、個性化排序處理模塊和用戶興趣更新模塊,完成對搜索結(jié)果的篩選、個性化排序及對用戶興趣模型的建立和更新。其對搜索結(jié)果的處理為建立并初始化用戶興趣模型,存入服務(wù)器;將用戶輸入的搜索詞語,按各搜索引擎要求的格式分發(fā);將收集的返回結(jié)果轉(zhuǎn)換成統(tǒng)一的格式,依次進(jìn)行去除重復(fù)處理和個性化排序,并提交給用戶;捕獲用戶點(diǎn)擊的搜索結(jié)果,改變興趣種類和權(quán)值大小,更新用戶興趣模型數(shù)據(jù)。
鑒于上述技術(shù)現(xiàn)狀,本發(fā)明提出了一種基于云計算技術(shù)的搜索方法及系統(tǒng),用以提高信息的安全性與資源管理便捷性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于云計算技術(shù)的搜索方法及系統(tǒng),用以提高信息的安全性與資源管理便捷性。一種基于云計算技術(shù)的搜索方法,該搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過搜索引擎建立網(wǎng)頁地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁抓取程序,根據(jù)網(wǎng)頁地圖來抓取關(guān)聯(lián)網(wǎng)頁,并將被抓取的網(wǎng)頁存儲到網(wǎng)頁快照數(shù)據(jù)庫中;利用索引程序?qū)⒕W(wǎng)頁快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,以及剔
4除作弊網(wǎng)頁。進(jìn)一步,所述的基于云計算技術(shù)的搜索方法,還具有如下技術(shù)特征運(yùn)用搜索引擎進(jìn)行搜索時,對搜索關(guān)鍵字的比重進(jìn)行識別搜索,并對不同關(guān)鍵字的重要性程度進(jìn)行區(qū)分。運(yùn)用搜索引擎進(jìn)行搜索時,對分散在不同存儲介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合, 形成搜索云,并由關(guān)聯(lián)軟件自動管理。向服務(wù)器版用戶和群組共享用戶提供云搜索接口,群用戶搜索關(guān)鍵詞時候,其它組內(nèi)用戶的計算機(jī)在開機(jī)的情況下會幫助一起搜索,并把結(jié)果異步送回搜索端,形成搜索云。運(yùn)用搜索引擎進(jìn)行搜索時,預(yù)先將不同的關(guān)鍵詞,設(shè)定分布到個人分片的內(nèi)存區(qū)和計算機(jī)內(nèi),需要搜索的時候,調(diào)用各個片區(qū)的自動作業(yè)一起檢索并將關(guān)聯(lián)內(nèi)容存儲。利用蜘蛛程序根據(jù)網(wǎng)頁地圖來抓取質(zhì)量好的網(wǎng)頁,對結(jié)果進(jìn)行分析,從中抽取出標(biāo)題及內(nèi)容信息存儲到網(wǎng)頁快照數(shù)據(jù)庫中。索引程序?qū)⒕W(wǎng)頁快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,在這個過程中利用去掉作弊網(wǎng)頁,同時根據(jù)配置,程序可以在后臺自動的發(fā)送請求,來獲取數(shù)據(jù)。一種基于云計算技術(shù)的搜索系統(tǒng),該系統(tǒng)包括前端發(fā)起支撐模塊,即關(guān)鍵詞管理模塊,它是該搜索系統(tǒng)的前端發(fā)起支撐平臺,它是通過搜索工具對用戶提供專業(yè)化服務(wù),給用戶開辟數(shù)據(jù)庫,讓用戶能夠創(chuàng)建自己的搜索關(guān)鍵詞、設(shè)置個性化關(guān)鍵詞分類,以及設(shè)置群組關(guān)鍵詞的功能模塊;后臺核心運(yùn)作模塊,它包括自動任務(wù)模塊、云搜索模塊以及數(shù)據(jù)存儲模塊,其中的自動任務(wù)模塊是參照前述的關(guān)鍵詞關(guān)聯(lián)模塊設(shè)定的關(guān)鍵詞,調(diào)用自動搜索程序,把最新的數(shù)據(jù)信息發(fā)送至不同存儲介質(zhì)的功能模塊,其中的云搜索模塊是根據(jù)不同的關(guān)鍵詞設(shè)定, 對分散在不同存儲介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,并將搜索結(jié)果同步保存至搜索端、個人分片的內(nèi)存區(qū)和計算機(jī)內(nèi)的功能模塊,其中的數(shù)據(jù)存儲模塊是包括有公共大型數(shù)據(jù)庫、 客戶端個性化數(shù)據(jù)庫及共享用戶數(shù)據(jù)庫,以實(shí)現(xiàn)不同用戶的個性化搜索和操作為目的的功能模塊;展示模塊,它是與前述的前端發(fā)起支撐模塊、后臺核心運(yùn)作模塊相連接,將來自于客戶端、服務(wù)器的數(shù)據(jù)庫,結(jié)合現(xiàn)有的群組概念,在服務(wù)器上設(shè)置關(guān)聯(lián)群組,進(jìn)行搜索關(guān)鍵詞和搜索結(jié)果共享的功能模塊。進(jìn)一步,所述的基于云計算技術(shù)的搜索系統(tǒng),還具有如下技術(shù)特征在該搜索系統(tǒng)中,還包括接口設(shè)計模塊,它是先設(shè)計完所有的接口和算法,確定各個功能模塊間接口的功能模塊。所述的數(shù)據(jù)存儲模塊,包括有分布式數(shù)據(jù)庫子模塊,它是采用分布式數(shù)據(jù)庫技術(shù), 對數(shù)據(jù)進(jìn)行橫向分片處理,以及對固定個性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理的功能模塊。本發(fā)明的優(yōu)點(diǎn)本發(fā)明所述的基于云計算技術(shù)的搜索方法及系統(tǒng),主要包括前端發(fā)起支撐模塊、 后臺核心運(yùn)作模塊、展示模塊,以及接口設(shè)計模塊,其搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過搜索引擎建立網(wǎng)頁地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁抓取程序,根據(jù)網(wǎng)頁地圖來抓取關(guān)聯(lián)網(wǎng)頁,并將被抓取的網(wǎng)頁存儲到網(wǎng)頁快照數(shù)據(jù)庫中;利用索引程序?qū)⒕W(wǎng)頁快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,以及剔除作弊網(wǎng)頁。本技術(shù)和現(xiàn)有方案比較起來,主要的優(yōu)點(diǎn)在于功能覆蓋,系統(tǒng)配置能力強(qiáng),覆蓋范圍,及具有極強(qiáng)的數(shù)據(jù)分析能力,提高了信息的安全性與資源管理便捷性。
下面結(jié)合附圖,對本發(fā)明所述的基于云計算技術(shù)的搜索方法及系統(tǒng),作進(jìn)一步詳細(xì)的說明圖1是本發(fā)明所述的基于云計算技術(shù)的搜索方法的流程圖。圖2是本發(fā)明所述的基于云計算技術(shù)的搜索系統(tǒng)的原理框圖。圖3是本發(fā)明所述的基于云計算技術(shù)的搜索方法的一個實(shí)施例。圖中的標(biāo)號說明基于云計算的搜索系統(tǒng)-100,前端發(fā)起支撐模塊-110,關(guān)鍵詞管理模塊-111,后臺核心運(yùn)作模塊-120,自動任務(wù)模塊-121,云搜索模塊-122,數(shù)據(jù)存儲模塊-123,分布式數(shù)據(jù)庫子模塊-123a,展示模塊-130,接口設(shè)計模塊-140。
具體實(shí)施例方式首先參照圖1所示的本發(fā)明所述的基于云計算技術(shù)的搜索方法的流程圖,對本發(fā)明做一個介紹。本發(fā)明所述的基于云計算技術(shù)的搜索方法,包括如下步驟①提供搜索引擎;②在搜索引擎中設(shè)定搜索內(nèi)容;③通過搜索引擎建立網(wǎng)頁地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);④利用網(wǎng)頁抓取程序,根據(jù)網(wǎng)頁地圖來抓取關(guān)聯(lián)網(wǎng)頁,并將被抓取的網(wǎng)頁存儲到網(wǎng)頁快照數(shù)據(jù)庫中;⑤利用索引程序?qū)⒕W(wǎng)頁快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,以及剔除作弊網(wǎng)頁。針對“②在搜索引擎中設(shè)定搜索內(nèi)容”,作為對本發(fā)明的一種創(chuàng)新,包括有如下情況中的至少一種其一,運(yùn)用搜索引擎進(jìn)行搜索時,對搜索關(guān)鍵字的比重進(jìn)行識別搜索,并對不同關(guān)鍵字的重要性程度進(jìn)行區(qū)分。例如,用不同字體的大小,粗細(xì)以及字型進(jìn)行區(qū)分。其二,運(yùn)用搜索引擎進(jìn)行搜索時,對分散在不同存儲介質(zhì)(例如,計算服務(wù)器、存儲服務(wù)器、寬帶資源等)上的數(shù)據(jù)信息進(jìn)行搜集整合,形成搜索云,并由關(guān)聯(lián)軟件自動管理。向服務(wù)器版用戶和群組共享用戶提供云搜索接口,群用戶搜索關(guān)鍵詞時候,其它組內(nèi)用戶的計算機(jī)在開機(jī)的情況下會幫助一起搜索,并把結(jié)果異步送回搜索端,形成搜索云。其三,運(yùn)用搜索引擎進(jìn)行搜索時,預(yù)先將不同的關(guān)鍵詞,設(shè)定分布到個人分片的內(nèi)存區(qū)和計算機(jī)內(nèi),需要搜索的時候,調(diào)用各個片區(qū)的自動作業(yè)一起檢索并將關(guān)聯(lián)內(nèi)容存儲。針對“④利用網(wǎng)頁抓取程序,根據(jù)網(wǎng)頁地圖來抓取關(guān)聯(lián)網(wǎng)頁,并將被抓取的網(wǎng)頁存儲到網(wǎng)頁快照數(shù)據(jù)庫中”,作為舉例而非限定,在本發(fā)明中,主要利用蜘蛛程序來實(shí)現(xiàn)這一功能。所述的蜘蛛程序是一種搜索引擎的“機(jī)器人”(Computer Robot)程序,它依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。利用網(wǎng)絡(luò)蜘蛛(Web Spider)根據(jù)網(wǎng)頁地圖來抓取(Crawl)質(zhì)量好的網(wǎng)頁,對結(jié)果進(jìn)行分析,從中抽取出標(biāo)題及內(nèi)容信息存儲到網(wǎng)頁快照數(shù)據(jù)庫中。接下來,索引程序andexer)會將快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,在這個過程中去掉作弊網(wǎng)頁(Spam),同時根據(jù)配置,程序可以在后臺自動的發(fā)送請求,來獲取數(shù)據(jù)。圖2所示為本發(fā)明所述的基于云計算技術(shù)的搜索系統(tǒng)的原理框圖,該基于云計算的搜索系統(tǒng)100主要包括前端發(fā)起支撐模塊110、后臺核心運(yùn)作模塊120、展示模塊130,以及接口設(shè)計模塊140。所述的前端發(fā)起支撐模塊110,即關(guān)鍵詞管理模塊111,它是該搜索系統(tǒng)的前端發(fā)起支撐平臺,它是通過搜索工具對用戶提供專業(yè)化服務(wù),給用戶開辟數(shù)據(jù)庫,讓用戶能夠創(chuàng)建自己的搜索關(guān)鍵詞、設(shè)置個性化關(guān)鍵詞分類,以及設(shè)置群組關(guān)鍵詞的功能模塊。作為舉例而非限定,所述的搜索工具為google、百度、雅虎等常用搜索工具。所述的后臺核心運(yùn)作模塊120,是該發(fā)明的核心技術(shù),它包括自動任務(wù)模塊121、 云搜索模塊122以及數(shù)據(jù)存儲模塊123。其中的自動任務(wù)模塊121是參照前述的關(guān)鍵詞關(guān)聯(lián)模塊111設(shè)定的關(guān)鍵詞,調(diào)用自動搜索程序,把最新的數(shù)據(jù)信息發(fā)送至不同存儲介質(zhì)的功能模塊。該自動任務(wù)模塊121 主要用于設(shè)定關(guān)鍵詞和自動JOB搜索在本發(fā)明中采用多線程技術(shù)和網(wǎng)絡(luò)技術(shù),在安全性上開1588端口,能夠云端調(diào)用自動JOB,為自動異步多作業(yè)任務(wù)的自動搜索功能做準(zhǔn)備,把最新的,未閱讀過的文章自動發(fā)送到計算服務(wù)器、存儲服務(wù)器、寬帶資源等存儲介質(zhì)上(例如,主頁,郵箱)讓用戶閱讀。其中的云搜索模塊122,是根據(jù)不同的關(guān)鍵詞設(shè)定,對分散在不同存儲介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,并將搜索結(jié)果同步保存至搜索端、個人分片的內(nèi)存區(qū)和計算機(jī)內(nèi)的功能模塊。本發(fā)明提供了一套算法,根據(jù)不同的關(guān)鍵詞設(shè)定,分布到每個人分片的內(nèi)存區(qū)和計算機(jī)內(nèi),需要搜索的時候,調(diào)用各個片區(qū)的自動作業(yè)一起檢索存儲。同時運(yùn)用微軟的 WINDOWS Live云搜索接口,將搜索結(jié)果保存到特殊數(shù)據(jù)區(qū)——“搜索云”?;谠朴嬎愕募夹g(shù),提供算法接口,給服務(wù)器版用戶和群組共享用戶,群用戶搜索關(guān)鍵詞時候,其它組內(nèi)用戶的計算機(jī)在開機(jī)的情況下會幫助一起搜索,把結(jié)果異步送回搜索端。在以后可以的情況下,將會開放相關(guān)的搜索技術(shù)給云端anternet),互聯(lián)網(wǎng)上的用戶就可以使用相關(guān)的接口。其中的數(shù)據(jù)存儲模塊123,它是包括有公共大型數(shù)據(jù)庫、客戶端個性化數(shù)據(jù)庫及共享用戶數(shù)據(jù)庫,以實(shí)現(xiàn)不同用戶的個性化搜索和操作為目的的功能模塊。在本發(fā)明中,為了提高搜索速度,和不同用戶能夠做更多的個性化搜索和操作,搭建了一套專門的數(shù)據(jù)庫 C/S平臺,有1多臺的SQL大型數(shù)據(jù)庫系統(tǒng)作為S端的數(shù)據(jù)總成,同時在每個客戶端都裝有 SQLITE的個性化數(shù)據(jù)庫,用戶既可以得到S端的數(shù)據(jù),也可以只拿自己的數(shù)據(jù),最后還可以在群組內(nèi)得到共享用戶數(shù)據(jù)庫端的部分?jǐn)?shù)據(jù)。作為本發(fā)明的創(chuàng)新之處,所述的數(shù)據(jù)存儲模塊123包括有分布式數(shù)據(jù)庫子模塊 123a,它是采用分布式數(shù)據(jù)庫技術(shù),對數(shù)據(jù)進(jìn)行橫向分片處理,以及對固定個性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理的功能模塊。在本發(fā)明中,采用目前最穩(wěn)定的分布式數(shù)據(jù)庫技術(shù),并且適當(dāng)改進(jìn),對數(shù)據(jù)進(jìn)行橫向分片處理,對固定個性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理,這樣有選擇性的促優(yōu)去缺的方法,大大提高了數(shù)據(jù)庫的效率,同時又不破壞數(shù)據(jù)的穩(wěn)定性和安全性。展示模塊130,它是與前述的前端發(fā)起支撐模塊110、后臺核心運(yùn)作模塊120相連接,將來自于客戶端、服務(wù)器的數(shù)據(jù)庫,結(jié)合現(xiàn)有的群組概念,在服務(wù)器上設(shè)置關(guān)聯(lián)群組,進(jìn)行搜索關(guān)鍵詞和搜索結(jié)果共享的功能模塊。在本發(fā)明中,該展示模塊使用了 HTML/XML技術(shù)網(wǎng)頁界面,支持郵件傳輸功能。目前市場上的搜索技術(shù),都是個人搜索,而且不能記憶,不能共享。而本發(fā)明中,客戶端有SQLite數(shù)據(jù)庫,服務(wù)器上有SQL數(shù)據(jù)庫,結(jié)合QQ,MSN群組概念,在服務(wù)器上可以按個人喜好,開辟群組,在群組里面可以開辟共享的搜索關(guān)鍵詞和搜索結(jié)果。對應(yīng)著前述的前端發(fā)起支撐模塊110、后臺核心運(yùn)作模塊120、展示模塊130,設(shè)置有接口設(shè)計模塊140,它是先設(shè)計完所有的接口和算法,確定各個功能模塊間接口的功能模塊。具體為確定各個模塊的接口,先設(shè)計完所有的接口和算法,經(jīng)過嚴(yán)格測試,然后給各個模塊設(shè)計UI界面,同時對關(guān)鍵詞搜索模塊111做動態(tài)可配置的設(shè)計,對關(guān)鍵詞可以多層樹狀設(shè)計,對引擎可以配置,頁面解析方法可以添加算法。自動異步任務(wù)JOB,采用單機(jī)多線程,多機(jī)共享多線程任務(wù)。對數(shù)據(jù)庫平臺的數(shù)據(jù)不光分機(jī)器,內(nèi)部還對數(shù)據(jù)分區(qū),切片。圖3是本發(fā)明所述的基于云計算技術(shù)的搜索方法的一個實(shí)施例。某市創(chuàng)業(yè)園區(qū)的管委會之前一直采用半手工的方式,利用人力和常用的搜索網(wǎng)站每天收集關(guān)于園區(qū)的相關(guān)信息,每日信息收集人員重復(fù)地在搜索引擎中搜索關(guān)注的信息, 以該創(chuàng)業(yè)園區(qū)的部分企業(yè)對外招聘為例,如圖(a)所示,負(fù)責(zé)人為了獲取該創(chuàng)業(yè)園區(qū)哪些企業(yè)有招聘意向,通常在本創(chuàng)業(yè)園區(qū)的站內(nèi)搜索輸入關(guān)鍵詞和關(guān)鍵詞對應(yīng)比重“招聘、專業(yè)”,將會顯示“A公司...自動化;B公司...軟件分析;C公司...材料工程”;針對該園區(qū)的招聘意向,為了給這些招聘的企業(yè)提供關(guān)聯(lián)招聘信息,負(fù)責(zé)人將會分別在Google和百度搜索引擎中輸入“某市招聘會、所在區(qū)、專業(yè)領(lǐng)域”,負(fù)責(zé)人必須自己判斷哪些信息相互匹配和適用于該創(chuàng)業(yè)園區(qū)的招聘。幾天之后,如果負(fù)責(zé)人需要再次檢索相關(guān)信息時,必須重復(fù)操作上述步驟,使得搜索效率低下,而搜索結(jié)果無法自動保存到數(shù)據(jù)庫中。在本發(fā)明中,利用該搜索系統(tǒng)和采用該搜索方法之后,負(fù)責(zé)人只需在相關(guān)搜索工具上設(shè)定搜索關(guān)鍵詞和搜索引擎之后,就會自動進(jìn)行搜索,并給出相應(yīng)搜索結(jié)果。針對圖 (a)所示的情況,如圖(b)所示,負(fù)責(zé)人通過搜索關(guān)鍵詞設(shè)定工具,設(shè)定搜索關(guān)鍵詞為“某市創(chuàng)業(yè)園區(qū)招聘(50%)、招聘會(30%)、專業(yè)(20%)”,通過搜索引擎設(shè)定工具,設(shè)定搜索引擎為“站內(nèi)搜索(50% ) ,Google (30%)、百度(20% ) ”,進(jìn)一步,為了對搜索內(nèi)容進(jìn)行匹配分析,還可以通過個性化設(shè)定工具,設(shè)定搜索內(nèi)容個性化匹配“公司專業(yè)招聘會詳情”。負(fù)責(zé)人將相關(guān)內(nèi)容設(shè)定完畢之后,經(jīng)由本發(fā)明所述的搜索系統(tǒng)進(jìn)行關(guān)聯(lián)處理之后,會直接顯示如下內(nèi)容A公司自動化專業(yè)周五體育館專場招聘會(Google、百度);B公司軟件分析專業(yè)周五體育館專場招聘會(Google、百度);C公司材料工程周六各區(qū)人才市場綜合招聘會(Google、百度)。在本實(shí)施例中負(fù)責(zé)人由原先的被動收集轉(zhuǎn)換為信息分析,提高信息的安全性與資源管理便捷性,使信息加工的工作邁上了一個新的臺階。以上是對本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實(shí)施方式,均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.一種基于云計算技術(shù)的搜索方法,其特征在于,該搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過搜索引擎建立網(wǎng)頁地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁抓取程序,根據(jù)網(wǎng)頁地圖來抓取關(guān)聯(lián)網(wǎng)頁,并將被抓取的網(wǎng)頁存儲到網(wǎng)頁快照數(shù)據(jù)庫中;利用索引程序?qū)⒕W(wǎng)頁快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,以及剔除作弊網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的基于云計算技術(shù)的搜索方法,其特征在于運(yùn)用搜索引擎進(jìn)行搜索時,對搜索關(guān)鍵字的比重進(jìn)行識別搜索,并對不同關(guān)鍵字的重要性程度進(jìn)行區(qū)分。
3.根據(jù)權(quán)利要求1所述的基于云計算技術(shù)的搜索方法,其特征在于運(yùn)用搜索引擎進(jìn)行搜索時,對分散在不同存儲介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,形成搜索云,并由關(guān)聯(lián)軟件自動管理。
4.根據(jù)權(quán)利要求3所述的基于云計算技術(shù)的搜索方法,其特征在于向服務(wù)器版用戶和群組共享用戶提供云搜索接口,群用戶搜索關(guān)鍵詞時候,其它組內(nèi)用戶的計算機(jī)在開機(jī)的情況下會幫助一起搜索,并把結(jié)果異步送回搜索端,形成搜索云。
5.根據(jù)權(quán)利要求1所述的基于云計算技術(shù)的搜索方法,其特征在于運(yùn)用搜索引擎進(jìn)行搜索時,預(yù)先將不同的關(guān)鍵詞,設(shè)定分布到個人分片的內(nèi)存區(qū)和計算機(jī)內(nèi),需要搜索的時候,調(diào)用各個片區(qū)的自動作業(yè)一起檢索并將關(guān)聯(lián)內(nèi)容存儲。
6.根據(jù)權(quán)利要求1所述的基于云計算技術(shù)的搜索方法,其特征在于利用蜘蛛程序根據(jù)網(wǎng)頁地圖來抓取質(zhì)量好的網(wǎng)頁,對結(jié)果進(jìn)行分析,從中抽取出標(biāo)題及內(nèi)容信息存儲到網(wǎng)頁快照數(shù)據(jù)庫中。
7.根據(jù)權(quán)利要求1所述的基于云計算技術(shù)的搜索方法,其特征在于索引程序?qū)⒕W(wǎng)頁快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,在這個過程中利用去掉作弊網(wǎng)頁,同時根據(jù)配置,程序可以在后臺自動的發(fā)送請求,來獲取數(shù)據(jù)。
8.一種基于云計算技術(shù)的搜索系統(tǒng),其特征在于,該系統(tǒng)包括前端發(fā)起支撐模塊,即關(guān)鍵詞管理模塊,它是該搜索系統(tǒng)的前端發(fā)起支撐平臺,它是通過搜索工具對用戶提供專業(yè)化服務(wù),給用戶開辟數(shù)據(jù)庫,讓用戶能夠創(chuàng)建自己的搜索關(guān)鍵詞、設(shè)置個性化關(guān)鍵詞分類,以及設(shè)置群組關(guān)鍵詞的功能模塊;后臺核心運(yùn)作模塊,它包括自動任務(wù)模塊、云搜索模塊以及數(shù)據(jù)存儲模塊,所述的自動任務(wù)模塊是參照前述的關(guān)鍵詞關(guān)聯(lián)模塊設(shè)定的關(guān)鍵詞,調(diào)用自動搜索程序,把最新的數(shù)據(jù)信息發(fā)送至不同存儲介質(zhì)的功能模塊,以及所述的云搜索模塊,是根據(jù)不同的關(guān)鍵詞設(shè)定,對分散在不同存儲介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,并將搜索結(jié)果同步保存至搜索端、個人分片的內(nèi)存區(qū)和計算機(jī)內(nèi)的功能模塊,以及所述的數(shù)據(jù)存儲模塊,它是包括有公共大型數(shù)據(jù)庫、客戶端個性化數(shù)據(jù)庫及共享用戶數(shù)據(jù)庫,以實(shí)現(xiàn)不同用戶的個性化搜索和操作為目的的功能模塊;展示模塊,它是與前述的前端發(fā)起支撐模塊、后臺核心運(yùn)作模塊相連接,將來自于客戶端、服務(wù)器的數(shù)據(jù)庫,結(jié)合現(xiàn)有的群組概念,在服務(wù)器上設(shè)置關(guān)聯(lián)群組,進(jìn)行搜索關(guān)鍵詞和搜索結(jié)果共享的功能模塊。
9.根據(jù)權(quán)利要求8所述的基于云計算技術(shù)的搜索系統(tǒng),其特征在于在該搜索系統(tǒng)中, 還包括接口設(shè)計模塊,它是先設(shè)計完所有的接口和算法,確定各個功能模塊間接口的功能模塊。
10.根據(jù)權(quán)利要求8所述的基于云計算技術(shù)的搜索系統(tǒng),其特征在于所述的數(shù)據(jù)存儲模塊,包括有分布式數(shù)據(jù)庫子模塊,它是采用分布式數(shù)據(jù)庫技術(shù),對數(shù)據(jù)進(jìn)行橫向分片處理,以及對固定個性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理的功能模塊。
全文摘要
本發(fā)明提出了一種基于云計算技術(shù)的搜索方法及系統(tǒng),屬于計算機(jī)軟件技術(shù)領(lǐng)域。該系統(tǒng)主要包括前端發(fā)起支撐模塊、后臺核心運(yùn)作模塊、展示模塊,以及接口設(shè)計模塊,其搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過搜索引擎建立網(wǎng)頁地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁抓取程序,根據(jù)網(wǎng)頁地圖來抓取關(guān)聯(lián)網(wǎng)頁,并將被抓取的網(wǎng)頁存儲到網(wǎng)頁快照數(shù)據(jù)庫中;利用索引程序?qū)⒕W(wǎng)頁快照數(shù)據(jù)庫中的網(wǎng)頁編號存儲到網(wǎng)頁索引數(shù)據(jù)庫中,以及剔除作弊網(wǎng)頁。本技術(shù)和現(xiàn)有方案比較起來,主要的優(yōu)點(diǎn)在于功能覆蓋,系統(tǒng)配置能力強(qiáng),覆蓋范圍,及具有極強(qiáng)的數(shù)據(jù)分析能力,提高了信息的安全性與資源管理便捷性。
文檔編號G06F17/30GK102253939SQ201010177260
公開日2011年11月23日 申請日期2010年5月17日 優(yōu)先權(quán)日2010年5月17日
發(fā)明者姚南, 蔣科偉 申請人:無錫艾斯科軟件有限公司