專利名稱:用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)和人工智能應(yīng)用領(lǐng)域,特別涉及用于農(nóng)業(yè) 復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法。
背景技術(shù):
國(guó)內(nèi)外學(xué)者對(duì)個(gè)性化、專業(yè)化以及自適應(yīng)搜索模式的研究做 了大量有價(jià)值的工作。比如,唐晨輝設(shè)計(jì)的"一種互聯(lián)網(wǎng)用戶相互搜索方法 及其搜索引擎",提供一種互聯(lián)網(wǎng)用戶之間相互搜索的方法和搜索引擎?;ヂ?lián) 網(wǎng)用戶之間可以根據(jù)彼此使用搜索引擎時(shí)的搜索記錄(采用的關(guān)鍵字和搜索時(shí)間)而找到對(duì)方;GROSS WILLIAM等人設(shè)計(jì)的"SEARCH ENGINE USING USER INTENT",提出了一種基于歷史搜索用戶行為屬性的搜索結(jié)果排序方法。這些 屬性為搜索查詢要求與鏈、文件或與其相關(guān)的其他資源的相關(guān)度提供了一個(gè) 評(píng)測(cè)標(biāo)準(zhǔn)。但是,由于Internet的結(jié)構(gòu)無組織、多模式特點(diǎn);信息源動(dòng)態(tài)性、異地 分布性特點(diǎn);信息量曰新月異地增加,致使保存的信息是變化的、模糊的甚 至是不完整的;這些特點(diǎn)使得這些搜索模型無法適應(yīng)復(fù)雜網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)變 化,信息更新速度緩慢;專業(yè)化信息獲取困難,網(wǎng)頁抓取的采全率、釆準(zhǔn)率 無法得到保證;個(gè)性化搜索模型與自適應(yīng)搜索模型僅僅建立了用戶興趣與搜 索服務(wù)的適應(yīng)與協(xié)作關(guān)系,如何把用戶興趣模式用于校準(zhǔn)專業(yè)信息釆集意向, 如何進(jìn)一步提高專業(yè)信息分類精度,如何凈化分類信息進(jìn)一步提高信息質(zhì)量, 都是新一代專業(yè)化、個(gè)性化、高度智能化搜索引擎面臨的核心問題。正如戴汝為院士指出的互聯(lián)網(wǎng)是一個(gè)以不確定的形式、不確定的時(shí)間 進(jìn)行著不確定內(nèi)容的動(dòng)態(tài)交互作用形成的動(dòng)態(tài)系統(tǒng),這個(gè)系統(tǒng)完全具備了開 放的巨復(fù)雜系統(tǒng)的動(dòng)力學(xué)特征。經(jīng)查新檢索,現(xiàn)有技術(shù)中的情報(bào)雜志24卷7期介紹了《多Agent協(xié)作的智能搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》論文。論文主要技術(shù)內(nèi)容是設(shè)計(jì)了一 種基于多Agent協(xié)作的智能搜索引擎系統(tǒng)模型,結(jié)合人工智能的Agent技術(shù) 與元搜索引擎技術(shù)來共同執(zhí)行檢索任務(wù),實(shí)現(xiàn)基于用戶興趣的智能化與個(gè)性化。該現(xiàn)有技術(shù)論文所述的多Agent協(xié)作的智能搜索引擎系統(tǒng)綜合考慮了用 戶個(gè)性化的特點(diǎn),以Agent之間的通信與協(xié)作完成信息檢索,具有良好的靈活 性和擴(kuò)展性,為用戶檢索所需的信息提供了較好的解決方案。但是該系統(tǒng)的不足之處是多Agent協(xié)作的智能搜索引擎系統(tǒng)是一種元 搜索引擎系統(tǒng),存在著搜索效率較低,受到成員搜索引擎功能的限制,對(duì)于 一些行業(yè)的專業(yè)化搜索引擎的需要,如農(nóng)業(yè)方面的搜索,則查全率與查準(zhǔn)率 還不夠。發(fā)明內(nèi)容本發(fā)明的目的是針對(duì)互聯(lián)網(wǎng)開放性、層次性、演化性、巨 量性等本質(zhì)特性,在提高查全率與查準(zhǔn)率等重要指標(biāo)的同時(shí),提出一種用于 農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法。該方法能夠提高搜索引擎對(duì)用戶 與網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)適應(yīng)能力,為我國(guó)廣大農(nóng)業(yè)協(xié)會(huì)、企業(yè)、大戶以及農(nóng)技人 員提供農(nóng)業(yè)巿場(chǎng)、技術(shù)以及政策、新聞等智能化、個(gè)性化專業(yè)化服務(wù),有效 解決農(nóng)業(yè)信息服務(wù)"信息過載"問題。同時(shí),該方法對(duì)建立其它行業(yè)的專業(yè) 化搜索引擎也具有指導(dǎo)意義。本發(fā)明的技術(shù)方案是 一種用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方 法,包括釆用搜集子系統(tǒng)、索引子系統(tǒng)、日志挖掘子系統(tǒng)和釆集信息數(shù)據(jù)庫, 通過系統(tǒng)控制器釆用分層式多主體聯(lián)盟,其中搜集子系統(tǒng)包括基于知識(shí)模板的采集主體與互聯(lián)網(wǎng)和系統(tǒng)控制器的交 互,,它從系統(tǒng)控制器中獲得需要搜集的網(wǎng)頁地址,然后根據(jù)HTTP協(xié)議,和對(duì) 應(yīng)的網(wǎng)頁地址所在的網(wǎng)絡(luò)服務(wù)器建立連接,在每個(gè)系統(tǒng)控制器上設(shè)一個(gè)以上 分布接口,使用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)向搜集子系統(tǒng)進(jìn)行擴(kuò)展;索引子系統(tǒng)包括索引器和索引數(shù)據(jù)庫,索引器包括詞典、 一級(jí)網(wǎng)頁索引、 二級(jí)網(wǎng)頁索引和網(wǎng)頁描述;曰志挖掘子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫;特別是用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)建立釆集信息數(shù)據(jù)庫的原始 信息數(shù)據(jù)庫,實(shí)現(xiàn)農(nóng)業(yè)信息的形式化表達(dá),該方法的執(zhí)行步驟是將與執(zhí)行任務(wù)的順序控制或伺服控制程序存入系統(tǒng)的程序存儲(chǔ)器;
啟動(dòng)該用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)工作,CPU按系統(tǒng)的程序存儲(chǔ)器內(nèi)容讀取指令、執(zhí)行操作,并根據(jù)所執(zhí)行指令的內(nèi)容更新程序計(jì)數(shù)器; 當(dāng)所執(zhí)行的指令為打開指令時(shí),程序計(jì)數(shù)器更新與通用計(jì)算機(jī)相同,通過多個(gè)主體協(xié)作組進(jìn)入多主體分類聯(lián)盟,建立農(nóng)業(yè)信息采集、分類、清洗和服務(wù)的農(nóng)業(yè)知識(shí)平臺(tái);當(dāng)所執(zhí)行的指令為工作指令時(shí),所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎釆用搜集節(jié)點(diǎn)、索引節(jié)點(diǎn)、查詢主體和用戶;設(shè)定搜集到的網(wǎng)頁存在于一個(gè)搜集節(jié)點(diǎn)上,每個(gè)索引節(jié)點(diǎn)對(duì)應(yīng)搜集節(jié)點(diǎn)搜集的網(wǎng)頁;查詢主體通過多播向所有索引節(jié)點(diǎn)發(fā)送查詢命令,等待搜集到全部索引 節(jié)點(diǎn)返回的檢索結(jié)果后,對(duì)所有結(jié)果依據(jù)相關(guān)度排序,并緩存一定數(shù)量的結(jié) 果,最后向用戶返回結(jié)果的首頁;當(dāng)所執(zhí)行的指令為農(nóng)業(yè)知識(shí)平臺(tái)中的釆集主體指令時(shí),用于農(nóng)業(yè)復(fù)雜自 適應(yīng)搜索引擎采用搜集子系統(tǒng)、索引子系統(tǒng)和曰志挖掘子系統(tǒng)三個(gè)子系統(tǒng);設(shè)定在搜集子系統(tǒng)中采集主體利用知識(shí)模板從互聯(lián)網(wǎng)上不斷的采集信 息,經(jīng)過系統(tǒng)控制器將信息存儲(chǔ)在原始信息數(shù)據(jù)庫中;將原始信息數(shù)據(jù)庫中的數(shù)據(jù)通過多主體分類聯(lián)盟進(jìn)行信息分類,然后通 過索引器的分析,建立索引數(shù)據(jù)庫;同時(shí)將原始信息數(shù)據(jù)庫中的數(shù)據(jù)通過多主體分類聯(lián)盟分類和日志分析器 的分析,建立索引數(shù)據(jù)庫,通過檢索器建立用戶接口,方便用戶查詢檢索信 息,將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中,作為日志分析器的依據(jù);農(nóng)業(yè)知識(shí)平臺(tái)中的釆集主體能夠根據(jù)用戶的不同需要和興趣自適應(yīng)調(diào)整釆集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務(wù)主體協(xié)作組通過相互間 的通信以及跟釆集主體協(xié)作組的相互通信,也進(jìn)行自適應(yīng)調(diào)整,包括原始信 息數(shù)據(jù)庫的背景知識(shí),索引節(jié)點(diǎn)的網(wǎng)頁索引、檢索式、結(jié)果排序,最終提供 給用戶滿意的搜索結(jié)果和服務(wù)。作為對(duì)現(xiàn)有技術(shù)的進(jìn)一步改進(jìn),原始信息數(shù)據(jù)庫包括數(shù)據(jù)庫、文本庫、 圖片庫、知識(shí)庫,知識(shí)庫為農(nóng)業(yè)分類本體知識(shí)庫。
多個(gè)主體協(xié)作組進(jìn)入多主體分類聯(lián)盟,其中,多個(gè)主體協(xié)作組為四個(gè), 包括服務(wù)主體協(xié)作組、清洗主體協(xié)作組、分類主體協(xié)作組、和釆集主體協(xié)作 組,多主體分類聯(lián)盟為四個(gè),包括釆集聯(lián)盟、分類聯(lián)盟、清洗聯(lián)盟、服務(wù)聯(lián) 盟。釆集聯(lián)盟,以星型結(jié)構(gòu)建立多主體釆集聯(lián)盟,釆用知識(shí)模板技術(shù),根據(jù) 農(nóng)業(yè)種植、養(yǎng)殖分類標(biāo)準(zhǔn)定義主體的信息釆集意向,實(shí)現(xiàn)大量農(nóng)業(yè)技術(shù)、農(nóng) 業(yè)巿場(chǎng)、農(nóng)業(yè)新聞信息的分類釆集,建立網(wǎng)絡(luò)信息的釆集主體。分類聯(lián)盟以星型結(jié)構(gòu)建立多主體分類聯(lián)盟,針對(duì)種植、養(yǎng)殖的品種技術(shù)、 施肥技術(shù)、病蟲害診斷與防治技術(shù)以及糧食作物、經(jīng)濟(jì)作物、瓜果蔬菜分類 本體為背景知識(shí),釆用基于支持向量機(jī)的半監(jiān)督聚類方法對(duì)釆集的網(wǎng)絡(luò)信息 建立支持向量機(jī)分類主體。清洗聯(lián)盟以星型結(jié)構(gòu)建立多主體清洗聯(lián)盟,設(shè)有數(shù)據(jù)清洗、文本清洗、 圖片清洗,采用時(shí)間序列插值、空間序列插值方法建立數(shù)據(jù)缺損、矛盾、冗 余探測(cè)與清洗主體;釆用基于背景知識(shí)的半監(jiān)督聚類方法建立網(wǎng)頁信息奇異 點(diǎn)探測(cè)主體,釆用基于矢量空間模型相似度計(jì)算方法建立冗余網(wǎng)頁信息探測(cè) 與清洗主體。服務(wù)聯(lián)盟建立多主體服務(wù)聯(lián)盟,利用廣大用戶注冊(cè)信息作為背景知識(shí), 結(jié)合網(wǎng)絡(luò)用戶曰志挖掘技術(shù),基于農(nóng)業(yè)分類本體的信息擴(kuò)張技術(shù),實(shí)現(xiàn)用戶 需求逐步聚焦,針對(duì)農(nóng)業(yè)協(xié)會(huì)、農(nóng)業(yè)企業(yè)、農(nóng)民大戶建立服務(wù)主體。本發(fā)明的有益效果是現(xiàn)有技術(shù)論文中的多Agent協(xié)作的智能搜索引擎系統(tǒng)是一種元搜索引擎 系統(tǒng),直接利用成員搜索引擎進(jìn)行搜索,獲得結(jié)果,不需要對(duì)網(wǎng)絡(luò)原始信息 進(jìn)行釆集,沒有利用知識(shí)表達(dá)方法對(duì)信息進(jìn)行形式化表達(dá),不存在原始信息 數(shù)據(jù)庫。本發(fā)明方法中建立原始信息數(shù)據(jù)庫,實(shí)現(xiàn)農(nóng)業(yè)信息的形式化表達(dá),釆 集主體利用知識(shí)模板從互聯(lián)網(wǎng)上不斷的采集信息,經(jīng)過系統(tǒng)控制器,將信息 存儲(chǔ)在原始信息數(shù)據(jù)庫中。原始信息數(shù)據(jù)庫中的數(shù)據(jù)通過多主體分類聯(lián)盟進(jìn) 行信息分類,然后通過索引器的分析,建立索引數(shù)據(jù)庫。用戶通過用戶接口,
利用檢索器查詢索引數(shù)據(jù)庫中的信息,同時(shí)用戶的行為會(huì)記錄在用戶行為曰 志數(shù)據(jù)庫中,作為曰志分析器的依據(jù)。曰志分析器的結(jié)果會(huì)反饋到原始信息 數(shù)據(jù)庫和索引數(shù)據(jù)庫,對(duì)原始信息數(shù)據(jù)庫中的內(nèi)容做相應(yīng)的調(diào)整。農(nóng)業(yè)知識(shí) 平臺(tái)中的采集主體能夠根據(jù)用戶的不同需要和興趣自適應(yīng)調(diào)整釆集意向,分 類主體協(xié)作組、清洗主體協(xié)作組和服務(wù)主體協(xié)作組通過相互間的通信以及跟 釆集主體協(xié)作組的相互通信,也進(jìn)行自適應(yīng)調(diào)整,包括原始信息數(shù)據(jù)庫的背 景知識(shí),索引節(jié)點(diǎn)的網(wǎng)頁索引、檢索式、結(jié)果排序,最終提供給用戶滿意的 搜索結(jié)果和服務(wù)。本專利申請(qǐng)中的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)是一種基于網(wǎng)絡(luò)信息 采集器的搜索引擎,利用釆集主體聯(lián)盟和知識(shí)模板直接在互聯(lián)網(wǎng)上釆集信息, 不存在對(duì)外界搜索引擎的依賴,并且利用知識(shí)表達(dá)方法對(duì)信息進(jìn)行形式化表 達(dá),建立系統(tǒng)的原始信息數(shù)據(jù)庫,而且本系統(tǒng)利用復(fù)雜適應(yīng)系統(tǒng)的思想,建立具有學(xué)習(xí)機(jī)制和進(jìn)化機(jī)制的多智能體,不但注重主體(agent)間的交互, 還強(qiáng)調(diào)主體與外界環(huán)境的交互和影響,與傳統(tǒng)的多主體系統(tǒng)有所不同。本發(fā)明針對(duì)互聯(lián)網(wǎng)開放性、層次性、演化性、巨量性等本質(zhì)特性,從復(fù) 雜適應(yīng)系統(tǒng)這一全新的角度,以農(nóng)業(yè)搜索服務(wù)為應(yīng)用背景,建立專業(yè)信息釆 集、分類、清洗與服務(wù)主體聯(lián)盟,并組成多主體聯(lián)盟實(shí)驗(yàn)環(huán)境。
本發(fā)明對(duì)文化程度以及計(jì)算機(jī)操作水平相對(duì)較低的涉農(nóng)用戶將有更加迫 切的需求。目前國(guó)內(nèi)農(nóng)業(yè)專業(yè)搜索引擎,特別是個(gè)性化、自適應(yīng)的農(nóng)業(yè)搜索 引擎還處于技術(shù)突破的前沿,因此用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制 方法為我國(guó)蓬勃發(fā)展的農(nóng)業(yè)企業(yè)、農(nóng)業(yè)協(xié)會(huì)、農(nóng)民大戶以及廣大農(nóng)業(yè)技術(shù)人 員提供農(nóng)業(yè)巿場(chǎng)、農(nóng)業(yè)技術(shù)以及政策新聞等個(gè)性化服務(wù)。有效緩解農(nóng)業(yè)信息 服務(wù)"信息過載"問題,對(duì)促進(jìn)我國(guó)農(nóng)業(yè)與農(nóng)村信息化建設(shè)也將起到關(guān)鍵作 用。同時(shí),該方法對(duì)建立其它行業(yè)的專業(yè)化搜索引擎也具有指導(dǎo)意義。
圖l是本發(fā)明的農(nóng)業(yè)知識(shí)平臺(tái)示意圖。圖2是用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎設(shè)計(jì)示意圖。圖3是用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法實(shí)施方框圖。圖4是用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法的流程圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步解釋 圖l是本發(fā)明的農(nóng)業(yè)知識(shí)平臺(tái)示意圖。在圖l中多個(gè)主體協(xié)作組為四個(gè),包括服務(wù)主體協(xié)作組、清洗主體協(xié)作組、分類主體協(xié)作組、和釆集主體協(xié)作組;多主體分類聯(lián)盟為四個(gè),包括釆集聯(lián)盟、分類聯(lián)盟、清洗聯(lián)盟、服務(wù)聯(lián) 盟。其中釆集聯(lián)盟,由農(nóng)業(yè)技術(shù)釆集主體、農(nóng)業(yè)巿場(chǎng)釆集主體、農(nóng)業(yè)新聞釆集主 體等組成采集聯(lián)盟。以星型結(jié)構(gòu)建立多主體釆集聯(lián)盟,釆用知識(shí)模板技術(shù), 根據(jù)農(nóng)業(yè)種植、養(yǎng)殖分類標(biāo)準(zhǔn)定義主體的信息釆集意向,實(shí)現(xiàn)大量農(nóng)業(yè)技術(shù)、 農(nóng)業(yè)巿場(chǎng)、農(nóng)業(yè)新聞信息的分類采集,建立網(wǎng)絡(luò)信息的采集主體。分類聯(lián)盟,由種植業(yè)分類主體、養(yǎng)殖業(yè)分類主體、林業(yè)分類主體等組成 分類聯(lián)盟。以星型結(jié)構(gòu)建立多主體分類聯(lián)盟,針對(duì)種植、養(yǎng)殖的品種技術(shù)、 施肥技術(shù)、病蟲害診斷與防治技術(shù)以及糧食作物、經(jīng)濟(jì)作物、瓜果蔬菜分類 本體為背景知識(shí),釆用基于支持向量機(jī)的半監(jiān)督聚類方法對(duì)采集的網(wǎng)絡(luò)信息 建立支持向量機(jī)分類主體。清洗聯(lián)盟,由數(shù)據(jù)清洗主體、文本清洗主體、圖片清洗主體等組成清洗 聯(lián)盟。以星型結(jié)構(gòu)建立多主體清洗聯(lián)盟,設(shè)有數(shù)據(jù)清洗、文本清洗、圖片清 洗,釆用時(shí)間序列插值、空間序列插值方法建立數(shù)據(jù)缺損、矛盾、冗余探測(cè) 與清洗主體;采用基于背景知識(shí)的半監(jiān)督聚類方法建立網(wǎng)頁信息奇異點(diǎn)探測(cè) 主體,釆用基于矢量空間模型相似度計(jì)算方法建立冗余網(wǎng)頁信息探測(cè)與清洗 主體。服務(wù)聯(lián)盟,由農(nóng)業(yè)協(xié)會(huì)服務(wù)主體、農(nóng)業(yè)企業(yè)服務(wù)主體、農(nóng)民大戶服務(wù)主 體等組成服務(wù)聯(lián)盟。建立多主體服務(wù)聯(lián)盟,利用廣大用戶注冊(cè)信息作為背景 知識(shí),結(jié)合網(wǎng)絡(luò)用戶日志挖掘技術(shù),基于農(nóng)業(yè)分類本體的信息擴(kuò)張技術(shù),實(shí) 現(xiàn)用戶需求逐步聚焦,針對(duì)農(nóng)業(yè)協(xié)會(huì)、農(nóng)業(yè)企業(yè)、農(nóng)民大戶建立服務(wù)主體。多個(gè)主體協(xié)作組進(jìn)入多主體分類聯(lián)盟,并以原始信息數(shù)據(jù)庫為交互平臺(tái)、 按層次式組織結(jié)構(gòu)最終形成農(nóng)業(yè)復(fù)雜自適應(yīng)多主體聯(lián)盟系統(tǒng),即農(nóng)業(yè)知識(shí)平
隨著用戶興趣模式的變化,索引節(jié)點(diǎn)的網(wǎng)頁索引、檢索式、結(jié)果排序, 釆集主體釆集意向,清洗聯(lián)盟與分類聯(lián)盟學(xué)習(xí)的背景知識(shí)都在進(jìn)行與之適應(yīng)的演變。用戶能夠釆用農(nóng)業(yè)知識(shí)平臺(tái)觀察多主體協(xié)助組和多主體分類聯(lián)盟之 間及其與用戶環(huán)境、網(wǎng)絡(luò)環(huán)境之間交互、學(xué)習(xí)、適應(yīng)、進(jìn)化的結(jié)果,進(jìn)行自 適應(yīng)搜索模型的查全率、查準(zhǔn)率在宏觀上的演化規(guī)律的研究。圖2是用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎設(shè)計(jì)示意圖。搜集節(jié)點(diǎn)之間相互協(xié)調(diào),分配URL,保證每個(gè)網(wǎng)絡(luò)主機(jī)的全部網(wǎng)頁只能存在于一個(gè)搜集節(jié)點(diǎn)上。每個(gè)索引節(jié)點(diǎn)對(duì)應(yīng)搜集節(jié)點(diǎn)搜集的網(wǎng)頁,查詢主體通過多播向所有索引節(jié)點(diǎn) 發(fā)送查詢命令,等待搜集到全部索引節(jié)點(diǎn)返回的檢索結(jié)果后,對(duì)所有結(jié)果依 據(jù)相關(guān)度排序,并緩存一定數(shù)量的結(jié)果,最后向用戶返回結(jié)果的首頁。用戶 的后續(xù)查詢(翻頁),將會(huì)在緩存命中,不必再次啟動(dòng)后面的網(wǎng)絡(luò)查詢,這將 大大減少查詢的響應(yīng)時(shí)間,降低后面查詢系統(tǒng)的負(fù)載,從而提高查詢系統(tǒng)的 性能。圖3是用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法實(shí)施方框圖。首先釆集主體利用知識(shí)模板從互聯(lián)網(wǎng)上不斷的釆集信息,經(jīng)過系統(tǒng)控制 器,將信息存儲(chǔ)在原始信息數(shù)據(jù)庫中。原始信息數(shù)據(jù)庫中的數(shù)據(jù)通過多主體 分類聯(lián)盟進(jìn)行信息分類,然后通過索引器的分析,主要包括利用字典實(shí)現(xiàn)原始信息特征項(xiàng)和URL的編碼,通過編碼建立一級(jí)網(wǎng)頁索引和二級(jí)網(wǎng)頁索引,最 后是網(wǎng)頁描述,建立索引數(shù)據(jù)庫。用戶通過用戶接口,利用檢索器査詢索引 數(shù)據(jù)庫中的信息,同時(shí)用戶的行為會(huì)記錄在用戶行為日志數(shù)據(jù)庫中,作為曰 志分析器的依據(jù)。日志分析器的結(jié)果會(huì)反饋到原始信息數(shù)據(jù)庫和索引數(shù)據(jù)庫, 對(duì)數(shù)據(jù)庫中的內(nèi)容做相應(yīng)的調(diào)整。從圖3可以看出,從功能模塊上劃分,用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系 統(tǒng)由搜集子系統(tǒng)、索引子系統(tǒng)和曰志挖掘子系統(tǒng)三個(gè)子系統(tǒng)構(gòu)成。搜集子系統(tǒng)包括基于知識(shí)模板的釆集主體與互聯(lián)網(wǎng)和系統(tǒng)控制器的交 互,它從系統(tǒng)控制器中獲得需要搜集的網(wǎng)頁地址,然后根據(jù)HTTP協(xié)議,和對(duì) 應(yīng)的網(wǎng)頁地址所在的網(wǎng)絡(luò)服務(wù)器建立連接。索引子系統(tǒng)包括索引器和索引數(shù)據(jù)庫,索引器包括如下四部分
一、 詞典詞典是實(shí)現(xiàn)特征項(xiàng)、URL和其對(duì)應(yīng)編碼的工具。對(duì)于搜索引 擎而言,特征項(xiàng)和URL是中文或英文的不定長(zhǎng)字符串。顯然這不利于系統(tǒng)的 存儲(chǔ)和運(yùn)算。通過詞典,將這些不定長(zhǎng)的數(shù)據(jù)轉(zhuǎn)換成系統(tǒng)唯一的整型編碼, 能夠節(jié)省系統(tǒng)的存儲(chǔ)空間,同時(shí)提高了檢索中最常用的運(yùn)算——比較運(yùn)算的 運(yùn)行效率。二、 一級(jí)網(wǎng)頁索引通過詞典, 一個(gè)特征項(xiàng)被翻譯為系統(tǒng)唯一的編碼。 利用這個(gè)編碼,可以找到這個(gè)特征項(xiàng)對(duì)應(yīng)的網(wǎng)頁的一級(jí)索引的入口。 一級(jí)索 引中包含兩個(gè)數(shù)據(jù), 一是該特征項(xiàng)對(duì)應(yīng)的二級(jí)網(wǎng)頁索引的入口地址偏移量, 二是二級(jí)索引項(xiàng)的個(gè)數(shù)。三、 二級(jí)網(wǎng)頁索引二級(jí)索引是一個(gè)索引項(xiàng)列表,它通過一級(jí)索引獲得。 二級(jí)索引表中每一項(xiàng)代表檢索特征項(xiàng)對(duì)應(yīng)的一個(gè)結(jié)果網(wǎng)頁概要描述,包括該 網(wǎng)頁的編碼,特征項(xiàng)與該網(wǎng)頁的相關(guān)度權(quán)值以及用戶的評(píng)價(jià)權(quán)值。四、 網(wǎng)頁描述這就是檢索到的信息,用戶通過網(wǎng)頁編碼獲得它。它的 對(duì)應(yīng)域基本上和網(wǎng)頁分析時(shí)產(chǎn)生的網(wǎng)頁描述相同,只有一個(gè)域_一鏈接權(quán)值, 是在索引生成時(shí)通過對(duì)已搜集網(wǎng)頁的鏈接關(guān)系生成。曰志挖掘子系統(tǒng)是包括用戶行為日志數(shù)據(jù)庫和日志分析器。系統(tǒng)控制器 除了按照啟發(fā)式算法優(yōu)先選擇重要的URL并分派給各個(gè)釆集主體外,還完成 站點(diǎn)過濾、實(shí)現(xiàn)釆集主體協(xié)議及域名解析高速緩存功能。釆集主體按照HTTP 協(xié)議負(fù)責(zé)從網(wǎng)絡(luò)上抓取網(wǎng)頁,為提高網(wǎng)頁搜集速度,通??梢詥?dòng)上百個(gè)釆 集主體同時(shí)工作。釆集主體同時(shí)對(duì)搜集回來的網(wǎng)頁內(nèi)容進(jìn)行分析處理。系統(tǒng)控制器由主控接口、網(wǎng)頁處理模塊、超鏈提取模塊三部分構(gòu)成。其 中主控接口負(fù)責(zé)和釆集主體的通信,以及和系統(tǒng)控制器內(nèi)部網(wǎng)頁處理模塊 和超鏈提取模塊的通信。主控接口將采集主體提交的信息轉(zhuǎn)送給網(wǎng)頁處理模 塊和超鏈提取模塊,同時(shí)將超鏈提取模塊選出的待抓取的URL分配給釆集主 體。網(wǎng)頁處理模塊主要的功能主要是將網(wǎng)頁的文本及相關(guān)信息,如網(wǎng)頁大小、 網(wǎng)頁的最后更新日期等,進(jìn)行提取分析,然后保存到原始信息數(shù)據(jù)庫中的網(wǎng) 頁數(shù)據(jù)庫。
超鏈提取模塊分析網(wǎng)頁的文本內(nèi)容,從中提取指向其它網(wǎng)頁的鏈接,將 它們保存到原始信息數(shù)據(jù)庫中的鏈接數(shù)據(jù)庫中。超鏈提取模塊的選擇是按照 一定的算法,從超鏈數(shù)據(jù)庫中提取優(yōu)先級(jí)最高的網(wǎng)頁,將它們分配給采集主 體進(jìn)行搜集。在用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的設(shè)計(jì)里,在每一個(gè)系統(tǒng) 控制器上多設(shè)了 一個(gè)分布接口 ,使原有系統(tǒng)向子系統(tǒng)進(jìn)行擴(kuò)展。用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法執(zhí)行步驟是將與執(zhí)行任務(wù)的順序控制或伺服控制程序存入系統(tǒng)的程序存儲(chǔ)器; 啟動(dòng)該用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)工作,CPU按系統(tǒng)的程序存儲(chǔ)器內(nèi)容讀取指令、執(zhí)行操作,并根據(jù)所執(zhí)行指令的內(nèi)容更新程序計(jì)數(shù)器; 當(dāng)所執(zhí)行的指令為打開指令時(shí),程序計(jì)數(shù)器更新與通用計(jì)算機(jī)相同,通過多個(gè)主體協(xié)作組進(jìn)入多主體分類聯(lián)盟,建立農(nóng)業(yè)信息釆集、分類、清洗和服務(wù)的農(nóng)業(yè)知識(shí)平臺(tái);當(dāng)所執(zhí)行的指令為工作指令時(shí),搜索引擎釆用搜集節(jié)點(diǎn)、索引節(jié)點(diǎn)、查 詢主體和用戶;設(shè)定搜集到的網(wǎng)頁存在于一個(gè)搜集節(jié)點(diǎn)上,每個(gè)索引節(jié)點(diǎn)對(duì)應(yīng)搜集節(jié)點(diǎn) 搜集的網(wǎng)頁;查詢主體通過多播向所有索引節(jié)點(diǎn)發(fā)送查詢命令,等待搜集到全部索引 節(jié)點(diǎn)返回的檢索結(jié)果后,對(duì)所有結(jié)果依據(jù)相關(guān)度排序,并緩存一定數(shù)量的結(jié) 果,最后向用戶返回結(jié)果的首頁;當(dāng)所執(zhí)行的指令為農(nóng)業(yè)知識(shí)平臺(tái)中的釆集主體指令時(shí),搜索引擎采用搜 集子系統(tǒng)、索引子系統(tǒng)和曰志挖掘子系統(tǒng)三個(gè)子系統(tǒng);設(shè)定在搜集子系統(tǒng)中采集主體利用知識(shí)模板從互聯(lián)網(wǎng)上不斷的采集信 息,經(jīng)過系統(tǒng)控制器將信息存儲(chǔ)在原始信息數(shù)據(jù)庫中;將原始信息數(shù)據(jù)庫中的數(shù)據(jù)通過多主體分類聯(lián)盟分類和日志分析器的分 析,建立索引數(shù)據(jù)庫,通過檢索器建立用戶接口,方便用戶查詢檢索信息, 將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中,作為日志分析器的依據(jù);農(nóng)業(yè)知識(shí)平臺(tái)中的釆集主體能夠根據(jù)用戶的不同需要和興趣自適應(yīng)調(diào)整釆集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務(wù)主體協(xié)作組通過相互間 的通信以及跟釆集主體協(xié)作組的相互通信,也進(jìn)行自適應(yīng)調(diào)整,包括原始信 息數(shù)據(jù)庫的背景知識(shí),索引節(jié)點(diǎn)的網(wǎng)頁索引、檢索式、結(jié)果排序,最終提供 給用戶滿意的搜索結(jié)果和服務(wù)。索引器將原始信息數(shù)據(jù)庫的內(nèi)容重新組織,建立索引數(shù)據(jù)庫,以提高檢 索效率。調(diào)用切詞軟件以提取關(guān)鍵詞和摘要,提取URL超鏈接,記錄網(wǎng)頁的 元信息,如作者、修改日期、長(zhǎng)度等,并將這些內(nèi)容存入原始信息數(shù)據(jù)庫。用戶接口在截取用戶的查詢請(qǐng)求后,將它轉(zhuǎn)發(fā)給檢索器,檢索器根據(jù)查 詢項(xiàng)和索引數(shù)據(jù)庫的內(nèi)容,找到匹配的網(wǎng)頁后,進(jìn)行相關(guān)度計(jì)算并排序,然 后通過用戶接口返回給用戶。另外,用戶接口程序還將用戶行為信息,包括用戶查詢項(xiàng)、用戶點(diǎn)擊的URL、用戶翻頁情況等,記錄到用戶行為曰志數(shù)據(jù)庫中。日志分析器用于跟蹤用戶行為,能夠?qū)W習(xí)新詞來動(dòng)態(tài)更新詞典內(nèi)容, 以提高搜索引擎的服務(wù)質(zhì)量。圖4是用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法的流程圖。 農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎開始啟動(dòng)(步驟100 ),搜索引擎系統(tǒng)初始化(步 驟IIO),然后,采集主體聯(lián)盟開始采集網(wǎng)絡(luò)信息(步驟120),對(duì)獲得的網(wǎng)絡(luò) 原始信息進(jìn)行網(wǎng)絡(luò)信息處理,對(duì)網(wǎng)頁的文本及相關(guān)信息進(jìn)行提取分析(步驟 130),并從中提取指向其它網(wǎng)頁的超鏈接(步驟140),將分析后的網(wǎng)絡(luò)信息 保存到原始信息數(shù)據(jù)庫(步驟150),對(duì)原始信息建立信息索引(步驟160), 建立索引數(shù)據(jù)庫(步驟170),用戶對(duì)索引數(shù)據(jù)庫進(jìn)行信息檢索(步驟180), 系統(tǒng)返回給用戶相應(yīng)的檢索結(jié)果即作為結(jié)果網(wǎng)頁(190),同時(shí)系統(tǒng)保存用戶 曰志行為(步驟200 ),用戶日志行為分析器對(duì)用戶日志行為進(jìn)行分析(步驟 210),修改原始信息采集策略和索引策略(步驟220 )。如果還有新的檢索要 求,用戶繼續(xù)檢索信息(步驟230),則重復(fù)步驟180至步驟220,若否,則 檢索結(jié)束(步驟240)。
權(quán)利要求
1、一種用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法,包括采用搜集子系統(tǒng)、索引子系統(tǒng)、日志挖掘子系統(tǒng)和采集信息數(shù)據(jù)庫,通過系統(tǒng)控制器采用分層式多主體聯(lián)盟,其中所述的搜集子系統(tǒng)包括基于知識(shí)模板的采集主體與互聯(lián)網(wǎng)和系統(tǒng)控制器的交互,它從系統(tǒng)控制器中獲得需要搜集的網(wǎng)頁地址,然后根據(jù)HTTP協(xié)議,和對(duì)應(yīng)的網(wǎng)頁地址所在的網(wǎng)絡(luò)服務(wù)器建立連接,在每個(gè)系統(tǒng)控制器上設(shè)一個(gè)以上分布接口,使用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)向搜集子系統(tǒng)進(jìn)行擴(kuò)展;所述的索引子系統(tǒng)包括索引器和索引數(shù)據(jù)庫,索引器包括詞典、一級(jí)網(wǎng)頁索引、二級(jí)網(wǎng)頁索引和網(wǎng)頁描述;所述的日志挖掘子系統(tǒng)包括日志分析器和用戶行為日志數(shù)據(jù)庫;其特征在于用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)建立采集信息數(shù)據(jù)庫的原始信息數(shù)據(jù)庫,實(shí)現(xiàn)農(nóng)業(yè)信息的形式化表達(dá),該方法的執(zhí)行步驟是將與執(zhí)行任務(wù)的順序控制或伺服控制程序存入系統(tǒng)的程序存儲(chǔ)器;啟動(dòng)該用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)工作,CPU按系統(tǒng)的程序存儲(chǔ)器內(nèi)容讀取指令、執(zhí)行操作,并根據(jù)所執(zhí)行指令的內(nèi)容更新程序計(jì)數(shù)器;當(dāng)所執(zhí)行的指令為打開指令時(shí),程序計(jì)數(shù)器更新與通用計(jì)算機(jī)相同,通過多個(gè)主體協(xié)作組進(jìn)入多主體分類聯(lián)盟,建立農(nóng)業(yè)信息采集、分類、清洗和服務(wù)的農(nóng)業(yè)知識(shí)平臺(tái);當(dāng)所執(zhí)行的指令為工作指令時(shí),所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎采用搜集節(jié)點(diǎn)、索引節(jié)點(diǎn)、查詢主體和用戶;設(shè)定搜集到的網(wǎng)頁存在于一個(gè)搜集節(jié)點(diǎn)上,每個(gè)索引節(jié)點(diǎn)對(duì)應(yīng)搜集節(jié)點(diǎn)搜集的網(wǎng)頁;查詢主體通過多播向所有索引節(jié)點(diǎn)發(fā)送查詢命令,等待搜集到全部索引節(jié)點(diǎn)返回的檢索結(jié)果后,對(duì)所有結(jié)果依據(jù)相關(guān)度排序,并緩存一定數(shù)量的結(jié)果,最后向用戶返回結(jié)果的首頁;設(shè)定在所述的搜集子系統(tǒng)中采集主體利用知識(shí)模板從互聯(lián)網(wǎng)上不斷的采集信息,經(jīng)過系統(tǒng)控制器將信息存儲(chǔ)在所述的原始信息數(shù)據(jù)庫中;將所述的原始信息數(shù)據(jù)庫中的數(shù)據(jù)通過多主體分類聯(lián)盟進(jìn)行信息分類,然后通過所述的索引器的分析,建立索引數(shù)據(jù)庫;同時(shí)將所述的原始信息數(shù)據(jù)庫中的數(shù)據(jù)通過多主體分類聯(lián)盟分類和日志分析器的分析,建立索引數(shù)據(jù)庫,通過檢索器建立用戶接口,方便用戶查詢檢索信息,將用戶的行為記錄在用戶行為日志數(shù)據(jù)庫中,作為日志分析器的依據(jù);所述的農(nóng)業(yè)知識(shí)平臺(tái)中的采集主體能夠根據(jù)用戶的不同需要和興趣自適應(yīng)調(diào)整采集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務(wù)主體協(xié)作組通過相互間的通信與采集主體協(xié)作組相互通信,進(jìn)行自適應(yīng)調(diào)整,包括所述的原始信息數(shù)據(jù)庫的背景知識(shí),索引節(jié)點(diǎn)的網(wǎng)頁索引、檢索式、結(jié)果排序,最終提供給用戶滿意的搜索結(jié)果和服務(wù)。
2、 根據(jù)權(quán)利要求l所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方 法,其特征是所述的原始信息數(shù)據(jù)庫包括數(shù)據(jù)庫、文本庫、圖片庫、知識(shí)庫,所述的知識(shí)庫為農(nóng)業(yè)分類本體知識(shí)庫。
3、 根據(jù)權(quán)利要求1所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方 法,其特征是所述的多個(gè)主體協(xié)作組進(jìn)入多主體分類聯(lián)盟,其中,所述的 多個(gè)主體協(xié)作組為四個(gè),包括服務(wù)主體協(xié)作組、清洗主體協(xié)作組、分類主體 協(xié)作組、和釆集主體協(xié)作組,所述的多主體分類聯(lián)盟為四個(gè),包括釆集聯(lián)盟、 分類聯(lián)盟、清洗聯(lián)盟、服務(wù)聯(lián)盟。
4、 根據(jù)權(quán)利要求1所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方 法,其特征是所述的采集聯(lián)盟,以星型結(jié)構(gòu)建立多主體釆集聯(lián)盟,釆用知 識(shí)模板技術(shù),根據(jù)農(nóng)業(yè)種植、養(yǎng)殖分類標(biāo)準(zhǔn)定義主體的信息采集意向,實(shí)現(xiàn) 大量農(nóng)業(yè)技術(shù)、農(nóng)業(yè)市場(chǎng)、農(nóng)業(yè)新聞信息的分類釆集,建立網(wǎng)絡(luò)信息的釆集 主體。
5、 根據(jù)權(quán)利要求1所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方 法,其特征是所述的分類聯(lián)盟以星型結(jié)構(gòu)建立多主體分類聯(lián)盟,針對(duì)種植、 養(yǎng)殖的品種技術(shù)、施肥技術(shù)、病蟲害診斷與防治技術(shù)以及糧食作物、經(jīng)濟(jì)作 物、瓜果蔬菜分類本體為背景知識(shí),釆用基于支持向量機(jī)的半監(jiān)督聚類方法 對(duì)釆集的網(wǎng)絡(luò)信息建立支持向量機(jī)分類主體。
6、 根據(jù)權(quán)利要求1所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方 法,其特征是所述的清洗聯(lián)盟,以星型結(jié)構(gòu)建立多主體清洗聯(lián)盟,設(shè)有數(shù) 據(jù)清洗、文本清洗、圖片清洗,釆用時(shí)間序列插值、空間序列插值方法建立 數(shù)據(jù)缺損、矛盾、冗余探測(cè)與清洗主體,釆用基于背景知識(shí)的半監(jiān)督聚類方 法建立網(wǎng)頁信息奇異點(diǎn)探測(cè)主體,釆用基于矢量空間模型相似度計(jì)算方法建 立冗余網(wǎng)頁信息探測(cè)與清洗主體。
7、 根據(jù)權(quán)利要求1所述的用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方 法,其特征是所述的服務(wù)聯(lián)盟,建立多主體服務(wù)聯(lián)盟,利用廣大用戶注冊(cè) 信息作為背景知識(shí),結(jié)合網(wǎng)絡(luò)用戶曰志挖掘技術(shù),基于農(nóng)業(yè)分類本體的信息 擴(kuò)張技術(shù),實(shí)現(xiàn)用戶需求逐步聚焦,針對(duì)農(nóng)業(yè)協(xié)會(huì)、農(nóng)業(yè)企業(yè)、農(nóng)民大戶建 立服務(wù)主體。
全文摘要
本發(fā)明涉及用于農(nóng)業(yè)復(fù)雜自適應(yīng)搜索引擎系統(tǒng)的控制方法,包括采用搜集子系統(tǒng)、索引子系統(tǒng)、日志挖掘子系統(tǒng)和原始信息數(shù)據(jù)庫,通過系統(tǒng)控制器采用分層式多主體聯(lián)盟。通過多個(gè)主體協(xié)作組進(jìn)入多主體分類聯(lián)盟,建立農(nóng)業(yè)信息采集、分類、清洗和服務(wù)的農(nóng)業(yè)知識(shí)平臺(tái)。農(nóng)業(yè)知識(shí)平臺(tái)中的采集主體能夠根據(jù)用戶的不同需要和興趣自適應(yīng)調(diào)整采集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務(wù)主體協(xié)作組通過相互間的通信與采集主體協(xié)作組相互通信,進(jìn)行自適應(yīng)調(diào)整,包括原始信息數(shù)據(jù)庫的內(nèi)容更新,最終提供給用戶滿意的搜索結(jié)果和服務(wù)。本發(fā)明提高搜索引擎對(duì)用戶與網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)適應(yīng)能力,解決農(nóng)業(yè)信息服務(wù)“信息過載”問題。
文檔編號(hào)G06F19/00GK101162472SQ20071019395
公開日2008年4月16日 申請(qǐng)日期2007年11月21日 優(yōu)先權(quán)日2007年11月21日
發(fā)明者孫丙宇, 張曉明, 王儒敬, 魏圓圓, 河 黃 申請(qǐng)人:中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院