两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于布谷鳥搜索的方法與流程

文檔序號(hào):12121368閱讀:774來源:國(guó)知局

本發(fā)明涉及一種搜索的方法,具體為一種基于布谷鳥搜索的方法,屬于搜索引擎應(yīng)用技術(shù)領(lǐng)域。



背景技術(shù):

布谷鳥是一種巢寄生鳥類,它將卵產(chǎn)在其它鳥的鳥巢中,由宿主代為孵化和育雛。若被宿主發(fā)現(xiàn),則可能將外來卵移走或直接放棄自己的鳥巢,尋找其他地方重新筑巢。布谷鳥為了增加繁殖成功率,在繁殖期會(huì)尋找與孵化期和育雛期相似、雛鳥食性基本相同、卵形與顏色易仿的宿主;它每飛到一個(gè)鳥巢,巢里只產(chǎn)一個(gè)卵,而且在產(chǎn)卵前,它會(huì)將宿主的一個(gè)卵移走或全部推出鳥巢。同時(shí)一旦布谷鳥的雛鳥孵出,它有將寄主的雛鳥推出巢外的習(xí)性,從而獨(dú)享宿主撫育。

布谷鳥搜索算法是將自然界中布谷鳥寄生孵育雛鳥的生物行為與一些鳥類和果蠅的萊維飛行行為相結(jié)合構(gòu)造出的隨機(jī)搜索算法。在自然界中,布谷鳥尋找宿主鳥巢位置是隨機(jī)的或類似隨機(jī)的方式。布谷鳥搜索(cuckoo search,CS)算法由Yang等在2009年提出。該算法模擬了布谷鳥尋找巢穴產(chǎn)卵的行為,具有簡(jiǎn)單、參數(shù)少、易于實(shí)現(xiàn)、隨機(jī)搜索的路徑優(yōu)、尋優(yōu)的能力強(qiáng)的特點(diǎn),CS算法是一種具有全局收斂性的隨機(jī)算法,在工程優(yōu)化上已經(jīng)有了成功的應(yīng)用。CS算法有4個(gè)重要的參數(shù),即鳥巢數(shù)目n、發(fā)現(xiàn)概率Pa、步長(zhǎng)α以及萊維飛行的參數(shù)λ,其中后面3個(gè)參數(shù)控制著算法進(jìn)行全局以及局部的搜索平衡。參數(shù)λ和鳥巢數(shù)目n對(duì)于算法的影響比較小。

在自然界中,布谷鳥尋找鳥窩位置是隨機(jī)的方式或者是類似隨機(jī)的方式,為了模擬布谷鳥尋窩的方式,首先,我們先設(shè)定以下三個(gè)理想的狀態(tài):

(1)布谷鳥每次只產(chǎn)一個(gè)卵,并隨機(jī)選擇鳥窩位置來孵化這個(gè)卵;

(2)在一組隨機(jī)選擇的鳥窩中,最好的鳥窩位置會(huì)被保留到下一代;

(3)鳥窩群體規(guī)模n是固定的,設(shè)定一個(gè)鳥窩的主人能發(fā)現(xiàn)一個(gè)外來鳥蛋的概率為Pa∈[0,1].

目前國(guó)內(nèi)將布谷鳥搜索算法應(yīng)用在主題爬蟲技術(shù)中的研究還比較少,因此研究基于布谷鳥搜索算法的主題爬蟲技術(shù)具有重要意義。

通用搜索引擎,首先是盡可能多、盡可能全面地采集互聯(lián)網(wǎng)上的信息和頁(yè)面,有時(shí)甚至是整個(gè)Web上的資源,然后把搜集到的頁(yè)面下載并存儲(chǔ)到本地,再為數(shù)據(jù)庫(kù)中的頁(yè)面信息建立索引,根據(jù)用戶提供的關(guān)鍵詞跟索引數(shù)據(jù)庫(kù)進(jìn)行匹配,從而查找相關(guān)頁(yè)面并返回給用戶。但是隨著Web上信息的急速增長(zhǎng),全部采集萬(wàn)維網(wǎng)上的信息并且保持與萬(wàn)維網(wǎng)上信息變化同步已經(jīng)越來越困難,而且信息采集的速度也越來越不能滿足人們實(shí)際應(yīng)用的需要。為了解決這些問題,傳統(tǒng)搜索引擎采用了并行機(jī)制,但并行技術(shù)帶來的效果仍不能滿足廣大網(wǎng)民的需要。新的需求導(dǎo)致新一代的搜索引擎—主題搜索引擎應(yīng)運(yùn)而生,主題搜索引擎是為了滿足某些特定用戶的需要,專門查詢某一學(xué)科或某一主題信息的查詢工具,它可以在某個(gè)特定的范圍內(nèi)或者某個(gè)特定的主題上取得比傳統(tǒng)搜索引擎更令人滿意的結(jié)果。

目前,國(guó)內(nèi)對(duì)于主題爬蟲搜索策略的研究主要有三類:基于內(nèi)容評(píng)價(jià)的搜索策略,主要有Best-First算法、Fish-Search算法、Shark-Search、遺傳算法;基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略,主要有Page Rank算法和HITS算法;基于未來回報(bào)的搜索策略,主要有基于鞏固學(xué)習(xí)的搜索策略。這三類搜索策略的側(cè)重點(diǎn)雖然不同,但是對(duì)于搜索引擎技術(shù)的發(fā)展都起到了重要的作用,而且目前主流的搜索引擎都是使用的這三類搜索策略。

基于內(nèi)容評(píng)價(jià)的搜索策略雖然有較好的理論基礎(chǔ)并且計(jì)算簡(jiǎn)潔,但忽略了Web網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)關(guān)系,未能很好地發(fā)揮網(wǎng)頁(yè)鏈接結(jié)構(gòu)的作用;基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略著重考慮網(wǎng)頁(yè)間的鏈接結(jié)構(gòu),但忽略了網(wǎng)頁(yè)本身與主題的相關(guān)性,易出現(xiàn)“主題漂移”問題;基于遺傳算法的搜索策略雖然大大提高了爬取網(wǎng)頁(yè)的相關(guān)度,但是隨機(jī)搜索網(wǎng)頁(yè)時(shí)容易陷入局部最優(yōu),使得爬取網(wǎng)頁(yè)的主題相關(guān)度大打折扣,因此,針對(duì)上述問題提出一種基于布谷鳥搜索的方法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的就在于為了解決上述問題而提供一種基于布谷鳥搜索的方法。

本發(fā)明通過以下技術(shù)方案來實(shí)現(xiàn)上述目的,一種基于布谷鳥搜索的方法,包括主題、Google檢索、結(jié)果集1、選擇、Levy飛行、概率Pa、結(jié)果集2和統(tǒng)計(jì)相關(guān)性,搜索方法具體步驟如下:

步驟A、將需要搜索的主題通過搜索引擎進(jìn)行搜索,獲取得到結(jié)果集1;

步驟B、將步驟A得到的結(jié)果集1進(jìn)行選擇,然后通過Levy飛行操作搜索與主題相關(guān)性高的網(wǎng)頁(yè);

步驟C、設(shè)置被發(fā)現(xiàn)概率的臨界值Pa,將步驟B搜索到的網(wǎng)頁(yè)通過被發(fā)現(xiàn)概率Pa操作引入目錄型網(wǎng)頁(yè),擴(kuò)大網(wǎng)頁(yè)的搜索范圍,形成結(jié)果集2;

步驟D、將步驟C形成的結(jié)果集2通過適應(yīng)度函數(shù)計(jì)算,選出適應(yīng)度高的個(gè)體。

優(yōu)選的,步驟A中的搜索引擎進(jìn)行搜索為主題待搜索的網(wǎng)頁(yè)URL。

優(yōu)選的,步驟A中結(jié)果集1為根據(jù)網(wǎng)頁(yè)間的鏈接關(guān)系獲取的初始種子群體URL。

優(yōu)選的,步驟B中通過Levy飛行操作搜索與主題相關(guān)性高的網(wǎng)頁(yè)運(yùn)用的算法為向量空間模型。

優(yōu)選的,步驟D中通過適應(yīng)度函數(shù)計(jì)算,選出適應(yīng)度高的個(gè)體URL放入待爬取種子群體URL中,縮小了新種子數(shù)量。

優(yōu)選的,步驟A中的搜索引擎為Google檢索。

本發(fā)明的有益效果是:本發(fā)明提供了一種基于布谷鳥搜索算法的主題爬蟲方法,使Web網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)關(guān)系不會(huì)被忽略,很好地發(fā)揮網(wǎng)頁(yè)鏈接結(jié)構(gòu)的作用;這種搜索策略能較好的克服主題爬蟲出現(xiàn)的“主題漂移”問題以及在搜索相關(guān)網(wǎng)頁(yè)時(shí)陷入局部最優(yōu)值,獲得盡可能高的查全率和查準(zhǔn)率,在爬行過程中快速判斷一個(gè)網(wǎng)頁(yè)是否與主題相關(guān)以及快速預(yù)測(cè)并篩選主題相關(guān)的URL進(jìn)入待爬行隊(duì)列,使得爬取網(wǎng)頁(yè)的主題相關(guān)度保持在相對(duì)較高的水準(zhǔn),從而提高爬蟲的搜索效率。

附圖說明

圖1為本發(fā)明的流程圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

實(shí)施例一:

一種基于布谷鳥搜索的方法,包括主題、Google檢索、結(jié)果集1、選擇、Levy飛行、概率Pa、結(jié)果集2和統(tǒng)計(jì)相關(guān)性,搜索方法具體步驟如下:

步驟A、將需要搜索的主題通過搜索引擎進(jìn)行搜索,獲取得到結(jié)果集1;

其中,步驟A中的搜索引擎進(jìn)行搜索為主題待搜索的網(wǎng)頁(yè)URL;

其中,步驟A中結(jié)果集1為根據(jù)網(wǎng)頁(yè)間的鏈接關(guān)系獲取的初始種子群體URL,其中搜索引擎為Google檢索;

步驟B、將步驟A得到的結(jié)果集1進(jìn)行選擇,然后通過Levy飛行操作搜索與主題相關(guān)性高的網(wǎng)頁(yè);

其中,步驟B中通過Levy飛行操作搜索與主題相關(guān)性高的網(wǎng)頁(yè)運(yùn)用的算法為向量空間模型;

步驟C、設(shè)置被發(fā)現(xiàn)概率的臨界值Pa,Pa=0.8,將步驟B搜索到的網(wǎng)頁(yè)通過被發(fā)現(xiàn)概率Pa操作引入目錄型網(wǎng)頁(yè),擴(kuò)大網(wǎng)頁(yè)的搜索范圍,形成結(jié)果集2;

步驟D、將步驟C形成的結(jié)果集2通過適應(yīng)度函數(shù)計(jì)算,選出適應(yīng)度高的個(gè)體;

其中,步驟D中通過適應(yīng)度函數(shù)計(jì)算,選出適應(yīng)度高的個(gè)體URL放入待爬取種子群體URL中,縮小了新種子數(shù)量。

實(shí)施例二:

一種基于布谷鳥搜索的方法,包括主題、Google檢索、結(jié)果集1、選擇、Levy飛行、概率Pa、結(jié)果集2和統(tǒng)計(jì)相關(guān)性,搜索方法具體步驟如下:

步驟A、將需要搜索的主題通過搜索引擎進(jìn)行搜索,獲取得到結(jié)果集1;

其中,步驟A中的搜索引擎進(jìn)行搜索為主題待搜索的網(wǎng)頁(yè)URL;

其中,步驟A中結(jié)果集1為根據(jù)網(wǎng)頁(yè)間的鏈接關(guān)系獲取的初始種子群體URL,其中搜索引擎為Google檢索;

步驟B、將步驟A得到的結(jié)果集1進(jìn)行選擇,然后通過Levy飛行操作搜索與主題相關(guān)性高的網(wǎng)頁(yè);

其中,步驟B中通過Levy飛行操作搜索與主題相關(guān)性高的網(wǎng)頁(yè)運(yùn)用的算法為向量空間模型;

步驟C、設(shè)置被發(fā)現(xiàn)概率的臨界值Pa,Pa=0.7,將步驟B搜索到的網(wǎng)頁(yè)通過被發(fā)現(xiàn)概率Pa操作引入目錄型網(wǎng)頁(yè),擴(kuò)大網(wǎng)頁(yè)的搜索范圍,形成結(jié)果集2;

步驟D、將步驟C形成的結(jié)果集2通過適應(yīng)度函數(shù)計(jì)算,選出適應(yīng)度高的個(gè)體;

其中,步驟D中通過適應(yīng)度函數(shù)計(jì)算,選出適應(yīng)度高的個(gè)體URL放入待爬取種子群體URL中,縮小了新種子數(shù)量。

實(shí)施例一和實(shí)施例二通過設(shè)置不同的被發(fā)現(xiàn)概率的臨界值Pa,經(jīng)過測(cè)試,搜索的速度比傳統(tǒng)的速度快20%以上,使Web網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)關(guān)系不會(huì)被忽略,很好地發(fā)揮網(wǎng)頁(yè)鏈接結(jié)構(gòu)的作用;這種搜索策略能較好的克服主題爬蟲出現(xiàn)的“主題漂移”問題以及在搜索相關(guān)網(wǎng)頁(yè)時(shí)陷入局部最優(yōu)值,獲得盡可能高的查全率和查準(zhǔn)率,在爬行過程中快速判斷一個(gè)網(wǎng)頁(yè)是否與主題相關(guān)以及快速預(yù)測(cè)并篩選主題相關(guān)的URL進(jìn)入待爬行隊(duì)列,使得爬取網(wǎng)頁(yè)的主題相關(guān)度保持在相對(duì)較高的水準(zhǔn),提高了爬蟲的搜索效率。

對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。

此外,應(yīng)當(dāng)理解,雖然本說明書按照實(shí)施方式加以描述,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個(gè)整體,各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
湖州市| 巴楚县| 萨迦县| 千阳县| 合山市| 霞浦县| 鹤山市| 修水县| 和平县| 牙克石市| 安仁县| 绩溪县| 嘉禾县| 万载县| 高雄县| 正蓝旗| 桃园市| 安多县| 交口县| 易门县| 龙川县| 原阳县| 北京市| 万载县| 两当县| 革吉县| 类乌齐县| 兴山县| 阿克苏市| 大洼县| 社旗县| 剑川县| 财经| 弥勒县| 临江市| 贵港市| 察隅县| 吉林市| 靖远县| 潞城市| 南和县|