两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于寬度優(yōu)先搜索策略更新圖書信息的方法

文檔序號:8282317閱讀:241來源:國知局
基于寬度優(yōu)先搜索策略更新圖書信息的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于寬度優(yōu)先搜索策略更新圖書信息的方法。
【背景技術(shù)】
[0002]隨著電子信息行業(yè)的發(fā)展電子書逐漸代替?zhèn)鹘y(tǒng)的紙質(zhì)書。電子書是指將文字、圖片、聲音、影像等訊息內(nèi)容數(shù)字化的出版物以及植入或下載數(shù)字化文字、圖片、聲音、影像等訊息內(nèi)容的集存儲介質(zhì)和顯示終端于一體的手持閱讀器。代表人們所閱讀的數(shù)字化出版物,從而區(qū)別于以紙張為載體的傳統(tǒng)出版物,通過數(shù)碼方式記錄在以光、電、磁為介質(zhì)的設(shè)備中,借助于特定的設(shè)備來讀取、復(fù)制、傳輸。因其具有方便性,可搜尋內(nèi)容,改變字體大小及字型,還可隨身攜帶。容量大,隨時可網(wǎng)絡(luò)下載,不受地域限制,省去大量時間。因而被人們廣泛接受。目前很多電子書都是章節(jié)性更新,因為版權(quán)意識加強,很多書籍都只在一些特定網(wǎng)站上進行更新;及時人為手動更新,對于網(wǎng)站上下載下來的圖書信息進行圖書內(nèi)容提取也是非常繁瑣的。這就為手機推送圖書服務(wù)帶來了很大困難。
[0003]寬度優(yōu)先搜索策略,在寬度優(yōu)先搜索中,先搜索完一個Web頁面中所有的超級鏈接,然后再繼續(xù)搜索下一層,直到底層為止。例如,一個HTML文件中有三個超鏈,選擇其中之一并處理相應(yīng)的HTML文件,然后不再選擇第二個HTML文件中的任何超鏈,而是返回并選擇第二個超鏈,處理相應(yīng)的HTML文件,再返回,選擇第三個超鏈并處理相應(yīng)的HTML文件。一旦一層上的所有超鏈都己被選擇過,就可以開始在剛才處理過的HML文件中搜索其余的超鏈。這就保證了對淺層的首先處理。當(dāng)遇到一個無窮盡的深層分支時,不會導(dǎo)致陷進WWW中的深層文檔中出現(xiàn)出不來的情況發(fā)生。寬度優(yōu)先搜索策略還有一個優(yōu)點,即它能在兩個HTML文件之間找到最短路徑。寬度優(yōu)先搜索策略通常是實現(xiàn)爬蟲的最佳策略,因為它容易實現(xiàn),而且具備大多數(shù)期望的功能。但是如果要遍歷一個指定的站點或者深層嵌套的HTML文件集,用寬度優(yōu)先搜索策略則需要花費比較長的時間才能到達深層的HTML文件。綜合考慮以上幾種策略和國內(nèi)信息導(dǎo)航系統(tǒng)搜索信息的特點,國內(nèi)一般采用以寬度優(yōu)先搜索策略為主、線性搜索策略為輔的搜索策略。對于某些不被引用的或很少被引用的HTML文件,寬度優(yōu)先搜索策略可能會遺漏這些孤立的信息源,可以用線性搜索策略作為它的補充。
[0004]web信息提取是當(dāng)前比較活躍的一個研究課題,但web數(shù)據(jù)的大量性,異構(gòu)性和動態(tài)性,是web信息提取的一個桎梏。對于結(jié)構(gòu)化的Web數(shù)據(jù),已經(jīng)有較為成熟的解決方法;而對于非結(jié)構(gòu)化的Web數(shù)據(jù),由于傳統(tǒng)數(shù)據(jù)庫的底層問題,不能用來處理非結(jié)構(gòu)化數(shù)據(jù),迫切希望能提出一種方法進行非結(jié)構(gòu)化數(shù)據(jù)的處理。為了解決這個問題,很多研究者提出了為web數(shù)據(jù)建立元數(shù)據(jù),可將非結(jié)構(gòu)化數(shù)據(jù)變成結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。但由于web數(shù)據(jù)形式的多樣性,很難為多樣性的數(shù)據(jù)建立一種統(tǒng)一標(biāo)準(zhǔn)的元數(shù)據(jù)。本為為web數(shù)據(jù)中的文本數(shù)據(jù)建立了一種Dublin Core文本元數(shù)據(jù)表,將web文本這種非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化。Web文本元數(shù)據(jù)分為描述性元數(shù)據(jù)和語義性元數(shù)據(jù),描述性元數(shù)據(jù)通過分析HTML源文件直接得到。為解決上述問題提供了技術(shù)支持。

【發(fā)明內(nèi)容】

[0005]本發(fā)明針對以上問題的提出,而研制基于寬度優(yōu)先搜索策略更新圖書信息的方法。本發(fā)明采用的技術(shù)方案如下:
[0006]一種基于寬度優(yōu)先搜索策略更新圖書信息的方法,其特征在于包括如下步驟:
[0007]I)圖書信息收索服務(wù)器通過有線或無線的方式連接到各圖書網(wǎng)站上;
[0008]2)圖書信息收索服務(wù)器中存儲有對應(yīng)網(wǎng)站的數(shù)字許可證書,在圖書信息收索服務(wù)器登陸到上述網(wǎng)站后,自動匹配數(shù)字證書供網(wǎng)站校驗;
[0009]3)圖書網(wǎng)站校驗通過后,圖書信息收索服務(wù)器通過寬度優(yōu)先搜索策略對圖書網(wǎng)站中的更新圖書信息進行搜索,一旦搜索到圖書更新信息后,圖書信息收索服務(wù)器便對更新的圖書信息進行下載;
[0010]4)圖書信息收索服務(wù)器將圖書信息發(fā)送到圖書源數(shù)據(jù)服務(wù)器中,圖書資源服務(wù)器對圖書信息收索服務(wù)器發(fā)送過來的圖書信息進行處理,采用基于元數(shù)據(jù)的web信息提取方法對圖書的文字信息進行提取,具體過程如下:①對HTML源文件進行分析,將標(biāo)記流和文本流分開,根據(jù)標(biāo)記流,提取題目元數(shù)據(jù)項,根據(jù)文本流將文本形式化為一個矩陣模型,在矩陣模型基礎(chǔ)上提取文本的作者元數(shù)據(jù)項,②利用模糊數(shù)學(xué)的相關(guān)知識,為文本建立了文本狀態(tài)模糊集與模糊相似矩陣,由此可提取文本的主題關(guān)鍵字元數(shù)據(jù)項,采用文本分類基本思想,提取題材元數(shù)據(jù)項,③為了提取內(nèi)容元數(shù)據(jù)項,首先,利用模糊相似矩陣對冗長句處理,形成內(nèi)容侯選句WHJl,其次,在內(nèi)容候選句WJHl中,利用模糊序貫決策論對冗長段進行處理,形成內(nèi)容候選句WHJ2,最后,利用平面聚類和均值聚類算法對內(nèi)容候選句集WHJ2進行聚類,然后將每一類中的相關(guān)性較小的句子剔除,最后形成文本內(nèi)容元數(shù)據(jù)項;
[0011]5)圖書資源服務(wù)器將編輯好的圖書信息推送到客戶的智能移動終端上。
[0012]步驟3)中:所述圖書下載方式為通過寬度優(yōu)先搜索策略邊搜索邊下載。
[0013]由于采用了上述技術(shù)方案,本發(fā)明提供的方法具有:使用方便、處理速度、技術(shù)實現(xiàn)容易等特點。另外,該方法基于計算機系統(tǒng)的實現(xiàn),只需將該方法編譯成相應(yīng)的程序即可實現(xiàn)對現(xiàn)有計算機的升級,因此其成本非常低廉適于廣泛推廣。
【附圖說明】
[0014]圖1為本發(fā)明所述系統(tǒng)的結(jié)構(gòu)框圖;
[0015]圖2為本發(fā)明的實現(xiàn)流程圖。
【具體實施方式】
[0016]如圖1和圖2所示一種基于寬度優(yōu)先搜索策略更新圖書信息的方法包括如下步驟:
[0017]I)圖書信息收索服務(wù)器通過有線或無線的方式連接到各圖書網(wǎng)站上;
[0018]2)圖書信息收索服務(wù)器中存儲有對應(yīng)網(wǎng)站的數(shù)字許可證書,在圖書信息收索服務(wù)器登陸到上述網(wǎng)站后,自動匹配數(shù)字證書供網(wǎng)站校驗;
[0019]3)圖書網(wǎng)站校驗通過后,圖書信息收索服務(wù)器通過寬度優(yōu)先搜索策略對圖書網(wǎng)站中的更新圖書信息進行搜索,一旦搜索到圖書更新信息后,圖書信息收索服務(wù)器便對更新的圖書信息進行下載;
[0020]4)圖書信息收索服務(wù)器將圖書信息發(fā)送到圖書源數(shù)據(jù)服務(wù)器中,圖書資源服務(wù)器對圖書信息收索服務(wù)器發(fā)送過來的圖書信息進行處理,采用基于元數(shù)據(jù)的web信息提取方法對圖書的文字信息進行提取,具體過程如下:①對HTML源文件進行分析,將標(biāo)記流和文本流分開,根據(jù)標(biāo)記流,提取題目元數(shù)據(jù)項,根據(jù)文本流將文本形式化為一個矩陣模型,在矩陣模型基礎(chǔ)上提取文本的作者元數(shù)據(jù)項,②利用模糊數(shù)學(xué)的相關(guān)知識,為文本建立了文本狀態(tài)模糊集與模糊相似矩陣,由此可提取文本的主題關(guān)鍵字元數(shù)據(jù)項,采用文本分類基本思想,提取題材元數(shù)據(jù)項,③為了提取內(nèi)容元數(shù)據(jù)項,首先,利用模糊相似矩陣對冗長句處理,形成內(nèi)容侯選句WHJl,其次,在內(nèi)容候選句WJHl中,利用模糊序貫決策論對冗長段進行處理,形成內(nèi)容候選句WHJ2,最后,利用平面聚類和均值聚類算法對內(nèi)容候選句集WHJ2進行聚類,然后將每一類中的相關(guān)性較小的句子剔除,最后形成文本內(nèi)容元數(shù)據(jù)項;
[0021]5)圖書資源服務(wù)器將編輯好的圖書信息推送到客戶的智能移動終端上。
[0022]步驟3)中:所述圖書下載方式為通過寬度優(yōu)先搜索策略邊搜索邊下載。
[0023]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于寬度優(yōu)先搜索策略更新圖書信息的方法,其特征在于包括如下步驟: 1)圖書信息收索服務(wù)器通過有線或無線的方式連接到各圖書網(wǎng)站上; 2)圖書信息收索服務(wù)器中存儲有對應(yīng)網(wǎng)站的數(shù)字許可證書,在圖書信息收索服務(wù)器登陸到上述網(wǎng)站后,自動匹配數(shù)字證書供網(wǎng)站校驗; 3)圖書網(wǎng)站校驗通過后,圖書信息收索服務(wù)器通過寬度優(yōu)先搜索策略對圖書網(wǎng)站中的更新圖書信息進行搜索,一旦搜索到圖書更新信息后,圖書信息收索服務(wù)器便對更新的圖書信息進行下載; 4)圖書信息收索服務(wù)器將圖書信息發(fā)送到圖書源數(shù)據(jù)服務(wù)器中,圖書資源服務(wù)器對圖書信息收索服務(wù)器發(fā)送過來的圖書信息進行處理,采用基于元數(shù)據(jù)的web信息提取方法對圖書的文字信息進行提取,具體過程如下:①對HTML源文件進行分析,將標(biāo)記流和文本流分開,根據(jù)標(biāo)記流,提取題目元數(shù)據(jù)項,根據(jù)文本流將文本形式化為一個矩陣模型,在矩陣模型基礎(chǔ)上提取文本的作者元數(shù)據(jù)項,②利用模糊數(shù)學(xué)的相關(guān)知識,為文本建立了文本狀態(tài)模糊集與模糊相似矩陣,由此可提取文本的主題關(guān)鍵字元數(shù)據(jù)項,采用文本分類基本思想,提取題材元數(shù)據(jù)項,③為了提取內(nèi)容元數(shù)據(jù)項,首先,利用模糊相似矩陣對冗長句處理,形成內(nèi)容侯選句WHJl,其次,在內(nèi)容候選句WJHl中,利用模糊序貫決策論對冗長段進行處理,形成內(nèi)容候選句WHJ2,最后,利用平面聚類和均值聚類算法對內(nèi)容候選句集WHJ2進行聚類,然后將每一類中的相關(guān)性較小的句子剔除,最后形成文本內(nèi)容元數(shù)據(jù)項; 5)圖書資源服務(wù)器將編輯好的圖書信息推送到客戶的智能移動終端上。
2.根據(jù)權(quán)利要求1所述的一種基于寬度優(yōu)先搜索策略更新圖書信息的方法,其特征在于步驟3)中: 所述圖書下載方式為通過寬度優(yōu)先搜索策略邊搜索邊下載。
【專利摘要】本發(fā)明公開了一種基于寬度優(yōu)先搜索策略更新圖書信息的方法,包括如下步驟:圖書信息收索服務(wù)器通過有線或無線的方式連接到各圖書網(wǎng)站上;圖書信息收索服務(wù)器中存儲有對應(yīng)網(wǎng)站的數(shù)字許可證書,在圖書信息收索服務(wù)器登陸到上述網(wǎng)站后,自動匹配數(shù)字證書供網(wǎng)站校驗;圖書網(wǎng)站校驗通過后,圖書信息收索服務(wù)器通過寬度優(yōu)先搜索策略對圖書網(wǎng)站中的更新圖書信息進行搜索,一旦搜索到圖書更新信息后,圖書信息收索服務(wù)器便對更新的圖書信息進行下載;圖書資源服務(wù)器對圖書信息收索服務(wù)器發(fā)送過來的圖書信息進行處理,圖書資源服務(wù)器將編輯好的圖書信息推送到客戶的智能移動終端上。本發(fā)明提供的方法具有:使用方便、處理速度、技術(shù)實現(xiàn)容易等特點。
【IPC分類】G06F17-30
【公開號】CN104598496
【申請?zhí)枴緾N201310538980
【發(fā)明人】張宇
【申請人】大連易維立方技術(shù)有限公司
【公開日】2015年5月6日
【申請日】2013年10月31日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
缙云县| 宁陵县| 延川县| 新泰市| 科技| 萝北县| 岑巩县| 阿城市| 隆安县| 澎湖县| 巴里| 竹溪县| 马关县| 龙井市| 义马市| 惠水县| 通道| 图片| 张家口市| 垦利县| 天门市| 古蔺县| 都匀市| 永修县| 颍上县| 平遥县| 甘泉县| 淮安市| 来凤县| 磴口县| 齐河县| 新和县| 长白| 仙居县| 武邑县| 永平县| 石首市| 莱阳市| 台中县| 多伦县| 阿合奇县|