两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

分類匯集與管理互聯(lián)網(wǎng)信息的方法

文檔序號:7555528閱讀:171來源:國知局
專利名稱:分類匯集與管理互聯(lián)網(wǎng)信息的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種能夠分類匯集與管理互聯(lián)網(wǎng)信息的方法。其目的在于用信息分類樹的主干、支干與樹葉來分別代表顯示網(wǎng)頁的語言文字名稱、網(wǎng)頁的內(nèi)容分類名稱和網(wǎng)頁記錄,如此將各信息網(wǎng)站的網(wǎng)頁記錄聯(lián)接到分類樹上實(shí)現(xiàn)互聯(lián)網(wǎng)信息的分類匯集與管理,同時還可通過分類樹支干結(jié)構(gòu)的調(diào)整來準(zhǔn)確地反映出互聯(lián)網(wǎng)信息的變化。
背景技術(shù)
隨著互聯(lián)網(wǎng)信息應(yīng)用的日益廣泛,人們越來越多地需要對網(wǎng)絡(luò)信息進(jìn)行分類搜集與管理,并希望能夠跟蹤網(wǎng)絡(luò)信息的變化以便更好地進(jìn)行信息內(nèi)容的比較與交流。由于互聯(lián)網(wǎng)信息量的爆炸式增長,如何對各個信息網(wǎng)站所發(fā)布網(wǎng)頁的進(jìn)行分類搜索與管理的問題已經(jīng)變得日益突出了。當(dāng)前的很多搜索引擎都試圖更好地解決網(wǎng)絡(luò)信息搜索與檢索問題,但這些搜索引擎的工作方式有很多的缺陷,他們很難通過純技術(shù)手段來提供網(wǎng)絡(luò)信息的分類管理服務(wù)。例如當(dāng)今的搜索引擎是集中式的信息搜集與檢索模式,是封閉式的管理方式,是相對靜態(tài)的數(shù)據(jù)存貯,等等這些問題使得當(dāng)今的搜索引擎不能對搜集的網(wǎng)頁信息進(jìn)行準(zhǔn)確的分類管理,所有的技術(shù)手段均落后于網(wǎng)絡(luò)信息的變化。
很顯然,當(dāng)前的各種搜索引擎不能很好地分類處理那些開放的、動態(tài)的、離散的、公平的和海量的網(wǎng)絡(luò)信息數(shù)據(jù),因此也就造成了這樣一種狀態(tài)各個信息網(wǎng)站之間已經(jīng)形成了物理上的聯(lián)接,但極少有信息內(nèi)容上的關(guān)聯(lián),搜索引擎的信息導(dǎo)航作用有限,使得各個信息網(wǎng)站仍像是信息汪洋中的一個個孤島。由于缺少一個能夠更好地起到導(dǎo)航作用的系統(tǒng)來幫助我們在這個大洋中搜集與管理所關(guān)注的網(wǎng)頁信息,我們至今仍不能在網(wǎng)絡(luò)上更好地比較與交流所關(guān)注的信息,更不要提跟蹤與了解網(wǎng)絡(luò)信息的最新動態(tài)了。
造成上述不利局面的最主要原因是當(dāng)今的搜索引擎依然沿襲了歷史原因造成的種種缺陷,使得這些搜索引擎不能大規(guī)模地搜集與管理網(wǎng)頁信息,也就很難滿足今天的人們對更高層次信息服務(wù)的要求。
本發(fā)明提出了一種方法,通過這種方法所建立的系統(tǒng)可以全面擺脫當(dāng)前各種搜索引擎所面臨的困境,能夠更好地滿足信息發(fā)布者與訪問者的各種要求。通過該方法建立的信息系統(tǒng)將充分利用信息本身的特征來進(jìn)行分類搜集與管理,因而能夠更好地滿足信息服務(wù)的需求。
本發(fā)明認(rèn)為信息有分類的特征。首先,信息的表述有其語言文字的分類,一條信息是用什么語言或文字來表達(dá)的,這是信息的第一特征,也是最重要的特征;其次,每一條信息都有其內(nèi)容的分類特征,一條信息說的是哪方面的事,這是由信息的內(nèi)容來決定的,因此就有了信息的層次式分類關(guān)系。最后,信息的作用范圍是有限的,信息的表述語言與內(nèi)容決定了信息的產(chǎn)生與作用于哪些人和哪些區(qū)域,這是信息的區(qū)域特征。人們在瀏覽網(wǎng)絡(luò)信息時,首先關(guān)注的是表述信息的文字,然后才注意到信息的內(nèi)容,由于人們知識水平及興趣愛好的不同,因此所關(guān)注的信息內(nèi)容也會有所不同。信息的語言文字特征與內(nèi)容分類特征是人們從事信息管理的極為重要的依據(jù),按照信息自身特征來進(jìn)行分類管理是人類知識積累過程中已經(jīng)固有了的方法。只是這種方法目前還沒有充分地表現(xiàn)在互聯(lián)網(wǎng)上,這是由于互聯(lián)網(wǎng)上信息網(wǎng)站的增減變化及網(wǎng)頁的內(nèi)容變化過于分散和迅猛,如何管理這樣的海量信息實(shí)為一件令人十分頭痛的問題。
想像如今每天都會有無數(shù)個新的信息網(wǎng)站出現(xiàn)在互聯(lián)網(wǎng)上,每天都有無數(shù)條網(wǎng)絡(luò)信息在增加,同時,一些網(wǎng)站關(guān)閉了,一些原有的網(wǎng)頁信息改變了。那些新的信息網(wǎng)站如何能找得到?怎樣管理所關(guān)注的信息源?怎樣獲取更多的同類信息以便于比較和交流?又如何跟蹤相關(guān)內(nèi)容的信息變化動態(tài)?這是我們每天上網(wǎng)時所面臨的越來越嚴(yán)重的問題,也是我們對網(wǎng)絡(luò)信息服務(wù)提出的更高要求。
網(wǎng)絡(luò)信息的變化與信息網(wǎng)站的所發(fā)布的網(wǎng)頁信息直接相關(guān),及時地和有效地匯集各個網(wǎng)站的網(wǎng)頁信息以便提供更好的信息服務(wù)是互聯(lián)網(wǎng)的最高宗旨。但由于目前的搜索引擎所能提供的相關(guān)服務(wù)功能十分有限和不盡理想,近幾年來在搜索服務(wù)的技術(shù)前沿,專家們提出了不少的解決方案。而當(dāng)務(wù)之急不是繼續(xù)提高搜索引擎中信息查詢的速度,而是如何合理地有效地分類管理如此龐大的網(wǎng)頁數(shù)據(jù),并使得這類信息的管理更符合互聯(lián)網(wǎng)的特點(diǎn),更符合人們的思維習(xí)慣。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種分類匯集與管理互聯(lián)網(wǎng)信息的方法,依據(jù)信息本身的特征將網(wǎng)頁信息分類匯集到信息分類樹上,從而進(jìn)行更有效的信息管理服務(wù),同時還通過調(diào)整分類樹的支干結(jié)構(gòu)來更準(zhǔn)確地反映出互聯(lián)網(wǎng)信息的變化。
這個方法的主要特征在于用信息分類樹的主干、支干和各個末端支干上所聯(lián)接的樹葉分別代表顯示網(wǎng)頁信息所使用的文字名稱、網(wǎng)頁信息的內(nèi)容分類名稱和經(jīng)過分類的網(wǎng)頁信息的集合,并通過分類樹支干結(jié)構(gòu)的調(diào)整映射出互聯(lián)網(wǎng)的信息變化。

圖1是信息分類樹的結(jié)構(gòu)示意。
信息分類樹結(jié)構(gòu)分三部分組成1)主干-文字分類,一條主干代表一種文字的名稱,一條主干下將匯集一種文字的信息。使用了哪幾種文字用來顯示互聯(lián)網(wǎng)信息,就可以設(shè)置幾條分類樹的主干,這有利于對網(wǎng)頁信息的語言文字進(jìn)行分類。
2)支干-內(nèi)容分類,在同一主干下的所有支干代表了同一文字下所有信息的內(nèi)容分類關(guān)系,一個支干表示一種文字下一個信息內(nèi)容分類的的名稱,上下級支干的鏈接關(guān)系代表了信息內(nèi)容分類的上下級關(guān)系。這些支干的分層鏈接可為網(wǎng)頁信息內(nèi)容的分類提供巨大的存放空間。
3)樹葉-網(wǎng)頁信息,一個樹葉代表了一條網(wǎng)頁信息的記錄。由于所有的樹葉必須聯(lián)接在相應(yīng)的末端支干上,因此同一主干下某個末端支干所聯(lián)接的所有樹葉代表了同一文字的相同內(nèi)容分類的網(wǎng)頁信息集合。
信息分類樹的特點(diǎn)是一種全開放的數(shù)據(jù)結(jié)構(gòu),一個分層的分類聯(lián)接關(guān)系。分類樹的主干和支干所對應(yīng)的分類功能符合了信息自身的基本分類特征,而樹葉與分類樹的支干的聯(lián)接又表明了網(wǎng)頁信息的分類關(guān)系。如此分類匯集各個網(wǎng)站的網(wǎng)頁信息到分類樹上,使得互聯(lián)網(wǎng)用戶可以十分方便地查詢、管理與瀏覽所關(guān)注的信息內(nèi)容,并使得比較與交流同類信息也變得更方便,同樣,分類樹支干結(jié)構(gòu)的調(diào)整變化也使跟蹤和查對同類信息的變化情況成為可能。
顯然,當(dāng)信息網(wǎng)站新增了一些網(wǎng)頁時,分類樹會按網(wǎng)頁信息的分類屬性新增一些樹葉的聯(lián)接;若網(wǎng)站對某些網(wǎng)頁的內(nèi)容進(jìn)行了更改,或卸掉了某些網(wǎng)頁,則分類樹所聯(lián)接的樹葉也會進(jìn)行相應(yīng)的更改或刪除。聯(lián)接樹葉的數(shù)量發(fā)生增加或減少的變化可以導(dǎo)致分類樹的末端支干的結(jié)構(gòu)調(diào)整,因此,分類樹的支干結(jié)構(gòu)變化可以充分地反映出互聯(lián)網(wǎng)信息的變化。
當(dāng)分類樹上某個末端支干所聯(lián)接的數(shù)量多于某個指定的數(shù)值時,這個末端支干可根據(jù)其聯(lián)接樹葉上網(wǎng)頁記錄的內(nèi)容再分裂出一組新的末端支干,將這些樹葉再細(xì)分聯(lián)接到各個新的末端支干上,而原末端支干變成新的末端支干集合的父支干,這種末端支干的分裂調(diào)整反映了某類信息的增加和可以進(jìn)一步分類的要求。相反地,當(dāng)某個末端支干所聯(lián)接樹葉的數(shù)量少于某個指定的數(shù)值時,這個末端支干可與同一末端支干集合中的其它末端支干合并,把其匯接的樹葉也合并到相應(yīng)的末端支干上。當(dāng)某末端支干集合中末端支干數(shù)為1時,該末端支干合并到其父支干上,其父支干成為末端支干,相應(yīng)的樹葉也合并其上,這種末端支干的合并調(diào)整反映了某類信息的減少和內(nèi)容分類的需要減少的要求。見圖3、4。
分類樹支干的分裂變化與自然界樹木的生長過程極其相似,生長過程是為了承接更多的樹葉,而支干的合并是樹木生長的逆過程,是把沒有樹葉的末支干去掉。分類樹的這種結(jié)構(gòu)性調(diào)整可以更合理地分配網(wǎng)頁信息的存貯空間,以對應(yīng)互聯(lián)網(wǎng)海量信息的巨大變化。
把互聯(lián)網(wǎng)比喻為一個巨大無比的圖書館,信息分類樹是這個圖書館的藏書位置圖,它要求圖書館按其每個建筑樓,每個樓層,每個書架的分類來存放圖書,如樓1存中文書,樓2放英文書,第一樓層放文化類書,第二樓層放經(jīng)濟(jì)類書,第一樓層的A書架放小說,B書架放雜志,等等如此。再把信息網(wǎng)站想像是一個個的出版社,每個出版社都會有自己的圖書目錄,圖書館向出版社提供藏書位置圖,出版社就知道如何把自己的圖書放到哪棟建筑樓的哪個樓層的哪個書架上。由于出版社的每本圖書與圖書館的具體藏書位置有了對應(yīng)存放的關(guān)系,每次提交給圖書館的圖書目錄都會告訴有哪些圖書是新出的,哪些書是修改了的,哪些書出版社已沒有了。圖書館根據(jù)收到的最新圖書目錄來管理藏書就非常方便了。圖書館可余出更多的時間來關(guān)注藏書的分布情況當(dāng)某個書架上的圖書太多了,就需要增加新的書架,若某個書架上的書太少了,就把這些書合并到同類書架上,這個書架騰出來移作它用。在索取圖書時,首先要按圖書的分類通過藏書位置圖來確定大至在哪個藏書樓的哪層的哪些書架上,確定了位置區(qū)域后找起書來就容易多了?;ヂ?lián)網(wǎng)把成千上萬臺電腦在電路上物理地聯(lián)接了起來,信息分類樹則把這些電腦中的信息在分類上邏輯地匯接了起來。邏輯上的信息分類聯(lián)接保證了信息網(wǎng)站不再是網(wǎng)絡(luò)大洋上的一個個信息孤島,人們可以通過分類樹按圖索驥方便地獲取與管理網(wǎng)絡(luò)信息了。
由此可見,由于分類樹與信息網(wǎng)站之間可以按信息的分類屬性設(shè)置某些聯(lián)接的關(guān)系,分類樹的結(jié)構(gòu)定義與結(jié)構(gòu)調(diào)整能夠有效地分類管理網(wǎng)頁信息,能夠準(zhǔn)確地反映出互聯(lián)網(wǎng)信息的變化,能夠引導(dǎo)同類信息的發(fā)布、比較、交流與跟蹤。
本發(fā)明提出了按信息自身的分類屬性對互聯(lián)網(wǎng)信息進(jìn)行分類管理的方法。其最大特點(diǎn)是所有網(wǎng)站的信息網(wǎng)頁與分類樹建立起分類關(guān)聯(lián)的關(guān)系,這將有助于巨量網(wǎng)頁數(shù)據(jù)的分類管理和查詢。特別是每個網(wǎng)站自身的網(wǎng)頁鏈接關(guān)系已經(jīng)構(gòu)成了網(wǎng)頁信息內(nèi)容的基本分類關(guān)系,再將這些局部的分類關(guān)系映射到分類樹上,從而構(gòu)建起更廣泛領(lǐng)域的信息分類與管理的體系。由于這種方法的實(shí)現(xiàn)能夠比較全面和客觀地反映出當(dāng)今互聯(lián)網(wǎng)的信息動態(tài),它更方便了同類信息源的尋訪、交流與比較。最重要的是信息分類樹的分類方式符合人們對信息匯集整理與分類管理的習(xí)慣,可為人們提供更合理的信息管理服務(wù),也可指導(dǎo)信息網(wǎng)站在比較與交流后更加有效地發(fā)布信息。信息分類樹是為整個互聯(lián)網(wǎng)信息分類匯集與查詢提出的一個切實(shí)可行的、管理有效的方法,因此將有巨大的市場潛力。
實(shí)施示例按本發(fā)明提出的方法建立一個互聯(lián)網(wǎng)信息搜集整理、分類管理與查詢檢索的系統(tǒng)。參照圖5的示意,這個系統(tǒng)分以下幾個模塊1,網(wǎng)頁信息搜集器。
其工作方式類似于一般的URL搜索器,但這里的搜集器只運(yùn)行在某個信息網(wǎng)站上,只用于專門收集這個網(wǎng)站的網(wǎng)頁地址、網(wǎng)頁鏈接關(guān)系和網(wǎng)頁內(nèi)容等網(wǎng)頁特征的記錄,并把每條收集的數(shù)據(jù)與上次搜集的報(bào)告中的記錄進(jìn)行比較,以確定這條記錄是新增網(wǎng)頁的,或是內(nèi)容更改網(wǎng)頁的,或是一條失效記錄,由此把這些最新的搜集記錄存放到一個最新的搜集報(bào)告中。
圖6示意了網(wǎng)頁信息搜集器的具體操作流程。
由于這種搜集器可以由網(wǎng)站的管理人員直接控制與管理,因此其工作效率更高,工作也更可靠。當(dāng)這種搜集器在更多的信息網(wǎng)站上同時進(jìn)行工作時,它們的搜集功效會更突出,而且由于這種搜集器工作在本地,再經(jīng)過本地比較后產(chǎn)生的最新搜集數(shù)據(jù)表明了自上次搜集以來的網(wǎng)頁變化情況,因此它又具有數(shù)據(jù)量相對較少和通信負(fù)載極低的特點(diǎn)。這種區(qū)域性網(wǎng)頁信息搜集器的每一次運(yùn)行所產(chǎn)生的搜集報(bào)告經(jīng)分類設(shè)置后,可作為最新的網(wǎng)頁信息數(shù)據(jù)提供交信息分類樹。
2,信息分類樹結(jié)構(gòu)。
在本發(fā)明的信息分類樹上,它的每個主干代表了顯示網(wǎng)頁信息的一種語言文字,每個主干下的所有支干代表了這種文字下信息內(nèi)容的分類關(guān)系,分類樹的每個末端支干上所聯(lián)接的樹葉代表了相同語言文字和相同內(nèi)容分類的網(wǎng)頁信息。例如那些發(fā)布中文新聞的信息網(wǎng)站可以把每條財(cái)經(jīng)方面的國內(nèi)新聞作為分類樹的一片樹葉匯集聯(lián)結(jié)到分類樹的“中文”主干下的“新聞”支干下的“國內(nèi)新聞”的“財(cái)經(jīng)新聞”這個末端支干上。于是這個匯結(jié)點(diǎn)成了中文的有關(guān)國內(nèi)的財(cái)經(jīng)新聞的信息中心,依次類推,分類樹的每個末端支干都會成為某一特定信息內(nèi)容的匯集中心。見圖2。
3,網(wǎng)頁記錄的分類聯(lián)接。
要使得每個信息網(wǎng)站的網(wǎng)頁信息與信息分類樹結(jié)構(gòu)能夠有分類的聯(lián)接關(guān)系,在通過網(wǎng)頁信息搜集器的搜集操作取得網(wǎng)站的網(wǎng)頁信息后,還要參照信息分類樹結(jié)構(gòu)來設(shè)置每條網(wǎng)頁信息的分類屬性,使之能夠?qū)?yīng)聯(lián)接到分類樹的某些末端支干上。應(yīng)由信息網(wǎng)站的信息發(fā)布者進(jìn)行這種分類的設(shè)置操作,然后將設(shè)置了分類屬性的網(wǎng)頁信息提交給信息分類樹,由分類樹進(jìn)一步地進(jìn)行分類處理。
4,分類樹對網(wǎng)頁記錄的分類操作。
分類樹每收到一個信息網(wǎng)站的最新搜集報(bào)告,要按照報(bào)告中網(wǎng)頁記錄的分類設(shè)置進(jìn)行相應(yīng)的分類操作新增聯(lián)接,和或更改內(nèi)容,和或刪除失效的聯(lián)接。由于分類設(shè)置是到分類樹的每個末端的支干上,分類操作必然也是作用到每個末端支干上,增加一個新的網(wǎng)頁記錄則多一個聯(lián)接的樹葉,更改一個網(wǎng)頁記錄則某個已經(jīng)聯(lián)接的樹葉的形狀會有所變化,刪除一個失效的網(wǎng)頁記錄表示一片樹葉的聯(lián)接要斷掉。
5,信息分類樹支干結(jié)構(gòu)的調(diào)整。
當(dāng)某個末端樹支干所聯(lián)接的樹葉太多,這表明相關(guān)的信息內(nèi)容在增加,有條件進(jìn)行更細(xì)致的分類,因此就需要從這條支干上分化出一組新的支干來承載更多的樹葉。而枝葉少的地方表明相關(guān)的網(wǎng)頁信息內(nèi)容在減少,可以進(jìn)行相應(yīng)支干的合并操作,這樣可簡化與清理支干的結(jié)構(gòu),同時也就充分反映了網(wǎng)頁信息的變化情況。分類樹進(jìn)行的這種分化與合并的調(diào)整也為海量互聯(lián)網(wǎng)信息數(shù)據(jù)提供了更合理地分配存貯空間,它使得具有相同內(nèi)容的網(wǎng)頁信息可以不斷地進(jìn)行分化或合并的分類調(diào)整,使得網(wǎng)頁信息的管理也更加合理。
6,定位信息查詢。
對于茫茫無邊的信息海洋,應(yīng)首先確定搜尋的方向,然后在正確的指引下查找所關(guān)注的信息,這是定位信息查詢的操作原則。顯然,選擇分類樹上哪些主干和支干來進(jìn)行搜尋方向的定位是比較理想的方式,沿著所選定的方向進(jìn)行信息的檢索就可以更準(zhǔn)確地找要所需的信息。
可能因某些信息內(nèi)容的網(wǎng)頁數(shù)量巨大,導(dǎo)致分類樹的某些支干的分層鏈接結(jié)構(gòu)也變得十分復(fù)雜,因此信息檢索的定位操作可以是對分類名稱的檢索,然后再從選定的分類下,對所關(guān)聯(lián)的網(wǎng)頁信息進(jìn)行檢索。
定位信息查詢是信息分類樹所特有的方法,也是更為合理與有效的網(wǎng)頁信息檢索方法,它不僅符合了人們一般的思維與操作習(xí)慣,也為互聯(lián)網(wǎng)用戶提供了網(wǎng)頁信息分類管理的平臺。
綜上所述,這六個模塊的功能可組合一個互聯(lián)網(wǎng)信息分類匯集、有效管理和準(zhǔn)確查詢的體系,它圍繞著信息分類樹進(jìn)行網(wǎng)絡(luò)信息的收集整理、聯(lián)接設(shè)置、聯(lián)接操作和定向查詢等一系列操作把互聯(lián)網(wǎng)信息分類匯總起來。這樣的應(yīng)用系統(tǒng)通過分類樹的結(jié)構(gòu)定義與調(diào)整來準(zhǔn)確地反映出網(wǎng)頁信息的變化情況,使人們跟蹤了解所關(guān)注內(nèi)容的變化成為可能。
這個體系的工作方式有如下特點(diǎn)首先,一個網(wǎng)頁信息收集器只限于在某個局部工作,并通過局部的分類聯(lián)接處理后提交給分類樹,這種分布式的收集與聯(lián)接操作將極大地減輕了分類樹自身的管理工作。
其次,局部性的收集與聯(lián)接操作只作用于新增的和內(nèi)容更改的網(wǎng)頁記錄,不會給各個信息網(wǎng)站增加更大的負(fù)擔(dān),也可保證收集與聯(lián)接操作的高效率;第三,雖然聯(lián)接的設(shè)置由各個網(wǎng)站進(jìn)行,但所有的聯(lián)接操作將由分類樹自動進(jìn)行,分類樹自身的管理工作會變得極少。
第四,支干結(jié)構(gòu)的調(diào)整將根據(jù)匯集的信息內(nèi)容的具體情況而定,具有很高的靈活性,從而為高精度分類留有很大的空間。
最后,定位查詢的方式可以非常有效地解決信息檢索過程中的不準(zhǔn)確性,而定位本身也具有更深層的意義,即選擇所關(guān)注的內(nèi)容進(jìn)行更有效的信息管理。
圖例說明圖1示意了一個信息分類樹的結(jié)構(gòu),其中有五個主干代表了顯示信息的語言文字,每條主干聯(lián)接了一些支干,而每個末端支干又聯(lián)接了樹葉。此圖示意了信息的語言文字分類及信息內(nèi)容分類的聯(lián)接關(guān)系一條主干下聯(lián)接的所有支干代表了同一語言文字下的信息內(nèi)容分類名稱,該主干下聯(lián)接的所有樹葉代表了同一語言文字的信息;同樣,一條末端支干下聯(lián)接的所有樹葉代表了相同語言文字分類和相同內(nèi)容分類的網(wǎng)頁信息的集合。
圖2示意了一個“新聞”的分類支干結(jié)構(gòu)。圖中,第0區(qū)是主干區(qū),第1區(qū)到第4區(qū)是支干區(qū),其中有些支干是末支干,第5區(qū)是相聯(lián)接的樹葉集合。
圖3示意了一個分類樹的兩個主干下的支干體系,以及各末端支干所聯(lián)接的樹葉集合。其中,1)末端支干112所聯(lián)接的樹葉數(shù)太少,應(yīng)與本支干集合中的其它末端支干合并;2)末端支干121的集合數(shù)只有1,因此它應(yīng)與它的父支干合并;3)末端支干13聯(lián)接了太多的樹葉,并進(jìn)一步分化出新的末端支干。
圖4示意了圖3的分類樹末端支干經(jīng)過合并與分裂后的支干體系,以及合并分裂后所聯(lián)接的樹葉集合的變化。其中,1)末支干112合并到末支干111中,合并后這個末支干的集合數(shù)為1,只好再合并到支干11上,合并導(dǎo)致原末支干111與112所聯(lián)接的樹葉也合并在一起都聯(lián)接到新的末支干11上;2)原支干12是末支干121的父支干,經(jīng)合并后,支干12成為新的末端支干,原末支干121消失;3)原末支干13經(jīng)分化后成為父支干,分化產(chǎn)生了兩個新的末支干131與132,它們各自分擔(dān)了原13所聯(lián)接的2000個樹葉的1200個和800個。
圖5示意了信息網(wǎng)站的信息搜集與分類樹的對應(yīng)關(guān)系,和通過分類樹的信息檢索方法。其中,三個網(wǎng)站信息搜集器所產(chǎn)生的搜集報(bào)告經(jīng)分類設(shè)置后提交給分類樹,經(jīng)分類操作將網(wǎng)頁記錄對應(yīng)到各個相應(yīng)的樹葉體系中,從而實(shí)現(xiàn)了網(wǎng)頁信息的分類匯集。此圖中,分類樹結(jié)構(gòu)有三個主干,代表了中文、英文和法文的的信息集合,每個主干下聯(lián)接了一些代表信息內(nèi)容分類的支干,只有末端支干與代表網(wǎng)頁記錄的樹葉聯(lián)接。定位查詢是選擇某些主、支干來確定信息的分類特征,再通過對代表網(wǎng)頁內(nèi)容的樹葉的查詢來獲取所需的信息。
圖6示意了一個網(wǎng)站信息搜集器對一個網(wǎng)站進(jìn)行網(wǎng)頁記錄的收集流程,工作中要不斷對比上次搜集的記錄,以確定所每一條被搜集記錄的性質(zhì)。
權(quán)利要求
1.一種分類匯集與管理互聯(lián)網(wǎng)信息的方法,其特征在于按照網(wǎng)絡(luò)信息的基本特征把各個信息網(wǎng)站發(fā)布的網(wǎng)頁記錄分類匯集到信息分類樹中,以便于網(wǎng)頁記錄的管理,并以分類樹的結(jié)構(gòu)調(diào)整來更準(zhǔn)確地反映出互聯(lián)網(wǎng)信息的變化情況。
2.根據(jù)權(quán)利要求1的方法,其特征在于一個信息分類樹的主干、支干和各個末端支干所聯(lián)接的樹葉分別代表顯示網(wǎng)頁所使用的文字名稱、網(wǎng)頁的內(nèi)容分類名稱和經(jīng)過分類的網(wǎng)頁記錄的集合;這樣,分類樹的每個主干代表了顯示網(wǎng)頁所使用的某種文字,每個主干下的每個支干代表了相同文字下的關(guān)于網(wǎng)頁內(nèi)容分類的一個名稱,每個末端支干所匯接的每個樹葉代表了相同文字下和相同網(wǎng)頁內(nèi)容分類的一個網(wǎng)頁記錄。
3.根據(jù)權(quán)利要求2的方法,其特征在于各個信息網(wǎng)站發(fā)布的網(wǎng)頁與信息分類樹的分類聯(lián)接是參照了信息分類樹的文字分類與內(nèi)容分類,作為樹葉聯(lián)接到分類樹某個主干下某些支干的相應(yīng)末端支干上。
4.根據(jù)權(quán)利要求3的方法,其特征在于當(dāng)各個信息網(wǎng)站發(fā)布的網(wǎng)頁發(fā)生變化時,聯(lián)接到信息分類樹的樹葉會進(jìn)行增加、更改和刪除的相應(yīng)變化。
5.根據(jù)權(quán)利要求4的方法,其特征在于當(dāng)信息分類樹的某個末端支干所聯(lián)接樹葉的數(shù)量大于某個數(shù)值時,這個末端支干可進(jìn)一步分裂出一組新的末端支干,同時把原末端支干上所有聯(lián)接的樹葉再進(jìn)一步分類聯(lián)接到各個新的末端支干上,而使原末端支干變成新的末支干的父支干,這將導(dǎo)致分類樹支干結(jié)構(gòu)的分裂變化。
6.根據(jù)權(quán)利要求4的方法,其特征在于若信息分類樹某個末端支干上所聯(lián)接樹葉的數(shù)量小于某個數(shù)值時,該末支干可與同級的其它末端支干合并,同時把所聯(lián)接的樹葉合并到相應(yīng)的末端支干上;若沒有同級的其它末支干可以用來合并,該末端支干應(yīng)合并到聯(lián)接它的父支干,并使得該父支干成為新的末端支干,同時把原末端支干上所聯(lián)接的樹葉合并到變成新的末端支干的父支干上,這將導(dǎo)致分類樹支干結(jié)構(gòu)的合并變化。
全文摘要
一種分類匯集與管理互聯(lián)網(wǎng)信息的方法,其目的在于按照信息本身的特征來有效地分類匯集與管理網(wǎng)頁信息。該方法以信息分類樹的主干、支干與樹葉分別代表信息的文字分類、內(nèi)容分類和網(wǎng)頁記錄的集合,并根據(jù)所聯(lián)接的網(wǎng)頁記錄數(shù)量的變化來增加或減少分類樹的相關(guān)支干,從而以分類樹支干結(jié)構(gòu)的增減調(diào)整來真實(shí)地反映出互聯(lián)網(wǎng)信息的動態(tài)變化。
文檔編號H04L12/28GK1625123SQ200310116888
公開日2005年6月8日 申請日期2003年12月2日 優(yōu)先權(quán)日2003年12月2日
發(fā)明者沈華 申請人:沈華
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
井陉县| 广饶县| 怀集县| 舒兰市| 广饶县| 石楼县| 恭城| 平原县| 饶河县| 普格县| 贺州市| 锡林浩特市| 永善县| 和静县| 龙陵县| 望都县| 鸡东县| 苍溪县| 成武县| 阿拉善左旗| 都兰县| 绍兴市| 丹寨县| 花莲县| 宝丰县| 筠连县| 黎川县| 聂拉木县| 息烽县| 江华| 黔西县| 嘉兴市| 台江县| 高安市| 定西市| 临夏县| 泸水县| 合江县| 怀宁县| 新巴尔虎左旗| 元谋县|