專利名稱:一種用于間接爬行的系統(tǒng)和過程的制作方法
技術(shù)領(lǐng)域:
本發(fā)明領(lǐng)域總體上涉及到有關(guān)計算機(jī)的信息搜索和檢索,具體而言,涉及到結(jié)構(gòu)化地搜索網(wǎng)上的內(nèi)容。
作為理解本發(fā)明的背景,因特網(wǎng)(也稱為萬維網(wǎng)或者Web)在其普及方面作出的貢獻(xiàn)使得用戶可以利用的多媒體和流媒體文件供過于求。然而,查找淹沒于Web上的數(shù)以萬計的文件之中的具體多媒體或流媒體文件卻常常是一件極其困難的任務(wù)??蓮腤eb上獲得的信息內(nèi)容的容量和種類可能在以相當(dāng)可觀的速度持續(xù)增加。這樣的增長結(jié)合Web的高度分散性使得在定位特定信息內(nèi)容上產(chǎn)生相當(dāng)大的困難。
流媒體是指這樣的音頻、視頻、多媒體、文本以及交互式數(shù)據(jù)文件,它們通過因特網(wǎng)或者其它網(wǎng)絡(luò)環(huán)境傳送到用戶的計算機(jī),并在整個文件都傳送完畢之前,就開始在用戶的計算機(jī)上播放。流媒體的一個優(yōu)點在于在整個文件都被下載之前,流媒體文件就開始播放,從而免去用戶長久等待,這種長久等待通常是與下載整個文件相關(guān)聯(lián)的。數(shù)字記錄的音樂、電影、預(yù)告片、新聞報道、無線廣播以及事件實況都有助于增加Web上的流內(nèi)容。此外,不怎么昂貴的高帶寬連接(諸如電纜、DSL以及T1)使因特網(wǎng)用戶能更加快速、更加可靠地訪問新聞機(jī)構(gòu)、好萊塢電影制片商、獨立生產(chǎn)商、記錄標(biāo)記、甚至家庭用戶的流媒體內(nèi)容。
用戶通常使用搜索引擎搜索因特網(wǎng)上的具體信息。搜索引擎包括一組在網(wǎng)絡(luò)(例如局域網(wǎng)(LAN)或者因特網(wǎng)以及萬維網(wǎng))中的網(wǎng)絡(luò)站點上可被訪問的程序。一種被稱為“機(jī)器人”或“蜘蛛”的程序在搜索文檔(例如網(wǎng)頁)以及其它程序時預(yù)先遍歷網(wǎng)絡(luò),并建立在所述文檔中發(fā)現(xiàn)的關(guān)鍵字的大型索引文件。典型地,用戶形成包含一個或多個搜索詞的查詢,然后將查詢提交給搜索引擎的另一個程序。在響應(yīng)時,所述搜索引擎檢查自己的索引文件,并且顯示與搜索查詢相匹配的文檔列表(通常作為超鏈接)。然后,用戶可以激活一個超鏈接來查看在所述文檔中包含的信息。
然而,搜索引擎存在有缺陷。例如,許多典型的搜索引擎是適用于僅僅發(fā)現(xiàn)文本信息的。具體而言,它們并不能很好地用于對包含在結(jié)構(gòu)化的數(shù)據(jù)庫(例如關(guān)系數(shù)據(jù)庫)中的信息、與語音有關(guān)的信息、與音頻有關(guān)的信息、多媒體以及流媒體作索引等等。此外,混合來自不相兼容的數(shù)據(jù)源的數(shù)據(jù)對于常規(guī)搜索引擎是很困難的。此外,當(dāng)搜索引擎搜索(也稱為爬行)網(wǎng)絡(luò)時,它典型地采用隨機(jī)的方式通過跟蹤它所遇到的web鏈接進(jìn)行爬行。典型地,搜索引擎(例如,網(wǎng)上爬行器(web crawler))對所有網(wǎng)站進(jìn)行分類。這種低效類型的搜索常常產(chǎn)生非常大量的數(shù)據(jù),這些數(shù)據(jù)對于生成可搜索的索引而言是沒用的。這尤其適用于像流媒體這樣的對象。
本發(fā)明是一種用于搜索基于網(wǎng)絡(luò)的內(nèi)容中的目標(biāo)內(nèi)容的方法,包括確定結(jié)構(gòu)化數(shù)據(jù)存儲的選定層,以便搜索與目標(biāo)內(nèi)容有關(guān)的內(nèi)容。本方法還包括搜索選定層中與目標(biāo)內(nèi)容有關(guān)的內(nèi)容。
對于本發(fā)明,通過結(jié)合附圖閱讀以下詳細(xì)的描述能夠得到最好的理解。附圖的各種技術(shù)特征可以是不按照比例的。包括在附圖中的是以下的圖圖1是互聯(lián)的計算機(jī)系統(tǒng)網(wǎng)絡(luò)的系統(tǒng)的形式化概要說明;圖2是根據(jù)本發(fā)明一個實施例的用于數(shù)據(jù)存儲的示范性結(jié)構(gòu)化格式的框圖;圖3是根據(jù)本發(fā)明一個實施例的示范性站點地圖的框圖;圖4是在本發(fā)明一個示范性實施例的數(shù)據(jù)庫400中存儲的信息的圖解;以及圖5是根據(jù)本發(fā)明的示范性搜索過程的流程圖。
因特網(wǎng)是世界范圍的計算機(jī)網(wǎng)絡(luò)系統(tǒng),它是其中一臺計算機(jī)的用戶能夠從任何其他計算機(jī)中獲得信息以及與其他計算機(jī)的用戶進(jìn)行通信的網(wǎng)絡(luò)的網(wǎng)絡(luò)。因特網(wǎng)最廣泛應(yīng)用的部分是萬維網(wǎng)(常縮寫為“WWW”或者稱為“Web”)。Web的突出特征是它使用超文本,它是一種交叉引用的方法。在大多數(shù)的網(wǎng)站中,某些單詞或者短語是以不同于周圍文本顏色的文本出現(xiàn)的。這種文本常常還有下劃線。有時,是“可點擊”的按鈕、圖像或者部分圖像。使用Web可以訪問數(shù)以萬計的信息頁。網(wǎng)上“沖浪”是通過網(wǎng)頁瀏覽器(諸如NETSCAPE NAVIGATOR以及MICROSOFT INTERNET EXPLORER)實現(xiàn)的。特定網(wǎng)站的外觀可以有些許變化,這取決于所使用的特定瀏覽器。最近版本的瀏覽器帶有“插件(plugins)”,它們提供動畫、虛擬現(xiàn)實、聲音和音樂。
本發(fā)明是這樣一種系統(tǒng)和方法,所述系統(tǒng)和方法用于通過搜索系統(tǒng)使用元數(shù)據(jù)在計算機(jī)網(wǎng)絡(luò)上檢索基于網(wǎng)絡(luò)的內(nèi)容,包括媒體文件和與媒體文件有關(guān)的數(shù)據(jù)。在此所使用的術(shù)語“媒體文件”包括音頻、視頻、文本、多媒體數(shù)據(jù)文件以及流媒體文件。多媒體文件包括文本、圖像、視頻以及音頻數(shù)據(jù)的任意組合。流媒體包括音頻、視頻、多媒體、文本以及交互式數(shù)據(jù)文件,它們是通過因特網(wǎng)或者其它通信網(wǎng)絡(luò)環(huán)境傳送到用戶的計算機(jī)的,在整個文件都傳送完畢之前,它們就開始在用戶的計算機(jī)/設(shè)備上播放。流媒體的一個優(yōu)勢在于在整個文件都被下載之前,流媒體文件就開始播放,從而免去了用戶長久等待,這種長久等待通常是與下載整個文件相關(guān)聯(lián)的。數(shù)字記錄的音樂、電影、預(yù)告片、新聞報道、無線廣播以及事件實況都有助于增加Web上的流內(nèi)容。此外,通過使用高帶寬連接(諸如電纜、DSL、T1線以及無線網(wǎng)絡(luò)(例如基于2.5G或者3G的蜂窩網(wǎng)絡(luò)))而在通信網(wǎng)絡(luò)成本上的降低會使因特網(wǎng)用戶能更加快速、更加可靠地訪問新聞機(jī)構(gòu)、好萊塢電影制片商、獨立生產(chǎn)商、記錄標(biāo)記、甚至家庭用戶他們自己的流媒體內(nèi)容。
流媒體的例子包括歌曲、政治演講、新聞廣播、電影預(yù)告片、實況廣播、無線廣播、財政新聞發(fā)布會、現(xiàn)場音樂廳、網(wǎng)絡(luò)攝像機(jī)(web-cam)的連續(xù)鏡頭以及其他特殊事件。流媒體的編碼采用各種格式,包括REALAUDIO,REALVIDEO,REALMEDIA,APPLE QUICKTIME,MICROSOFT WINDOWSMEDIA FORMAT,QUICKTIME,MPEG-2 LAYERIII AUDIO以及MP3。通常,媒體文件指定有擴(kuò)展名(后綴),用于指示與具體格式的兼容性。例如,以擴(kuò)展名.ram,.rm,.rpm之一結(jié)尾的媒體文件(例如音頻和視頻文件)與REALMEDIA格式相兼容。在下表中列出了文件擴(kuò)展名以及與它們相兼容的格式的一些例子。更詳盡的媒體類型、擴(kuò)展名以及兼容格式的列表可以在http//www.bowers.cc/extensions 2.htm中查找到。
表1
作為描述性數(shù)據(jù)的元數(shù)據(jù)字面意思是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。元數(shù)據(jù)是這樣的數(shù)據(jù),它包括描述其他數(shù)據(jù)(例如媒體文件)的內(nèi)容或者屬性的信息。例如,標(biāo)題為“用于資源發(fā)現(xiàn)的都柏林核心元數(shù)據(jù)”(http//www.ietf.org/rfc/rfc 2413.txt)的文檔將元數(shù)據(jù)分為三組,它們概略地指示在其中所包含的信息的類別或者范圍。這三個組是(1)主要與資源的內(nèi)容有關(guān)系的元素,(2)按知識產(chǎn)權(quán)觀看時主要與資源有主要關(guān)系的元素,以及(3)主要與資源的實例化有關(guān)系的元素。落在這些組的元數(shù)據(jù)的例子表示在下表中。
表2
元數(shù)據(jù)的來源包括網(wǎng)頁內(nèi)容、統(tǒng)一資源指示符(URI)、媒體文件以及用于傳送媒體文件的傳輸流。網(wǎng)頁內(nèi)容包括HTML、XML、元標(biāo)記以及在網(wǎng)頁上的任何其它文本。如在此更加詳細(xì)的解釋,元數(shù)據(jù)還可以從URL、網(wǎng)頁、媒體文件以及其它元數(shù)據(jù)中獲得。在媒體文件之中的元數(shù)據(jù)可能包括在媒體文件中所包含的信息,例如多媒體或者流文件的諸如頭標(biāo)和尾標(biāo)。元數(shù)據(jù)還可以從例如媒體/元數(shù)據(jù)的傳輸流諸如TCP/IP(例如包)、ATM、幀中繼、基于蜂窩的傳輸模式(例如基于蜂窩的電話模式)、MPEG傳輸、HDTV廣播以及基于無線的傳輸中獲得。元數(shù)據(jù)還可以在流中并行地傳輸或者作為用于傳輸媒體文件的流的一部分傳輸(高清晰度電視廣播在一個流上傳輸,元數(shù)據(jù)則采用電子可編程向?qū)У男问皆诘诙魃蟼鬏?。
參考圖1,它表示互聯(lián)的計算機(jī)系統(tǒng)網(wǎng)絡(luò)102和112的系統(tǒng)100的形式化的概要說明。每個計算機(jī)系統(tǒng)網(wǎng)絡(luò)102和112包括至少一個對應(yīng)的本地計算機(jī)處理器單元104(例如服務(wù)器)以及本地網(wǎng)絡(luò)用戶108,其中所述本地計算機(jī)處理器單元104與至少一個對應(yīng)的本地數(shù)據(jù)存儲單元106(例如數(shù)據(jù)庫)相連。例如,計算機(jī)系統(tǒng)網(wǎng)絡(luò)可以是局域網(wǎng)(LAN)102或者是廣域網(wǎng)(WAN)112。本地計算機(jī)處理器單元104通過所述網(wǎng)絡(luò)(例如因特網(wǎng))114選擇性地連到多個媒體設(shè)備110。多個本地計算機(jī)處理器單元104中的每個、網(wǎng)絡(luò)用戶處理器108和/或媒體設(shè)備110具有與其本地計算機(jī)系統(tǒng)相連接的各種設(shè)備,諸如掃描儀,條形碼讀取器,打印機(jī)以及其它接口設(shè)備。為了訪問網(wǎng)頁的內(nèi)容,本地計算機(jī)處理器104,網(wǎng)絡(luò)用戶處理器108和/或媒體設(shè)備110(與WEB瀏覽器一起被編程)(例如通過使用鼠標(biāo)點擊)定位和選擇特定網(wǎng)頁,所述特定網(wǎng)頁的內(nèi)容位于計算機(jī)系統(tǒng)網(wǎng)絡(luò)102,112的本地數(shù)據(jù)存儲單元106中。網(wǎng)頁可以包含至其它計算機(jī)系統(tǒng)和其它網(wǎng)頁的鏈接。
本地計算機(jī)處理器104,網(wǎng)絡(luò)用戶處理器108和/或媒體設(shè)備110可以是計算機(jī)終端、能夠使用網(wǎng)際協(xié)議(IP)通過因特網(wǎng)進(jìn)行通信的尋呼機(jī)、具有因特網(wǎng)接入的公用電話亭、相連接的電子規(guī)劃器(planner)(例如Palm公司所制造的掌上(Palm)設(shè)備)或者能夠通過網(wǎng)絡(luò)進(jìn)行交互式通信的其它設(shè)備(諸如電子個人規(guī)劃器)。本地計算機(jī)處理器104,網(wǎng)絡(luò)用戶處理器108和/或媒體設(shè)備110也可以是使用無線訪問協(xié)議(WAP)連接到因特網(wǎng)以及通過因特網(wǎng)進(jìn)行通信的無線設(shè)備,諸如手持式裝置(例如蜂窩電話)。網(wǎng)絡(luò)102和112可以通過調(diào)制解調(diào)器連接、局域網(wǎng)(LAN)、電纜調(diào)制解調(diào)器、數(shù)字用戶線(DSL)、雙絞線、基于無線的接口(蜂窩,紅外,無線電波)或者利用數(shù)據(jù)信號的等效的連接與網(wǎng)絡(luò)114相連接。數(shù)據(jù)庫106可以通過本領(lǐng)域已知的任何裝置與本地計算機(jī)處理器單元104相連接。數(shù)據(jù)庫106可以采用任何類型合適的存儲器形式(例如磁、光等等)。數(shù)據(jù)庫106可以是外部存儲器或者位于本地計算機(jī)處理器104、網(wǎng)絡(luò)用戶處理器108和/或媒體設(shè)備110之中。
計算機(jī)還可以包括嵌入在消費產(chǎn)品之中的計算機(jī)以及其它計算機(jī)。例如,本發(fā)明的實施例可以包括嵌入在電視機(jī)、機(jī)頂盒、音頻/視頻接收機(jī)、CD播放器、VCR、DVD播放器、多媒體使能設(shè)備(例如電話)以及因特網(wǎng)使能的設(shè)備中的計算機(jī)(充當(dāng)處理器)。
在本發(fā)明的示范性實施例中,網(wǎng)絡(luò)用戶處理器108和/或媒體設(shè)備110包括通過網(wǎng)絡(luò)114使用戶處理器108和/或媒體設(shè)備110能與本地處理器104相互通信并且彼此相通信的一個或多個程序模塊以及一個或多個數(shù)據(jù)庫。程序模塊包括程序代碼,所述程序代碼是用PERL、擴(kuò)展標(biāo)記語言(XML)、Java、超文本標(biāo)記語言(HTML)或者使網(wǎng)絡(luò)用戶處理器108能夠通過存儲在網(wǎng)絡(luò)用戶處理器108之中的瀏覽器程序訪問本地處理器104的程序模塊的任何其它等效的語言編寫的。
網(wǎng)站和網(wǎng)頁位于網(wǎng)絡(luò)(諸如因特網(wǎng))上,信息(內(nèi)容)駐留在所述網(wǎng)絡(luò)中。網(wǎng)站可以包括單一的或者若干個網(wǎng)頁。網(wǎng)頁是通過統(tǒng)一資源定位符(URL)來標(biāo)識的,所述統(tǒng)一資源定位符作為URI的例子包括網(wǎng)絡(luò)上的網(wǎng)頁的位置(地址)。網(wǎng)站以及網(wǎng)頁可以位于局域網(wǎng)102、廣域網(wǎng)112、網(wǎng)絡(luò)114、處理單元(例如服務(wù)器)104、用戶處理器108和/或媒體設(shè)備110之中。信息或者內(nèi)容可以存儲在例如任何存儲設(shè)備(諸如硬盤、光盤以及主機(jī)設(shè)備)之中。內(nèi)容可以采用各種格式存儲,所述格式可以隨網(wǎng)站的不同,甚至是網(wǎng)頁的不同而不同。
典型地,當(dāng)搜索網(wǎng)絡(luò)上的內(nèi)容時,代理器(諸如,“網(wǎng)上爬行器”或者“機(jī)器人”)采用偽隨機(jī)方式循著它所遇到的每個Web鏈接來爬行(搜索)網(wǎng)絡(luò)。爬行只是從網(wǎng)絡(luò)收集描述性數(shù)據(jù)(諸如元數(shù)據(jù))的一個說明性的例子。這種類型的偽隨機(jī)搜索過程常常會導(dǎo)致去搜索非常大量的非必要數(shù)據(jù)。本發(fā)明人已經(jīng)發(fā)現(xiàn)了這樣一種技術(shù),其中搜索是受到限制的,以便避免搜索非必要的內(nèi)容。簡而言之,第一次碰到網(wǎng)站(或者內(nèi)容的任何位置,諸如文件目錄)時,實施窮舉式搜索,并且生成站點地圖。此外,將網(wǎng)站的URL添加到所遇到的網(wǎng)站的目錄。下一次遇到所述網(wǎng)站時,所述代理器利用所述目錄以及相應(yīng)的站點地圖來僅搜索相關(guān)的內(nèi)容(稱為聚焦式爬行)。此外,因為因特網(wǎng)的動態(tài)性質(zhì),為了更新所述站點地圖和所述目錄,不時地對網(wǎng)站進(jìn)行重新訪問來實施另一次窮舉式搜索/爬行。站點地圖包括結(jié)構(gòu)化的數(shù)據(jù)存儲格式,其中所述網(wǎng)站的內(nèi)容(或者文件目錄)是按照層次組織的(也稱為分層)。
圖2是根據(jù)本發(fā)明一個實施例的用于數(shù)據(jù)存儲的示范性結(jié)構(gòu)化格式的框圖。所述結(jié)構(gòu)化數(shù)據(jù)存儲被格式化為層。所述結(jié)構(gòu)化數(shù)據(jù)存儲可以包括任意數(shù)目的層。數(shù)據(jù)存儲的每一層可以包括與公共內(nèi)容有關(guān)的任意數(shù)目的鏈接、對象、元數(shù)據(jù)、混雜文本,或者它們的任意組合。對象是網(wǎng)絡(luò)上的可搜索的實體。例如,對象可以是多媒體文件或者流媒體文件。在本發(fā)明的一個示范性實施例中,每一層代表在搜索特定網(wǎng)站時所遇到的網(wǎng)頁、另一個網(wǎng)站、對象(例如多媒體、流媒體)、元數(shù)據(jù)、混雜文本或者它們的任意組合。更具體而言,每一層包括至網(wǎng)頁、另一個網(wǎng)站、對象、元數(shù)據(jù)、混雜文本、或者它們的任意組合的鏈接。例如,如圖2所示,第一層代表網(wǎng)站的主頁(例如頂層頁212)。頂層頁212可以包括諸如所述網(wǎng)站的主頁的URL這樣的信息以及可選地在所述網(wǎng)站上包含的URL列表。第二層代表在進(jìn)行搜索時在所述網(wǎng)站上所遇到的下一網(wǎng)頁。第三層代表在進(jìn)行所述搜索時當(dāng)退出第二層時在所述網(wǎng)站上遇到的下一網(wǎng)頁。層的數(shù)目和/或每一層的內(nèi)容是可以重新配置的。也就是說,層的數(shù)目和/或每一層的內(nèi)容可以周期性地和/或按需加以更新。
站點地圖包括根據(jù)結(jié)構(gòu)化數(shù)據(jù)存儲格式而格式化的網(wǎng)站內(nèi)容。圖3是根據(jù)本發(fā)明一個實施例的示范性站點地圖300的框圖。站點地圖300被格式化為五層。這五層相當(dāng)于所遇到的網(wǎng)站的網(wǎng)頁。站點地圖300的第一層包括頂層頁312(主頁)。頂層312包括所述網(wǎng)站的主頁的URL,并且可以包括其它信息(諸如在該網(wǎng)站上的網(wǎng)頁的URL)。站點地圖300的第二層包括位于從主頁向下的下一層網(wǎng)頁上的內(nèi)容。站點地圖300的第二層包括音樂對象314和316以及網(wǎng)頁318。對象314和316代表至在該網(wǎng)站所包含的音樂對象的鏈接。網(wǎng)頁318包含在該網(wǎng)站上具有音樂對象的網(wǎng)頁的的URL列表。站點地圖300的第三層包括具有公共視頻媒體屬性的內(nèi)容。站點地圖300的第三層包括視頻對象320、網(wǎng)頁322以及至外部網(wǎng)站的鏈接324。對象320代表至在該網(wǎng)站上包含的視頻對象的鏈接。網(wǎng)頁322包括在該網(wǎng)站上的具有視頻媒體對象的網(wǎng)頁的URL列表。至外部網(wǎng)站的鏈接324包括其它網(wǎng)站的URL,所述其它網(wǎng)站包括屬于視頻對象的對象和/或元數(shù)據(jù)。站點地圖300的第四層包括網(wǎng)頁326和至外部網(wǎng)站的鏈接328。站點地圖300的第五層包括與目標(biāo)內(nèi)容有關(guān)的元數(shù)據(jù)和文本數(shù)據(jù)。
站點地圖300的格式是示范性的。本發(fā)明的站點地圖可包括多于或者小于五層。在本發(fā)明的一個實施例中,對第一次所遇到的每個網(wǎng)站都進(jìn)行窮舉式搜索(例如爬行),并且,相應(yīng)建立的站點地圖包括用于包含所述網(wǎng)站上所有實體(例如對象、網(wǎng)頁、外部網(wǎng)站、元數(shù)據(jù)、文本)所需要的層數(shù)。在本發(fā)明的另一個實施例中,在所述站點地圖中的層數(shù)被設(shè)置為不超過預(yù)定閾值。例如,在單個站點地圖中的層數(shù)可以設(shè)置為不超過3層。在本發(fā)明的又一個實施例中,探試性地確定站點地圖的層數(shù)。例如,當(dāng)?shù)谝淮斡龅教囟ňW(wǎng)站時,對其進(jìn)行窮舉式搜索,并且,判定出六層包括與流媒體和/或多媒體有關(guān)的信息(即目標(biāo)內(nèi)容)。在以后的時間可以對同樣的網(wǎng)站進(jìn)行重新訪問以便實施附加的窮舉式搜索。通過這種探試性技術(shù),可以判定出流媒體和/或多媒體內(nèi)容一致性地包含在六層站點地圖中。因此。這個例子的站點地圖的層數(shù)被設(shè)置為六。
當(dāng)?shù)谝淮斡龅骄W(wǎng)站時,建立站點地圖,并且將屬于所遇到的網(wǎng)站的信息和對應(yīng)的站點地圖存儲在數(shù)據(jù)庫中。圖4是在本發(fā)明一個示范性實施例的數(shù)據(jù)庫400中存儲的信息的圖解。在對目標(biāo)內(nèi)容進(jìn)行搜索的過程中,會遇到各種網(wǎng)站。第一遇到網(wǎng)站時,就為所遇到的網(wǎng)站建立站點地圖。每個站點地圖(例如站點地圖414、416)存儲在數(shù)據(jù)庫400中。為了確定網(wǎng)站是否前次曾遇到過,通過指示站點地圖存在于所述網(wǎng)站的數(shù)據(jù)庫中,而將每個所遇到的網(wǎng)站與遇到的網(wǎng)站的目錄412加以比較。遇到的網(wǎng)站的目錄412包括已經(jīng)建立有站點地圖的每個遇到的網(wǎng)站的URL以及屬于每個網(wǎng)站的內(nèi)容的信息。遇到的網(wǎng)站的目錄412可以重新配置,并且隨著新站點地圖的建立和/或刪除而繼續(xù)進(jìn)行更新。
根據(jù)本發(fā)明,搜索網(wǎng)站中的目標(biāo)內(nèi)容。目標(biāo)內(nèi)容包括查找中的特定詞以及與所述詞有關(guān)的信息。數(shù)據(jù)庫是使用網(wǎng)站搜索的結(jié)果來構(gòu)成的。為了構(gòu)成這些數(shù)據(jù)庫,對所述網(wǎng)站不采用隨機(jī)形式搜索,而實施聚焦式搜索過程。歷史數(shù)據(jù)(例如,站點被訪問的頻率、有多少用戶訪問過站點)以及元數(shù)據(jù)被利用來輔助搜索。此外,如果網(wǎng)站以前遇到過,并且存在有所述網(wǎng)站的站點地圖,則不對該網(wǎng)站進(jìn)行窮舉式搜索;而實施聚焦式搜索過程。聚焦式搜索(也稱為聚焦式爬行)過程包括僅僅搜索前次已經(jīng)判定出包含有屬于所述目標(biāo)內(nèi)容的內(nèi)容的網(wǎng)站和/或站點地圖的實體。如圖4所示,條紋實體(諸如實體418)代表包含與目標(biāo)內(nèi)容有關(guān)的內(nèi)容的實體。非條紋實體(諸如實體420)代表不包含屬于目標(biāo)內(nèi)容的內(nèi)容的實體。此外,與站點地圖414和416相比,站點地圖422和424包括更多的屬于目標(biāo)內(nèi)容的內(nèi)容。因此,在聚焦式搜索期間,本發(fā)明的系統(tǒng)搜索所述站點地圖(例如422和424)的條紋實體(例如418)。
注意,站點地圖416與站點地圖414相比,包含更多的條紋實體;而與站點地圖422或424相比則包含更少的條紋實體。根據(jù)預(yù)定的閾值,在聚焦式搜索過程中,可以或者不必對站點地圖進(jìn)行搜索。閾值包括要加以搜索的網(wǎng)站的最大數(shù)目,要加以搜索的層的最大數(shù)目、要加以搜索的實體的最大數(shù)目和/或要加以檢索為搜索結(jié)果的數(shù)據(jù)的最大量。在本發(fā)明的示范性實施例中,探試性地確定每個閾值。
圖5所示為根據(jù)本發(fā)明的示范性搜索過程的流程圖。蜘蛛或者其它適當(dāng)?shù)拇砥魉阉骶W(wǎng)站中的目標(biāo)內(nèi)容。在步驟514,定位包含目標(biāo)的網(wǎng)站。在步驟516,搜索數(shù)據(jù)庫400以便確定所定位的網(wǎng)站是否是前次遇到的網(wǎng)站。如果所定位的網(wǎng)站是前次遇到的網(wǎng)站,則在步驟518,系統(tǒng)決定根據(jù)指示所述網(wǎng)站的站點地圖實施聚焦式搜索。如果所定位的網(wǎng)站不是前次遇到的網(wǎng)站,則在步驟518,系統(tǒng)決定不實施聚焦式搜索,而是對所述網(wǎng)站執(zhí)行窮舉式搜索。如果判定出所定位的網(wǎng)站不是以前次遇到的網(wǎng)站,則在步驟522對所述網(wǎng)站實施窮舉式搜索。因此,在步驟524建立站點地圖。在步驟526,對數(shù)據(jù)庫400加以更新以便包括新建立的站點地圖,并且還對遇到的站點目錄412加以更新以便包括新遇到的網(wǎng)站的URL。如果還沒有達(dá)到任何閾值,則在步驟528判定搜索包括目標(biāo)內(nèi)容的更多的網(wǎng)站。一旦某個網(wǎng)站被定位,過程從步驟514繼續(xù)。如果已達(dá)到閾值(例如所搜索的網(wǎng)站總數(shù)),則在步驟528判定出檢索并提供對目標(biāo)內(nèi)容的搜索結(jié)果給系統(tǒng)、用戶和/或另一個搜索系統(tǒng)(步驟530)。
如果(在步驟518)判定出將要實施聚焦式搜索,則在步驟614根據(jù)相應(yīng)站點地圖對定位的網(wǎng)站加以搜索。在步驟526對數(shù)據(jù)庫400進(jìn)行更新,以便適當(dāng)?shù)馗孪鄳?yīng)站點地圖以及遇到的站點目錄412。例如,如果數(shù)據(jù)庫400指示特定網(wǎng)站包括與目標(biāo)內(nèi)容有關(guān)的內(nèi)容,則用相應(yīng)站點地圖來搜索僅包含與目標(biāo)內(nèi)容有關(guān)的內(nèi)容的實體。如果發(fā)現(xiàn)所述特定網(wǎng)站不再包含與目標(biāo)內(nèi)容有關(guān)的內(nèi)容,就從數(shù)據(jù)庫400刪除所述站點地圖,并從所述站點目錄412刪除所述網(wǎng)站的URL。如果未達(dá)到閾值,則在步驟528確定要搜索包含目標(biāo)內(nèi)容的更多網(wǎng)站。一旦定位了網(wǎng)站,所述過程就從步驟514繼續(xù)進(jìn)行。如果已達(dá)到了閾值(例如所搜索的網(wǎng)站的總數(shù)目),則在步驟528判定出檢索并提供對所述目標(biāo)內(nèi)容的搜索結(jié)果給系統(tǒng)、用戶和/或另一個搜索系統(tǒng)(步驟530)。
在本發(fā)明的另一個示范性實施例中,系統(tǒng)100將屬于所遇到網(wǎng)站的輔助信息存儲在數(shù)據(jù)庫400中。使用這一輔助信息來確定閾值,諸如要搜索的網(wǎng)站的最大數(shù)目、要搜索的層的最大數(shù)目、要搜索的實體的最大數(shù)目和/或要作為搜索結(jié)果檢索的數(shù)據(jù)的最大量。這些閾值可以統(tǒng)計性地、探試性地和/或按照用戶的輸入加以確定。
在本發(fā)明的又一個實施例中,系統(tǒng)100對前次遇到的網(wǎng)站實施后續(xù)的徹底搜索(稱為重新爬行)以便更新數(shù)據(jù)庫400(例如,更新網(wǎng)站的相應(yīng)站點地圖;更新遇到的站點的目錄412;刪除站點地圖;從目錄412中刪除URL)。所述系統(tǒng)使用輔助信息來確定要實施重新爬行的頻率。實施重新爬行的頻率和時間可以統(tǒng)計性地、探試性地和/或按照用戶的輸入加以確定。
為了實施上述過程,本發(fā)明可以按用計算機(jī)實現(xiàn)的過程和設(shè)備的形式來加以實現(xiàn)。本發(fā)明也可以按計算機(jī)程序代碼的形式來加以實現(xiàn),所述計算機(jī)程序代碼包括在實際的媒體中,所述媒體例如是軟盤、只讀存儲器(ROM)、CD-ROM、硬盤、高密度盤或者任何其它的計算機(jī)可讀存儲媒體,其中,當(dāng)計算機(jī)程序代碼加載到計算機(jī)中并由計算機(jī)執(zhí)行時,計算機(jī)就成為實施本發(fā)明的設(shè)備。本發(fā)明還可以按計算機(jī)程序代碼的形式來加以實現(xiàn),例如,所述計算機(jī)程序代碼或者是存儲到存儲媒體中,或者加載到計算機(jī)中并由計算機(jī)執(zhí)行,或者通過某些傳輸媒體(諸如通過電線或者電纜、通過光纖,通過電磁輻射)進(jìn)行傳輸,其中,當(dāng)計算機(jī)程序代碼被加載到計算機(jī)中并由計算機(jī)執(zhí)行時,計算機(jī)就變成實踐本發(fā)明的設(shè)備。當(dāng)在通用計算機(jī)上實施時,計算機(jī)程序代碼段就配置處理器以便建立具體的邏輯電路。
與現(xiàn)有技術(shù)的搜索代理器相比,本發(fā)明的系統(tǒng)100能以更加有效的方式搜索網(wǎng)絡(luò)中的目標(biāo)內(nèi)容。系統(tǒng)100根據(jù)站點地圖提供目標(biāo)搜索,通過消除對網(wǎng)站中不包含與目標(biāo)內(nèi)容有關(guān)的內(nèi)容的網(wǎng)站和目錄的搜索來提供更有效的搜索。這尤其適于屬于沒有被包含在網(wǎng)站中的大多數(shù)網(wǎng)站和/或目錄的內(nèi)容的目標(biāo)內(nèi)容(例如流媒體)。此外,本發(fā)明的系統(tǒng)100利用統(tǒng)計性地和/或探試性地確定的標(biāo)準(zhǔn)來實施后續(xù)的搜索,從而確保系統(tǒng)數(shù)據(jù)庫的準(zhǔn)確性。
權(quán)利要求
1.一種搜索基于網(wǎng)絡(luò)的內(nèi)容中的目標(biāo)內(nèi)容的方法,所述方法包括如下步驟確定結(jié)構(gòu)化數(shù)據(jù)存儲的選定層,以便搜索與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容,其中所述結(jié)構(gòu)化數(shù)據(jù)存儲包括基于網(wǎng)絡(luò)的內(nèi)容;以及搜索所述選定層中與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容。
2.權(quán)利要求1的方法,其中所述目標(biāo)內(nèi)容包括多媒體、流媒體、多媒體元數(shù)據(jù)以及流媒體元數(shù)據(jù)中的至少之一。
3.權(quán)利要求1的方法,還包括如下步驟建立所述結(jié)構(gòu)數(shù)據(jù)存儲。
4.權(quán)利要求1的方法,還包括如下步驟確定更新所述結(jié)構(gòu)化數(shù)據(jù)存儲的時間間隔。
5.權(quán)利要求1的方法,還包括如下步驟搜索至少一個網(wǎng)站中的與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容;以及為每個新遇到的網(wǎng)站建立相應(yīng)的站點地圖。
6.權(quán)利要求5的方法,其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內(nèi)容有關(guān)的元數(shù)據(jù)中的至少之一。
7.權(quán)利要求5的方法,其中所述數(shù)據(jù)存儲包括每個遇到的網(wǎng)站的相應(yīng)站點地圖、以及遇到的站點的目錄。
8.權(quán)利要求5的方法,還包括如下步驟確定所遇到的網(wǎng)站是否是前次遇到的網(wǎng)站;如果遇到的網(wǎng)站是前次遇到的網(wǎng)站,則搜索相應(yīng)站點地圖的選定層;以及如果遇到的網(wǎng)站不是前次遇到的網(wǎng)站,則窮舉式地搜索該網(wǎng)站中的所述目標(biāo)內(nèi)容,并建立相應(yīng)的站點地圖。
9.一種搜索基于網(wǎng)絡(luò)的內(nèi)容中的目標(biāo)內(nèi)容的計算機(jī)系統(tǒng),所述計算機(jī)系統(tǒng)包括至少一臺計算機(jī),所述系統(tǒng)中的所有計算機(jī)都通信地互相連接,其中所述至少一臺計算機(jī)中的每一個包括在其中存儲有用于實現(xiàn)所述至少一臺計算機(jī)中的每一個和各個之間的通信的至少一個程序,所述至少一個程序中的每個互相結(jié)合地操作以便使所述至少一臺計算機(jī)執(zhí)行如下步驟確定結(jié)構(gòu)化數(shù)據(jù)存儲的選定層,以便搜索與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容(516),其中所述結(jié)構(gòu)化數(shù)據(jù)存儲包括基于網(wǎng)絡(luò)的內(nèi)容;以及搜索所述選定層中與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容。
10.權(quán)利要求9的計算機(jī)系統(tǒng),其中所述目標(biāo)內(nèi)容包括多媒體、流媒體、多媒體元數(shù)據(jù)以及流媒體元數(shù)據(jù)中的至少之一。
11.權(quán)利要求9的計算機(jī)系統(tǒng),其中所述至少一個程序中的每個互相結(jié)合地操作以使所述至少一臺計算機(jī)還執(zhí)行如下步驟建立所述結(jié)構(gòu)數(shù)據(jù)存儲。
12.權(quán)利要求9的計算機(jī)系統(tǒng),其中所述至少一個程序中的每個互相結(jié)合地操作以使所述至少一臺計算機(jī)還執(zhí)行如下步驟確定更新所述結(jié)構(gòu)化數(shù)據(jù)存儲的時間間隔。
13.權(quán)利要求9的計算機(jī)系統(tǒng),其中所述至少一個程序中的每個互相結(jié)合地操作以使所述至少一臺計算機(jī)還執(zhí)行如下步驟搜索至少一個網(wǎng)站中的與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容(522);以及為每個新遇到的網(wǎng)站建立相應(yīng)的站點地圖(524)。
14.權(quán)利要求13的計算機(jī)系統(tǒng),其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內(nèi)容有關(guān)的元數(shù)據(jù)中的至少之一。
15.權(quán)利要求13的計算機(jī)系統(tǒng),其中所述數(shù)據(jù)存儲包括每個遇到的網(wǎng)站的各自的站點地圖、以及遇到的站點的目錄。
16.權(quán)利要求13的計算機(jī)系統(tǒng),其中所述至少一個程序中的每個互相結(jié)合地操作以使所述至少一臺計算機(jī)還執(zhí)行如下步驟確定所遇到的網(wǎng)站是否是前次遇到的網(wǎng)站;如果遇到的網(wǎng)站是前次遇到的網(wǎng)站,則搜索相應(yīng)站點地圖的選定層;以及如果遇到的網(wǎng)站不是前次遇到的網(wǎng)站,則窮舉式地搜索該網(wǎng)站中的所述目標(biāo)內(nèi)容,并建立相應(yīng)的站點地圖。
17.一種在其上包含有用于使處理器來搜索基于網(wǎng)絡(luò)的內(nèi)容中的目標(biāo)內(nèi)容的程序的程序可讀媒體,所述程序可讀媒體包括用于使所述處理器確定結(jié)構(gòu)化數(shù)據(jù)存儲的選定層以便搜索與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容的裝置,其中所述結(jié)構(gòu)化數(shù)據(jù)存儲包括基于網(wǎng)絡(luò)的內(nèi)容;以及用于使所述處理器搜索所述選定層中與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容的裝置。
18.權(quán)利要求17的程序可讀媒體,其中所述目標(biāo)內(nèi)容包括多媒體、流媒體、多媒體元數(shù)據(jù)以及流媒體元數(shù)據(jù)中的至少之一。
19.權(quán)利要求17的程序可讀媒體,所述程序可讀媒體還包括用于使所述處理器建立所述結(jié)構(gòu)數(shù)據(jù)存儲的裝置。
20.權(quán)利要求17的程序可讀媒體,所述程序可讀媒體還包括使所述處理器確定更新所述結(jié)構(gòu)化數(shù)據(jù)存儲的時間間隔的裝置。
21.權(quán)利要求17的程序可讀媒體,所述程序可讀媒體還包括使所述處理器搜索至少一個網(wǎng)站中的與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容的裝置;以及使所述處理器為每個新遇到的網(wǎng)站建立相應(yīng)站點地圖的裝置。
22.權(quán)利要求21的程序可讀媒體,其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內(nèi)容有關(guān)的元數(shù)據(jù)中的至少之一。
23.權(quán)利要求21的程序可讀媒體,其中所述數(shù)據(jù)存儲包括每個遇到的網(wǎng)站的相應(yīng)站點地圖、以及遇到的站點的目錄。
24.權(quán)利要求21的程序可讀媒體,所述程序可讀媒體還包括用于使所述處理器確定所遇到的網(wǎng)站是否是前次遇到的網(wǎng)站的裝置;用于在遇到的網(wǎng)站是前次遇到的網(wǎng)站的情況下使所述處理器搜索相應(yīng)站點地圖的選定層的裝置;以及用于在遇到的網(wǎng)站不是前次遇到的網(wǎng)站的情況下使所述處理器窮舉式地搜索網(wǎng)站中的所述目標(biāo)內(nèi)容并建立相應(yīng)站點地圖的裝置。
25.一種體現(xiàn)為載波的數(shù)據(jù)信號,包括用于確定結(jié)構(gòu)化數(shù)據(jù)存儲的選定層以便搜索與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容的確定選定層代碼段,其中所述結(jié)構(gòu)化數(shù)據(jù)存儲包括基于網(wǎng)絡(luò)的內(nèi)容;以及用于搜索所述選定層中與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容的搜索選定層代碼段。
26.權(quán)利要求25的數(shù)據(jù)信號,其中所述目標(biāo)內(nèi)容包括多媒體、流媒體、多媒體元數(shù)據(jù)以及流媒體元數(shù)據(jù)中的至少之一。
27.權(quán)利要求25的數(shù)據(jù)信號,還包括用于建立所述結(jié)構(gòu)數(shù)據(jù)存儲的建立數(shù)據(jù)存儲代碼段。
28.權(quán)利要求25的數(shù)據(jù)信號,還包括用于確定更新所述結(jié)構(gòu)化數(shù)據(jù)存儲的時間間隔的確定時間間隔代碼段。
29.權(quán)利要求25的數(shù)據(jù)信號,還包括用于搜索至少一個網(wǎng)站中的與所述目標(biāo)內(nèi)容有關(guān)的內(nèi)容的搜索網(wǎng)絡(luò)代碼段;以及用于為每個新遇到的網(wǎng)站建立相應(yīng)站點地圖的建立站點地圖代碼段。
30.權(quán)利要求29的數(shù)據(jù)信號,其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內(nèi)容有關(guān)的元數(shù)據(jù)中的至少之一。
31.權(quán)利要求29的數(shù)據(jù)信號,其中所述數(shù)據(jù)存儲包括每個遇到的網(wǎng)站的相應(yīng)站點地圖、以及遇到的站點的目錄。
32.權(quán)利要求29的數(shù)據(jù)信號,還包括用于確定所遇到的網(wǎng)站是否是前次遇到的網(wǎng)站的確定前次遇到的網(wǎng)絡(luò)的代碼段;用于在遇到的網(wǎng)站是前次遇到的網(wǎng)站的情況下,搜索相應(yīng)站點地圖的選定層的搜索層代碼段;以及用于在遇到的網(wǎng)站不是前次遇到的網(wǎng)站的情況下,窮舉式地搜索網(wǎng)站中的所述目標(biāo)內(nèi)容并建立相應(yīng)站點地圖的搜索網(wǎng)站代碼段。
全文摘要
一種用于搜索基于網(wǎng)絡(luò)的內(nèi)容的系統(tǒng)和方法可限制搜索非必要的內(nèi)容。第一次遇到網(wǎng)站時,實施窮舉式搜索(522),并且生成(524)站點地圖(300),將網(wǎng)站的URL添加到遇到的網(wǎng)站的目錄(526)。下一次遇到所述網(wǎng)站時,所述系統(tǒng)利用站點地圖和目錄來搜索僅相關(guān)的內(nèi)容(614)。根據(jù)前次訪問得出的信息,對網(wǎng)站進(jìn)行重新訪問,以便實施后續(xù)的窮舉式搜索從而更新站點地圖和目錄。站點地圖包括結(jié)構(gòu)化的數(shù)據(jù)存儲格式,其中網(wǎng)站內(nèi)容是按照層組織的。
文檔編號G06F17/30GK1486457SQ01822163
公開日2004年3月31日 申請日期2001年11月20日 優(yōu)先權(quán)日2000年11月21日
發(fā)明者P·C·埃文斯, P C 埃文斯, R·A·亞歷山大, 亞歷山大, P·T·桑農(nóng), 桑農(nóng) 申請人:湯姆森許可公司