網(wǎng)頁(yè)信息提取方法及設(shè)備的制作方法
【專利摘要】本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)信息提取方法及設(shè)備。本發(fā)明實(shí)施例通過(guò)根據(jù)待提取的網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,進(jìn)而可以利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息,使得能夠根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息,由于根據(jù)待提取的網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,因此,能夠有效提高網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性。
【專利說(shuō)明】網(wǎng)頁(yè)信息提取方法及設(shè)備
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及通信技術(shù),尤其涉及一種網(wǎng)頁(yè)信息提取方法及設(shè)備。
【【背景技術(shù)】】
[0002]因特網(wǎng)(Internet)是到目前為止世界上最豐富和最密集的信息來(lái)源,可以采用網(wǎng)絡(luò)爬蟲技術(shù),獲取我們所需要的信息。所述網(wǎng)絡(luò)爬蟲技術(shù)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它通過(guò)指定的域名,從一個(gè)或若干目標(biāo)網(wǎng)頁(yè)的統(tǒng)一資源定位符(Uniform Resource Locator,URL)(即種子網(wǎng)頁(yè)的URL)開(kāi)始,獲得目標(biāo)網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到?jīng)]有可繼續(xù)訪問(wèn)的URL為止。其中,URL也被稱為網(wǎng)頁(yè)地址,即網(wǎng)頁(yè)的鏈接信息,是Internet上標(biāo)準(zhǔn)的資源的地址。
[0003]然而,現(xiàn)有的網(wǎng)絡(luò)爬蟲技術(shù)無(wú)法保證網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性?!?br/>【發(fā)明內(nèi)容】
】
[0004]本發(fā)明的多個(gè)方面提供一種網(wǎng)頁(yè)信息提取方法及設(shè)備,用以提高網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性。
[0005]本發(fā)明的一方面,提供一種網(wǎng)頁(yè)信息提取方法,包括:
[0006]獲取待提取的網(wǎng)頁(yè);
[0007]根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息;
[0008]利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息;
[0009]根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息。
[0010]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu)之前,還包括:
[0011]根據(jù)至少一個(gè)網(wǎng)站的頁(yè)面特征,設(shè)置與每個(gè)所述網(wǎng)站對(duì)應(yīng)的所述網(wǎng)頁(yè)結(jié)構(gòu)。
[0012]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,包括:
[0013]根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容,所述腳本信息包括定位指令、提取指令、循環(huán)控制指令、區(qū)域控制指令和鏈接擴(kuò)散指令中的至少一個(gè)指令;
[0014]根據(jù)所述待提取區(qū)域和/或所述待提取內(nèi)容,以及利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析。
[0015]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容之前,還包括:[0016]根據(jù)提取需求,預(yù)先設(shè)置所述腳本信息。
[0017]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述方法還包括:
[0018]根據(jù)提取需求的變化,修改所述腳本信息。
[0019]本發(fā)明的另一方面,提供一種網(wǎng)頁(yè)信息提取設(shè)備,包括:
[0020]獲取單元,用于獲取待提取的網(wǎng)頁(yè);
[0021]確定單元,用于根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息;
[0022]解析單元,用于利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息;
[0023]所述獲取單元,還用于根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息。
[0024]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述設(shè)備還包括設(shè)置單元,用于
[0025]根據(jù)至少一個(gè)網(wǎng) 站的頁(yè)面特征,設(shè)置與每個(gè)所述網(wǎng)站對(duì)應(yīng)的所述網(wǎng)頁(yè)結(jié)構(gòu)。
[0026]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述解析單元,具體用于
[0027]根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容,所述腳本信息包括定位指令、提取指令、循環(huán)控制指令、區(qū)域控制指令和鏈接擴(kuò)散指令中的至少一個(gè)指令;以及根據(jù)所述待提取區(qū)域和/或所述待提取內(nèi)容,以及利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析。
[0028]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述設(shè)置單元,還用于
[0029]根據(jù)提取需求,預(yù)先設(shè)置所述腳本信息。
[0030]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述設(shè)置單元,還用于
[0031]根據(jù)提取需求的變化,修改所述腳本信息。
[0032]由上述技術(shù)方案可知,本發(fā)明實(shí)施例通過(guò)根據(jù)待提取的網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,進(jìn)而可以利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息,使得能夠根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息,由于根據(jù)待提取的網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,因此,能夠有效提高網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性。
【【專利附圖】
【附圖說(shuō)明】】
[0033]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0034]圖1為本發(fā)明一實(shí)施例提供的網(wǎng)頁(yè)信息提取方法的流程示意圖;
[0035]圖2為圖1對(duì)應(yīng)的實(shí)施例中網(wǎng)站A的歌曲頁(yè)面的頁(yè)面結(jié)構(gòu)示意圖;
[0036]圖3為本發(fā)明另一實(shí)施例提供的網(wǎng)頁(yè)信息提取設(shè)備的結(jié)構(gòu)示意圖;
[0037]圖4為本發(fā)明另一實(shí)施例提供的網(wǎng)頁(yè)信息提取設(shè)備的結(jié)構(gòu)示意圖。
【【具體實(shí)施方式】】
[0038]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0039]另外,本文中術(shù)語(yǔ)“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。
[0040]圖1為本發(fā)明一實(shí)施例提供的網(wǎng)頁(yè)信息提取方法的流程示意圖,如圖1所示。
[0041]101、獲取待提取的網(wǎng)頁(yè)。
[0042]具體地,在101中,具體可以采用現(xiàn)有技術(shù)中的方法,根據(jù)所述待提取的網(wǎng)頁(yè)的鏈接信息,獲取所述待 提取的網(wǎng)頁(yè)。詳細(xì)描述可以參見(jiàn)現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。
[0043]102、根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息。
[0044]103、利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息。
[0045]104、根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息。
[0046]這樣,通過(guò)根據(jù)待提取的網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,進(jìn)而可以利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息,使得能夠根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息,由于根據(jù)待提取的網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,因此,能夠有效提高網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性。
[0047]具體地,在102中,具體可以根據(jù)所述網(wǎng)頁(yè)結(jié)構(gòu)的節(jié)點(diǎn)數(shù)目,確定是否停止執(zhí)行解析操作。例如,如果所述網(wǎng)頁(yè)結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的鏈接信息都提取完畢,則停止執(zhí)行解析操作,以獲取用戶所需要的所述待提取的網(wǎng)頁(yè)的全部?jī)?nèi)容信息。
[0048]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在102之前,還可以進(jìn)一步根據(jù)至少一個(gè)網(wǎng)站的頁(yè)面特征,設(shè)置與每個(gè)所述網(wǎng)站對(duì)應(yīng)的所述網(wǎng)頁(yè)結(jié)構(gòu)。在本實(shí)施例中,所述頁(yè)面結(jié)構(gòu)可以稱之為內(nèi)容鏈接樹(Content Link Tree,CLT)。
[0049]例如,具體可以根據(jù)網(wǎng)站A的一個(gè)專輯頁(yè)面的頁(yè)面特征,即I個(gè)專輯頁(yè)面下面,有I個(gè)歌手頁(yè)面和10個(gè)歌曲頁(yè)面,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu)。該網(wǎng)頁(yè)結(jié)構(gòu)則包括12個(gè)節(jié)點(diǎn),該12個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系可以如圖2所示,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,即專輯頁(yè)面的鏈接信息、歌手頁(yè)面的鏈接信息、10個(gè)歌曲頁(yè)面的鏈接信息。
[0050]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在102中,具體可以根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容,所述腳本信息包括定位指令、提取指令、循環(huán)控制指令、區(qū)域控制指令和鏈接擴(kuò)散指令中的至少一個(gè)指令;然后,則可以根據(jù)所述待提取區(qū)域和/或所述待提取內(nèi)容,以及利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析。
[0051]具體地,所述定位指令,用于指示一個(gè)位置;具體可以從這個(gè)位置開(kāi)始往后到所述網(wǎng)頁(yè)的最后為止,確定為所述待提取區(qū)域,或者還可以從所述網(wǎng)頁(yè)的開(kāi)始到這個(gè)位置為止,確定為所述待提取區(qū)域。
[0052]具體地,所述提取指令,用于指示一個(gè)特征字段;具體可以將所述特征字段,確定為所述待提取內(nèi)容。
[0053]具體地,所述循環(huán)控制指令,用于指示指定節(jié)點(diǎn)的循環(huán)個(gè)數(shù);具體可以將所述指定節(jié)點(diǎn)作為基礎(chǔ)節(jié)點(diǎn),循環(huán)所述循環(huán)次數(shù),確定為所述待提取內(nèi)容。
[0054]具體地,所述區(qū)域控制指令,用于指示一個(gè)區(qū)域;具體可以講所述區(qū)域確定為所述待提取區(qū)域。
[0055]具體地,所述鏈接擴(kuò)散指令,用于指示其他鏈接;具體可以將所述其他鏈接,確定為所述待提取內(nèi)容。
[0056]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容之前,還可以進(jìn)一步根據(jù)提取需求,預(yù)先設(shè)置所述腳本信息。具體地,可以利用利用Peal代碼或Lua代碼等代碼,編譯所述腳本信息,其編譯與修改簡(jiǎn)單、方便。
[0057]在本實(shí)施例中,這些腳本信息可以形成通用文本提取語(yǔ)言(General-purposeText Extraction Language, GTEL)。
[0058]進(jìn)一步可選地,還可以進(jìn)一步根據(jù)提取需求的變化,修改所述腳本信息,由于能夠根據(jù)提取需求的變化,隨時(shí)修改所述腳本信息,因此,采用本實(shí)施例提供的技術(shù)方案,能夠有效提聞網(wǎng)頁(yè)/[目息提取的靈活性。
[0059]本實(shí)施例中,通過(guò)根據(jù)待提取的網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,進(jìn)而可以利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息,使得能夠根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息,由于根據(jù)待提取的網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,因此,能夠有效提高網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性。
[0060]另外,由于根據(jù)待提取的網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以進(jìn)行有目的的提取,而無(wú)需利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行任意的提取,能夠進(jìn)一步提高網(wǎng)頁(yè)信息提取的效率。
[0061]需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
[0062]在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
[0063]圖3為本發(fā)明另一實(shí)施例提供的網(wǎng)頁(yè)信息提取設(shè)備的結(jié)構(gòu)示意圖,如圖3所示。本實(shí)施例的網(wǎng)頁(yè)信息提取設(shè)備可以包括獲取單元31、確定單元32和解析單元33。其中,獲取單元31,用于獲取待提取的網(wǎng)頁(yè);確定單元32,用于根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息;解析單元33,用于利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息;所述獲取單元31,還用于根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息。
[0064]這樣,本實(shí)施例提供的網(wǎng)頁(yè)信息提取設(shè)備通過(guò)確定單元根據(jù)待提取的網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,進(jìn)而可以由解析單元利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息,使得獲取單元能夠根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息,由于根據(jù)待提取的網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,因此,能夠有效提高網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性。
[0065]具體地,所述解析單元33具體可以根據(jù)所述網(wǎng)頁(yè)結(jié)構(gòu)的節(jié)點(diǎn)數(shù)目,確定是否停止執(zhí)行解析操作。例如,如果所述網(wǎng)頁(yè)結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的鏈接信息都提取完畢,所述解析單元33則停止執(zhí)行解析操作,以獲取用戶所需要的所述待提取的網(wǎng)頁(yè)的全部?jī)?nèi)容信息。
[0066]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,如圖4所示,本實(shí)施例提供的網(wǎng)頁(yè)信息提取設(shè)備還可以進(jìn)一步包括設(shè)置單元41,用于根據(jù)至少一個(gè)網(wǎng)站的頁(yè)面特征,設(shè)置與每個(gè)所述網(wǎng)站對(duì)應(yīng)的所述網(wǎng)頁(yè)結(jié)構(gòu)。在本實(shí)施例中,所述頁(yè)面結(jié)構(gòu)可以稱之為內(nèi)容鏈接樹(Content Link Tree,CLT)。
[0067]例如,所述設(shè)置單元41具體可以根據(jù)網(wǎng)站A的一個(gè)專輯頁(yè)面的頁(yè)面特征,S卩I個(gè)專輯頁(yè)面下面,有I個(gè)歌手頁(yè)面和10個(gè)歌曲頁(yè)面,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu)。該網(wǎng)頁(yè)結(jié)構(gòu)則包括12個(gè)節(jié)點(diǎn),該12個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系可以如圖2所示,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,即專輯頁(yè)面的鏈接信息、歌手頁(yè)面的鏈接信息、10個(gè)歌曲頁(yè)面的鏈接信息。
[0068]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述解析單元33,具體可以用于根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容,所述腳本信息包括定位指令、提取指令、循環(huán)控制指令、區(qū)域控制指令和鏈接擴(kuò)散指令中的至少一個(gè)指令;以及根據(jù)所述待提取區(qū)域和/或所述待提取內(nèi)容,以及利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析。
[0069]具體地,所述定位指令,用于指示一個(gè)位置;所述解析單元33具體可以從這個(gè)位置開(kāi)始往后到所述網(wǎng)頁(yè)的最后為止,確定為所述待提取區(qū)域,或者還可以從所述網(wǎng)頁(yè)的開(kāi)始到這個(gè)位置為止,確定為所述待提取區(qū)域。
[0070]具體地,所述提取指令,用于指示一個(gè)特征字段;所述解析單元33具體可以將所述特征字段,確定為所述待提取內(nèi)容。
[0071]具體地,所述循環(huán)控制指令,用于指示指定節(jié)點(diǎn)的循環(huán)個(gè)數(shù);所述解析單元33具體可以將所述指定節(jié)點(diǎn)作為基礎(chǔ)節(jié)點(diǎn),循環(huán)所述循環(huán)次數(shù),確定為所述待提取內(nèi)容。
[0072]具體地,所述區(qū)域控制指令,用于指示一個(gè)區(qū)域;所述解析單元33具體可以講所述區(qū)域確定為所述待提取區(qū)域。
[0073]具體地,所述鏈接擴(kuò)散指令,用于指示其他鏈接;所述解析單元33具體可以將所述其他鏈接,確定為所述待提取內(nèi)容。
[0074]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述設(shè)置單元41,還可以進(jìn)一步用于根據(jù)提取需求,預(yù)先設(shè)置所述腳本信息。具體地,可以利用利用Peal代碼或Lua代碼等代碼,編譯所述腳本信息,其編譯與修改簡(jiǎn)單、方便。
[0075]在本實(shí)施例中,這些腳本信息可以形成通用文本提取語(yǔ)言(General-purposeText Extraction Language, GTEL)。
[0076]這樣,所述解析單元33則可以根據(jù)所述腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容。
[0077]進(jìn)一步可選地,所述設(shè)置單元41,還可以進(jìn)一步用于根據(jù)提取需求的變化,修改所述腳本信息,由于能夠根據(jù)提取需求的變化,隨時(shí)修改所述腳本信息,因此,采用本實(shí)施例提供的技術(shù)方案,能夠有效提聞網(wǎng)頁(yè)?目息提取的靈活性。
[0078]本實(shí)施例中,通過(guò)確定單元根據(jù)待提取的網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息,進(jìn)而可以由解析單元利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息,使得獲取單元能夠根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息,由于根據(jù)待提取的網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,因此,能夠有效提高網(wǎng)頁(yè)信息提取的完備性和準(zhǔn)確性。
[0079]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
[0080]在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所`描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0081]所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
[0082]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0083]上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory, ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory, RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0084]最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)信息提取方法,其特征在于,包括: 獲取待提取的網(wǎng)頁(yè); 根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息; 利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息; 根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu)之前,還包括: 根據(jù)至少一個(gè)網(wǎng)站的頁(yè)面特征,設(shè)置與每個(gè)所述網(wǎng)站對(duì)應(yīng)的所述網(wǎng)頁(yè)結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,包括: 根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容,所述腳本信息包括定位指令、提取指令、循環(huán)控制指令、區(qū)域控制指令和鏈接擴(kuò)散指令中的至少一個(gè)指令; 根據(jù)所述待提取區(qū)域和/或所述待提取內(nèi)容,以及利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容之前,還包括: 根據(jù)提取需求,預(yù)先設(shè)置所述腳本信息。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述方法還包括: 根據(jù)提取需求的變化,修改所述腳本信息。
6.一種網(wǎng)頁(yè)信息提取設(shè)備,其特征在于,包括: 獲取單元,用于獲取待提取的網(wǎng)頁(yè); 確定單元,用于根據(jù)所述網(wǎng)頁(yè)的鏈接信息,確定與所述網(wǎng)頁(yè)的鏈接信息對(duì)應(yīng)的預(yù)先設(shè)置的網(wǎng)頁(yè)結(jié)構(gòu),所述網(wǎng)頁(yè)結(jié)構(gòu)包括至少兩個(gè)節(jié)點(diǎn)和所述每個(gè)節(jié)點(diǎn)之間的邏輯關(guān)系,所述每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)鏈接信息; 解析單元,用于利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析,以獲得滿足所述網(wǎng)頁(yè)結(jié)構(gòu)的鏈接信息; 所述獲取單元,還用于根據(jù)所述鏈接信息,獲取所述鏈接信息對(duì)應(yīng)的內(nèi)容信息。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其特征在于,所述設(shè)備還包括設(shè)置單元,用于 根據(jù)至少一個(gè)網(wǎng)站的頁(yè)面特征,設(shè)置與每個(gè)所述網(wǎng)站對(duì)應(yīng)的所述網(wǎng)頁(yè)結(jié)構(gòu)。
8.根據(jù)權(quán)利要求6或7所述的設(shè)備,其特征在于,所述解析單元,具體用于 根據(jù)腳本信息,確定所述網(wǎng)頁(yè)中的待提取區(qū)域和/或待提取內(nèi)容,所述腳本信息包括定位指令、提取指令、循環(huán)控制指令、區(qū)域控制指令和鏈接擴(kuò)散指令中的至少一個(gè)指令;以及根據(jù)所述待提取區(qū)域和/或所述待提取內(nèi)容,以及利用所述網(wǎng)頁(yè)結(jié)構(gòu),對(duì)所述網(wǎng)頁(yè)進(jìn)行解析。
9.根據(jù)權(quán)利要求7所述的設(shè)備,其特征在于,所述設(shè)置單元,還用于 根據(jù)提取需求,預(yù)先設(shè)置所述腳本信息。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述設(shè)置單元,還用于根據(jù)提取需 求的變化,修改所述腳本信息。
【文檔編號(hào)】G06F17/30GK103885957SQ201210557335
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2012年12月20日 優(yōu)先權(quán)日:2012年12月20日
【發(fā)明者】陶善文, 李東輝 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司