網(wǎng)頁(yè)信息的獲取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁(yè)信息的獲取方法和裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)資源日益豐富,用戶可通過(guò)互聯(lián)網(wǎng)瀏覽不同的網(wǎng)頁(yè) 內(nèi)容。為了降低用戶的瀏覽成本,可對(duì)互聯(lián)網(wǎng)中的網(wǎng)頁(yè)信息進(jìn)行提取,從而可將提取出的用 戶可能需要的、對(duì)用戶有用的信息提供給用戶。
[0003] 傳統(tǒng)的提取網(wǎng)頁(yè)信息的方法,通過(guò)預(yù)先獲取各個(gè)網(wǎng)頁(yè)的D0M值ocument化ject Model,文檔對(duì)象模型)樹模板,然后根據(jù)待提取信息在網(wǎng)頁(yè)對(duì)應(yīng)的DOM樹模板中的位置,確 定待提取信息在解析出的該網(wǎng)頁(yè)的D0M樹中的節(jié)點(diǎn),并提取出該節(jié)點(diǎn)對(duì)應(yīng)的內(nèi)容。送需要 預(yù)先分別獲取每個(gè)網(wǎng)頁(yè)的D0M樹模板,工作量非常大,并且,隨著各個(gè)網(wǎng)站對(duì)網(wǎng)頁(yè)結(jié)構(gòu)的調(diào) 整,的如果不能及時(shí)更新已變化的網(wǎng)頁(yè)的模板,則會(huì)導(dǎo)致提取的內(nèi)容不是預(yù)期內(nèi)容。此外, 網(wǎng)頁(yè)中還會(huì)存在一些推廣或者宣傳類內(nèi)容,其中可能包括與待解析內(nèi)容相同的,此時(shí),準(zhǔn)確 度無(wú)法保障。
[0004] 目前,還可通過(guò)將每個(gè)網(wǎng)頁(yè)的內(nèi)容劃分為多個(gè)內(nèi)容塊,并根據(jù)每個(gè)內(nèi)容塊對(duì)應(yīng)的 類型提取需要用戶需要的內(nèi)容類型對(duì)應(yīng)的內(nèi)容塊來(lái)為用戶提供所需的信息,但依然無(wú)法準(zhǔn) 確獲取網(wǎng)頁(yè)內(nèi)容,且穩(wěn)定性比較低,甚至?xí)o提取出錯(cuò)誤的信息給用戶,而對(duì)于一些需要準(zhǔn) 確數(shù)據(jù)及其對(duì)應(yīng)關(guān)系類的信息來(lái)說(shuō),錯(cuò)誤容忍度較低,一旦出現(xiàn)錯(cuò)誤,則會(huì)給用戶帶來(lái)極大 的不便,甚至嚴(yán)重的經(jīng)濟(jì)損失。
【發(fā)明內(nèi)容】
[0005] 本申請(qǐng)旨在至少在一定程度上解決上述技術(shù)問(wèn)題。
[0006] 為此,本申請(qǐng)的第一個(gè)目的在于提出一種網(wǎng)頁(yè)信息的獲取方法,既提高了網(wǎng)頁(yè)信 息獲取的成功率,也提高了網(wǎng)頁(yè)信息獲取的準(zhǔn)確率,能夠極大程度上從網(wǎng)頁(yè)中濾除無(wú)用信 息,并精準(zhǔn)地提取出用戶所需要的信息。
[0007] 本申請(qǐng)的第二個(gè)目的在于提出一種網(wǎng)頁(yè)信息的獲取裝置。
[0008] 為達(dá)上述目的,根據(jù)本申請(qǐng)第一方面實(shí)施例提出了一種網(wǎng)頁(yè)信息的獲取方法,包 括:獲得待解析網(wǎng)頁(yè);W及從所述待解析網(wǎng)頁(yè)中提取出待解析關(guān)鍵字,獲得所述待解析關(guān) 鍵字在所述待解析網(wǎng)頁(yè)中的位置,并根據(jù)所述位置間的關(guān)系從所述待解析網(wǎng)頁(yè)中獲取所述 待解析關(guān)鍵字對(duì)應(yīng)的內(nèi)容。
[0009] 本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)信息的獲取方法,通過(guò)在待解析網(wǎng)頁(yè)中提取待解析關(guān)鍵字, 并獲得待解析關(guān)鍵字在待解析網(wǎng)頁(yè)中的位置,根據(jù)待解析關(guān)鍵字的位置間的關(guān)系從待解析 網(wǎng)頁(yè)中獲取待解析關(guān)鍵字對(duì)應(yīng)的內(nèi)容,從而,根據(jù)待解析關(guān)鍵字的位置間的關(guān)系將待解析 關(guān)鍵字綁定,能夠避免待解析網(wǎng)頁(yè)中非主要內(nèi)容中所包括待解析關(guān)鍵字的干擾導(dǎo)致的解析 失敗,增強(qiáng)了網(wǎng)頁(yè)信息獲取的抗干擾性,從而既提高了網(wǎng)頁(yè)信息獲取的成功率,也提高了網(wǎng) 頁(yè)信息獲取的準(zhǔn)確率。此外,根據(jù)各個(gè)待解析關(guān)鍵字的位置間的關(guān)系,能夠極大程度上從網(wǎng) 頁(yè)中濾除無(wú)用信息,并精準(zhǔn)地提取出用戶所需要的信息,提升了用戶體驗(yàn)。
[0010] 本申請(qǐng)第二方面實(shí)施例提供了一種網(wǎng)頁(yè)信息的獲取裝置,包括:獲得模塊,用于獲 得待解析網(wǎng)頁(yè);W及解析模塊,用于從所述待解析網(wǎng)頁(yè)中提取出待解析關(guān)鍵字,獲得所述待 解析關(guān)鍵字在所述待解析網(wǎng)頁(yè)中的位置,并根據(jù)所述位置間的關(guān)系從所述待解析網(wǎng)頁(yè)中獲 取所述待解析關(guān)鍵字對(duì)應(yīng)的內(nèi)容。
[0011] 本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)信息的獲取方裝置,通過(guò)在待解析網(wǎng)頁(yè)中提取待解析關(guān)鍵 字,并獲得待解析關(guān)鍵字在待解析網(wǎng)頁(yè)中的位置,根據(jù)待解析關(guān)鍵字的位置間的關(guān)系從待 解析網(wǎng)頁(yè)中獲取待解析關(guān)鍵字對(duì)應(yīng)的內(nèi)容,從而,根據(jù)待解析關(guān)鍵字的位置間的關(guān)系將待 解析關(guān)鍵字綁定,能夠避免待解析網(wǎng)頁(yè)中非主要內(nèi)容中所包括待解析關(guān)鍵字的干擾導(dǎo)致的 解析失敗,增強(qiáng)了網(wǎng)頁(yè)信息獲取的抗干擾性,從而既提高了網(wǎng)頁(yè)信息獲取的成功率,也提高 了網(wǎng)頁(yè)信息獲取的準(zhǔn)確率。此外,根據(jù)各個(gè)待解析關(guān)鍵字的位置間的關(guān)系,能夠極大程度上 從網(wǎng)頁(yè)中濾除無(wú)用信息,并精準(zhǔn)地提取出用戶所需要的信息,提升了用戶體驗(yàn)。
[0012] 本申請(qǐng)的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本申請(qǐng)的實(shí)踐了解到。
【附圖說(shuō)明】
[0013] 本申請(qǐng)的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變 得明顯和容易理解,其中:
[0014] 圖1為根據(jù)本申請(qǐng)一個(gè)實(shí)施例的網(wǎng)頁(yè)信息的獲取方法的流程圖;
[0015] 圖2為根據(jù)本申請(qǐng)圖1所示實(shí)施例中步驟S102的執(zhí)行方法的流程圖;
[0016] 圖3為根據(jù)本申請(qǐng)一個(gè)實(shí)施例的賬單信息的獲取方法的流程圖;
[0017] 圖4為根據(jù)本申請(qǐng)圖3所示實(shí)施例中步驟S302的執(zhí)行方法的流程圖;
[0018] 圖5a為根據(jù)本申請(qǐng)一個(gè)實(shí)施例的賬單文檔中部分內(nèi)容的示意圖;
[0019] 圖化為本申請(qǐng)另一個(gè)實(shí)施例的賬單文檔中部分內(nèi)容的示意圖;
[0020] 圖6為根據(jù)本申請(qǐng)一個(gè)實(shí)施例的網(wǎng)頁(yè)信息的獲取裝置的結(jié)構(gòu)示意圖;
[0021] 圖7為根據(jù)本申請(qǐng)一個(gè)具體實(shí)施例的網(wǎng)頁(yè)信息的獲取裝置的結(jié)構(gòu)示意圖;
[0022] 圖8為根據(jù)本申請(qǐng)另一個(gè)實(shí)施例的網(wǎng)頁(yè)信息的獲取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 下面詳細(xì)描述本申請(qǐng)的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本申請(qǐng),而不能理解為對(duì)本申請(qǐng)的限制。
[0024] 在本申請(qǐng)的描述中,需要理解的是,術(shù)語(yǔ)"中必"、"縱向"、"橫向"、"上"、"下"、"前"、 "后"、"左"、"右"、"豎直"、"水平"、"頂"、"底"、"內(nèi)"、"外"等指示的方位或位置關(guān)系為基于 附圖所示的方位或位置關(guān)系,僅是為了便于描述本申請(qǐng)和簡(jiǎn)化描述,而不是指示或暗示所 指的裝置或元件必須具有特定的方位、W特定的方位構(gòu)造和操作,因此不能理解為對(duì)本申 請(qǐng)的限制。此外,術(shù)語(yǔ)"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對(duì)重要 性。
[0025] 在本申請(qǐng)的描述中,需要說(shuō)明的是,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可w是固定連接,也可w是可拆卸連接,或一體地連接;可 W是機(jī)械連接,也可W是電連接;可W是直接相連,也可W通過(guò)中間媒介間接相連,可W是 兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可W具體情況理解上述術(shù)語(yǔ)在本 申請(qǐng)中的具體含義。
[0026] 為了提高網(wǎng)頁(yè)信息獲取的準(zhǔn)確性和成功率,本申請(qǐng)?zhí)岢鲆环N網(wǎng)頁(yè)信息的獲取方法 和裝置。
[0027] 下面參考附圖描述根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)信息的獲取方法和裝置。
[0028] 圖1為根據(jù)本申請(qǐng)一個(gè)實(shí)施例的網(wǎng)頁(yè)信息的獲取方法的流程圖。
[002引如圖1所示,根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)信息的獲取方法,包括:
[0030] S101,獲得待解析網(wǎng)頁(yè)。
[0031] 其中,待解析網(wǎng)頁(yè)可W是HTML(Hyp&rtext Markup Language,超文本標(biāo)記語(yǔ)言)頁(yè) 面。
[0032] S102,從待解析網(wǎng)頁(yè)中提取出待解析關(guān)鍵字,狄得待解析關(guān)鍵字在待解析網(wǎng)頁(yè)中 的位置,并根據(jù)位置間的關(guān)系從待解析網(wǎng)頁(yè)中獲取待解析關(guān)鍵字對(duì)應(yīng)的內(nèi)容。
[0033] 在本申請(qǐng)的實(shí)施例中,如圖2所示,步驟S102具體包括:
[0034] S201,將待解析網(wǎng)頁(yè)轉(zhuǎn)換成節(jié)點(diǎn)樹。
[0035] 具體地,可根據(jù)待解析網(wǎng)頁(yè)中的HTML標(biāo)簽生成節(jié)點(diǎn)樹,本申請(qǐng)對(duì)生成節(jié)點(diǎn)樹的方 式不限。在本申請(qǐng)的一個(gè)實(shí)施例中,為了節(jié)省將將待解析網(wǎng)頁(yè)轉(zhuǎn)換成節(jié)點(diǎn)樹時(shí)所占用的內(nèi) 存,可通過(guò)VTD(Vbtual Token Descriptor,虛擬令牌描述符)的方式將待解析網(wǎng)頁(yè)轉(zhuǎn)換成 節(jié)點(diǎn)樹。節(jié)點(diǎn)樹中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)待解析網(wǎng)頁(yè)中的一個(gè)HTML標(biāo)簽。
[0036] S202,使用預(yù)設(shè)的解析模板生成解析樹,其中,解析樹中至少包含一個(gè)組節(jié)點(diǎn)和W 組節(jié)點(diǎn)為父節(jié)點(diǎn)的多個(gè)數(shù)據(jù)節(jié)點(diǎn),且每個(gè)節(jié)點(diǎn)中均包含表示路徑信息的字段,每個(gè)數(shù)據(jù)節(jié) 點(diǎn)中均包含表W待解析關(guān)鍵字的字段名。
[0037] 其中,解析模板生成方式為:根據(jù)來(lái)自各個(gè)網(wǎng)頁(yè)的不同提供方提供的網(wǎng)頁(yè)對(duì)待解 析關(guān)鍵字在網(wǎng)頁(yè)中的位置、路徑關(guān)系分別進(jìn)行統(tǒng)計(jì)分析,并根據(jù)分析結(jié)果得到不同提供方 提供的網(wǎng)頁(yè)中成組出現(xiàn)的多個(gè)待解析關(guān)鍵字及其對(duì)應(yīng)的父節(jié)點(diǎn)對(duì)應(yīng)的待解析關(guān)鍵字等,然 后根據(jù)得到的待解析關(guān)鍵字之間的關(guān)系生成不同提供方對(duì)應(yīng)的解析模板。
[0038] 另外,由于網(wǎng)頁(yè)的提供方會(huì)根據(jù)自身需要對(duì)網(wǎng)頁(yè)內(nèi)容及其位置關(guān)系進(jìn)行更新,因 此,解析模板可根據(jù)網(wǎng)頁(yè)的提供方W及網(wǎng)頁(yè)對(duì)應(yīng)的更新時(shí)間或版本分別建立。例如,對(duì)于提 供方A可有A1、A2、A3 Η個(gè)不同版本的解析模板。
[0039] 根據(jù)網(wǎng)頁(yè)中待解析關(guān)鍵字之間的關(guān)系將解析模板定義為樹形結(jié)構(gòu),因此,可根據(jù) 解析模板生成用于解析網(wǎng)頁(yè)的解析樹。其中,解析樹的根節(jié)點(diǎn)為一個(gè)集合節(jié)點(diǎn),即節(jié)點(diǎn)的集 合,可包含至少一個(gè)組節(jié)點(diǎn),其中,組節(jié)點(diǎn)為多個(gè)數(shù)據(jù)節(jié)點(diǎn)的父節(jié)點(diǎn),還可是多個(gè)數(shù)據(jù)節(jié)點(diǎn) 的集合。
[0040] 其中,數(shù)據(jù)節(jié)點(diǎn)包含了待解析關(guān)鍵字的字段名和表示路徑信息的字段,每個(gè)數(shù)據(jù) 節(jié)點(diǎn)可映射到唯一的待解析字段。例如,W賬單頁(yè)面為例,每個(gè)數(shù)據(jù)節(jié)點(diǎn)可映射到賬單金 額、賬單日等待解析字段。
[0041] 其中,表示路徑信息的字段為一個(gè)xpath表達(dá)式,用于查找包括該數(shù)據(jù)節(jié)點(diǎn)的待 解析關(guān)鍵字的字段名的多個(gè)路徑,即根據(jù)該xpath表達(dá)式可查找包含待解析關(guān)鍵字的節(jié) 點(diǎn),并得到節(jié)點(diǎn)的路徑信息。路徑信息可為該數(shù)據(jù)節(jié)點(diǎn)相對(duì)于其父節(jié)點(diǎn)的相對(duì)路徑,可通過(guò) 送個(gè)相對(duì)路徑獲取數(shù)據(jù)節(jié)點(diǎn)中待解析關(guān)鍵字的字段名對(duì)應(yīng)的內(nèi)容。
[0042] 在本申請(qǐng)的一個(gè)實(shí)施例中,解析模板中還可包括用于表示待解析網(wǎng)頁(yè)中的列表的 內(nèi)容,由此,在本申請(qǐng)的一個(gè)實(shí)施例中,集合節(jié)點(diǎn)還可不通過(guò)組節(jié)點(diǎn)而直接包含數(shù)據(jù)節(jié)點(diǎn), 或者也可包含列表節(jié)點(diǎn)等