專利名稱:輕量級智能網(wǎng)頁內(nèi)容解析方法
技術領域:
本發(fā)明涉及網(wǎng)頁內(nèi)容解析領域。
背景技術:
在網(wǎng)頁內(nèi)容解析系統(tǒng)中,需要對網(wǎng)頁的內(nèi)容進行過濾,僅保留有用的主體內(nèi)容,并 去除無用的信息,如廣告、菜單、導航等。然而傳統(tǒng)的解決方式是根據(jù)某網(wǎng)頁中的HTML源碼 的結(jié)構(gòu),通過分析并確認主體內(nèi)容的位置來進行解析。其前提是,知道某網(wǎng)頁的源碼特點和 主體內(nèi)容的確定位置。但是,不同的網(wǎng)頁具有不同的源碼結(jié)構(gòu)和特點,這種解析方式僅能對 已知的具體網(wǎng)頁進行解析,應用范圍有限。而且,網(wǎng)頁結(jié)構(gòu)一旦調(diào)整,該功能也將失效。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種通用的針對文章類網(wǎng)頁(新聞、博客、論壇等帶有明顯 主體內(nèi)容的網(wǎng)頁)進行內(nèi)容解析方法,通過分析該類網(wǎng)頁所具有的共性和在創(chuàng)建時所必然 具有的某些特征,結(jié)合HTML源碼的結(jié)構(gòu)特點來定位主體內(nèi)容的位置,并獲取其內(nèi)容。從而 為一般用戶提供一快速、有效的輕量級的網(wǎng)頁內(nèi)容解析工具。為了達到上述目的,本發(fā)明設定了一種主體內(nèi)容定位算法。首先,下載并將網(wǎng)頁 HTML源碼轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)模型;其次,分析數(shù)據(jù)模型,收集用于主體內(nèi)容定位的數(shù)據(jù);再 次,利用收集的數(shù)據(jù),對數(shù)據(jù)模型進行分析,定位主體內(nèi)容(如新聞內(nèi)容、博客文章、論壇主 題和回復等)所在的位置;最終,分析所確定的主體內(nèi)容模型,去除無用信息,獲取有關的 主體內(nèi)容。此外,通過交互式界面作為補充,用戶可對已解析成功的結(jié)果進行進一步的合 并、編輯、保存、索引。相當于為用戶提供了一網(wǎng)頁內(nèi)容資料庫,供后期的檢索使用。這種方 式,有效的將分析技術、存在特性、人工干預加以結(jié)合,提供更加貼近用戶的功能。
圖1為本發(fā)明的工作流程示意圖。
具體實施例方式下面結(jié)合附圖1對本發(fā)明所述的技術方案做進一步詳細描述。圖1為智能網(wǎng)頁內(nèi)容解析所涉及的各個模塊的方框圖,其包括客戶端和服務器端 兩部分,支持多個客戶端連接服務器端??蛻舳税ňW(wǎng)頁選取和內(nèi)容編輯兩個部分。其中 網(wǎng)頁選取主要用于觸發(fā)網(wǎng)頁內(nèi)容解析任務,內(nèi)容編輯主要用于成功解析網(wǎng)頁后,對多個網(wǎng) 頁解析的結(jié)果,進行合并、編輯、保存。服務器端主要包括任務調(diào)度系統(tǒng)、網(wǎng)頁內(nèi)容下載/解 析、內(nèi)容中心模塊。這個網(wǎng)頁內(nèi)容解析過程主要步驟如下1)用戶選擇網(wǎng)頁并生成任務。2)任務調(diào)度系統(tǒng)處理任務
a.下載網(wǎng)頁的HTML源碼。b.構(gòu)建數(shù)據(jù)模型。由于HTML適用廣泛而且語法不是非常嚴格,因此構(gòu)建模型需要以下幾個步驟。i.獲取編碼類型并進行相應的轉(zhuǎn)換。
ii.對HTML源碼進行補全,方便構(gòu)建對象。iii.過濾某些不規(guī)則字符,避免解析過程中出現(xiàn)異常。iv.解析源碼,構(gòu)建對象。c.進行內(nèi)容解析,獲取主體內(nèi)容。3)用戶對多個網(wǎng)頁的解析結(jié)果進行合并、編輯、保存,進而構(gòu)建成文章。網(wǎng)頁的解 析結(jié)果為該網(wǎng)頁的主體內(nèi)容(如新聞網(wǎng)頁中的新聞內(nèi)容,博客網(wǎng)頁中發(fā)表的文章、論壇網(wǎng) 頁中的內(nèi)容和回復等),不需要太多的編輯。用戶可根據(jù)需要進行必要的調(diào)整(如樣式、排 版等),并最終進行保存。保存的結(jié)果將被索引供后期的檢索使用。
權(quán)利要求
一種輕量級智能網(wǎng)頁內(nèi)容解析方法,其特征在于1)從因特網(wǎng)獲取網(wǎng)頁的HTML源碼。2)利用HTML源碼的結(jié)構(gòu)化、層次化特性,構(gòu)建數(shù)據(jù)對象。同時對不完整的HTML源碼進行補充。3)遵循網(wǎng)頁構(gòu)建時候的基本特征和開發(fā)者的常規(guī)習慣,利用文章類(如新聞、博客、論壇等)網(wǎng)頁的基本特征,對網(wǎng)頁的主體內(nèi)容進行定位和解析。4)獲取的網(wǎng)頁主體內(nèi)容,可通過瀏覽器查看、編輯、保存、索引。5)可以定制任務,定時更新結(jié)果。
2.如權(quán)利1所述的輕量級智能網(wǎng)頁內(nèi)容解析方法,其特征在于不僅僅針對特定的網(wǎng) 頁進行解析,具有一定的通用性。
3.如權(quán)利1所述的輕量級智能網(wǎng)頁內(nèi)容解析方法,其特征在于除了利用HTML代碼的 特性,還結(jié)合網(wǎng)頁在被構(gòu)建時的基本特征和該類型網(wǎng)頁的通用特性。
4.如權(quán)利1所述的輕量級智能網(wǎng)頁內(nèi)容解析方法,其特征在于可以將從多個網(wǎng)頁中 解析出來的內(nèi)容進行合并、編輯、保存、索引,以人工干預作為必要的補充。
5.如權(quán)利2所述的輕量級智能網(wǎng)頁內(nèi)容解析方法的通用性,其特征在于適用于新聞、 博客、論壇等具有主要內(nèi)容的網(wǎng)頁,不適用于類似首頁的綜合網(wǎng)頁,不適用于內(nèi)容主要包含 在腳本、控件中的網(wǎng)頁。
6.如權(quán)利2所述的輕量級智能網(wǎng)頁內(nèi)容解析方法的通用性,其特征在于主要解析的 是網(wǎng)頁中的主要文本信息,暫不包括多媒體信息。
7.如權(quán)利3所述的輕量級智能網(wǎng)頁內(nèi)容解析方法中的分析方法,其特征在于分析新 聞、博客、論壇等具有主要內(nèi)容的網(wǎng)頁的特征并在收集中針對這些特征收集必要的數(shù)據(jù)。
8.如權(quán)利4所述的輕量級智能網(wǎng)頁內(nèi)容解析方法中的人工干預方式,其特征在于解 析所得的主要內(nèi)容結(jié)果一般情況下已滿足需要,但用戶可以對多個網(wǎng)頁的結(jié)果進行合并、 根據(jù)實際情況進行必要的定制,從而得到滿足個人需要的結(jié)果,并進一步保存、索引。最終, 這些數(shù)據(jù)成為入庫信息,供用戶使用。
全文摘要
本發(fā)明為網(wǎng)頁內(nèi)容解析提供了一種通用的輕量級智能解析方法,可以對文章類(如新聞、博客、論壇等)網(wǎng)頁進行有效的內(nèi)容解析。步驟如下首先,下載網(wǎng)頁HTML源碼并將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)模型;其次,分析結(jié)構(gòu)化數(shù)據(jù)模型,收集用于定位主體內(nèi)容的數(shù)據(jù);再次,利用收集的數(shù)據(jù),對數(shù)據(jù)模型進行進一步分析,定位主體內(nèi)容(如新聞內(nèi)容、博客文章、論壇主題和回復等)所在的位置;最終,分析獲取的主體內(nèi)容模型,去除無用信息,得到主體內(nèi)容。此外,通過交互式界面,用戶可對解析結(jié)果進行合并、編輯、保存、索引,相當于為用戶建立了網(wǎng)頁內(nèi)容資料庫,供后期的檢索使用。這種方式,有效的將分析技術、存在特性、人工干預加以結(jié)合,提供更加貼近用戶的功能。
文檔編號G06F17/30GK101819584SQ201010126329
公開日2010年9月1日 申請日期2010年3月18日 優(yōu)先權(quán)日2010年3月18日
發(fā)明者不公告發(fā)明人 申請人:上海引跑信息科技有限公司