輕量級智能網(wǎng)頁內(nèi)容解析方法

文檔序號：6599321閱讀：307來源：國知局

專利名稱：輕量級智能網(wǎng)頁內(nèi)容解析方法
技術領域：
本發(fā)明涉及網(wǎng)頁內(nèi)容解析領域。
背景技術：
在網(wǎng)頁內(nèi)容解析系統(tǒng)中，需要對網(wǎng)頁的內(nèi)容進行過濾，僅保留有用的主體內(nèi)容，并去除無用的信息，如廣告、菜單、導航等。然而傳統(tǒng)的解決方式是根據(jù)某網(wǎng)頁中的HTML源碼的結(jié)構(gòu)，通過分析并確認主體內(nèi)容的位置來進行解析。其前提是，知道某網(wǎng)頁的源碼特點和主體內(nèi)容的確定位置。但是，不同的網(wǎng)頁具有不同的源碼結(jié)構(gòu)和特點，這種解析方式僅能對已知的具體網(wǎng)頁進行解析，應用范圍有限。而且，網(wǎng)頁結(jié)構(gòu)一旦調(diào)整，該功能也將失效。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種通用的針對文章類網(wǎng)頁(新聞、博客、論壇等帶有明顯主體內(nèi)容的網(wǎng)頁)進行內(nèi)容解析方法，通過分析該類網(wǎng)頁所具有的共性和在創(chuàng)建時所必然具有的某些特征，結(jié)合HTML源碼的結(jié)構(gòu)特點來定位主體內(nèi)容的位置，并獲取其內(nèi)容。從而為一般用戶提供一快速、有效的輕量級的網(wǎng)頁內(nèi)容解析工具。為了達到上述目的，本發(fā)明設定了一種主體內(nèi)容定位算法。首先，下載并將網(wǎng)頁 HTML源碼轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)模型；其次，分析數(shù)據(jù)模型，收集用于主體內(nèi)容定位的數(shù)據(jù)；再次，利用收集的數(shù)據(jù)，對數(shù)據(jù)模型進行分析，定位主體內(nèi)容(如新聞內(nèi)容、博客文章、論壇主題和回復等)所在的位置；最終，分析所確定的主體內(nèi)容模型，去除無用信息，獲取有關的主體內(nèi)容。此外，通過交互式界面作為補充，用戶可對已解析成功的結(jié)果進行進一步的合并、編輯、保存、索引。相當于為用戶提供了一網(wǎng)頁內(nèi)容資料庫，供后期的檢索使用。這種方式，有效的將分析技術、存在特性、人工干預加以結(jié)合，提供更加貼近用戶的功能。

圖1為本發(fā)明的工作流程示意圖。
具體實施例方式下面結(jié)合附圖1對本發(fā)明所述的技術方案做進一步詳細描述。圖1為智能網(wǎng)頁內(nèi)容解析所涉及的各個模塊的方框圖，其包括客戶端和服務器端兩部分，支持多個客戶端連接服務器端?？蛻舳税ňW(wǎng)頁選取和內(nèi)容編輯兩個部分。其中網(wǎng)頁選取主要用于觸發(fā)網(wǎng)頁內(nèi)容解析任務，內(nèi)容編輯主要用于成功解析網(wǎng)頁后，對多個網(wǎng) 頁解析的結(jié)果，進行合并、編輯、保存。服務器端主要包括任務調(diào)度系統(tǒng)、網(wǎng)頁內(nèi)容下載/解析、內(nèi)容中心模塊。這個網(wǎng)頁內(nèi)容解析過程主要步驟如下1)用戶選擇網(wǎng)頁并生成任務。2)任務調(diào)度系統(tǒng)處理任務
a.下載網(wǎng)頁的HTML源碼。b.構(gòu)建數(shù)據(jù)模型。由于HTML適用廣泛而且語法不是非常嚴格，因此構(gòu)建模型需要以下幾個步驟。i.獲取編碼類型并進行相應的轉(zhuǎn)換。
ii.對HTML源碼進行補全，方便構(gòu)建對象。iii.過濾某些不規(guī)則字符，避免解析過程中出現(xiàn)異常。iv.解析源碼，構(gòu)建對象。c.進行內(nèi)容解析，獲取主體內(nèi)容。3)用戶對多個網(wǎng)頁的解析結(jié)果進行合并、編輯、保存，進而構(gòu)建成文章。網(wǎng)頁的解析結(jié)果為該網(wǎng)頁的主體內(nèi)容(如新聞網(wǎng)頁中的新聞內(nèi)容，博客網(wǎng)頁中發(fā)表的文章、論壇網(wǎng) 頁中的內(nèi)容和回復等)，不需要太多的編輯。用戶可根據(jù)需要進行必要的調(diào)整(如樣式、排版等)，并最終進行保存。保存的結(jié)果將被索引供后期的檢索使用。
權(quán)利要求
一種輕量級智能網(wǎng)頁內(nèi)容解析方法，其特征在于1)從因特網(wǎng)獲取網(wǎng)頁的HTML源碼。2)利用HTML源碼的結(jié)構(gòu)化、層次化特性，構(gòu)建數(shù)據(jù)對象。同時對不完整的HTML源碼進行補充。3)遵循網(wǎng)頁構(gòu)建時候的基本特征和開發(fā)者的常規(guī)習慣，利用文章類(如新聞、博客、論壇等)網(wǎng)頁的基本特征，對網(wǎng)頁的主體內(nèi)容進行定位和解析。4)獲取的網(wǎng)頁主體內(nèi)容，可通過瀏覽器查看、編輯、保存、索引。5)可以定制任務，定時更新結(jié)果。
2.如權(quán)利1所述的輕量級智能網(wǎng)頁內(nèi)容解析方法，其特征在于不僅僅針對特定的網(wǎng) 頁進行解析，具有一定的通用性。
3.如權(quán)利1所述的輕量級智能網(wǎng)頁內(nèi)容解析方法，其特征在于除了利用HTML代碼的特性，還結(jié)合網(wǎng)頁在被構(gòu)建時的基本特征和該類型網(wǎng)頁的通用特性。
4.如權(quán)利1所述的輕量級智能網(wǎng)頁內(nèi)容解析方法，其特征在于可以將從多個網(wǎng)頁中解析出來的內(nèi)容進行合并、編輯、保存、索引，以人工干預作為必要的補充。
5.如權(quán)利2所述的輕量級智能網(wǎng)頁內(nèi)容解析方法的通用性，其特征在于適用于新聞、博客、論壇等具有主要內(nèi)容的網(wǎng)頁，不適用于類似首頁的綜合網(wǎng)頁，不適用于內(nèi)容主要包含在腳本、控件中的網(wǎng)頁。
6.如權(quán)利2所述的輕量級智能網(wǎng)頁內(nèi)容解析方法的通用性，其特征在于主要解析的是網(wǎng)頁中的主要文本信息，暫不包括多媒體信息。
7.如權(quán)利3所述的輕量級智能網(wǎng)頁內(nèi)容解析方法中的分析方法，其特征在于分析新聞、博客、論壇等具有主要內(nèi)容的網(wǎng)頁的特征并在收集中針對這些特征收集必要的數(shù)據(jù)。
8.如權(quán)利4所述的輕量級智能網(wǎng)頁內(nèi)容解析方法中的人工干預方式，其特征在于解析所得的主要內(nèi)容結(jié)果一般情況下已滿足需要，但用戶可以對多個網(wǎng)頁的結(jié)果進行合并、根據(jù)實際情況進行必要的定制，從而得到滿足個人需要的結(jié)果，并進一步保存、索引。最終，這些數(shù)據(jù)成為入庫信息，供用戶使用。
全文摘要
本發(fā)明為網(wǎng)頁內(nèi)容解析提供了一種通用的輕量級智能解析方法，可以對文章類(如新聞、博客、論壇等)網(wǎng)頁進行有效的內(nèi)容解析。步驟如下首先，下載網(wǎng)頁HTML源碼并將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)模型；其次，分析結(jié)構(gòu)化數(shù)據(jù)模型，收集用于定位主體內(nèi)容的數(shù)據(jù)；再次，利用收集的數(shù)據(jù)，對數(shù)據(jù)模型進行進一步分析，定位主體內(nèi)容(如新聞內(nèi)容、博客文章、論壇主題和回復等)所在的位置；最終，分析獲取的主體內(nèi)容模型，去除無用信息，得到主體內(nèi)容。此外，通過交互式界面，用戶可對解析結(jié)果進行合并、編輯、保存、索引，相當于為用戶建立了網(wǎng)頁內(nèi)容資料庫，供后期的檢索使用。這種方式，有效的將分析技術、存在特性、人工干預加以結(jié)合，提供更加貼近用戶的功能。
文檔編號G06F17/30GK101819584SQ201010126329
公開日2010年9月1日申請日期2010年3月18日優(yōu)先權(quán)日2010年3月18日
發(fā)明者不公告發(fā)明人申請人:上海引跑信息科技有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：不公告發(fā)明人
技術所有人：上海引跑信息科技有限公司
我是此專利的發(fā)明人

上一篇：面粉麩星自動檢測裝置的制作方法
上一篇：具有存儲標簽的片材束及其制造方法、片材輸送機構(gòu)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

復制網(wǎng)頁內(nèi)容相關技術

網(wǎng)頁內(nèi)容不能復制相關技術

網(wǎng)頁內(nèi)容無法復制相關技術

網(wǎng)頁內(nèi)容提取相關技術

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

輕量級智能網(wǎng)頁內(nèi)容解析方法