两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法

文檔序號:6366748閱讀:200來源:國知局

專利名稱::一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法
技術(shù)領(lǐng)域
:本發(fā)明涉及計算機應(yīng)用和信息抽取領(lǐng)域,尤其涉及一種提取網(wǎng)頁主要內(nèi)容的實現(xiàn)方法。
背景技術(shù)
:隨著Internet及其技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式增長。網(wǎng)絡(luò)已經(jīng)成為人類有史以來最為龐大的數(shù)據(jù)庫,而網(wǎng)頁已經(jīng)成為Internet上最重要的信息資源。用戶通常使用瀏覽器直接查看網(wǎng)頁,此外,還有很多基于互聯(lián)網(wǎng)的信息處理工作(如信息搜索、數(shù)據(jù)挖掘、機器翻譯等),也以網(wǎng)頁的信息內(nèi)容為基礎(chǔ)數(shù)據(jù)進行開展。但是,在目前的互聯(lián)網(wǎng)環(huán)境下,一個web頁面所要表達主題信息往往被大量導(dǎo)航鏈接、廣告鏈接和版權(quán)聲明等“網(wǎng)頁噪音”所包圍。如何準確、高效地提取網(wǎng)頁的正文主題信息和標題等信息已經(jīng)成為當前網(wǎng)絡(luò)信息應(yīng)用和研究領(lǐng)域的一個重要課題,具有很高的應(yīng)用價值和實踐意義。因此,能夠快速準確的提取網(wǎng)頁的主要內(nèi)容是一項基于web內(nèi)容應(yīng)用服務(wù)的關(guān)鍵技術(shù)。它不但能夠提高各種基于內(nèi)容服務(wù)的應(yīng)用系統(tǒng)的準確性,還能大大的提升其工作效率,同時還更直接的減輕用戶信息瀏覽的負擔。信息抽取領(lǐng)域的專家一直嘗試著借助計算機來解決這些與主題無關(guān)的信息帶來的麻煩。目前,關(guān)于網(wǎng)頁正文提取方面的研究很多,從大方向來說,主要可分為兩類,即基于包裝器的方法以及分塊的方法。利用包裝器提取網(wǎng)頁正文是一種提出較早,也較為流行的方法,后來出現(xiàn)的網(wǎng)頁模板抽取技術(shù)也屬于此類。它的原理是通過構(gòu)建包裝器或網(wǎng)頁模板規(guī)則,將符合規(guī)則的信息從網(wǎng)頁信息源中提取出來。但是該方法只能針對某一類特定格式信息源,而構(gòu)建它所需的信息模式識別知識的獲取是一個費時費力的工作,在目前的互聯(lián)網(wǎng)網(wǎng)頁越來越多樣化和可定制化的趨勢下,這種方法不通用?;诜謮K的方法分支是比較多的,比較有代表性的主要有基于純DOM樹的網(wǎng)頁分塊、基于視覺信息的網(wǎng)頁分塊(Vision-basedPageSegmentationVIPS)以及基于特定標簽的網(wǎng)頁分塊。由于DOM樹最早引入是為了在瀏覽器中進行布局顯示而不是進行web頁面的語義描述,在未引入補充信息之前,基于純DOM的分塊方法單憑其提供的標簽層次關(guān)系是不能完全勝任內(nèi)容提取工作的?;谝曈X信息的網(wǎng)頁分塊利用web頁面的視覺提示如背景顏色、字體顏色、字體大小、字體粗細等信息,結(jié)合DOM提供的層次結(jié)構(gòu)進行頁面的分塊。但是由于視覺特征的復(fù)雜性,很難有一個通用的規(guī)則集。除此之外,VIPS算法還需要保存大量的視覺信息,其處理性能隨著頁面的復(fù)雜度急劇下降。由于早期互聯(lián)網(wǎng)流行既定的幾種布局,也有人根據(jù)〈table〉標簽把網(wǎng)頁分成若干個內(nèi)容塊。這樣分塊流程非常簡單,但面對日益復(fù)雜的頁面,處理效果往往不能令人滿意。因此,現(xiàn)有的方法要么算法流程過于簡單,只能針對特定標簽的網(wǎng)頁風格進行內(nèi)容提?。灰此惴◤?fù)雜度過高(基于模板的機器學習或者復(fù)雜的視覺計算),都直接導(dǎo)致無法實時的處理人們隨機的頁面訪問。
發(fā)明內(nèi)容為了克服已有網(wǎng)頁正文提取方法的不能兼顧實時性和適用性的不足,本發(fā)明提供一種適用性良好、兼有較好實時性的提取網(wǎng)頁內(nèi)容的實現(xiàn)方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,所述實現(xiàn)方法包括以下步驟步驟S110,對整個網(wǎng)頁采用DOM樹進行分割處理,以將網(wǎng)頁中相關(guān)聯(lián)的內(nèi)容分割為至少一個布局塊;步驟S120,對網(wǎng)頁類型進行判斷,根據(jù)統(tǒng)計的根節(jié)點的鏈接總長度α、文本總長度β、鏈接總個數(shù)Y,定義鏈接密度為$,設(shè)定R是鏈接密度的閾值,T是鏈接總個數(shù)的閾值,如果當前的布局塊的鏈接密度和鏈接總個數(shù)均大于閾值,則判定為導(dǎo)航頁;步驟S130,對所述布局塊進行塊屬性的判斷,如果存在主題塊,根據(jù)鏈接密度、標點符號個數(shù)判斷是否為主題頁;如果不存在主題塊,根據(jù)列表塊的個數(shù)進行判斷,若小于閾值L,對應(yīng)網(wǎng)頁就是主題頁;步驟S140,根據(jù)主題塊或列表塊得到主題頁,并提取所需的主題頁信息。進一步,所述步驟SllO中,網(wǎng)頁進行分割處理的流程為步驟S210,將輸入的網(wǎng)頁進行預(yù)處理首先將網(wǎng)頁解析為文檔對象模型樹,對模型樹進行處理,將注釋節(jié)點和空格文本節(jié)點刪除;步驟S220,構(gòu)建新的DOM樹,對DOM樹中節(jié)點定義所需要的語義屬性鏈接個數(shù)、鏈接長度、文本長度和無關(guān)詞長度,并將標簽為table的節(jié)點改為div;步驟S230,統(tǒng)計文檔模型樹中每個節(jié)點的語義信息,所述語義信息包括鏈接總個數(shù)、鏈接長度、文本長度和無關(guān)詞長度,以及每個節(jié)點的視覺屬性,所述視覺屬性包括背景顏色和字體的大小、粗細、顏色,為后面的分塊和信息提取作準備;步驟S240,首先構(gòu)建只包含div節(jié)點的DIV樹,根據(jù)設(shè)定的閾值及判定規(guī)則,利用節(jié)點統(tǒng)計的語義屬性進行分塊,判斷的順序是由下而上。再進一步,所述步驟S210的網(wǎng)頁預(yù)處理過程為步驟S310,將網(wǎng)頁解析成文檔對象模型DOM樹依次讀入網(wǎng)頁的內(nèi)容,識別每個HTML標簽的名稱、類別、參數(shù)和內(nèi)容,以樹狀結(jié)構(gòu)進行存儲,從而形成網(wǎng)頁的DOM樹;步驟S320,清理DOM樹中的無用節(jié)點,所述無用節(jié)點是指與主題信息抽取無關(guān)的節(jié)點,包括腳本、樣式控制信息和注釋。更進一步,所述步驟S240的網(wǎng)頁分塊過程為步驟S410,根據(jù)DIV樹中div節(jié)點的語義屬性對網(wǎng)頁進行分塊;步驟S420,對步驟S410的分塊結(jié)果根據(jù)視覺屬性判斷是否合理;視覺屬性是步驟S230保存的節(jié)點的背景顏色和節(jié)點中包含字體的顏色、大小、粗細,對應(yīng)設(shè)置權(quán)值分別為α、β、Y、ω;定義一個權(quán)值函數(shù)f(a,β,Y,ω)來判斷當前塊是否再可分;當函數(shù)值大于設(shè)定的閾值R時,說明當前塊可再分,否則就不再可分;接下來,再利用以下判定規(guī)則判斷相鄰分塊間內(nèi)容上的差異度,具體規(guī)則如下(I)相鄰兩塊的距離越遠,差異度越大,設(shè)置權(quán)值就越大;(2)相鄰兩塊的背景色不同,差異度越大,設(shè)置權(quán)值就越大;(3)對于上下相鄰的兩塊,如果塊中字體的大小特征差異性越大,則權(quán)值越大;如果上方分塊中的字體大小要小于下方分塊中的字體,則權(quán)值較大,字體大小差異越大,權(quán)值越大;但是當兩側(cè)分塊中的內(nèi)容較為相似時,則設(shè)置權(quán)值就較小。通過上述規(guī)則,如果相鄰兩塊的權(quán)值小于所設(shè)定的閾值T時就合并,否則就不合并。所述步驟S310中,采用基于改進的Firefox網(wǎng)頁解析算法的網(wǎng)頁樹結(jié)構(gòu)分析算法來建立DOM樹結(jié)構(gòu)。本發(fā)明的技術(shù)構(gòu)思為該方法不依賴于單個網(wǎng)頁文檔之外的信息,僅依據(jù)各個節(jié)點的內(nèi)部特征信息,結(jié)合網(wǎng)頁的語言描述特點,有效提取主要內(nèi)容。由于爬取的網(wǎng)頁并不一定是主題頁,本發(fā)明的目的是針對主題頁信息提取,首先從HTML頁面中判斷出主題頁,然后從主題頁中準確快速地提取需要的相關(guān)信息。在判斷網(wǎng)頁類型的前提下,通過網(wǎng)頁本身視覺的布局特點和自然語言處理的相關(guān)統(tǒng)計技術(shù)來完成對網(wǎng)頁類型區(qū)分和主題頁內(nèi)容的自動提取。根據(jù)網(wǎng)頁鏈接個數(shù)、文本長度、鏈接長度,判斷出導(dǎo)航頁。根據(jù)節(jié)點語義屬性和視覺屬性,對網(wǎng)頁進行分塊,再根據(jù)網(wǎng)頁中塊的屬性判斷出主題頁,提取對應(yīng)網(wǎng)頁的正文內(nèi)容,并按照節(jié)點視覺屬性和標簽屬性值,提取標題和發(fā)表時間。對前兩個發(fā)明采取錯誤半自動增量學習的方法,對判斷錯誤的網(wǎng)頁或者是提取內(nèi)容不準確的網(wǎng)頁,采取人工設(shè)置干預(yù)的方法,提取錯誤特征。建立錯誤特征模板,判斷網(wǎng)頁是否模板匹配。本發(fā)明的有益效果主要表現(xiàn)在適用性良好、兼有較好實時性。圖I示出了根據(jù)本發(fā)明實施例的主題頁信息提取方法的總體流程圖;圖2具體示出了圖I所示的步驟SllO對網(wǎng)頁分割處理的流程圖;圖3具體示出了圖2所示步驟S210對網(wǎng)頁預(yù)處理的流程圖;圖4示出了圖2步驟S230處的網(wǎng)頁分塊過程圖5具體示出了為圖4步驟S410處的分塊過程;圖6示出了對示例性輸入網(wǎng)頁進行分割處理的示意圖;圖7示出了與圖5的輸入網(wǎng)頁相對應(yīng)的部分DOM樹及其中的文本節(jié)點的示意圖;圖8具體示出了圖I所示步驟S140的網(wǎng)頁信息提取的流程圖;圖9示出了示例性輸入網(wǎng)頁最終的提取結(jié)果;圖10示出了針對錯誤網(wǎng)頁集提出增量學習的流程圖;圖11示出了加入增量學習后主題頁信息提取的流程圖;圖12示出了主題頁信息提取模塊圖。具體實施例方式下面結(jié)合附圖對本發(fā)明作進一步描述。參照圖I圖12,一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,其可以實現(xiàn)在網(wǎng)頁是主題頁的前提下,實現(xiàn)高效的網(wǎng)頁內(nèi)容(面包線、標題、發(fā)表時間、關(guān)鍵字、正文)提取,減少提取內(nèi)容的缺失和噪聲,盡可能地保證提取內(nèi)容的完整性和正確性。下面參照附圖詳細描述根據(jù)本發(fā)明實施例的網(wǎng)頁內(nèi)容提取方法。圖I示出了根據(jù)本發(fā)明實施例的主題頁信息提取方法的總體流程圖。首先,在步驟SllO處,對整個網(wǎng)頁進行分割處理,以將網(wǎng)頁中相關(guān)聯(lián)的內(nèi)容分割為至少一個布局塊。對網(wǎng)頁的分割可以采用任何技術(shù),目的是盡量按照網(wǎng)頁的布局結(jié)構(gòu)將網(wǎng)頁分割成不同的布局塊。在本發(fā)明的實施例中,采用了基于DOM樹的網(wǎng)頁分割處理。接下來,在步驟S120處,是對網(wǎng)頁類型進行判斷。將網(wǎng)頁分為三種類型導(dǎo)航頁、列表頁、主題頁。導(dǎo)航頁通常不會描述一件事物,而是提供相關(guān)網(wǎng)頁的超鏈接,因此網(wǎng)頁中超鏈接密集,而非鏈接的文字很少;列表頁和導(dǎo)航頁類似,導(dǎo)航頁中會提供關(guān)于多種事物的相關(guān)網(wǎng)頁的超鏈接,而列表頁中只提供關(guān)于一種事物的相關(guān)鏈接,有時會對這個鏈接的內(nèi)容做一個簡單的介紹,并且這些記錄的結(jié)構(gòu)大體是相同的;主題頁通常通過成段的文字或表格描述一個或多個主題,雖然也有圖片和超鏈接,但這些圖片和超鏈接并不是網(wǎng)頁的主體。根據(jù)步驟SllO中統(tǒng)計的根節(jié)點的鏈接總長度α、文本總長度β、鏈接總個數(shù)Y,定義鏈接密度為$,設(shè)定一定的閾值R,T(R是鏈接密度的閾值,T是鏈接總個數(shù)的閾值),判斷出導(dǎo)航頁。接下來就不對這一類網(wǎng)頁進行判斷,這一步可以減少后面步驟不必要的操作。接下來,在步驟S130處,對步驟SllO中所分塊,進行塊屬性的判斷(導(dǎo)航塊、列表塊、主題塊)。最后,在步驟S140處,根據(jù)主題塊或列表塊得到主題頁,并提出所需的主題頁信肩、O根據(jù)本發(fā)明的一個具體實施例,圖I所示的步驟SllO對網(wǎng)頁進行分割處理的流程圖如圖2所示,其具體包括在步驟S210處,將輸入的網(wǎng)頁進行預(yù)處理。首先將網(wǎng)頁解析為文檔對象模型樹,對模型樹進行處理,將無關(guān)的節(jié)點刪除(如注釋節(jié)點、空格文本節(jié)點等)。在步驟S220處,構(gòu)建新的DOM樹。因為當前的文檔對象模型樹不能保存所需要的信息,需要對DOM樹中節(jié)點定義所需要的語義屬性鏈接個數(shù)、鏈接長度、文本長度、無關(guān)詞長度等,并將標簽為table的節(jié)點改為div(為后面的處理需要)。在步驟S230處,統(tǒng)計文檔模型樹中每個節(jié)點的語義信息(鏈接總個數(shù)、鏈接長度、文本長度、無關(guān)詞長度等),以及每個節(jié)點的視覺屬性(背景顏色和字體的大小、粗細、顏色),為后面的分塊和信息提取作準備。在步驟S240處,首先構(gòu)建只包含div節(jié)點的DIV樹,根據(jù)設(shè)定的閾值,利用標簽的語義屬性進行分塊。該算法是在文檔對象模型樹上由下而上對相應(yīng)的節(jié)點進行判斷。圖3具體示出了根據(jù)圖2步驟S210的網(wǎng)頁預(yù)處理過程。如圖3所示,在步驟S310處,將網(wǎng)頁解析成文檔對象模型DOM樹。在示例中,將網(wǎng)頁解析成DOM樹的處理包括依次讀入網(wǎng)頁的內(nèi)容,識別每個HTML標簽的名稱、類別、參數(shù)和內(nèi)容,以樹狀結(jié)構(gòu)進行存儲,從而形成網(wǎng)頁的DOM樹。更具體地,例如,可以采用基于改進的Firefox(火狐,一種開源瀏覽器)網(wǎng)頁解析算法的網(wǎng)頁樹結(jié)構(gòu)分析算法來建立DOM樹結(jié)構(gòu)?;蛘摺=又?,如圖3所示,在步驟S320處,清理DOM樹中的無用節(jié)點。所謂無用節(jié)點主要是指與主題信息抽取無關(guān)的節(jié)點,如腳本(Script)、樣式控制信息(Style)、注釋(Comment)等。圖4具體示出了圖2步驟S240處的網(wǎng)頁分塊過程。如圖4所示,在步驟S410處,根據(jù)DIV樹中div節(jié)點的語義屬性對網(wǎng)頁進行分塊。圖5示出了圖4步驟S410的具體分塊過程。在步驟S420處,對步驟S410的分塊結(jié)果根據(jù)視覺屬性判斷是否合理。視覺屬性是圖2步驟S230保存的節(jié)點的背景顏色和節(jié)點中包含字體的顏色、大小、粗細,對應(yīng)設(shè)置權(quán)值分別為α、β、Y、ω。在這里定義一個權(quán)值函數(shù)f(a,β,Y,ω)來判斷當前塊是否再可分。當函數(shù)值大于設(shè)定的閾值R時,說明當前塊可再分,否則就不再可分。接下來再利用一下規(guī)則判斷相鄰分塊間內(nèi)容上的差異度。具體規(guī)則如下(I)相鄰兩塊的具體越遠,差異度越大,設(shè)置權(quán)值就越大;(2)相鄰兩塊的背景色不同,差異度越大,設(shè)置權(quán)值就越大;(3)對于上下相鄰的兩塊,如果塊中字體的大小等特征差異性越大,則權(quán)值越大;如果上方分塊中的字體大小要小于下方分塊中的字體,則權(quán)值較大,字體大小差異越大,權(quán)值越大。但是當兩側(cè)分塊中的內(nèi)容較為相似時(如都是純文本信息時),則設(shè)置權(quán)值就較小。通過上面的規(guī)則,如果相鄰兩塊的權(quán)值小于所設(shè)定的閾值T時就合并,否則就不I=ITTO圖6示出了對示例性輸入網(wǎng)頁進行分割處理的示意圖,其中該圖的上半部分示意性地示出了輸入網(wǎng)頁,而下半部分示意性地示出了所產(chǎn)生的各布局塊及其中的識別文本(只表示其中的一部分)。圖7示出了圖6中示例性輸入網(wǎng)頁的對應(yīng)DOM樹。對于圖I的步驟S120中的網(wǎng)頁類型判斷,其基本做法是,根據(jù)文檔對象模型樹根節(jié)點的鏈接個數(shù)、鏈接長度、文本長度,判斷出導(dǎo)航頁,為后面進一步主題頁的判斷做準備。根據(jù)本發(fā)明的一個具體實施例,圖I所示的步驟S140的主題頁信息提取的流程圖如圖8所示,其具體包括在步驟S810,根據(jù)圖I步驟S130處判斷各塊的屬性,并不是只包含主題塊的網(wǎng)頁才是主題頁。有兩種情況第一種,如果存在主題塊,根據(jù)鏈接密度、標點符號個數(shù)判斷是否為主題頁;第二種,如果不存在主題塊,根據(jù)列表塊的個數(shù)進行判斷,若小于閾值L,對應(yīng)網(wǎng)頁就是主題頁,否則不是。在步驟S820處,提取主題頁中主題塊。在步驟S830處,一種方法可以根據(jù)圖2步驟S230處保存的視覺屬性提取標題和發(fā)表時間。另一種方法可以通過主題塊的位置來判斷標題和發(fā)表時間的位置(需要用到正則表達式和標簽的屬性)。圖9示出了示例性輸入網(wǎng)頁最終提取的結(jié)果。由于會存在一定網(wǎng)頁類型判斷錯誤或網(wǎng)頁內(nèi)容提取不正確的網(wǎng)頁,所以增加一個步驟一半自動的增量學習。根據(jù)本發(fā)明添加錯誤半自動增量學習,如圖10,是針對錯誤的原始網(wǎng)頁集,采取抽樣調(diào)查的統(tǒng)計方法,提取網(wǎng)頁錯誤特征提取(如圖片、URL特征、DIV節(jié)點特征等),根據(jù)這些特征建立錯誤特征模板。根據(jù)圖10建立的錯誤特征模板,主題信息提取的流程圖如圖11,當輸入網(wǎng)頁首先與錯誤特征模板匹配,如果不匹配,就圖I的流程運行,否則就分別對出現(xiàn)判斷網(wǎng)頁類型、主題信息提取網(wǎng)頁進行增量學習。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。并且還需要說明的一點是,為了避免不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。權(quán)利要求1.一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,其特征在于所述實現(xiàn)方法包括以下步驟步驟S110,對整個網(wǎng)頁采用DOM樹進行分割處理,以將網(wǎng)頁中相關(guān)聯(lián)的內(nèi)容分割為至少一個布局塊;步驟S120,對網(wǎng)頁類型進行判斷,根據(jù)統(tǒng)計的根節(jié)點的鏈接總長度α、文本總長度β、鏈接總個數(shù)Y,定義鏈接密度為$,設(shè)定R是鏈接密度的閾值,T是鏈接總個數(shù)的閾值,如果當前的布局塊的鏈接密度和鏈接總個數(shù)均大于閾值,則判定為導(dǎo)航頁;步驟S130,對所述布局塊進行塊屬性的判斷,如果存在主題塊,根據(jù)鏈接密度、標點符號個數(shù)判斷是否為主題頁;如果不存在主題塊,根據(jù)列表塊的個數(shù)進行判斷,若小于閾值L,對應(yīng)網(wǎng)頁就是主題頁,否則不是;步驟S140,根據(jù)主題塊或列表塊得到主題頁,并提取所需的主題頁信息。2.如權(quán)利要求I所述的一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,其特征在于所述步驟SllO中,網(wǎng)頁進行分割處理的流程為步驟S210,將輸入的網(wǎng)頁進行預(yù)處理首先將網(wǎng)頁解析為文檔對象模型樹,對模型樹進行處理,將注釋節(jié)點和空格文本節(jié)點刪除;步驟S220,構(gòu)建新的DOM樹,對DOM樹中節(jié)點定義所需要的語義屬性鏈接個數(shù)、鏈接長度、文本長度和無關(guān)詞長度,并將標簽為table的節(jié)點改為div;步驟S230,統(tǒng)計文檔模型樹中每個節(jié)點的語義信息,所述語義信息包括鏈接總個數(shù)、鏈接長度、文本長度和無關(guān)詞長度,以及每個節(jié)點的視覺屬性,所述視覺屬性包括背景顏色和字體的大小、粗細、顏色,為后面的分塊和信息提取作準備;步驟S240,首先構(gòu)建只包含div節(jié)點的DIV樹,根據(jù)設(shè)定的閾值及判定規(guī)則,利用節(jié)點統(tǒng)計的語義屬性進行分塊,判斷的順序是由下而上。3.如權(quán)利要求I或2所述的一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,其特征在于所述步驟S210的網(wǎng)頁預(yù)處理過程為步驟S310,將網(wǎng)頁解析成文檔對象模型DOM樹依次讀入網(wǎng)頁的內(nèi)容,識別每個HTML標簽的名稱、類別、參數(shù)和內(nèi)容,以樹狀結(jié)構(gòu)進行存儲,從而形成網(wǎng)頁的DOM樹;步驟S320,清理DOM樹中的無用節(jié)點,所述無用節(jié)點是指與主題信息抽取無關(guān)的節(jié)點,包括腳本、樣式控制信息和注釋。4.如權(quán)利要求2所述的一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,其特征在于所述步驟S240的網(wǎng)頁分塊過程為步驟S410,根據(jù)DIV樹中div節(jié)點的語義屬性對網(wǎng)頁進行分塊;步驟S420,對步驟S410的分塊結(jié)果根據(jù)視覺屬性判斷是否合理;視覺屬性是步驟S230保存的節(jié)點的背景顏色和節(jié)點中包含字體的顏色、大小、粗細,對應(yīng)設(shè)置權(quán)值分別為α、β、Y>ω;定義一個權(quán)值函數(shù)f(a,β,Y,ω)來判斷當前塊是否再可分;當函數(shù)值大于設(shè)定的閾值R時,說明當前塊可再分,否則就不再可分;接下來,再利用以下判定規(guī)則判斷相鄰分塊間內(nèi)容上的差異度,具體規(guī)則如下(1)相鄰兩塊的距離越遠,差異度越大,設(shè)置權(quán)值就越大;(2)相鄰兩塊的背景色不同,差異度越大,設(shè)置權(quán)值就越大;(3)對于上下相鄰的兩塊,如果塊中字體的大小特征差異性越大,則權(quán)值越大;如果上方分塊中的字體大小要小于下方分塊中的字體,則權(quán)值較大,字體大小差異越大,權(quán)值越大;但是當兩側(cè)分塊中的內(nèi)容較為相似時,則設(shè)置權(quán)值就較?。煌ㄟ^上述規(guī)則,如果相鄰兩塊的權(quán)值小于所設(shè)定的閾值T時就合并,否則就不合并。5.如權(quán)利要求3所述的一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,其特征在于所述步驟S310中,采用基于改進的Firefox網(wǎng)頁解析算法的網(wǎng)頁樹結(jié)構(gòu)分析算法來建立DOM樹結(jié)構(gòu)。全文摘要一種提取網(wǎng)頁內(nèi)容的實現(xiàn)方法,包括以下步驟步驟S110,對整個網(wǎng)頁采用DOM樹進行分割處理,以將網(wǎng)頁中相關(guān)聯(lián)的內(nèi)容分割為至少一個布局塊;步驟S120,對網(wǎng)頁類型進行判斷,首先判斷出導(dǎo)航頁,并將導(dǎo)航頁刪除;步驟S130,對所述布局塊進行塊屬性的判斷,如果存在主題塊,根據(jù)鏈接密度、標點符號個數(shù)判斷是否為主題頁;如果不存在主題塊,根據(jù)列表塊的個數(shù)進行判斷,若小于閾值L,對應(yīng)網(wǎng)頁就是主題頁,否則不是;步驟S140,根據(jù)主題塊或列表塊得到主題頁,并提取所需的主題頁信息。本發(fā)明提供一種適用性良好、兼有較好實時性的提取網(wǎng)頁內(nèi)容的實現(xiàn)方法。文檔編號G06F17/30GK102663023SQ201210078159公開日2012年9月12日申請日期2012年3月22日優(yōu)先權(quán)日2012年3月22日發(fā)明者劉崟,劉金玉,田寧,譚磊申請人:浙江盤石信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
营山县| 长汀县| 石家庄市| 泰顺县| 丹凤县| 黑山县| 淮阳县| 武鸣县| 金秀| 邯郸市| 桂林市| 张北县| 甘南县| 临沂市| 明水县| 汤原县| 嘉兴市| 新宁县| 威信县| 卓尼县| 璧山县| 咸宁市| 沅江市| 梨树县| 区。| 安乡县| 惠水县| 武平县| 东乡县| 兖州市| 高平市| 襄樊市| 堆龙德庆县| 布尔津县| 万安县| 滁州市| 刚察县| 肥乡县| 勐海县| 伊春市| 余江县|