適用于移動終端的網(wǎng)頁處理方法和服務(wù)器的制造方法【專利摘要】本發(fā)明公開了一種適用于移動終端的網(wǎng)頁處理方法和服務(wù)器,涉及移動互聯(lián)網(wǎng)【
技術(shù)領(lǐng)域:
】。該方法通過對互聯(lián)網(wǎng)頁面類型的識別與劃分,將互聯(lián)網(wǎng)頁面區(qū)分為導(dǎo)航頁和正文頁兩大類別,再根據(jù)頁面類別識別出的頁面關(guān)鍵區(qū)塊,選擇對應(yīng)的重排規(guī)則進行頁面重新排版,使頁面內(nèi)容的排版能更貼合頁面內(nèi)容特點,適應(yīng)手機屏幕寬度,方便用戶的閱讀,提高用戶的頁面瀏覽體驗。解決了現(xiàn)有手機瀏覽器對互聯(lián)網(wǎng)原始頁面不區(qū)分頁面類型,對所有頁面使用同樣的重排規(guī)則導(dǎo)致重排效果不佳等問題?!緦@f明】適用于移動終端的網(wǎng)頁處理方法和服務(wù)器【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及移動互聯(lián)網(wǎng)【
技術(shù)領(lǐng)域:
】,特別涉及一種適用于移動終端的網(wǎng)頁處理方法和服務(wù)器?!?br>背景技術(shù):
】[0002]隨著無線互聯(lián)網(wǎng)的發(fā)展,越來越多的人們選擇用移動終端瀏覽互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容。[0003]目前互聯(lián)網(wǎng)頁面都是面向PC(PersonalComputer,個人電腦)進行排版和設(shè)計的,用戶使用移動終端的狹小屏幕瀏覽互聯(lián)網(wǎng)頁面的時候通常會感到不適;寬大的互聯(lián)網(wǎng)頁面在手機上通常需要左右移動才能看全整,而縮小顯示頁面又會看不清楚;用戶使用手機瀏覽互聯(lián)網(wǎng)頁面的體驗并不是十分理想。[0004]目前常見的移動終端網(wǎng)頁排版方法分兩種:一種是將每個區(qū)塊按屏幕尺寸大小進行壓縮,不區(qū)分頁面類型,每個區(qū)塊按同樣的規(guī)則進行重排;另一種是保持界面結(jié)構(gòu)不變,將頁面按一定比例整體壓縮?!?br/>發(fā)明內(nèi)容】[0005]本發(fā)明的發(fā)明人發(fā)現(xiàn)上述現(xiàn)有技術(shù)中存在問題,并因此針對所述問題中的至少一個問題提出了一種新的技術(shù)方案。[0006]本發(fā)明的一個目的是提供一種適用于移動終端的網(wǎng)頁處理的技術(shù)方案。[0007]根據(jù)本發(fā)明的第一方面,提供了一種適用于移動終端的網(wǎng)頁處理方法,包括:[0008]根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將網(wǎng)頁確定為導(dǎo)航頁或正文頁;[0009]對于導(dǎo)航頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、導(dǎo)航區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);[0010]對于正文頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、正文標(biāo)題區(qū)和正文內(nèi)容區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);[0011]將網(wǎng)頁的各個區(qū)分別進行適應(yīng)于移動終端的顯示屏幕的排版。[0012]可選地,根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將網(wǎng)頁確定為導(dǎo)航頁或正文頁包括:[0013]統(tǒng)計網(wǎng)頁中標(biāo)記的個數(shù);[0014]統(tǒng)計網(wǎng)頁中文字的數(shù)量;[0015]如果網(wǎng)頁中文字的數(shù)量與網(wǎng)頁中標(biāo)記的個數(shù)之比大于預(yù)定閾值,則確定網(wǎng)頁為正文頁,否則,確定網(wǎng)頁為導(dǎo)航頁。[0016]可選地,將網(wǎng)頁的各個區(qū)分別進行適應(yīng)于移動終端的顯示屏幕的排版包括:[0017]將正文標(biāo)題換行居中排列;將正文內(nèi)容換行排列,并對正文內(nèi)容添加“word-break:break-all”屬性以適應(yīng)移動終端的顯不屏幕的寬度換行[0018]或[0019]對于商標(biāo)圖片和文字區(qū)中寬度大于移動終端的顯示屏幕寬度的圖片,縮小圖片使得圖片的寬度等于移動終端的顯示屏幕;[0020]或[0021]對于導(dǎo)航區(qū)中寬度大于移動終端的顯示屏幕的寬度的HTML標(biāo)記對象,將HTML標(biāo)記對象的寬度調(diào)整為移動終端的顯示屏幕的寬度。[0022]可選地,將網(wǎng)頁的各個區(qū)分別進行適應(yīng)于移動終端的顯示屏幕的排版包括:[0023]對于導(dǎo)航頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明區(qū);[0024]對于正文頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行居中排列文本標(biāo)題區(qū),換行排列文本正文區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明區(qū)。[0025]可選地,對于正文頁提取網(wǎng)頁的正文標(biāo)題區(qū)包括:[0026]獲取頁面的“title”標(biāo)記包括的文字作為正文標(biāo)題區(qū);[0027]或[0028]對于正文頁提取網(wǎng)頁的正文內(nèi)容區(qū)包括:[0029]在頁面DOM(DocumentObjectModel,文件對象模型)樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,忽略腳本和注釋,遍歷統(tǒng)計各個節(jié)點包含的文字數(shù)量;YNi[0030]選取值最大的節(jié)點和節(jié)點的子節(jié)點作為正文內(nèi)容區(qū),其中^為節(jié)點的子NmK節(jié)點i包含的文字數(shù)量,Nffl為節(jié)點下包括的子節(jié)點數(shù)量;[0031]或[0032]提取網(wǎng)頁的商標(biāo)圖片和文字區(qū)包括:[0033]在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,用商標(biāo)圖片和文字區(qū)關(guān)鍵字集合中的關(guān)鍵字遍歷匹配節(jié)點的屬性值;[0034]匹配到節(jié)點時,選取值^Y最大的節(jié)點及其子節(jié)點作為商標(biāo)圖片和文字區(qū),其丄、m十I中隊為該節(jié)點下包括的匹配到商標(biāo)圖片和文字區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nm為該節(jié)點下包括的子節(jié)點數(shù)量;[0035]或[0036]提取網(wǎng)頁的導(dǎo)航區(qū)包括:[0037]在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,定位所有文字數(shù)小于5的超級鏈接,即短鏈接;[0038]如果定位到短鏈接,選取值Ns最大的節(jié)點及其子節(jié)點作為導(dǎo)航區(qū),其中,1、msNs為該節(jié)點包含的短鏈接數(shù)量,Nffl為該節(jié)點下包括的子節(jié)點數(shù)量;[0039]或[0040]提取網(wǎng)頁的版權(quán)聲明區(qū)包括:[0041]在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,用具有版權(quán)聲明屬性的關(guān)鍵字遍歷匹配節(jié)點的屬性值;N[0042]如果匹配到節(jié)點,選取值^^最大的節(jié)點及其子節(jié)點作為版權(quán)聲明區(qū),其中N。m為該節(jié)點下包括的匹配到版權(quán)聲明區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nffl為該節(jié)點下包括的子節(jié)點數(shù)量。[0043]根據(jù)本發(fā)明的另一方面,提供一種應(yīng)用于移動終端的網(wǎng)頁處理服務(wù)器,包括:[0044]網(wǎng)頁類型確定模塊,用于根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將網(wǎng)頁確定為導(dǎo)航頁或正文頁;[0045]網(wǎng)頁區(qū)域提取模塊,用于對于導(dǎo)航頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、導(dǎo)航區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);對于正文頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、正文標(biāo)題區(qū)、正文內(nèi)容區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);[0046]網(wǎng)頁區(qū)域重排模塊,用于將網(wǎng)頁的各個區(qū)分別進行適應(yīng)于移動終端的顯示屏幕的排版。[0047]可選地,網(wǎng)頁類型確定模塊包括:[0048]標(biāo)記提取單元,用于統(tǒng)計網(wǎng)頁中標(biāo)記的個數(shù);[0049]文字提取單元,用于統(tǒng)計網(wǎng)頁中文字的數(shù)量;[0050]類型確定單元,用于如果網(wǎng)頁中文字的數(shù)量與網(wǎng)頁中標(biāo)記的個數(shù)之比大于預(yù)定閾值,則確定網(wǎng)頁為正文頁,否則,確定網(wǎng)頁為導(dǎo)航頁。[0051]可選地,網(wǎng)頁區(qū)域重排模塊包括:[0052]正文重排單元,用于將正文標(biāo)題換行居中排列;將正文內(nèi)容換行排列,并對正文內(nèi)容添加“word-break:break-all”屬性以適應(yīng)移動終端的顯示屏幕的寬度換行[0053]圖片重排單元,用于對于商標(biāo)圖片和文字區(qū)中寬度大于移動終端的顯示屏幕寬度的圖片,縮小圖片使得圖片的寬度等于移動終端的顯示屏幕;[0054]鏈接重排單元,用于對于導(dǎo)航區(qū)中寬度大于移動終端的顯示屏幕的寬度的HTML標(biāo)記對象,將HTML標(biāo)記對象的寬度調(diào)整為移動終端的顯示屏幕的寬度。[0055]可選地,網(wǎng)頁區(qū)域重排模塊對于導(dǎo)航頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明區(qū);對于正文頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行居中排列文本標(biāo)題區(qū),換行排列文本正文區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明。[0056]可選地,網(wǎng)頁區(qū)域提取模塊包括:[0057]正文標(biāo)題提取單元,用于獲取頁面的“title”標(biāo)記包括的文字作為正文標(biāo)題區(qū);[0058]正文內(nèi)容提取單元,用于在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,忽略腳本和YN'注釋,遍歷統(tǒng)計各個節(jié)點包含的文字數(shù)量;選取值最大的節(jié)點和節(jié)點的子節(jié)點作為正文內(nèi)容區(qū),其中為節(jié)點的子節(jié)點i包含的文字數(shù)量,Nffl為節(jié)點下包括的節(jié)點數(shù)量;[0059]商標(biāo)文字提取單元,用于在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,用商標(biāo)圖片和文字區(qū)關(guān)鍵字集合中的關(guān)鍵字遍歷匹配節(jié)點的屬性值;匹配到節(jié)點時,選取值^Y最大的節(jié)點及其子節(jié)點作為商標(biāo)圖片和文字區(qū),其中隊為該節(jié)點下包括的匹配到商標(biāo)圖片和文字區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nffl為該節(jié)點下包括的子節(jié)點數(shù)量;[0060]導(dǎo)航區(qū)提取單元,用于在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,定位所有文字數(shù)小于5的超級鏈接,即短鏈接;如果定位到短鏈接,選取值\τ1最大的節(jié)點及其子節(jié)Nm-Ns+\點作為導(dǎo)航區(qū),其中Ns為該節(jié)點包含的短鏈接數(shù)量,Nffl為該節(jié)點下包括的子節(jié)點數(shù)量;[0061]版權(quán)聲明區(qū)提取單元,用于在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,用具有版權(quán)聲明屬性的關(guān)鍵字遍歷匹配節(jié)點的屬性值;如果匹配到節(jié)點,選取值最大的節(jié)點及iVmTI其子節(jié)點作為版權(quán)聲明區(qū),其中Nc為該節(jié)點下包括的匹配到版權(quán)聲明區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nm為該節(jié)點下包括的子節(jié)點數(shù)量。[0062]本發(fā)明的一個優(yōu)點在于,通過根據(jù)頁面類別提取頁面關(guān)鍵區(qū)塊,選擇對應(yīng)的重排規(guī)則進行頁面重新排版,使頁面內(nèi)容的排版能更貼合頁面內(nèi)容特點,適應(yīng)手機屏幕寬度,方便用戶的閱讀。[0063]通過以下參照附圖對本發(fā)明的示例性實施例的詳細描述,本發(fā)明的其它特征及其優(yōu)點將會變得清楚。【專利附圖】【附圖說明】[0064]構(gòu)成說明書的一部分的附圖描述了本發(fā)明的實施例,并且連同說明書一起用于解釋本發(fā)明的原理。[0065]參照附圖,根據(jù)下面的詳細描述,可以更加清楚地理解本發(fā)明,其中:[0066]圖1示出根據(jù)本發(fā)明的適用于移動終端的網(wǎng)頁處理方法的一個實施例的流程圖。[0067]圖2示出根據(jù)本發(fā)明的適用于移動終端的網(wǎng)頁處理方法的另一個實施例的流程圖。[0068]圖3A示出根據(jù)本發(fā)明一個例子的導(dǎo)航頁重排示意圖。[0069]圖3B示出根據(jù)本發(fā)明一個例子的正文頁重排示意圖。[0070]圖4示出根據(jù)本發(fā)明的服務(wù)器的一個實施例的結(jié)構(gòu)圖。[0071]圖5示出根據(jù)本發(fā)明的服務(wù)器的另一個實施例的結(jié)構(gòu)圖。【具體實施方式】[0072]現(xiàn)在將參照附圖來詳細描述本發(fā)明的各種示例性實施例。應(yīng)注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達式和數(shù)值不限制本發(fā)明的范圍。[0073]同時,應(yīng)當(dāng)明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關(guān)系繪制的。[0074]以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使用的任何限制。[0075]對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細討論,但在適當(dāng)情況下,技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為授權(quán)說明書的一部分。[0076]在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實施例的其它示例可以具有不同的值。[0077]應(yīng)注意到:相似的標(biāo)號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。[0078]圖1示出根據(jù)本發(fā)明的適用于移動終端的網(wǎng)頁處理方法的一個實施例的流程圖。[0079]如圖1所示,步驟102,根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將網(wǎng)頁確定為導(dǎo)航頁或正文頁。[0080]步驟104,對于導(dǎo)航頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、導(dǎo)航區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);[0081]步驟106,對于正文頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、正文標(biāo)題區(qū)和正文內(nèi)容區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);[0082]步驟108,將網(wǎng)頁的各個區(qū)分別進行適應(yīng)于移動終端的顯示屏幕的排版。[0083]上述實施例中,針對網(wǎng)頁特點對網(wǎng)頁進行類型劃分和區(qū)域提取,然后針對移動終端的顯示屏幕對網(wǎng)頁的各個區(qū)域進行重新排版,使互聯(lián)網(wǎng)頁面更適合在移動終端屏幕上展示,從而提高各種型號移動終端瀏覽互聯(lián)網(wǎng)頁面體驗。[0084]圖2示出根據(jù)本發(fā)明的適用于移動終端的網(wǎng)頁處理方法的另一個實施例的流程圖。該實施例中對一個輸入的互聯(lián)網(wǎng)頁面進行重新排版,大致分為三個部分:1.區(qū)分該頁面的類型;2.識別該頁面的關(guān)鍵區(qū)域;3.對頁面進行重新排版。[0085]如圖2所示,步驟202,統(tǒng)計頁面標(biāo)記和頁面中標(biāo)記的個數(shù)。[0086]頁面標(biāo)記指HTML(超文本標(biāo)記語言)規(guī)范定義的所有標(biāo)記;將頁面解析生成DOM樹,統(tǒng)計得到該DOM樹下所有節(jié)點的數(shù)量,即得到該頁面的標(biāo)記數(shù)量,記為Nm;[0087]然后,統(tǒng)計頁面中的文字數(shù)量;將頁面解析生成DOM樹,忽略腳本(script標(biāo)記節(jié)點包含的文字)和注釋(由“〈!一”和“一>”包括起來的文字),統(tǒng)計得到該DOM樹下其他所有節(jié)點包含的文字數(shù)量,即得到該頁面的文字數(shù)量,記為Nw。[0088]步驟204,判斷頁面是導(dǎo)航頁還是正文頁。如果是導(dǎo)航頁,繼續(xù)步驟206a,如果是正文頁,繼續(xù)步驟206b。JsJn[0089]根據(jù)預(yù)先確定的閾值d,判斷#>4?,則認為該頁面的類型為“正文頁”;否則,Vm認為該頁面的類型為“導(dǎo)航頁”;這里d是經(jīng)驗值,d例如取值9、8、7或10等。d取值過大會造成“正文頁”的漏識率過大,d取值過小會造成“正文頁”的誤識率過大。[0090]下面識別和分割頁面的關(guān)鍵區(qū)塊。[0091]步驟206a,分析導(dǎo)航頁區(qū)塊。[0092]對于“導(dǎo)航頁”,依次識別分割出頁面的商標(biāo)圖片和文字區(qū)(本方法定義該區(qū)為L區(qū))、導(dǎo)航區(qū)(本方法定義該區(qū)為N區(qū))、頁尾版權(quán)聲明區(qū)(本方法定義該區(qū)為C區(qū))三個主要區(qū)域;然后加上剩余部分(本方法定義該區(qū)為R區(qū)),共將頁面劃分為四部分。[0093]步驟206b,分析正文頁區(qū)塊。[0094]對于“正文頁”,依次識別分割出頁面的商標(biāo)圖片和文字(L區(qū))、導(dǎo)航區(qū)(N區(qū))、正文標(biāo)題(本方法定義該區(qū)為T區(qū))、正文內(nèi)容(本方法定義該區(qū)為B區(qū))、頁尾版權(quán)聲明區(qū)(C區(qū))五個主要區(qū)域;然后加上剩余部分(R區(qū))共六部分。[0095]下面介紹一種識別L、N、T、B、C區(qū)的具體實現(xiàn)方法。[0096]Ca).識別L區(qū)[0097]首先,在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,用L區(qū)關(guān)鍵字集合中的關(guān)鍵字遍歷匹配節(jié)點的屬性值。L區(qū)關(guān)鍵字集合例如包括“l(fā)ogo、trademark、brand”等,該集合能夠配置以便加入新的關(guān)鍵字。[0098]匹配到節(jié)點時,選取值最大的節(jié)點及其子節(jié)點作為L區(qū),其中隊為該節(jié)點下包括的匹配到L區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nm為該節(jié)點下包括的節(jié)點數(shù)量;沒有匹配到節(jié)點時,設(shè)該頁面L區(qū)為空。[0099](b).識別N區(qū)[0100]在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,定位所有文字數(shù)小于5的超級鏈接,即“短鏈接”。[0101]定位到“短鏈接”時,選取值%^最大的節(jié)點及其子節(jié)點作為N區(qū),其中Ns'mU$卞I為該節(jié)點包含的“短鏈接”數(shù)量,Nm為該節(jié)點下包括的節(jié)點數(shù)量;沒有定位到“短鏈接”時或則Ns〈4,設(shè)該頁面N區(qū)為空。[0102](c).識別C區(qū)[0103]在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,用C區(qū)關(guān)鍵字集合中的關(guān)鍵字遍歷匹配節(jié)點的屬性值,C區(qū)關(guān)鍵字集合例如包括“copyright、copyright、©、allrightsreserved”等,該集合能夠配置以便加入新的關(guān)鍵字。N[0104]匹配到節(jié)點時,選取值77^最大的節(jié)點及其子節(jié)點作為C區(qū),其中N。為該節(jié)點I+1下包括的匹配到C區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nffl為該節(jié)點下包括的子節(jié)點數(shù)量;沒有匹配到節(jié)點或則Ne〈2時,設(shè)該頁面C區(qū)為空。[0105](d).識別T區(qū)[0106]步驟1.獲取頁面的title標(biāo)記包括的文字;[0107]步驟2.沒有匹配時,設(shè)該頁面T區(qū)為空;如果匹配到該字符串,則將該字符串所處的節(jié)點定義為T區(qū)。[0108](e).識別B區(qū)[0109]步驟1.在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,忽略腳本(script標(biāo)記節(jié)點包含的文字)和注釋(由“〈!一”和“一>”包括起來的文字),遍歷統(tǒng)計各個節(jié)點包含的文字數(shù)量;[0110]步驟2.選取值最大的節(jié)點及其子節(jié)點作為B區(qū),其中.為該節(jié)點的子節(jié)NmK點i包含的文字數(shù)量,Nffl為該節(jié)點下包括的子節(jié)點數(shù)量。[0111]下面對劃分不同區(qū)塊的頁面進行重新排版。[0112]步驟208a,對導(dǎo)航頁排版。[0113]對于“導(dǎo)航頁”,一種排版方式是:按從上到下的次序,將L區(qū)排在最上面,然后換行排列N區(qū),然后換行排列R區(qū),然后換行居中排列C區(qū)。圖3A示出導(dǎo)航頁重排的一個例子的示意圖。上述排列方式適合通常的瀏覽習(xí)慣,方便用戶閱讀。[0114]步驟208b,對正文頁排版。[0115]對于“正文頁”,一種排版方式是:按從上到下的次序,將L區(qū)排在最上面,然后換行排列N區(qū),然后換行居中排列T區(qū),然后換行排列B區(qū),然后換行排列R區(qū),然后換行居中排列C區(qū)。圖3B示出正文頁重排的一個例子的示意圖。上述排列方式適合通常的瀏覽習(xí)慣,方便用戶閱讀。[0116]步驟210,調(diào)整頁面元素。[0117]在對“導(dǎo)航頁”和“正文頁”區(qū)塊排版后,針對手機屏幕尺寸排版,使頁面顯示在手機上時不會超出屏幕寬度,記手機屏幕寬度為W,處理如下:[0118]a.對于寬度大于W的圖片,將圖片的寬高同比縮小,使該圖片的寬度等于W;[0119]b.對于寬度大于W的HTML標(biāo)記對象,包括但不局限于table、div以及span,將這些對象的寬度屬性調(diào)整為W個像素;[0120]c.對于超過8個字符的文字添加“word-break:break_all”屬性,使其能夠適應(yīng)屏幕的寬度換行。[0121]圖4示出根據(jù)本發(fā)明的服務(wù)器的一個實施例的結(jié)構(gòu)圖。如圖4所示,該服務(wù)器包括:網(wǎng)頁類型確定模塊41,用于根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將網(wǎng)頁確定為導(dǎo)航頁或正文頁;網(wǎng)頁區(qū)域提取模塊42,用于對于導(dǎo)航頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、導(dǎo)航區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);對于正文頁,提取網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、正文標(biāo)題區(qū)、正文內(nèi)容區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);網(wǎng)頁區(qū)域重排模塊43,用于將網(wǎng)頁的各個區(qū)分別進行適應(yīng)于移動終端的顯不屏.的排版。[0122]在一個實施例中,網(wǎng)頁區(qū)域重排模塊對于導(dǎo)航頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明區(qū);對于正文頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行居中排列文本標(biāo)題區(qū),換行排列文本正文區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明。[0123]圖5示出根據(jù)本發(fā)明的服務(wù)器的另一個實施例的結(jié)構(gòu)圖。如圖5所示,在一個實施例中,網(wǎng)頁類型確定模塊51包括:標(biāo)記提取單元511,用于統(tǒng)計網(wǎng)頁中標(biāo)記的個數(shù);文字提取單元512,用于統(tǒng)計網(wǎng)頁中文字的數(shù)量;類型確定單元513,用于如果網(wǎng)頁中文字的數(shù)量與網(wǎng)頁中標(biāo)記的個數(shù)之比大于預(yù)定閾值,則確定網(wǎng)頁為正文頁,否則,確定網(wǎng)頁為導(dǎo)航頁。[0124]在一個實施例中,網(wǎng)頁區(qū)域重排模塊53包括:正文重排單元531,用于將正文標(biāo)題換行居中排列;將正文內(nèi)容換行排列,并對正文內(nèi)容添加“word-break:break-alI”屬性以適應(yīng)移動終端的顯示屏幕的寬度換行;圖片重排單元532,用于對于商標(biāo)圖片和文字區(qū)中寬度大于移動終端的顯示屏幕寬度的圖片,縮小圖片使得圖片的寬度等于移動終端的顯示屏幕;鏈接重排單元533,用于對于導(dǎo)航區(qū)中寬度大于移動終端的顯示屏幕的寬度的HTML標(biāo)記對象,將HTML標(biāo)記對象的寬度調(diào)整為移動終端的顯示屏幕的寬度。[0125]在一個實施例中,網(wǎng)頁區(qū)域提取模塊52包括:正文標(biāo)題提取單元521,用于獲取頁面的“title”標(biāo)記包括的文字作為正文標(biāo)題區(qū);正文內(nèi)容提取單元522,用于在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,忽略腳本和注釋,遍歷統(tǒng)計各個節(jié)點包含的文字數(shù)量;選取值最大的節(jié)點和節(jié)點的子節(jié)點作為正文內(nèi)容區(qū),其中為節(jié)點的子節(jié)點i包含NmK的文字數(shù)量,Nm為節(jié)點下包括的節(jié)點數(shù)量;商標(biāo)文字提取單元523,用于在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,用商標(biāo)圖片和文字區(qū)關(guān)鍵字集合中的關(guān)鍵字遍歷匹配節(jié)點的屬性值;匹配到節(jié)點時,選取值]最大的節(jié)點及其子節(jié)點作為商標(biāo)圖片和文字區(qū),其中隊為該節(jié)點下包括的匹配到商標(biāo)圖片和文字區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nm為該節(jié)點下包括的子節(jié)點數(shù)量;導(dǎo)航區(qū)提取單元524,用于在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,定位所有文字數(shù)小于5的超級鏈接,即短鏈接;如果定位到短鏈接,選取值M\丨最大的節(jié)點及其子Nnt-Ni+'節(jié)點作為導(dǎo)航區(qū),其中凡為該節(jié)點包含的短鏈接數(shù)量,乂為該節(jié)點下包括的子節(jié)點數(shù)量;版權(quán)聲明區(qū)提取單元525,用于在頁面DOM樹型結(jié)構(gòu)的body標(biāo)記節(jié)點下,用具有版權(quán)聲明屬性的關(guān)鍵字遍歷匹配節(jié)點的屬性值;如果匹配到節(jié)點,選取值最大的節(jié)點及其子節(jié)點八m卞I作為版權(quán)聲明區(qū),其中Nc為該節(jié)點下包括的匹配到版權(quán)聲明區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nm為該節(jié)點下包括的子節(jié)點數(shù)量。[0126]針對現(xiàn)有手機瀏覽器對互聯(lián)網(wǎng)原始頁面瀏覽效果不佳等問題,通過對互聯(lián)網(wǎng)頁面類型的識別與劃分,將互聯(lián)網(wǎng)頁面區(qū)分為導(dǎo)航頁和正文頁兩大類別,根據(jù)頁面類別提取頁面關(guān)鍵區(qū)塊,選擇對應(yīng)的重排規(guī)則進行頁面重新排版,使頁面內(nèi)容的排版能更貼合頁面內(nèi)容特點,適應(yīng)手機屏幕寬度,方便用戶的閱讀,提高用戶的頁面瀏覽體驗。[0127]需要指出,圖4、圖5中各個模塊或單元的功能或者作用,可以參見上文中方法實施例的對應(yīng)描述,為簡潔起見在此不再詳細描述。[0128]至此,已經(jīng)詳細描述了根據(jù)本發(fā)明的適用于移動終端的網(wǎng)頁處理方法和服務(wù)器。為了避免遮蔽本發(fā)明的構(gòu)思,沒有描述本領(lǐng)域所公知的一些細節(jié)。本領(lǐng)域技術(shù)人員根據(jù)上面的描述,完全可以明白如何實施這里公開的技術(shù)方案。[0129]可能以許多方式來實現(xiàn)本發(fā)明的方法和系統(tǒng)。例如,可通過軟件、硬件、固件或者軟件、硬件、固件的任何組合來實現(xiàn)本發(fā)明的方法和系統(tǒng)。用于方法的步驟的上述順序僅是為了進行說明,本發(fā)明的方法的步驟不限于以上具體描述的順序,除非以其它方式特別說明。此外,在一些實施例中,還可將本發(fā)明實施為記錄在記錄介質(zhì)中的程序,這些程序包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機器可讀指令。因而,本發(fā)明還覆蓋存儲用于執(zhí)行根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。[0130]雖然已經(jīng)通過示例對本發(fā)明的一些特定實施例進行了詳細說明,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解,以上示例僅是為了進行說明,而不是為了限制本發(fā)明的范圍。本領(lǐng)域的技術(shù)人員應(yīng)該理解,可在不脫離本發(fā)明的范圍和精神的情況下,對以上實施例進行修改。本發(fā)明的范圍由所附權(quán)利要求來限定?!緳?quán)利要求】1.一種適用于移動終端的網(wǎng)頁處理方法,其特征在于,包括:根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將所述網(wǎng)頁確定為導(dǎo)航頁或正文頁;對于導(dǎo)航頁,提取所述網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、導(dǎo)航區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);對于正文頁,提取所述網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、正文標(biāo)題區(qū)和正文內(nèi)容區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);將所述網(wǎng)頁的各個區(qū)分別進行適應(yīng)于所述移動終端的顯示屏幕的排版。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將所述網(wǎng)頁確定為導(dǎo)航頁或正文頁包括:統(tǒng)計所述網(wǎng)頁中標(biāo)記的個數(shù);統(tǒng)計所述網(wǎng)頁中文字的數(shù)量;如果所述網(wǎng)頁中文字的數(shù)量與所述網(wǎng)頁中標(biāo)記的個數(shù)之比大于預(yù)定閾值,則確定所述網(wǎng)頁為正文頁,否則,確定所述網(wǎng)頁為導(dǎo)航頁。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述網(wǎng)頁的各個區(qū)分別進行適應(yīng)于所述移動終端的顯不屏.的排版包括:將所述正文標(biāo)題區(qū)換行居中排列;將所述正文內(nèi)容區(qū)換行排列,并對所述正文內(nèi)容區(qū)添加“word-breakibreak-all”屬性以適應(yīng)所述移動終端的顯示屏幕的寬度換行或?qū)τ谒錾虡?biāo)圖片和文字區(qū)中寬度大于所述移動終端的顯示屏幕寬度的圖片,縮小所述圖片使得所述圖片的寬度等于所述移動終端的顯示屏幕;或?qū)τ谒鰧?dǎo)航區(qū)中寬度大于所述移動終端的顯示屏幕的寬度的超文本標(biāo)記語言HTML標(biāo)記對象,將所述HTML標(biāo)記對象的寬度調(diào)整為所述移動終端的顯示屏幕的寬度。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述網(wǎng)頁的各個區(qū)分別進行適應(yīng)于所述移動終端的顯不屏.的排版包括:對于導(dǎo)航頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明區(qū);對于正文頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行居中排列文本標(biāo)題區(qū),換行排列文本正文區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明區(qū)。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對于正文頁提取所述網(wǎng)頁的正文標(biāo)題區(qū)包括:獲取頁面的“title”標(biāo)記包括的文字作為正文標(biāo)題區(qū);或?qū)τ谡捻撎崛∷鼍W(wǎng)頁的正文內(nèi)容區(qū)包括:在頁面文件對象模型DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,忽略腳本和注釋,遍歷統(tǒng)計各個節(jié)點包含的文字數(shù)量;yN'選取值最大的節(jié)點和所述節(jié)點的子節(jié)點作為正文內(nèi)容區(qū),其中,m為所述節(jié)NmK點的子節(jié)點i包含的文字數(shù)量,Nffl為所述節(jié)點下包括的子節(jié)點數(shù)量;或提取所述網(wǎng)頁的商標(biāo)圖片和文字區(qū)包括:在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,用商標(biāo)圖片和文字區(qū)關(guān)鍵字集合中的關(guān)鍵字遍歷匹配節(jié)點的屬性值;N匹配到節(jié)點時,選取值^最大的節(jié)點及其子節(jié)點作為商標(biāo)圖片和文字區(qū),其中,隊為所述節(jié)點下包括的匹配到商標(biāo)圖片和文字區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nffl為該節(jié)點下包括的子節(jié)點數(shù)量;或提取所述網(wǎng)頁的導(dǎo)航區(qū)包括:在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,定位所有文字數(shù)小于5的超級鏈接,即短鏈接;如果定位到短鏈接,選取值,:最大的節(jié)點及其子節(jié)點作為導(dǎo)航區(qū),其中Ns為所述節(jié)點包含的短鏈接數(shù)量,Nffl為所述節(jié)點下包括的子節(jié)點數(shù)量;或提取所述網(wǎng)頁的版權(quán)聲明區(qū)包括:在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,用具有版權(quán)聲明屬性的關(guān)鍵字遍歷匹配節(jié)點的屬性值;如果匹配到節(jié)點,選取值;最大的節(jié)點及其子節(jié)點作為版權(quán)聲明區(qū),其中,N。為m所述節(jié)點下包括的匹配到版權(quán)聲明區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nffl為所述節(jié)點下包括的子節(jié)點數(shù)量。6.一種應(yīng)用于移動終端的網(wǎng)頁處理服務(wù)器,其特征在于,包括:網(wǎng)頁類型確定模塊,用于根據(jù)網(wǎng)頁中標(biāo)記數(shù)量和文字數(shù)量將所述網(wǎng)頁確定為導(dǎo)航頁或正文頁;網(wǎng)頁區(qū)域提取模塊,用于對于導(dǎo)航頁,提取所述網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、導(dǎo)航區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);對于正文頁,提取所述網(wǎng)頁中的商標(biāo)圖片和文字區(qū)、正文標(biāo)題區(qū)、正文內(nèi)容區(qū)、版權(quán)聲明區(qū)、和剩余區(qū);網(wǎng)頁區(qū)域重排模塊,用于將所述網(wǎng)頁的各個區(qū)分別進行適應(yīng)于所述移動終端的顯示屏眷的排版。7.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述網(wǎng)頁類型確定模塊包括:標(biāo)記提取單元,用于統(tǒng)計所述網(wǎng)頁中標(biāo)記的個數(shù);文字提取單元,用于統(tǒng)計所述網(wǎng)頁中文字的數(shù)量;類型確定單元,用于如果所述網(wǎng)頁中文字的數(shù)量與所述網(wǎng)頁中標(biāo)記的個數(shù)之比大于預(yù)定閾值,則確定所述網(wǎng)頁為正文頁,否則,確定所述網(wǎng)頁為導(dǎo)航頁。8.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述網(wǎng)頁區(qū)域重排模塊包括:正文重排單元,用于將所述正文標(biāo)題區(qū)換行居中排列;將所述正文內(nèi)容區(qū)換行排列,并對所述正文內(nèi)容區(qū)添加“word-break:break-all”屬性以適應(yīng)所述移動終端的顯示屏幕的寬度換行;圖片重排單元,用于對于所述商標(biāo)圖片和文字區(qū)中寬度大于所述移動終端的顯示屏幕寬度的圖片,縮小所述圖片使得所述圖片的寬度等于所述移動終端的顯示屏幕;鏈接重排單元,用于對于所述導(dǎo)航區(qū)中寬度大于所述移動終端的顯示屏幕的寬度的超文本標(biāo)記語言HTML標(biāo)記對象,將所述HTML標(biāo)記對象的寬度調(diào)整為所述移動終端的顯示屏幕的寬度。9.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述網(wǎng)頁區(qū)域重排模塊對于導(dǎo)航頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明區(qū);對于正文頁,按從上到下的次序,將商標(biāo)圖片和文字區(qū)排在最上面,換行排列導(dǎo)航區(qū),換行居中排列文本標(biāo)題區(qū),換行排列文本正文區(qū),換行排列剩余部分,換行居中排列版權(quán)聲明。10.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述網(wǎng)頁區(qū)域提取模塊包括:正文標(biāo)題提取單元,用于獲取頁面的“title”標(biāo)記包括的文字作為正文標(biāo)題區(qū);正文內(nèi)容提取單元,用于在頁面文件對象模型DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,忽略腳本和注釋,遍歷統(tǒng)計各個節(jié)點包含的文字數(shù)量;選取值最大的節(jié)點和所述節(jié)點的子節(jié)點作為正文內(nèi)容區(qū),其中,為所述節(jié)點的子節(jié)點i包含的文字數(shù)量,Nm為所述節(jié)點下包括的節(jié)點數(shù)量;商標(biāo)文字提取單元,用于在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,用商標(biāo)圖片和文字區(qū)關(guān)鍵字集合中的關(guān)鍵字遍歷匹配節(jié)點的屬性值;匹配到節(jié)點時,選取值最大的節(jié)點及其子節(jié)點作為商標(biāo)圖片和文字區(qū),其中,隊為所述節(jié)點下包括的匹配到商標(biāo)圖片和文字區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nffl為所述節(jié)點下包括的子節(jié)點數(shù)量;導(dǎo)航區(qū)提取單元,用于在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,定位所有文字數(shù)小于5的超級鏈接,即短鏈接;如果定位到短鏈接,選取值最大的節(jié)點及其子節(jié)點作為導(dǎo)航區(qū),其中,Ns為所述節(jié)點包含的短鏈接數(shù)量,Nffl為所述節(jié)點下包括的子節(jié)點數(shù)量;版權(quán)聲明區(qū)提取單元,用于在頁面DOM樹型結(jié)構(gòu)的“body”標(biāo)記節(jié)點下,用具有版權(quán)聲明屬性的關(guān)鍵字遍歷匹配節(jié)點的屬性值;如果匹配到節(jié)點,選取值最大的節(jié)點及其子節(jié)點作為版權(quán)聲明區(qū),其中,Nc為所述節(jié)點下包括的匹配到版權(quán)聲明區(qū)關(guān)鍵字的節(jié)點數(shù)量,Nm為所述節(jié)點下包括的子節(jié)點數(shù)量?!疚臋n編號】G06F17/30GK104182424SQ201310202688【公開日】2014年12月3日申請日期:2013年5月28日優(yōu)先權(quán)日:2013年5月28日【發(fā)明者】甘玉玨,郝穎,楊杰,盧燕青申請人:中國電信股份有限公司