一種判斷html網(wǎng)頁為非文本類型的方法
【專利摘要】本發(fā)明公開了一種判斷html網(wǎng)頁為非文本類型的方法,該方法通過下載URL對應(yīng)的網(wǎng)頁,判斷該網(wǎng)頁的編碼,轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁,與特征庫進行對比,判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符,若出現(xiàn)了就判定為非文本類型,否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符,若出現(xiàn)了判斷為非文本類型,否則為文本類型。通過本發(fā)明方法能夠智能的識別網(wǎng)頁的編碼,并識別出是否為非文本類型。
【專利說明】一種判斷html網(wǎng)頁為非文本類型的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機網(wǎng)絡(luò)數(shù)據(jù)【技術(shù)領(lǐng)域】,尤其涉及一種判斷html網(wǎng)頁為非文本類型的方法。
【背景技術(shù)】
[0002]要識別網(wǎng)頁是否為非文本類型,僅僅從鏈接的后綴進行區(qū)分,是無法做到穩(wěn)定識別的。必須分析該網(wǎng)頁的內(nèi)容,分析其內(nèi)容是否含有不可識別的字符,也就是俗稱亂碼的內(nèi)容。
[0003]發(fā)明專利ZL200810180824.6公開了一種同話題定位跟蹤式論壇爬蟲系統(tǒng),通過分析URL鏈接名稱中是否包含一些非文本類型的后綴,如wav, jpg, ocx等,來分析該鏈接是否為非文本類型的網(wǎng)頁。該發(fā)明的關(guān)注點為URL的名稱,而非URL對應(yīng)網(wǎng)頁的內(nèi)容,只是簡單通過分析URL鏈接的名字,來確定網(wǎng)頁是否為非文本類型,具有較大的誤差。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是為了克服現(xiàn)有技術(shù)的缺陷,提供一種判斷html網(wǎng)頁為非文本類型的方法,該方法包括以下步驟:
[0005]St印1:下載URL對應(yīng)的網(wǎng)頁;
[0006]Step2:判斷該網(wǎng)頁的編碼,轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁;
[0007]Step3:與特征庫進行對比,判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符,若出現(xiàn)亂碼特征字符就判定為非文本類型,否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符,若出現(xiàn)連續(xù)的亂碼字符就判定為非文本類型,否則為文本類型。
[0008]本發(fā)明技術(shù)方案帶來的有益效果:
[0009]本發(fā)明技術(shù)方案通過使用特征庫匹配、連續(xù)亂碼字符段匹配等手段,識別網(wǎng)頁的正確編碼,并進行自動轉(zhuǎn)碼,即使網(wǎng)頁中未包含編碼說明,仍能正常識別網(wǎng)頁的編碼是否為非文本類型,識別率高且穩(wěn)定。
【專利附圖】
【附圖說明】
[0010]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0011]圖1是本發(fā)明的一種判斷html網(wǎng)頁為非文本類型的方法的流程圖。
【具體實施方式】
[0012]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0013]在對web業(yè)務(wù)系統(tǒng)進行流程監(jiān)控及分析時,需要分析的內(nèi)容通常都是網(wǎng)頁中的文本內(nèi)容,因此需要智能的對非文本內(nèi)容的網(wǎng)頁進行識別。通過本發(fā)明的一種判斷html網(wǎng)頁為非文本類型的方法,能夠自動、無人值守的識別WEB網(wǎng)站中的非文本類型的網(wǎng)頁、URL鏈接,如圖片、音樂、FLASH文件、二進制文件等。
[0014]本發(fā)明的主要創(chuàng)新點在于通過內(nèi)容分析及非文本字符特征庫,能夠智能的識別網(wǎng)頁的編碼,并識別出是否為非文本類型。如圖1所示為本發(fā)明的方法流程圖,具體步驟為:
[0015]St印1:下載URL對應(yīng)的網(wǎng)頁;
[0016]Step2:判斷該網(wǎng)頁的編碼,轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁;
[0017]Step3:與特征庫進行對比,判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符,若出現(xiàn)亂碼特征字符就判定為非文本類型,否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符,若出現(xiàn)連續(xù)的亂碼字符就判定為非文本類型,否則為文本類型。
[0018]本發(fā)明方法能夠識別網(wǎng)頁的正確編碼,并進行自動轉(zhuǎn)碼,即使網(wǎng)頁中未包含編碼說明,如charset=utf_8等,仍可正常識別網(wǎng)頁的編碼。
[0019]本發(fā)明還收集了常見的亂碼特征符,能夠快速的識別網(wǎng)頁是否為非文本類型。
[0020]本發(fā)明即使出現(xiàn)生僻字符,只要不是連續(xù)出現(xiàn),也不會被識別為非文本,避免了因網(wǎng)頁偶然出現(xiàn)的生僻字而影響識別率。
[0021]以上對本發(fā)明實施例所提供的一種判斷html網(wǎng)頁為非文本類型的方法進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種判斷html網(wǎng)頁為非文本類型的方法,其特征在于,該方法包括以下步驟: Stepl:下載URL對應(yīng)的網(wǎng)頁; Step2:判斷該網(wǎng)頁的編碼,轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁; Step3:與特征庫進行對比,判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符,若出現(xiàn)亂碼特征字符就判定為非文本類型,否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符,若出現(xiàn)連續(xù)的亂碼字符就判定為非文本類型,否則為文本類型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法能夠識別網(wǎng)頁的正確編碼,并進行自動轉(zhuǎn)碼,即使網(wǎng)頁中未包含編碼說明,仍能正常識別網(wǎng)頁的編碼。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法即使出現(xiàn)生僻字符,只要不是連續(xù)出現(xiàn),也不會被識別為非文本,避免了因網(wǎng)頁偶然出現(xiàn)的生僻字而影響識別率。
【文檔編號】G06F17/30GK103593463SQ201310608481
【公開日】2014年2月19日 申請日期:2013年11月26日 優(yōu)先權(quán)日:2013年11月26日
【發(fā)明者】楊育斌, 柯宗貴, 李佳 申請人:藍盾信息安全技術(shù)股份有限公司