一種判斷html網(wǎng)頁為非文本類型的方法

文檔序號：6520721閱讀：295來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種判斷html網(wǎng)頁為非文本類型的方法
【專利摘要】本發(fā)明公開了一種判斷html網(wǎng)頁為非文本類型的方法，該方法通過下載URL對應(yīng)的網(wǎng)頁，判斷該網(wǎng)頁的編碼，轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁，與特征庫進行對比，判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符，若出現(xiàn)了就判定為非文本類型，否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符，若出現(xiàn)了判斷為非文本類型，否則為文本類型。通過本發(fā)明方法能夠智能的識別網(wǎng)頁的編碼，并識別出是否為非文本類型。
【專利說明】一種判斷html網(wǎng)頁為非文本類型的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機網(wǎng)絡(luò)數(shù)據(jù)【技術(shù)領(lǐng)域】，尤其涉及一種判斷html網(wǎng)頁為非文本類型的方法。
【背景技術(shù)】
[0002]要識別網(wǎng)頁是否為非文本類型，僅僅從鏈接的后綴進行區(qū)分，是無法做到穩(wěn)定識別的。必須分析該網(wǎng)頁的內(nèi)容，分析其內(nèi)容是否含有不可識別的字符，也就是俗稱亂碼的內(nèi)容。
[0003]發(fā)明專利ZL200810180824.6公開了一種同話題定位跟蹤式論壇爬蟲系統(tǒng)，通過分析URL鏈接名稱中是否包含一些非文本類型的后綴,如wav, jpg, ocx等,來分析該鏈接是否為非文本類型的網(wǎng)頁。該發(fā)明的關(guān)注點為URL的名稱，而非URL對應(yīng)網(wǎng)頁的內(nèi)容，只是簡單通過分析URL鏈接的名字，來確定網(wǎng)頁是否為非文本類型，具有較大的誤差。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是為了克服現(xiàn)有技術(shù)的缺陷，提供一種判斷html網(wǎng)頁為非文本類型的方法，該方法包括以下步驟:
[0005]St印1:下載URL對應(yīng)的網(wǎng)頁；
[0006]Step2:判斷該網(wǎng)頁的編碼，轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁；
[0007]Step3:與特征庫進行對比，判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符，若出現(xiàn)亂碼特征字符就判定為非文本類型，否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符，若出現(xiàn)連續(xù)的亂碼字符就判定為非文本類型，否則為文本類型。
[0008]本發(fā)明技術(shù)方案帶來的有益效果:
[0009]本發(fā)明技術(shù)方案通過使用特征庫匹配、連續(xù)亂碼字符段匹配等手段，識別網(wǎng)頁的正確編碼，并進行自動轉(zhuǎn)碼，即使網(wǎng)頁中未包含編碼說明，仍能正常識別網(wǎng)頁的編碼是否為非文本類型，識別率高且穩(wěn)定。
【專利附圖】

【附圖說明】
[0010]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其它的附圖。
[0011]圖1是本發(fā)明的一種判斷html網(wǎng)頁為非文本類型的方法的流程圖。
【具體實施方式】
[0012]下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0013]在對web業(yè)務(wù)系統(tǒng)進行流程監(jiān)控及分析時，需要分析的內(nèi)容通常都是網(wǎng)頁中的文本內(nèi)容，因此需要智能的對非文本內(nèi)容的網(wǎng)頁進行識別。通過本發(fā)明的一種判斷html網(wǎng)頁為非文本類型的方法，能夠自動、無人值守的識別WEB網(wǎng)站中的非文本類型的網(wǎng)頁、URL鏈接，如圖片、音樂、FLASH文件、二進制文件等。
[0014]本發(fā)明的主要創(chuàng)新點在于通過內(nèi)容分析及非文本字符特征庫，能夠智能的識別網(wǎng)頁的編碼，并識別出是否為非文本類型。如圖1所示為本發(fā)明的方法流程圖，具體步驟為:
[0015]St印1:下載URL對應(yīng)的網(wǎng)頁；
[0016]Step2:判斷該網(wǎng)頁的編碼，轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁；
[0017]Step3:與特征庫進行對比，判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符，若出現(xiàn)亂碼特征字符就判定為非文本類型，否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符，若出現(xiàn)連續(xù)的亂碼字符就判定為非文本類型，否則為文本類型。
[0018]本發(fā)明方法能夠識別網(wǎng)頁的正確編碼，并進行自動轉(zhuǎn)碼，即使網(wǎng)頁中未包含編碼說明，如charset=utf_8等,仍可正常識別網(wǎng)頁的編碼。
[0019]本發(fā)明還收集了常見的亂碼特征符，能夠快速的識別網(wǎng)頁是否為非文本類型。
[0020]本發(fā)明即使出現(xiàn)生僻字符，只要不是連續(xù)出現(xiàn)，也不會被識別為非文本，避免了因網(wǎng)頁偶然出現(xiàn)的生僻字而影響識別率。
[0021]以上對本發(fā)明實施例所提供的一種判斷html網(wǎng)頁為非文本類型的方法進行了詳細介紹，本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實施方式】及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種判斷html網(wǎng)頁為非文本類型的方法，其特征在于，該方法包括以下步驟: Stepl:下載URL對應(yīng)的網(wǎng)頁； Step2:判斷該網(wǎng)頁的編碼，轉(zhuǎn)換成對應(yīng)的編碼網(wǎng)頁； Step3:與特征庫進行對比，判斷網(wǎng)頁中是否出現(xiàn)了特征庫中的亂碼特征字符，若出現(xiàn)亂碼特征字符就判定為非文本類型，否則再判斷是否出現(xiàn)了連續(xù)的亂碼字符，若出現(xiàn)連續(xù)的亂碼字符就判定為非文本類型，否則為文本類型。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，該方法能夠識別網(wǎng)頁的正確編碼，并進行自動轉(zhuǎn)碼，即使網(wǎng)頁中未包含編碼說明，仍能正常識別網(wǎng)頁的編碼。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，該方法即使出現(xiàn)生僻字符，只要不是連續(xù)出現(xiàn)，也不會被識別為非文本，避免了因網(wǎng)頁偶然出現(xiàn)的生僻字而影響識別率。
【文檔編號】G06F17/30GK103593463SQ201310608481
【公開日】2014年2月19日申請日期:2013年11月26日優(yōu)先權(quán)日:2013年11月26日
【發(fā)明者】楊育斌, 柯宗貴, 李佳申請人:藍盾信息安全技術(shù)股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊育斌;柯宗貴;李佳
技術(shù)所有人：藍盾信息安全技術(shù)股份有限公司
我是此專利的發(fā)明人

上一篇：一種網(wǎng)頁多媒體文件的播放方法及裝置制造方法
上一篇：一種非對稱齒輪的精確設(shè)計和修形方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種判斷html網(wǎng)頁為非文本類型的方法