專利名稱:一種基于url的分類識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng),尤其涉及ー種基于URL的分類識別方法。
背景技術(shù):
在互聯(lián)網(wǎng)廣告中,與網(wǎng)頁內(nèi)容相關(guān)的廣告被嵌入在頁面中。當一個用戶訪問了一個網(wǎng)頁,它的發(fā)行商就會向例如谷歌、微軟和雅虎等廣告網(wǎng)絡(luò)商請求廣告。由于延遲、通訊花費以及存儲量等嚴苛的要求,發(fā)行商將整個頁面發(fā)給廣告網(wǎng)絡(luò)商并且廣告網(wǎng)絡(luò)商在毫秒時間內(nèi)去爬取整個頁面,解析內(nèi)容再選取最相關(guān)的廣告都是不可行的。目前普遍的做法都是線下爬取媒體頁面,從頁面內(nèi)容提取出它的分類和關(guān)鍵詞,廣告本身也是這樣,以ー組由廣告商提供和從廣告標題、描述提取得到的分類以及關(guān)鍵詞為特征。為了快速響應(yīng)服務(wù),所有這些頁面的URL與分類關(guān)鍵詞一一對應(yīng)地存儲在索引中。當有廣告請求時,索引被用來檢索對應(yīng)URL的分類信息再選取最匹配的廣告。但是網(wǎng)頁的訪問頻率是遵循一個冪律分布的,絕大部分的頁面極少被訪問,這些頁面不會被抓取并被索引來在線廣告服務(wù),因為線下處理和索引的存儲成本令人望而卻步,且將所有網(wǎng)頁URL及其分類存儲起來這樣的方式會導(dǎo)致存儲量超負荷。更何況那些有動態(tài)內(nèi)容或者用戶生成需要身份驗證的頁面更是無法提前抓取和索引。這些不在廣告服務(wù)索引中的網(wǎng)頁都是未被索引網(wǎng)頁,對于未索引網(wǎng)頁的廣告請求,不能用常用的方法,因為它根本不在索引里,則無法完成在線服務(wù)請求。
發(fā)明內(nèi)容
為了解決上述的技術(shù)問題,提供了一種基于URL的分類識別方法。本發(fā)明提供了一種基于URL的分類識別方法,包括步驟1,利用分類器對投放廣告的網(wǎng)站網(wǎng)頁進行分類,得到該網(wǎng)站所有URL對應(yīng)網(wǎng)頁的類別;步驟2,根據(jù)該網(wǎng)站的所有URL生成該網(wǎng)站的URL樹;步驟3,根據(jù)廣告請求的URL匹配所述URL樹,返回匹配結(jié)果。在一個示例中,步驟2包括步驟21,對URL進行切分得到其表征值;步驟22,根據(jù)
權(quán)利要求
1.一種基于URL的分類識別方法,其特征在于,包括 步驟1,利用分類器對投放廣告的網(wǎng)站網(wǎng)頁進行分類,得到該網(wǎng)站所有URL對應(yīng)網(wǎng)頁的類別; 步驟2,根據(jù)該網(wǎng)站的所有URL生成該網(wǎng)站的URL樹; 步驟3,根據(jù)廣告請求的URL匹配所述URL樹,返回匹配結(jié)果。
2.如權(quán)利要求I所述的分類識別方法,其特征在于,步驟2包括 步驟21,對URL進行切分得到其表征值;步驟22,根據(jù)=計算所得的最大信息增益率值對應(yīng)的關(guān)鍵字k作為
3.如權(quán)利要求2所述的分類識別方法,其特征在于,步驟23中,計算節(jié)點分割的卡方值,若未能超過閾值,分割停止,否則繼續(xù)分割。
4.如權(quán)利要求2所述的分類識別方法,其特征在于,步驟2還包括步驟24,對URL樹采用悲觀錯誤剪枝方法進行剪枝。
5.如權(quán)利要求2所述的分類識別方法,其特征在于,步驟3中,如果URL樹中不存在 與廣告請求的URL完全匹配的路徑,根據(jù)公式力
6.如權(quán)利要求2所述的分類識別方法,其特征在于,如果URL樹中不存在與廣告請求的URL完全匹配的路徑,還爬取類似此URL組織結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)進行解析分類,并將這些URL 通過建樹步驟作為子樹加入URL樹中。
全文摘要
本發(fā)明涉及一種基于URL的分類識別方法,包括步驟1,分類器對投放廣告的網(wǎng)站網(wǎng)頁進行分類,得到該網(wǎng)站所有URL對應(yīng)網(wǎng)頁的類別;步驟2,根據(jù)該網(wǎng)站的所有URL生成該網(wǎng)站的URL樹;步驟3,根據(jù)廣告請求的URL匹配所述URL樹,返回匹配結(jié)果。本發(fā)明中描述的基于URL的分類識別方法對廣告匹配延遲、URL存儲量大、未索引頁面不能及時分類等問題都有很好的改善處理。
文檔編號G06F17/30GK102663022SQ201210077268
公開日2012年9月12日 申請日期2012年3月21日 優(yōu)先權(quán)日2012年3月21日
發(fā)明者劉崟, 吳歡琴, 田寧, 譚磊 申請人:浙江盤石信息技術(shù)有限公司