两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種互聯(lián)網(wǎng)廣告信息處理方法

文檔序號:6572798閱讀:233來源:國知局
專利名稱:一種互聯(lián)網(wǎng)廣告信息處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種互聯(lián)網(wǎng)信息的處理方法,尤其涉及一種互聯(lián)網(wǎng)廣告信息的分離、分析方法。
背景技術(shù)
互聯(lián)網(wǎng)廣告技術(shù)被譽(yù)為現(xiàn)今廣告投放技術(shù)中最復(fù)雜的技術(shù),與報(bào)刊、雜志等平面媒體和電視廣告相比 較而言,互聯(lián)網(wǎng)廣告形式多樣、投放來源復(fù)雜、技術(shù)方法多樣,因此,廣告投放者欲要決定釆取何種廣告 模式或選擇哪家提供廣告的網(wǎng)站時(shí),往往沒有客觀的標(biāo)準(zhǔn)。相應(yīng)的,廣告提供者們欲要說服廣告投放者購 買自己的廣告服務(wù),也需要給出有說服力的、具有競爭性的證據(jù),來說明自己提供的廣告服務(wù)是最有效的。 這就是互聯(lián)網(wǎng)廣告的第三方監(jiān)測技術(shù)的需求。
互聯(lián)網(wǎng)廣告的第三方監(jiān)測技術(shù)實(shí)現(xiàn)相當(dāng)困難。除高效率的網(wǎng)頁抓取能力和海量數(shù)據(jù)存儲以外,如何從 花樣百出的網(wǎng)絡(luò)媒體頁面中高效率地分離出商業(yè)廣告并提供客觀分析是一個(gè)對于互聯(lián)網(wǎng)廣告的第三方監(jiān) 測最關(guān)鍵的方法問題。
互聯(lián)網(wǎng)廣告信息分離方法主要用于互聯(lián)網(wǎng)上基于WEB技術(shù)的媒體網(wǎng)站的商業(yè)廣告情報(bào)收集分析工 作。獲取的數(shù)據(jù)結(jié)果,主要服務(wù)于網(wǎng)絡(luò)媒體、網(wǎng)絡(luò)廣告公司、網(wǎng)絡(luò)廣告主等與互聯(lián)網(wǎng)商業(yè)廣告行為相關(guān)的 各類企業(yè)。主要用于獲得競爭媒體情報(bào)分析、廣告主投放歷史數(shù)據(jù)調(diào)查、國內(nèi)網(wǎng)絡(luò)廣告市場動(dòng)態(tài)走勢分析 等,決策分析用數(shù)據(jù)。
互聯(lián)網(wǎng)廣告信息分離方法適用于第三方廣告監(jiān)測技術(shù)的各項(xiàng)需求,以廣告實(shí)際投放為監(jiān)測目標(biāo),能實(shí) 現(xiàn)跨媒體監(jiān)測、兼容各種媒體的廣告投放系統(tǒng)。
現(xiàn)有的廣告信息分離方法是依靠廣告投放的監(jiān)測代碼作為特征碼,就是多數(shù)媒體(擁有成熟廣告投放 系統(tǒng)的媒體)的每個(gè)頁面的每個(gè)廣告投放點(diǎn)都有一套固定的代碼,可以在抓取系統(tǒng)中設(shè)定這些代碼,來實(shí) 現(xiàn)廣告的分離工作。簡單來說就是特征碼分離技術(shù)。
該方法在適應(yīng)媒體變化和新型廣告投放技術(shù)方面有一定差別,需要更多的人力去關(guān)注媒體的頻道欄目 及廣告投放技術(shù)的變化情況。
可見,業(yè)界存在著一種技術(shù)需求提供一種智能化的、準(zhǔn)確的分離出頁面中的廣告內(nèi)容,并且能幫助 廣告分揀人員快速對廣告內(nèi)容確認(rèn)分析,大大降低人工分揀工作量的方法。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種互聯(lián)網(wǎng)廣告信息處理方法,解決現(xiàn)有技術(shù)的缺陷,能夠智能、準(zhǔn)確地分離出 互聯(lián)網(wǎng)頁面中的廣告內(nèi)容,并且?guī)椭鷱V告分揀人員快速對廣告內(nèi)容確認(rèn)分析,大大降低人工分揀工作量。 本發(fā)明的技術(shù)方案如下
本發(fā)明提供了一種互聯(lián)網(wǎng)廣告信息的處理方法,該方法主要依賴各互聯(lián)網(wǎng)媒體頁面中對所有鏈接的統(tǒng) 一資源定位器(Uniform Resoure Locator,以下簡稱URL)地址進(jìn)行分析,將鏈接到被監(jiān)測媒體以外網(wǎng)站 的鏈接進(jìn)行分析歸類,能夠非常智能準(zhǔn)確的分離出頁面中的廣告內(nèi)容,幫助廣告分揀人員快速對廣告內(nèi)容 確認(rèn)分析,大大降低人工分揀的工作量。
本發(fā)明的一個(gè)實(shí)施例提供了一種互聯(lián)網(wǎng)廣告信息處理方法,包括如下步驟
頁面內(nèi)容抓取步驟,從互聯(lián)網(wǎng)中的網(wǎng)站上下載被監(jiān)測網(wǎng)站頁面的內(nèi)容,并自動(dòng)由正瀏覽器將其解釋 為用戶顯示界面,得到原始超文本標(biāo)志語言(Hyper Text Markup Language,以下簡稱為HTML)頁面;
鏈接分離步驟,分離原始HTML頁面中的全部鏈接信息,記錄正瀏覽器中所有鏈接對象,得到頁面 元素鏈接列表;
域名分析步驟,分析網(wǎng)頁元素鏈接列表,'將鏈接中^F屬于該網(wǎng)站的鏈接分離出來,得到非網(wǎng)站內(nèi)鏈接 列表;
URL聚類分析步驟,對于所有分析出的非網(wǎng)站內(nèi)鏈接列表中的每一個(gè)鏈接,進(jìn)行4級聚類分析,得 到鏈接列表聚類分析表。
本發(fā)明方法還可以包括廣告信息存儲步驟,將原始URL保存到數(shù)據(jù)庫內(nèi),并將此鏈接列表聚類分 析表作為索引信息保存在數(shù)據(jù)索引數(shù)據(jù)表中。 本發(fā)明的優(yōu)點(diǎn)是
1. 兼容各種互聯(lián)網(wǎng)媒體,可兼容所有使用WEB技術(shù),支持IE瀏覽器的網(wǎng)絡(luò)媒體。
2. 兼容各種互聯(lián)網(wǎng)廣告技術(shù),主要有文字鏈接廣告、圖片廣告、Flash廣告三種,這些廣告可以 放置在媒體頁面的任何位置,可以顯示或隱藏,可以跟隨頁面或用戶操作進(jìn)行變化。
3. 高自動(dòng)分離識別率,平均頁面商業(yè)廣告自動(dòng)分離識別率不低于90%。
4. 高分離識別效率,平均每1MB頁面元素內(nèi)容,分離識別時(shí)間小于20秒(未排除網(wǎng)絡(luò)帶寬因素)。
5. 兼容各種URL網(wǎng)絡(luò)地址格式,主要有HTTP、 HTTPS、 FTP等可以用于IE瀏覽器的協(xié)議
6. 支持多窗口多實(shí)體技術(shù),可分析多重框架頁面、彈出窗口、內(nèi)嵌頁面的廣告內(nèi)容分析
7. 支持Flash廣告鏈接提取,可以從Flash廣告中提取點(diǎn)擊URL鏈接,兼容壓縮和非壓縮格式的 Flash 。
8. 限于純商業(yè)廣告分離,即與網(wǎng)站無合作關(guān)系的,廣告點(diǎn)擊后,鏈接跳轉(zhuǎn)到與該媒體無直接關(guān)系的 網(wǎng)站。
9. 無需廣告特征數(shù)據(jù)庫作引導(dǎo),無需對被監(jiān)測頁面進(jìn)行廣告特征描述,對任何頁面可直接進(jìn)行抓取 分析。
10. 跨媒體廣告數(shù)據(jù)聚合,可自動(dòng)分析出, 一個(gè)廣告活動(dòng)投放在多個(gè)網(wǎng)絡(luò)媒體上的投放之間的關(guān)系, 并進(jìn)行數(shù)據(jù)聚合。
11. 廣告投放位置信息完整,可記錄廣告出現(xiàn)的頁面的完整URL,記錄廣告出現(xiàn)在頁面的具體坐標(biāo)位置。


下面結(jié)合附圖,通過對本發(fā)明的具體實(shí)施方式
的詳細(xì)描述,將使本發(fā)明的技術(shù)方案及其他有益效果顯 而易見。
圖l為本發(fā)明互聯(lián)網(wǎng)廣告信息處理方法示意圖。
具體實(shí)施例方式
為了更進(jìn)一步了解本發(fā)明的特征,請參閱以下有關(guān)本發(fā)明的詳細(xì)說明與附圖,然而所附圖式僅提供參 考與說明之用,并非用來對本發(fā)明的保護(hù)范圍加以限制。
如圖1所示,首先,執(zhí)行頁面內(nèi)容抓取步驟101,該步驟從互聯(lián)網(wǎng)下載被監(jiān)測網(wǎng)站頁面的內(nèi)容,并自 動(dòng)由正瀏覽器將其解釋為用戶顯示界面,得到原始HTML頁面111。
然后,執(zhí)行鏈接分離步驟102,分離原始HTML頁面111中的全部鏈接信息,記錄正瀏覽器中所有 鏈接對象的鏈接,鏈接對象包括文字鏈接、圖片鏈接、Flash鏈接等現(xiàn)存互聯(lián)網(wǎng)的所有鏈接方式。對于Flash 鏈接形式,使用模擬點(diǎn)擊的方式獲得其鏈接。對于具有跳轉(zhuǎn)功能的鏈接形式,采用HTTP協(xié)議訪問的方 式獲得其最終鏈接。得到頁面元素鏈接列表112。
接下來,執(zhí)行域名分析步驟103,分析上一步驟102所獲得的網(wǎng)頁元素鏈接列表112,將鏈接中不屬 于該網(wǎng)站的鏈接分離出來。如果同一個(gè)網(wǎng)站有多個(gè)域名指向,則通過在設(shè)定監(jiān)測對象時(shí)作多個(gè)設(shè)定來獲取 此網(wǎng)站所對應(yīng)的多個(gè)域名。由此,得到非網(wǎng)站內(nèi)鏈接列表U3。
隨后,執(zhí)行URL聚類分析步驟104,:對于所有分析出的外網(wǎng)鏈接,即非網(wǎng)站內(nèi)鏈接列表113中的每 一個(gè)鏈接,進(jìn)行4級聚類分析。例如,此4級聚類分析可以表示為如下格式11 ://域名級/目錄級/文件級?參數(shù)級 用此4級聚類分析方法表示的網(wǎng)站鏈接為 http:〃www.nikefootball.com.cn/wtn/index.php sn=l 1231 http:〃www.nikefootball.com.cn/wtn/index.php sn=3411 http:〃www.nikefootball.com.cn/wtn/news.php http:〃www.nikefootball.com.cn/ 由此得到鏈接列表聚類分析表114。
最后,執(zhí)行廣告信息存儲步驟105,將原始URL保存到數(shù)據(jù)庫內(nèi),并將此鏈接列表聚類分析表114作 為索引信息保存在數(shù)據(jù)索引數(shù)據(jù)表中。為后期的人工廣告信息分揀提供數(shù)據(jù)支持。
用上述的互聯(lián)網(wǎng)廣告信息處理方法來分離、分析廣告信息,以新浪(www.sina.com.cn)網(wǎng)站為例,效 果舉例如下-
隨機(jī)抽取其10個(gè)頻道中100個(gè)頁面,共發(fā)現(xiàn)521個(gè)商業(yè)廣告。 廣告分離準(zhǔn)確性,商業(yè)廣告分離準(zhǔn)確性為93.5%。 廣告分離遺漏率,商業(yè)廣告分離遺漏率為3.1%。
廣告分離時(shí)間效率,商業(yè)廣告分離耗時(shí)為1653秒,平均16.5秒/頁。(未排除帶寬因素) 廣告分離后聚合分析,521個(gè)廣告中包含109個(gè)廣告主題目標(biāo)。
由上述數(shù)據(jù)可見,應(yīng)用本發(fā)明方法進(jìn)行廣告信息分離、分析處理,具有準(zhǔn)確性高、遺漏率低、分析時(shí) 間短、節(jié)省資源、節(jié)省人力的多重優(yōu)點(diǎn)。
應(yīng)當(dāng)理解的是,上述對實(shí)施例的詳細(xì)說明僅為了理解本發(fā)明,對本領(lǐng)域普通技術(shù)人員而言,可以根據(jù) 上述說明加以改進(jìn)或變換。只要是達(dá)到此目的的所有改迸和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范 圍。
權(quán)利要求
1. 一種互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,包含如下步驟頁面內(nèi)容抓取步驟,從互聯(lián)網(wǎng)中的網(wǎng)站上下載被監(jiān)測網(wǎng)站頁面的內(nèi)容,并自動(dòng)由IE瀏覽器將該內(nèi)容解釋為用戶顯示界面,得到原始超文本標(biāo)志語言頁面;鏈接分離步驟,分離該原始超文本標(biāo)志語言頁面中的全部鏈接信息,記錄IE瀏覽器中所有鏈接對象的鏈接,得到網(wǎng)頁元素鏈接列表;域名分析步驟,分析該網(wǎng)頁元素鏈接列表,將鏈接中不屬于該網(wǎng)站的鏈接分離出來,得到非網(wǎng)站內(nèi)鏈接列表;統(tǒng)一資源定位器聚類分析步驟,:對于該非網(wǎng)站內(nèi)鏈接列表中的每一個(gè)鏈接,進(jìn)行聚類分析,得到鏈接列表聚類分析表。
2. 根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,還包括廣告信息存儲步驟,將該原始統(tǒng)一資源定位器保存到數(shù)據(jù)庫內(nèi),并將該鏈接列表聚類分析表作為索引 信息保存在數(shù)據(jù)索引數(shù)據(jù)表中。
3. 根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,所述的鏈接對象為如下形式之一文 字鏈接、圖片鏈接和Flash鏈接。
4. 根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,所述的鏈接對象為如下形式之一文 字鏈接、圖片鏈接和Flash鏈接。
5. 根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,當(dāng)該鏈接對象為Flash鏈接形式時(shí), 在該鏈接分離步驟中使用模擬點(diǎn)擊的方式獲得該鏈接。
6. 根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,當(dāng)該鏈接對象為具有跳轉(zhuǎn)功能的鏈接 形式時(shí),在該鏈接分離步驟中采用HTTP協(xié)議訪問的方式獲得該鏈接。
7. 根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,該域名分析步驟還包括當(dāng)該網(wǎng)站具有多個(gè)域名指向時(shí),通過在設(shè)定監(jiān)測對象時(shí)作多個(gè)設(shè)定來獲取該網(wǎng)站所對應(yīng)的多個(gè)域名。
8. 根據(jù)權(quán)利要求1或2所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,該聚類分析為4級聚類分析。
9. 根據(jù)權(quán)利要求8所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,該4級聚類分析為如下形式的表示http:/Z域名級/目錄級/文件級?參數(shù)級。
10. 根據(jù)權(quán)利要求5所述的互聯(lián)網(wǎng)廣告信息處理方法,其特征在于,該聚類分析為4級聚類分析,該4級 聚類分析為如下形式的表示1 ://域名級/目錄級/文件級?參數(shù)級。
全文摘要
一種互聯(lián)網(wǎng)廣告信息的分離、分析處理方法,該方法主要依賴各互聯(lián)網(wǎng)媒體頁面中對所有鏈接的URL地址進(jìn)行分析,將鏈接到被監(jiān)測媒體以外網(wǎng)站的鏈接進(jìn)行分析歸類,非常智能準(zhǔn)確地分離出頁面中的廣告內(nèi)容,幫助廣告分揀人員快速對廣告內(nèi)容確認(rèn)分析,大大降低人工分揀的工作量。
文檔編號G06F17/30GK101383713SQ200710045620
公開日2009年3月11日 申請日期2007年9月6日 優(yōu)先權(quán)日2007年9月6日
發(fā)明者楊偉慶 申請人:上海艾瑞市場咨詢有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
巴东县| 晴隆县| 龙门县| 吉林省| 宁武县| 平泉县| 汉沽区| 呼玛县| 海口市| 辰溪县| 东山县| 青浦区| 铅山县| 灵川县| 明溪县| 东至县| 沧州市| 新兴县| 襄汾县| 中宁县| 惠安县| 宝兴县| 静乐县| 廊坊市| 岳阳县| 博湖县| 永兴县| 隆化县| 治县。| 六盘水市| 红河县| 武冈市| 湘潭市| 泰州市| 仙桃市| 化州市| 青川县| 兰溪市| 吴堡县| 昭觉县| 杂多县|