本發(fā)明涉及移動(dòng)通信與移動(dòng)互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,更具體地,涉及一種手機(jī)號(hào)碼提取方法和裝置。
背景技術(shù):
:現(xiàn)如今,互聯(lián)網(wǎng)的普及率越來(lái)越高,在人們的日常生活中,互聯(lián)網(wǎng)幾乎在每個(gè)領(lǐng)域與我們24小時(shí)相伴,不僅為人們帶來(lái)了非常多的便利,也在很大程度是成為了我們的一種生活習(xí)慣。在我國(guó)的網(wǎng)絡(luò)用戶中,移動(dòng)網(wǎng)絡(luò)用戶和固網(wǎng)用戶占據(jù)了絕大多數(shù)比例。移動(dòng)網(wǎng)絡(luò)(MobileWeb)指的是使用移動(dòng)設(shè)備,如手機(jī),掌上電腦或其它便攜式工具連接到公共網(wǎng)絡(luò),實(shí)現(xiàn)互聯(lián)網(wǎng)訪問(wèn)的方式。移動(dòng)網(wǎng)絡(luò)不需要固定的設(shè)備進(jìn)行訪問(wèn)。移動(dòng)網(wǎng)絡(luò)主要指的是基于瀏覽器的萬(wàn)維網(wǎng)(Web)服務(wù)。然而,由于不兼容格式的大量信息在互聯(lián)網(wǎng)上提供的移動(dòng)設(shè)備和部分是由于物理尺寸的小屏幕的移動(dòng)設(shè)備和其他設(shè)備的限制等多種原因,移動(dòng)網(wǎng)絡(luò)接入今天仍然存在著互操作性和可用性問(wèn)題。固網(wǎng)指的是固定電話網(wǎng)絡(luò),一般指在固定電話公司提供的固定點(diǎn)與點(diǎn)之間的通信網(wǎng)路系統(tǒng)。目前,中國(guó)的固網(wǎng)公司有:中國(guó)聯(lián)通、中國(guó)電信等。固定電話網(wǎng)絡(luò)用戶上網(wǎng)報(bào)文中含有豐富的用戶身份信息,如手機(jī)號(hào)碼,郵箱,即時(shí)通訊服務(wù)賬號(hào)等。這些信息里就包含用戶的手機(jī)號(hào)碼,例如很多網(wǎng)站的用戶賬號(hào)、用戶注冊(cè)郵箱的用戶名等。然而,現(xiàn)有的從固網(wǎng)用戶發(fā)送的超文本傳輸協(xié)議(HypertextTransferProtocol,HTTP)Get報(bào)文中識(shí)別和提取用戶手機(jī)號(hào)碼的技術(shù),所提取的手機(jī)號(hào)準(zhǔn)確度低。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了一種手機(jī)號(hào)碼提取方法和裝置,以解決現(xiàn)有技術(shù)中從固網(wǎng)HTTPGet報(bào)文中提取用戶手機(jī)號(hào)碼準(zhǔn)確度低的問(wèn)題。為了解決上述問(wèn)題,本發(fā)明公開(kāi)了一種手機(jī)號(hào)碼提取方法,所述方法包括:從移動(dòng)網(wǎng)絡(luò)發(fā)送的超文本傳輸協(xié)議HTTPGet報(bào)文中,提取含有手機(jī)號(hào)碼信息的移動(dòng)網(wǎng)絡(luò)統(tǒng)一資源定位符URL特征信息;獲取固網(wǎng)發(fā)送的HTTPGet報(bào)文;依據(jù)所述移動(dòng)網(wǎng)絡(luò)URL特征信息,解析所述固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息;從所述固網(wǎng)URL特征信息中提取第一手機(jī)號(hào)碼信息;從所述固網(wǎng)發(fā)送的HTTPGet報(bào)文中分離緩存文本Cookie字段信息;通過(guò)解析郵箱用戶名信息的方式,從所述Cookie字段信息中提取第二手機(jī)號(hào)碼信息;依據(jù)所述固網(wǎng)URL特征信息和所述Cookie字段信息,提取第三手機(jī)號(hào)碼信息;對(duì)所述第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼。優(yōu)選地,在所述從移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中,提取含有手機(jī)號(hào)碼信息的移動(dòng)網(wǎng)絡(luò)URL特征信息的步驟之前,所述方法還包括:獲取移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文。優(yōu)選地,所述通過(guò)解析郵箱用戶名信息的方式,從所述Cookie字段信息中提取第二手機(jī)號(hào)碼信息的步驟包括:利用正則表達(dá)式,從所述Cookie字段信息中解析郵箱用戶名信息;過(guò)濾所述郵箱用戶名信息,獲得第二手機(jī)號(hào)碼信息。優(yōu)選地,所述依據(jù)所述固網(wǎng)URL特征信息和所述Cookie字段信息,提取第三手機(jī)號(hào)碼信息的步驟包括:從所述Cookie字段信息中提取包含手機(jī)號(hào)信息的數(shù)據(jù);依據(jù)固網(wǎng)URL特征信息對(duì)所述數(shù)據(jù)進(jìn)行校驗(yàn),統(tǒng)計(jì)可提取手機(jī)號(hào)信息的Cookie特征信息;依據(jù)所述Cookie特征信息,從所述Cookie字段信息中提取第三手機(jī)號(hào)碼。優(yōu)選地,所述對(duì)所述第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼的步驟包括:匯總第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,獲得匯總信息;提取所述固網(wǎng)發(fā)送的HTTPGet報(bào)文和所述移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中的地域信息;獲取所述匯總信息中,各號(hào)碼所對(duì)應(yīng)的歸屬地信息;利用所述地域信息和所述歸屬地信息,過(guò)濾所述匯總信息,獲得目標(biāo)手機(jī)號(hào)碼。為了解決上述問(wèn)題,本發(fā)明公開(kāi)了一種手機(jī)號(hào)碼提取裝置,所述裝置包括:特征提取模塊,用于從移動(dòng)網(wǎng)絡(luò)發(fā)送的超文本傳輸協(xié)議HTTPGet報(bào)文中,提取含有手機(jī)號(hào)碼信息的移動(dòng)網(wǎng)絡(luò)統(tǒng)一資源定位符URL特征信息;固網(wǎng)報(bào)文獲取模塊,用于獲取固網(wǎng)發(fā)送的HTTPGet報(bào)文;固網(wǎng)報(bào)文解析模塊,用于依據(jù)所述移動(dòng)網(wǎng)絡(luò)URL特征信息,解析所述固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息;第一手機(jī)號(hào)碼提取模塊,用于從所述固網(wǎng)URL特征信息中提取第一手機(jī)號(hào)碼信息;Cookie字段信息模塊,用于從所述固網(wǎng)發(fā)送的HTTPGet報(bào)文中分離緩存文本Cookie字段信息;第二手機(jī)號(hào)碼提取模塊,用于通過(guò)解析郵箱用戶名信息的方式,從所述Cookie字段信息中提取第二手機(jī)號(hào)碼信息;第三手機(jī)號(hào)碼提取模塊,用于依據(jù)所述固網(wǎng)URL特征信息和所述Cookie字段信息,提取第三手機(jī)號(hào)碼信息;過(guò)濾模塊,用于對(duì)所述第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼。優(yōu)選地,所述裝置還包括:移動(dòng)網(wǎng)絡(luò)報(bào)文獲取模塊,用于獲取移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文。優(yōu)選地,所述第二手機(jī)號(hào)碼提取模塊包括:解析子模塊,用于利用正則表達(dá)式,從所述Cookie字段信息中解析郵箱用戶名信息;過(guò)濾子模塊,用于過(guò)濾所述郵箱用戶名信息,獲得第二手機(jī)號(hào)碼信息。優(yōu)選地,所述第三手機(jī)號(hào)碼提取模塊包括:Cookie字段提取子模塊,用于從所述Cookie字段信息中提取包含手機(jī)號(hào)信息的數(shù)據(jù);統(tǒng)計(jì)子模塊,用于依據(jù)固網(wǎng)URL特征信息對(duì)所述數(shù)據(jù)進(jìn)行校驗(yàn),統(tǒng)計(jì)可提取手機(jī)號(hào)信息的Cookie特征信息;手機(jī)號(hào)提取子模塊,用于依據(jù)所述Cookie特征信息,從所述Cookie字段信息中提取第三手機(jī)號(hào)碼。優(yōu)選地,所述過(guò)濾模塊包括:匯總子模塊,用于匯總第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,獲得匯總信息;地域信息子模塊,用于提取所述固網(wǎng)發(fā)送的HTTPGet報(bào)文和所述移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中的地域信息;歸屬地信息子模塊,用于獲取所述匯總信息中,各號(hào)碼所對(duì)應(yīng)的歸屬地信息;過(guò)濾執(zhí)行子模塊,用于利用所述地域信息和所述歸屬地信息,過(guò)濾所述匯總信息,獲得目標(biāo)手機(jī)號(hào)碼。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):本發(fā)明實(shí)施例提供的一種手機(jī)號(hào)碼提取方法和裝置,能通過(guò)利用移動(dòng)網(wǎng)的HTTPGet報(bào)文的特征,解析固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息,同時(shí)分離固網(wǎng)報(bào)文中的緩存文本Cookie字段信息,從URL特征信息及Cookie信息中獲取手機(jī)號(hào)并過(guò)濾,從而提高了從固網(wǎng)HTTPGet報(bào)文中提取用戶手機(jī)號(hào)碼的準(zhǔn)確度。上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。附圖說(shuō)明通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:圖1為本發(fā)明實(shí)施例一的一種手機(jī)號(hào)碼提取方法的步驟流程圖;圖2為本發(fā)明實(shí)施例二的一種手機(jī)號(hào)碼提取方法的步驟流程圖;圖3為本發(fā)明實(shí)施例三提供的一種手機(jī)號(hào)碼提取裝置的結(jié)構(gòu)示意圖;圖4為本發(fā)明實(shí)施例四提供的一種手機(jī)號(hào)碼提取裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。實(shí)施例一參照?qǐng)D1,示出了本發(fā)明實(shí)施例一的一種手機(jī)號(hào)碼提取方法的步驟流程圖,本發(fā)明實(shí)施例的手機(jī)號(hào)碼提取方法包括以下步驟:步驟101:從移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中,提取含有手機(jī)號(hào)碼信息的移動(dòng)網(wǎng)絡(luò)統(tǒng)一資源定位符URL特征信息。使用移動(dòng)網(wǎng)絡(luò)中的用戶上網(wǎng)報(bào)文,找到可以匹配到用戶手機(jī)號(hào)的URL特征集合。移動(dòng)網(wǎng)絡(luò)的用戶上網(wǎng)報(bào)文中,含有用戶上網(wǎng)手手機(jī)號(hào)信息和用戶訪問(wèn)的URL信息。比如,通過(guò)對(duì)含有手機(jī)號(hào)18969339626的一條上網(wǎng)報(bào)文的querystringparameters參數(shù)進(jìn)行解析,獲得如表1中所示以下結(jié)果:表1role1imeiA0000049B3069Darea0os4.3uuid43BB65F3297C6813B75E14489F8B246Ecity_id0dviceid5bfc8075a90a8d6e84f2ce4f130783a6phone_num18969339626modelHUAWEIY535-C00appversion4.2.3phone18969339626maptypesososigde9f2469657de452cce493ceca382d0bd9817f5achannel92lat0userlng0對(duì)參數(shù)進(jìn)行判斷,發(fā)現(xiàn)phone_num參數(shù)和phone參數(shù)對(duì)應(yīng)的值的長(zhǎng)度是11位數(shù)字,并且是以特定數(shù)字開(kāi)頭(13,14,18…),認(rèn)為是疑似手機(jī)號(hào),輸出如表2中所示的記錄:表2用戶手機(jī)號(hào)HostURL參數(shù)關(guān)鍵字疑似手機(jī)號(hào)18969339626api.abc.comphone_num1896933962618969339626api.abc.comphone18969339626對(duì)一定時(shí)間內(nèi)的數(shù)據(jù)(一般是一周)進(jìn)行統(tǒng)計(jì)分析,可以統(tǒng)計(jì)出在特定host和url參數(shù)關(guān)鍵字作為特征的條件下,疑似手機(jī)號(hào)和用戶真實(shí)手機(jī)號(hào)一致的比率,把這個(gè)比率認(rèn)為正確率,得到類似如表3中所示的特征集合:表3需要說(shuō)明的是,在具體實(shí)現(xiàn)過(guò)程中,對(duì)疑似手機(jī)號(hào)的特定數(shù)字開(kāi)頭,數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的時(shí)間段以及phone_num參數(shù)和phone參數(shù)對(duì)應(yīng)的值的長(zhǎng)度等,可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際需求進(jìn)行設(shè)置,本發(fā)明實(shí)施例中對(duì)此不作具體限定。步驟102:獲取固網(wǎng)發(fā)送的HTTPGet報(bào)文。步驟103:依據(jù)移動(dòng)網(wǎng)絡(luò)URL特征信息,解析固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息。將步驟101產(chǎn)生的特征集合中,正確率大于70%的特征作為有效特征,對(duì)固網(wǎng)的HTTPGet報(bào)文中進(jìn)行解析,對(duì)滿足上述特征的用戶數(shù)據(jù)進(jìn)行輸出,就可以相應(yīng)的獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息。需要說(shuō)明的是,在具體實(shí)現(xiàn)過(guò)程中,有效特征的正確率并不局限于70%,具體數(shù)值可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際需求進(jìn)行設(shè)置,本發(fā)明實(shí)施例中對(duì)此不作具體限定。步驟104:從固網(wǎng)URL特征信息中提取第一手機(jī)號(hào)碼信息。步驟105:從固網(wǎng)發(fā)送的HTTPGet報(bào)文中分離Cookie字段信息。其中,Cookie即緩存文本。對(duì)于使用ADSL撥號(hào)上網(wǎng)的用戶,可以進(jìn)一步解析出來(lái)用戶ADSL帳號(hào)和手機(jī)號(hào)的關(guān)系,這個(gè)數(shù)據(jù)會(huì)做為一個(gè)驗(yàn)證數(shù)據(jù)集對(duì)步驟103中產(chǎn)出的數(shù)據(jù)進(jìn)行驗(yàn)證。從固網(wǎng)的HTTPGet報(bào)文的Cookie數(shù)據(jù)中,產(chǎn)出可以匹配手機(jī)號(hào)的Cookie特征集合。對(duì)于ADSL撥號(hào)上網(wǎng)用戶,上網(wǎng)的報(bào)文含有信息及示例如下:其中,表4中所示的為上網(wǎng)的報(bào)文含有信息。表4通過(guò)解析一段時(shí)間(一周)用戶上網(wǎng)報(bào)文中的cookie字段,把疑似手機(jī)號(hào)的cookie字段信息輸出,形成如表5中所示的記錄:表5ADSLCookie域Cookie參數(shù)疑似手機(jī)號(hào)OHsEfEp8XAQ=abc.comc_mobil13135573886OHsEfEp8XAQ=abc.comu_account13135573886將這個(gè)結(jié)果和步驟103中產(chǎn)出的驗(yàn)證數(shù)據(jù)進(jìn)行比較。具體方法為,在相同ADSL下面,通過(guò)Cookie解析出來(lái)的疑似手機(jī)號(hào)和步驟103中的手機(jī)號(hào)比較是否一致??梢缘玫饺绫?中所示的cookie特征集合:表6步驟106:通過(guò)解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機(jī)號(hào)碼信息。步驟107:依據(jù)固網(wǎng)URL特征信息和Cookie字段信息,提取第三手機(jī)號(hào)碼信息。步驟108:對(duì)第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼。通過(guò)本發(fā)明實(shí)施例提供的一種手機(jī)號(hào)碼提取方法,能通過(guò)利用移動(dòng)網(wǎng)的HTTPGet報(bào)文的特征,解析固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息,同時(shí)分離固網(wǎng)報(bào)文中的緩存文本Cookie字段信息,從URL特征信息及Cookie信息中獲取手機(jī)號(hào)并過(guò)濾,從而提高了從固網(wǎng)HTTPGet報(bào)文中提取用戶手機(jī)號(hào)碼的準(zhǔn)確度。實(shí)施例二參照?qǐng)D2,示出了本發(fā)明實(shí)施例二的一種手機(jī)號(hào)碼提取方法流程圖,本發(fā)明實(shí)施例的一種手機(jī)號(hào)碼提取方法包括以下步驟:步驟201:獲取移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文。步驟202:從移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中,提取含有手機(jī)號(hào)碼信息的移動(dòng)網(wǎng)絡(luò)統(tǒng)一資源定位符URL特征信息。步驟203:獲取固網(wǎng)發(fā)送的HTTPGet報(bào)文。步驟204:依據(jù)移動(dòng)網(wǎng)絡(luò)URL特征信息,解析固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息。步驟205:從固網(wǎng)URL特征信息中提取第一手機(jī)號(hào)碼信息。步驟206:從固網(wǎng)發(fā)送的HTTPGet報(bào)文中分離Cookie字段信息;步驟207:通過(guò)解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機(jī)號(hào)碼信息。一種優(yōu)選的通過(guò)解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機(jī)號(hào)碼信息的方式如下:S1:利用正則表達(dá)式,從Cookie字段信息中解析郵箱用戶名信息;S2:過(guò)濾郵箱用戶名信息,獲得第二手機(jī)號(hào)碼信息。步驟208:從Cookie字段信息中提取包含手機(jī)號(hào)信息的數(shù)據(jù)。步驟209:依據(jù)固網(wǎng)URL特征信息對(duì)數(shù)據(jù)進(jìn)行校驗(yàn),統(tǒng)計(jì)可以提取手機(jī)號(hào)信息的Cookie特征信息。步驟210:依據(jù)Cookie特征信息,從Cookie字段信息中提取第三手機(jī)號(hào)碼信息。步驟211:對(duì)第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼。一種優(yōu)選的對(duì)第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼的方式如下:S1:匯總第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,獲得匯總信息;S2:提取固網(wǎng)發(fā)送的HTTPGet報(bào)文和移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中的地域信息;S3:獲取匯總信息中,各號(hào)碼所對(duì)應(yīng)的歸屬地信息;提取出來(lái)的第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,仍然有大量的噪聲,如長(zhǎng)度為11位的數(shù)字,也可能是隨機(jī)ID。固網(wǎng)數(shù)據(jù)是哪個(gè)省的用戶請(qǐng)求信息是已知的,通過(guò)判斷手機(jī)號(hào)段的歸屬地,可以進(jìn)一步對(duì)手機(jī)號(hào)的有效性進(jìn)行過(guò)濾。S4:利用地域信息和歸屬地信息,過(guò)濾匯總信息,獲得目標(biāo)手機(jī)號(hào)碼。本發(fā)明實(shí)施例提供的一種手機(jī)號(hào)碼提取方法,除了具有實(shí)施例一中的手機(jī)號(hào)碼提取方法所具有的有益效果外,還通過(guò)利用固網(wǎng)地域信息和手機(jī)歸屬地信息過(guò)濾獲取的手機(jī)號(hào)碼,進(jìn)一步提高了從固網(wǎng)HTTPGet報(bào)文中提取用戶手機(jī)號(hào)碼準(zhǔn)確度。實(shí)施例三參照?qǐng)D3,示出了本發(fā)明的一種手機(jī)號(hào)碼提取裝置的結(jié)構(gòu)示意圖。本實(shí)施例所示的手機(jī)號(hào)碼提取裝置包括:特征提取模塊301,用于從移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中,提取含有手機(jī)號(hào)碼信息的移動(dòng)網(wǎng)絡(luò)統(tǒng)一資源定位符URL特征信息;固網(wǎng)報(bào)文獲取模塊302,用于獲取固網(wǎng)發(fā)送的HTTPGet報(bào)文。固網(wǎng)報(bào)文解析模塊303,用于依據(jù)移動(dòng)網(wǎng)絡(luò)URL特征信息,解析固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息。第一手機(jī)號(hào)碼提取模塊304,用于從固網(wǎng)URL特征信息中提取第一手機(jī)號(hào)碼信息。Cookie字段信息模塊305,用于從固網(wǎng)發(fā)送的HTTPGet報(bào)文中分離緩存文本Cookie字段信息。第二手機(jī)號(hào)碼提取模塊306,用于通過(guò)解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機(jī)號(hào)碼信息。第三手機(jī)號(hào)碼提取模塊307,用于依據(jù)固網(wǎng)URL特征信息和Cookie字段信息,提取第三手機(jī)號(hào)碼信息。過(guò)濾模塊308,用于對(duì)第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼。通過(guò)本發(fā)明實(shí)施例提供的一種手機(jī)號(hào)碼提取裝置,能通過(guò)利用移動(dòng)網(wǎng)的HTTPGet報(bào)文的特征,解析固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息,同時(shí)分離固網(wǎng)報(bào)文中的緩存文本Cookie字段信息,從URL特征信息及Cookie信息中獲取手機(jī)號(hào)并過(guò)濾,從而提高了從固網(wǎng)HTTPGet報(bào)文中提取用戶手機(jī)號(hào)碼的準(zhǔn)確度。實(shí)施例四參照?qǐng)D4,示出了本發(fā)明的一種手機(jī)號(hào)碼提取裝置的結(jié)構(gòu)示意圖。本實(shí)施例所示的手機(jī)號(hào)碼提取裝置包括:特征提取模塊401,用于從移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中,提取含有手機(jī)號(hào)碼信息的移動(dòng)網(wǎng)絡(luò)統(tǒng)一資源定位符URL特征信息;固網(wǎng)報(bào)文獲取模塊402,用于獲取固網(wǎng)發(fā)送的HTTPGet報(bào)文;固網(wǎng)報(bào)文解析模塊403,用于依據(jù)移動(dòng)網(wǎng)絡(luò)URL特征信息,解析固網(wǎng)發(fā)送的HTTPGet報(bào)文,獲得含有手機(jī)號(hào)碼信息的固網(wǎng)URL特征信息;第一手機(jī)號(hào)碼提取模塊404,用于從固網(wǎng)URL特征信息中提取第一手機(jī)號(hào)碼信息;Cookie字段信息模塊405,用于從固網(wǎng)發(fā)送的HTTPGet報(bào)文中分離緩存文本Cookie字段信息;第二手機(jī)號(hào)碼提取模塊406,用于通過(guò)解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機(jī)號(hào)碼信息;第三手機(jī)號(hào)碼提取模塊407,用于依據(jù)固網(wǎng)URL特征信息和Cookie字段信息,提取第三手機(jī)號(hào)碼信息;過(guò)濾模塊408,用于對(duì)第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,進(jìn)行過(guò)濾,獲得目標(biāo)手機(jī)號(hào)碼。優(yōu)選地,本實(shí)施例所示的手機(jī)號(hào)碼提取裝置還包括:移動(dòng)網(wǎng)絡(luò)報(bào)文獲取模塊409,用于獲取移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文。優(yōu)選地,第二手機(jī)號(hào)碼提取模塊406包括:解析子模塊4061,用于利用正則表達(dá)式,從Cookie字段信息中解析郵箱用戶名信息;過(guò)濾子模塊4062,用于過(guò)濾郵箱用戶名信息,獲得第二手機(jī)號(hào)碼信息。優(yōu)選地,第三手機(jī)號(hào)碼提取模塊407包括:Cookie字段提取子模塊4071,用于從Cookie字段信息中提取包含手機(jī)號(hào)信息的數(shù)據(jù);統(tǒng)計(jì)子模塊4072,用于依據(jù)固網(wǎng)URL特征信息對(duì)數(shù)據(jù)進(jìn)行校驗(yàn),統(tǒng)計(jì)可提取手機(jī)號(hào)信息的Cookie特征信息;手機(jī)號(hào)提取子模塊4073,用于依據(jù)Cookie特征信息,從Cookie字段信息中提取第三手機(jī)號(hào)碼。優(yōu)選地,過(guò)濾模塊包括408:匯總子模塊4081,用于匯總第一手機(jī)號(hào)碼信息、第二手機(jī)號(hào)碼信息和第三手機(jī)號(hào)碼信息,獲得匯總信息;地域信息子模塊4082,用于提取固網(wǎng)發(fā)送的HTTPGet報(bào)文和移動(dòng)網(wǎng)絡(luò)發(fā)送的HTTPGet報(bào)文中的地域信息;歸屬地信息子模塊4083,用于獲取匯總信息中,各號(hào)碼所對(duì)應(yīng)的歸屬地信息;過(guò)濾執(zhí)行子模塊4084,用于利用地域信息和歸屬地信息,過(guò)濾匯總信息,獲得目標(biāo)手機(jī)號(hào)碼。本發(fā)明實(shí)施例的裝置用于實(shí)現(xiàn)前述實(shí)施例一以及實(shí)施例二中相應(yīng)的手機(jī)號(hào)碼提取方法,并且具有相應(yīng)的方法實(shí)施例的有益效果,在此不再贅述。本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。對(duì)于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上對(duì)本發(fā)明所提供的手機(jī)號(hào)碼提取方法和裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的實(shí)施步驟及實(shí)現(xiàn)裝置進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞固網(wǎng)、移動(dòng)網(wǎng)、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。當(dāng)前第1頁(yè)1 2 3