專利名稱:一種自動優(yōu)化ip地域信息庫的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及IP庫技術(shù),尤其涉及一種自動優(yōu)化IP地域信息庫的方法及系統(tǒng)。
背景技術(shù):
IP(Internet Protocol,網(wǎng)絡(luò)協(xié)議)是為計算機網(wǎng)絡(luò)相互連接進(jìn)行通信而設(shè)計的協(xié)議,是為了使連接到因特網(wǎng)上的所有計算機實現(xiàn)相互通信的一套規(guī)則。每個連接在因特網(wǎng)上的一臺計算機都會被分配一個或多個IP地址用于在網(wǎng)絡(luò)上進(jìn)行通訊。IP地址由因特網(wǎng)協(xié)會的 ICANN(the Internet Corporation for Assigned Names and Numbers,互聯(lián)網(wǎng)名稱與數(shù)字地址分配機構(gòu))進(jìn)行分配,目的是為了保證IP地址的全球唯一性。IP地址的分配是一個由多級機構(gòu)完成的過程,例如=ICANN首先將IP地址分配給下屬機構(gòu)(包括負(fù)責(zé)北美地區(qū)的InterNIC、負(fù)責(zé)歐洲地區(qū)的RIPENIC和負(fù)責(zé)亞太地區(qū)的APNIC),這些機構(gòu)再將分配到的IP地址進(jìn)一步分配給更下級的機構(gòu)。由于分配過程的層次性和分配機構(gòu)的地域性,IP地址不僅是主機在因特網(wǎng)上的一個標(biāo)簽,同時也可以作為識別主機的地域信息的一個重要參考標(biāo)準(zhǔn)。隨著互聯(lián)網(wǎng)服務(wù)的高速發(fā)展,互聯(lián)網(wǎng)公司越來越重視基于IP地址的地域信息的應(yīng)用,以更好地提供地域相關(guān)的網(wǎng)絡(luò)服務(wù)。例如:互聯(lián)網(wǎng)廣告的地域定向投放,新聞網(wǎng)站針對用戶的本地新聞推送,基于IP地址的地理位置定位等等。包含地域信息的IP庫是用來查詢每個IP地址的地域信息的數(shù)據(jù)庫,通常由若干個IP段組成。每個IP段均包含一個起始IP地址、一個結(jié)束IP地址和一個地域信息,表明落在此IP段之中的所有IP地址均屬于此地域信息指明的地域。通常,IP地域信息庫是創(chuàng)建者通過統(tǒng)籌各個互聯(lián)網(wǎng)服務(wù)提供商(Internet Service Provider,簡稱ISP)的IP地址分配資料來生成的。例如,在中國大陸地區(qū),中國大陸地區(qū)的IP地址首先是由中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,簡稱 CNNIC)從亞太地區(qū)負(fù)責(zé)IP分配的機構(gòu)APNIC獲取,然后CNNIC再將這些IP地址的資源分配給電信、移動、聯(lián)通等ISP運營商。在每個IP地址分配到單個用戶的過程中,IP地址的資源還可能被更進(jìn)一步地分配。每個運營商都會將上級機構(gòu)分配的IP地址資源繼續(xù)往下分配,依次包括省級運營商、市縣級運營商、寬帶2級運營商等等。由于分配過程過于復(fù)雜,IP庫的創(chuàng)建者基本不可能獲得所有運營商的分配資料,因此在IP地址的地域歸屬的判斷上,地域信息的缺失和誤判是難以避免的。同時,由于中國IP地址資源的緊缺,運營商通常都會采用動態(tài)IP地址分配技術(shù)來解決IP地址資源不足的問題。在動態(tài)IP分配的過程中,同一個IP地址在不同的時間段可能會被運營商分配給不同的地域,這也增加了 IP庫創(chuàng)建者準(zhǔn)確判斷IP地址的地域信息的難度。此外,其他國家和地區(qū)也存在上述問題。從上述內(nèi)容可以看出,由于IP地址分配過程的復(fù)雜性,當(dāng)前行業(yè)中經(jīng)常使用的IP庫基本上都存在著以下幾個問題:完備性:由于從運營商處獲取的信息的不完整,IP庫難以給出所有IP段的地域信
肩、O準(zhǔn)確性:獲取的信息不一定準(zhǔn)確,因此IP庫中的地域信息有可能與實際地域不符。時效性:由于各級運營商可能因業(yè)務(wù)需求調(diào)整IP地址的地域分配,以及動態(tài)IP分配技術(shù)在實際中的大量使用,IP地址對應(yīng)的地域信息可能隨時間發(fā)生變化。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,提供一種自動優(yōu)化IP地域信息庫的方法及系統(tǒng),以自動優(yōu)化原IP庫中的所有IP段的地域信息。為了解決上述技術(shù)問題,本發(fā)明公開了一種自動優(yōu)化IP地域信息庫的方法,包括:按照所有地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息作為IP庫中該IP段的地域信息。其中,地理位置穩(wěn)定的用戶機指地理位置變化在系統(tǒng)統(tǒng)計要求的最小變化區(qū)域內(nèi)的用戶機。例如,系統(tǒng)統(tǒng)計要求的最小變化區(qū)域為市級,則只要地理位置保持在同一個城市內(nèi)的用戶機即為地理位置穩(wěn)定的用戶機。此時,該用戶機在該城市內(nèi)的地理位置的具體變化忽略不計。較佳地,上述方法中,可按照如下任一種方式識別出所述地理位置穩(wěn)定的用戶機:根據(jù)用戶日志中各用戶機的瀏覽行為信息識別所述地理位置穩(wěn)定的用戶機,其中,所述瀏覽行為信息至少包括IP地址、訪問時間以及上網(wǎng)頻次;根據(jù)用戶提 供的用戶機信息識別所述地理位置穩(wěn)定的用戶機根據(jù)用戶日志中各用戶機的瀏覽行為信息,識別出地理位置穩(wěn)定的用戶機。較佳地,上述方法中,根據(jù)用戶日志中各用戶機的瀏覽行為信息識別所述地理位置穩(wěn)定的用戶機時,將滿足如下條件的用戶機識別為所述地理位置穩(wěn)定的用戶機:IP交替使用情況為0,且至少滿足如下任一條件的用戶機:使用的IP個數(shù)在設(shè)定范圍內(nèi),日均IP個數(shù)在設(shè)定范圍內(nèi)。較佳地,上述方法中,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的
候選地域信息的置信度指按照如下方式計算:
待計算的目標(biāo)IP段的候選地域信息的置信度=全[(第n個關(guān)聯(lián)IP段
M 二I
到目標(biāo)IP段的轉(zhuǎn)移頻次+目標(biāo)IP段到第n個關(guān)聯(lián)IP段的轉(zhuǎn)移頻次)X第n個關(guān)聯(lián)IP段的地域信息與此候選地域信息的相似度];其中,n = I N,N為IP庫的IP段的總個數(shù);第n個IP段的地域信息與候選地域信息相同時,其相似度取值為I ;第n個IP段的地域信息與候選地域信息沖突時,其相似度取值為0 ;第n個IP段的地域信息與候選地域信息不沖突時,其相似度取值為0.5。較佳地,上述方法還包括:當(dāng)一個或多個IP段的當(dāng)前地域信息發(fā)生變化時,更新IP庫中各IP段的地域信息,其中,在更新IP庫中各IP段的地域信息的過程中,重新按照所識別出的地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,根據(jù)重新統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,將再次計算的候選地域信息的置信度中置信度最高的地域信息更新為IP庫中該IP段的地域信息。較佳地,上述方法中,直到所有IP段的地域信息不再發(fā)生改變或者更新操作循環(huán)了指定的最大循環(huán)次數(shù)之后,停止更新IP庫中各IP段的地域信息,將此時的地域信息賦給各IP段得到優(yōu)化之后的最終IP庫。本發(fā)明還公開了一種自動優(yōu)化IP地域信息庫的系統(tǒng),至少包括:IP段轉(zhuǎn)移頻次統(tǒng)計模塊,按照所識別出的所有地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次;地域信息優(yōu)化模塊,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息作為IP庫中該IP段的地域信息。較佳地,上述系統(tǒng)還包括用戶機分類模塊,根據(jù)用戶日志中各用戶機的瀏覽行為信息,識別出地理位置穩(wěn)定的用戶機,其中,所述瀏覽行為信息至少包括IP地址、訪問時間以及上網(wǎng)頻次;或者根據(jù)用戶提供的用戶機信息識別所述地理位置穩(wěn)定的用戶機。較佳地,上述系統(tǒng)中,在IP庫中有一個或多個IP段的當(dāng)前地域信息發(fā)生變化時,所述IP段轉(zhuǎn)移頻次統(tǒng)計模塊將重新統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,所述地域信息優(yōu)化模塊則根據(jù)重新統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息更新為IP庫中該IP段的地域信息。較佳地,上述系統(tǒng)中,當(dāng)所有IP段的地域信息都不再發(fā)生改變或者地域信息的選擇過程循環(huán)了給定的最大次數(shù)之后,所述IP段轉(zhuǎn)移頻次統(tǒng)計模塊和地域信息優(yōu)化模塊停止IP地址的地域信息的更新,所述地域信息優(yōu)化模塊將最后一次的地域信息作為優(yōu)化IP庫中的最終地域信息。本申請技術(shù)方案基于IP段在用戶日志里的關(guān)聯(lián)來評價地域信息的置信度,通過迭代更新的過程優(yōu)化每個IP段的地域信息,從而提高了 IP庫的準(zhǔn)確度。優(yōu)選方案中,還通過從用戶日志數(shù)據(jù)中挖掘原IP庫中包含地域信息的IP段和不包含地域信息的IP段之間的關(guān)聯(lián),對原本不包含地域信息的IP段進(jìn)行地域信息標(biāo)注,從而使得IP庫更為完備。另外,本申請的優(yōu)選方案還通過對最新的IP轉(zhuǎn)移數(shù)據(jù)進(jìn)行追蹤,可以及時地識別出IP地址的地域信息因為ISP運營商的調(diào)整而發(fā)生的改變,從而保證IP庫的時效性。
圖1為本實施例1中實現(xiàn)IP地域信息庫自動優(yōu)化的流程示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下文將結(jié)合附圖對本發(fā)明技術(shù)方案作進(jìn)一步詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請的實施例和實施例中的特征可以任意相互組合。實施例1
本發(fā)明申請人考慮到,雖然目前采用的是動態(tài)IP分配技術(shù),即分配給同一臺電腦的IP是變化的,但是有些電腦的地理位置是穩(wěn)定的(如家用電腦),其地域信息發(fā)生變化的可能性極小。也就是說,對于這些地理位置穩(wěn)定的電腦其地域信息并不會隨著IP地址的變化而變化。故申請人提出,可以從包含IP信息的海量用戶日志中挖掘出同一臺地理位置穩(wěn)定的電腦的IP轉(zhuǎn)移信息,然后建立這些IP地址之間的地域關(guān)聯(lián),從而使得不同IP段的地域信息可以相互參考和修正,達(dá)到自動優(yōu)化原IP庫中的所有IP段的地域信息的目的?;谏鲜鏊枷耄緦嵤├峁┮环N自動優(yōu)化IP地域信息庫的方法,該方法包括:根據(jù)用戶日志中各用戶機的瀏覽行為信息,識別出地理位置穩(wěn)定的用戶機,按照所識別出的所有地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息作為IP庫中該IP段的地域信息。其中,從海量用戶的上網(wǎng)日志中提取并記錄每個用戶標(biāo)識對應(yīng)的電腦的瀏覽行為信息,至少包括該電腦使用過的IP地址、上網(wǎng)時間以及上網(wǎng)頻次等;再基于這些信息使用分類模型將電腦分為地理位置穩(wěn)定的電腦(如家用電腦)和地理位置變化的電腦(如商用便攜式電腦)。具體地分類過程中地理位置穩(wěn)定的電腦首先要滿足:沒有循環(huán)使用過兩個不同的IP地址,在此基礎(chǔ)上,至少還要滿足如下任一條件:總共使用過的不同的IP地址的個數(shù)在一個設(shè)定范圍內(nèi)、平均每天使用的不同的IP地址的個數(shù)在一個設(shè)定范圍內(nèi)。接下來再對識別出來的臺式機電腦,按照時間提取并記錄其使用過的所有IP地址形成一個完整的IP地址轉(zhuǎn)移序列。當(dāng)一臺電腦在地址轉(zhuǎn)移序列中從前一個IP地址轉(zhuǎn)移到后一個IP地址時,這兩個IP地址在IP庫中對應(yīng)的IP段之間也被記錄一次轉(zhuǎn)移。
以某一目標(biāo)IP段為例,是根據(jù)此目標(biāo)IP段與其關(guān)聯(lián)IP段之間的轉(zhuǎn)移頻次,以及關(guān)聯(lián)IP段的地域信息 ,來計算此目標(biāo)IP段的候選地域信息的置信度的。其中,需要說明的是目標(biāo)IP段的關(guān)聯(lián)IP段指與此目標(biāo)IP段之間的轉(zhuǎn)移頻次大于0的所有IP段,目標(biāo)IP段的候選地域信息包括此目標(biāo)IP段的所有關(guān)聯(lián)IP段的當(dāng)前地域信息和目標(biāo)IP段的當(dāng)前地域信息;然后,按照如下公式計算每個候選地域信息的置信度:
權(quán)利要求
1.一種自動優(yōu)化IP地域信息庫的方法,其特征在于,該方法包括: 按照所有地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息作為IP庫中該IP段的地域信息。
2.如權(quán)利要求1所述的方法,其特征在于,按照如下任一種方式識別出所述地理位置穩(wěn)定的用戶機: 根據(jù)用戶日志中各用戶機的瀏覽行為信息識別所述地理位置穩(wěn)定的用戶機,其中,所述瀏覽行為信息至少包括IP地址、訪問時間以及上網(wǎng)頻次; 根據(jù)用戶提供的用戶機信息識別所述地理位置穩(wěn)定的用戶機。
3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)用戶日志中各用戶機的瀏覽行為信息識別所述地理位置穩(wěn)定的用戶機時,將滿足如下條件的用戶機識別為所述地理位置穩(wěn)定的用戶機: IP交替使用情況為0,且至少滿足如下任一條件的用戶機: 使用的IP個數(shù)在設(shè)定范圍內(nèi),日均IP個數(shù)在設(shè)定范圍內(nèi)。
4.如權(quán)利要求1、2或3所述的方法,其特征在于,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度指按照如下方式計算:
5.如權(quán)利要求4所述的方法,其特征在于,該方法還包括: 當(dāng)一個或多個IP段的當(dāng)前地域信息發(fā)生變化時,更新IP庫中各IP段的地域信息,其中,在更新IP庫中各IP段的地域信息的過程中,重新按照所識別出的所有地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,根據(jù)重新統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,將再次計算的候選地域信息的置信度中置信度最高的地域信息更新為IP庫中該IP段的地域信息。
6.如權(quán)利要求5所述的方法,其特征在于, 直到所有IP段的地域信息不再發(fā)生改變或者更新操作循環(huán)了指定的最大循環(huán)次數(shù)之后,停止更新IP庫中各IP段的地域信息,將此時的地域信息賦給各IP段得到優(yōu)化之后的最終IP庫。
7.一種自動優(yōu)化IP地域信息庫的系統(tǒng),其特征在于,該系統(tǒng)至少包括: IP段轉(zhuǎn)移頻次統(tǒng)計模塊,按照所有地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次; 地域信息優(yōu)化模塊,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息作為IP庫中該IP段的地域信息。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,該系統(tǒng)還包括: 用戶機分類模塊,根據(jù)用戶日志中各用戶機的瀏覽行為信息,識別出地理位置穩(wěn)定的用戶機,其中,所述瀏覽行為信息至少包括IP地址、訪問時間以及上網(wǎng)頻次;或者 根據(jù)用戶提供的用戶機信息識別所述地理位置穩(wěn)定的用戶機。
9.如權(quán)利要求7或8所述的系統(tǒng),其特征在于, 在IP庫中有一個或多個IP段的當(dāng)前地域信息再次發(fā)生變化時,所述IP段轉(zhuǎn)移頻次統(tǒng)計模塊將重新統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,所述地域信息優(yōu)化模塊則根據(jù)重新統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息更新為IP庫中該IP段的地域信息。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于, 當(dāng)所有IP段的地域信息都不再發(fā)生改變或者地域信息的選擇過程循環(huán)了給定的最大次數(shù)之后,所述IP段轉(zhuǎn)移頻次統(tǒng)計模塊和地域信息優(yōu)化模塊停止IP地址的地域信息的更新,所述地域信息優(yōu)化模塊將最后`一次的地域信息作為優(yōu)化IP庫中的最終地域信息。
全文摘要
本發(fā)明公開了一種自動優(yōu)化IP地域信息庫的方法及系統(tǒng),涉及IP庫技術(shù)。本發(fā)明公開的自動優(yōu)化IP地域信息庫的方法包括按照所有地理位置穩(wěn)定的用戶機的用戶日志統(tǒng)計IP庫中各IP段之間的轉(zhuǎn)移頻次,根據(jù)所統(tǒng)計出的各IP段之間的轉(zhuǎn)移頻次分別計算各IP段的候選地域信息的置信度,并將各IP段的候選地域信息中置信度最高的地域信息作為IP庫中該IP段的地域信息。本發(fā)明還公開了一種自動優(yōu)化IP地域信息庫的系統(tǒng)。本申請技術(shù)方案提高了IP庫的準(zhǔn)確度。
文檔編號H04L29/12GK103167052SQ201110424299
公開日2013年6月19日 申請日期2011年12月16日 優(yōu)先權(quán)日2011年12月16日
發(fā)明者歐陽佑, 吳明輝, 孔譽乾 申請人:北京思博途信息技術(shù)有限公司