本發(fā)明涉及計(jì)算機(jī)
技術(shù)領(lǐng)域:
,尤其涉及一種計(jì)算地址相似度的方法和裝置。
背景技術(shù):
:目前,地址相似度計(jì)算是指對兩條地址比較其表達(dá)的地理含義的近似程度。其中,中文表述的復(fù)雜性和不同個體對同一地理位置表述的差異性,一個地理位置從文本角度可能出現(xiàn)許多種表述形式,而實(shí)質(zhì)上其表達(dá)的真實(shí)地理含義相同。隨著對表述的地址信息的不斷積累,導(dǎo)致了大量冗余(地理位置一致但表述不完全相同)信息,同時也導(dǎo)致了大量不規(guī)范地址表述的存在。因此計(jì)算兩個地址的相似度在業(yè)務(wù)場景中起著至關(guān)重要的作用,這些業(yè)務(wù)場景包括但不限于:基于地理位置和房產(chǎn)信息的金融授信,基于虛假收貨地址的欺詐訂單識別等等?,F(xiàn)有技術(shù)中,地址相似度的計(jì)算利用真實(shí)采集的地理gis信息庫,通過檢索將兩條地址映射到對應(yīng)的經(jīng)緯度區(qū)域,根據(jù)兩個地址的經(jīng)緯度區(qū)域之間的距離得出兩條中文地址的相似度。在實(shí)現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:完全依賴于一個真實(shí)的gis數(shù)據(jù)庫,而gis數(shù)據(jù)采集受到資質(zhì)、時間和人力等條件的制約,且gis數(shù)據(jù)庫的購買亦需要大量的資金成本。因此依賴于gis數(shù)據(jù)庫的中文地址相似度系統(tǒng)的構(gòu)建前期成本太高,而單純從文本相似度角度出發(fā)的中文地址相似度計(jì)算效果較差。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明實(shí)施例提供了一種計(jì)算地址相似度的方法和裝置,能夠精準(zhǔn)、快速地計(jì)算出兩條中文地址的相似程度。為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種計(jì)算地址相似度的方法,包括:獲取兩個地址信息,根據(jù)預(yù)設(shè)級別分別對兩個地址信息進(jìn)行級別拆分;計(jì)算拆分后兩地址信息中同一級別之間的相似度;匯總兩地址信息中各級別的相似度,獲得兩地址信息的相似度。在本發(fā)明的一些實(shí)施例中,根據(jù)預(yù)設(shè)的級別將獲取的地址信息進(jìn)行級別拆分,拆分后的級別具有的信息為地址分詞。在本發(fā)明的一些實(shí)施例中,計(jì)算拆分后兩地址信息中同一級別之間的相似度時,兩個地址信息同一級別的兩個地址分詞分別為其中c表示一個地址分詞中的字符,m≤n;根據(jù)如下公式(1)計(jì)算兩個地址分詞的相似度:其中,type(w)∈{0,1,2}表示計(jì)算兩地址分詞相似度時的可選類型,matchcount為兩地址分詞匹配字?jǐn)?shù)的算子,length為一個地址分詞文本長度的算子,min為計(jì)算兩地址分詞中文本長度最小值的算子,max為計(jì)算兩地址分詞中文本長度最大值的算子,avg為計(jì)算兩地址分詞文本長度平均值的算子。在本發(fā)明的一些實(shí)施例中,所述matchcount在計(jì)算兩地址分詞匹配的字?jǐn)?shù)時,采用的是將一地址分詞中每個字與另一地址分詞中的所有字進(jìn)行匹配。在本發(fā)明的一些實(shí)施例中,拆分后的每個級別對應(yīng)有多個地址分詞時,通過計(jì)算任意兩個地址分詞的相似度其中i≤m,j≤n,wordsim表示進(jìn)行公式(1)的操作;以獲得任意兩個地址分詞相似度的矩陣:然后,在所述相似度矩陣中獲得前m個最大相似度,并將所述的m個最大相似度累加獲得其中分別表示同級別的兩地址分詞集合;之后,根據(jù)公式(3)計(jì)算所述級別的相似度:其中,type(l)∈{0,1,2}為計(jì)算所述級別相似度時的可選類型,length為計(jì)算該級別中地址分詞集合中元素的數(shù)量的算子,min為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最小值的算子,max為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最大值的算子,avg為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量平均值的算子。在本發(fā)明的一些實(shí)施例中,在計(jì)算任意兩個地址分詞的相似度之前,對所述級別的所有地址分詞進(jìn)行去重處理,獲得去重后的地址分詞集合seg(u)。在本發(fā)明的一些實(shí)施例中,在進(jìn)行去重處理之前,先對所述級別中的所有地址分詞進(jìn)行預(yù)處理,其中預(yù)處理為提取所有地址分詞中的元素特征詞或元素描述詞;所述元素特征詞為表達(dá)地理等級,所述元素描述詞為表達(dá)地理實(shí)體。在本發(fā)明的一些實(shí)施例中,在匯總兩地址信息各級別的相似度時,將每個級別的相似度與該級別預(yù)先設(shè)置的權(quán)重相乘,然后將每個級別相似度與對應(yīng)權(quán)重的乘積相加獲得兩地址信息的相似度。在本發(fā)明的一些實(shí)施例中,在匯總兩地址信息之間的相似度時按照級別順序依次計(jì)算級別相似度與對應(yīng)權(quán)重的乘積并累加相乘的結(jié)果;并且對每個級別分別預(yù)先設(shè)置閾值,在按照級別順序依次計(jì)算級別的相似度與對應(yīng)的級別權(quán)重乘積之前,先判斷該級別的相似度是否大于等于預(yù)設(shè)的該級別閾值;根據(jù)判斷結(jié)果,如果該級別的相似度大于或等于預(yù)設(shè)的該級別閾值,則計(jì)算該級別相似度與對應(yīng)的級別權(quán)重的乘積;如果該級別的相似度沒有大于或等于預(yù)設(shè)的該級別閾值,則將按順序在該級別之前的級別相似度與對應(yīng)的級別權(quán)重的乘積相累加獲得兩地址信息之間的相似度。根據(jù)本發(fā)明實(shí)施例的另一個方面,還提供了一種計(jì)算地址相似度的裝置,包括:拆分模塊,用于獲取兩個地址信息,根據(jù)預(yù)設(shè)級別分別對兩個地址信息進(jìn)行級別拆分;同級別相似度計(jì)算模塊,用于計(jì)算拆分后兩地址信息中同一級別之間的相似度;相似度匯總模塊,用于匯總兩地址信息中各級別的相似度,獲得兩地址信息的相似度。在本發(fā)明的一些實(shí)施例中,所述拆分模塊根據(jù)預(yù)設(shè)的級別將獲取的地址信息進(jìn)行級別拆分,拆分后的級別具有的信息為地址分詞。在本發(fā)明的一些實(shí)施例中,所述同級別相似度計(jì)算模塊計(jì)算拆分后兩地址信息中同一級別之間的相似度時,兩個地址信息同一級別的兩個地址分詞分別為其中c表示一個地址分詞中的字符,m≤n;根據(jù)如下公式(1)計(jì)算兩個地址分詞的相似度:其中,type(w)∈{0,1,2}表示計(jì)算兩地址分詞相似度時的可選類型,matchcount為兩地址分詞匹配字?jǐn)?shù)的算子,length為一個地址分詞文本長度的算子,min為計(jì)算兩地址分詞中文本長度最小值的算子,max為計(jì)算兩地址分詞中文本長度最大值的算子,avg為計(jì)算兩地址分詞文本長度平均值的算子。在本發(fā)明的一些實(shí)施例中,所述matchcount在計(jì)算兩地址分詞匹配的字?jǐn)?shù)時,采用的是將一地址分詞中每個字與另一地址分詞中的所有字進(jìn)行匹配。在本發(fā)明的一些實(shí)施例中,所述同級別相似度計(jì)算模塊,還用于:對拆分后每個級別對應(yīng)有多個地址分詞,通過計(jì)算任意兩個地址分詞的相似度其中i≤m,j≤n,wordsim表示進(jìn)行公式(1)的操作;以獲得任意兩個地址分詞相似度的矩陣:然后,在所述相似度矩陣中獲得前m個最大相似度,并將所述的m個最大相似度累加獲得其中分別表示同級別的兩地址分詞集合;之后,根據(jù)公式(3)計(jì)算所述級別的相似度:其中,type(l)∈{0,1,2}為計(jì)算所述級別相似度時的可選類型,length為計(jì)算該級別中地址分詞集合中元素的數(shù)量的算子,min為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最小值的算子,max為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最大值的算子,avg為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量平均值的算子。在本發(fā)明的一些實(shí)施例中,所述同級別相似度計(jì)算模塊在計(jì)算任意兩個地址分詞的相似度之前,對所述級別的所有地址分詞進(jìn)行去重處理,獲得去重后的地址分詞集合seg(u)。在本發(fā)明的一些實(shí)施例中,所述同級別相似度計(jì)算模塊在進(jìn)行去重處理之前,先對所述級別中的所有地址分詞進(jìn)行預(yù)處理,其中預(yù)處理為提取所有地址分詞中的元素特征詞或元素描述詞;所述元素特征詞為表達(dá)地理等級,所述元素描述詞為表達(dá)地理實(shí)體。在本發(fā)明的一些實(shí)施例中,所述相似度匯總模塊在匯總兩地址信息各級別的相似度時,將每個級別的相似度與該級別預(yù)先設(shè)置的權(quán)重相乘,然后將每個級別相似度與對應(yīng)權(quán)重的乘積相加獲得兩地址信息的相似度。在本發(fā)明的一些實(shí)施例中,所述相似度匯總模塊,還用于:在匯總兩地址信息之間的相似度時按照級別順序依次計(jì)算級別相似度與對應(yīng)權(quán)重的乘積并累加相乘的結(jié)果;并且對每個級別分別預(yù)先設(shè)置閾值,在按照級別順序依次計(jì)算級別的相似度與對應(yīng)的級別權(quán)重乘積之前,先判斷該級別的相似度是否大于等于預(yù)設(shè)的該級別閾值;根據(jù)判斷結(jié)果,如果該級別的相似度大于或等于預(yù)設(shè)的該級別閾值,則計(jì)算該級別相似度與對應(yīng)的級別權(quán)重的乘積;如果該級別的相似度沒有大于或等于預(yù)設(shè)的該級別閾值,則將按順序在該級別之前的級別相似度與對應(yīng)的級別權(quán)重的乘積相累加獲得兩地址信息之間的相似度。根據(jù)本發(fā)明實(shí)施例的另一個方面,還提供了一種電子設(shè)備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實(shí)現(xiàn)上述任一實(shí)施例所述的方法。根據(jù)本發(fā)明實(shí)施例的另一個方面,還提供了一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一實(shí)施例所述的方法。上述發(fā)明中的一個實(shí)施例具有如下優(yōu)點(diǎn)或有益效果:因?yàn)椴捎玫刂沸畔⒓墑e拆分,并對同級別進(jìn)行相似度計(jì)算再匯總獲得兩地址信息相似度的技術(shù)手段,所以克服了要想獲得兩條地址信息的相似度完全依賴于一個真實(shí)的gis數(shù)據(jù)庫的技術(shù)問題,進(jìn)而達(dá)到了完全脫離gis數(shù)據(jù)庫,并能夠精準(zhǔn)、快速地計(jì)算出兩地址信息的相似度的技術(shù)效果。上述的非慣用的可選方式所具有的進(jìn)一步效果將在下文中結(jié)合具體實(shí)施方式加以說明。附圖說明附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:圖1是根據(jù)本發(fā)明第一實(shí)施例中計(jì)算地址相似度方法的流程示意圖;圖2是根據(jù)本發(fā)明可參考實(shí)施例中計(jì)算地址相似度方法的流程示意圖;圖3是根據(jù)本發(fā)明實(shí)施例中計(jì)算地址相似度裝置的結(jié)構(gòu)示意圖;圖4是適于用來實(shí)現(xiàn)本發(fā)明實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。具體實(shí)施方式以下結(jié)合附圖對本發(fā)明的示范性實(shí)施例做出說明,其中包括本發(fā)明實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識到,可以對這里描述的實(shí)施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。圖1是根據(jù)本發(fā)明實(shí)施例的計(jì)算地址相似度方法,如圖1所示,所述的計(jì)算地址相似度方法包括:步驟s101,獲取兩個地址信息,根據(jù)預(yù)設(shè)級別分別對兩個地址信息進(jìn)行級別拆分。在實(shí)施例中,所述預(yù)設(shè)的級別可以劃分為如下(表1所示):表1:地址級別說明名稱代碼說明國n(nation)國家省p(province)直轄市,自治區(qū),特別行政區(qū)等市c(county)地級市等縣t(town)縣,縣級市等鄉(xiāng)鎮(zhèn)v(village)鄉(xiāng),鎮(zhèn)等地區(qū)d(district)村,社區(qū)等建筑物b(building)小學(xué),大廈,a區(qū),b座等明細(xì)m(more)單元,樓層,門牌號等方位l(localizer)方位詞,比如(以南,以內(nèi),之間)根據(jù)預(yù)設(shè)的級別可以將獲取的地址信息進(jìn)行級別拆分,拆分后的級別具有的信息為地址分詞。即所述的地址分詞表示為地址信息經(jīng)過級別拆分后,每個級別中對應(yīng)的信息內(nèi)容。例如:一條中文地址:“北京市朝陽區(qū)天辰東路國家會議中心5層”中“北京市”則表示“省”級的地址分詞。值得說明的是,在具體實(shí)施過程中可以通過“|”對地址信息進(jìn)行每個級別之間的分割,例如:中文地址:“北京市朝陽區(qū)天辰東路國家會議中心5層”分級別拆分后為“北京市|朝陽區(qū)|天辰東路|國家會議中心|5層”。較佳的,不僅對地址信息進(jìn)行級別的拆分,同時還對拆分后的每個級別進(jìn)行級別標(biāo)識,可以在每個級別拆分上標(biāo)識該級別的代碼,例如在級別為“市”的“北京市”上標(biāo)識“n”。進(jìn)一步地,對于每個級別內(nèi)的地址分詞還可以進(jìn)行類別劃分,可參閱表2所示的地址分詞字類型:表2:地址分詞字類型名稱代碼元素描述詞d(description)元素特征詞f(feature)根據(jù)表2中的地址分詞字類型的劃分,所述元素特征詞為表達(dá)地理等級,所述元素描述詞為表達(dá)地理實(shí)體。例如可以對一個地址分詞“朝陽區(qū)”,其中“朝陽”為元素描述詞,“區(qū)”為元素特征詞。較佳的,可以在劃分的元素描述詞和元素特征詞的地址分詞上進(jìn)行類型標(biāo)識,例如元素描述詞“朝陽”可以標(biāo)識“d”。更進(jìn)一步地,對于每個級別還設(shè)置有起始位置信息,即每個級別的地址分詞的第一個字在地址信息中的位置序列號。例如:中文地址:“北京市朝陽區(qū)天辰東路國家會議中心5層”中地址分詞“朝陽區(qū)”的起始位置標(biāo)識為3(整個地址信息的位置序列號從0開始)。從上面的實(shí)施例中可以看出,無論是對地址信息進(jìn)行級別拆分還是級別內(nèi)地址分詞的類別劃分,都是對地址信息的一種格式化處理,而這種格式化處理的目的就是為了后續(xù)對每個級別的相似度的計(jì)算做好準(zhǔn)備。步驟s102,計(jì)算拆分后兩地址信息中同一級別之間的相似度。作為實(shí)施例,可以計(jì)算兩地址信息同級別中兩個地址分詞之間的相似度,從而獲得所述級別的相似度。具體的實(shí)施過程包括:首先,對于所述的兩地址信息,同一級別l(level的縮寫)中的地址分詞其中c表示一個地址分詞中的字符,假設(shè)m≤n。根據(jù)如下公式(1)計(jì)算兩個地址分詞的相似度:其中,w1表示地址信息中一個級別的地址分詞,w2表示另一地址信息中同級別的地址分詞,type(w)∈{0,1,2}表示計(jì)算兩地址分詞相似度時的可選類型(其中,在這里所述的可選類型就是指對應(yīng)的公式,例如type(w)=0則對應(yīng)的類型(公式)為),matchcount為兩地址分詞匹配字?jǐn)?shù)的算子,length為一個地址分詞文本長度的算子(即地址分詞的字?jǐn)?shù)),min為計(jì)算兩地址分詞中文本長度最小值的算子,max為計(jì)算兩地址分詞中文本長度最大值的算子,avg為計(jì)算兩地址分詞文本長度平均值的算子(可以預(yù)先設(shè)置小數(shù)位數(shù))。進(jìn)一步地,matchcount在計(jì)算兩地址分詞匹配的字?jǐn)?shù)時,采用的是將一地址分詞中每個字與另一地址分詞中的所有字進(jìn)行匹配,采用的該方法能夠從一定程度上緩解縮寫帶來的匹配程度較低的問題。例如:w1為“北師大”,w2為“北京師范大學(xué)”:初始化m=3、n=6、counter=0(counter為統(tǒng)計(jì)匹配的字?jǐn)?shù)),然后i=1、j=1(i≤m,j≤n)、counter=1,然后i=2、j=2、counter=1,然后i=2、j=3、counter=2,然后i=3、j=4、counter=2,然后i=3、j=5、counter=3,然后i=4=m+1結(jié)束。在一個較佳地實(shí)施例中,可能在地址信息中的一個級別具有多個地址分詞,為了實(shí)現(xiàn)對這種具有大量地址分詞的級別進(jìn)行快速、精準(zhǔn)的相似度計(jì)算可以通過計(jì)算任意兩個地址分詞的相似度(其中i≤m,j≤n),然后獲得任意兩個地址分詞相似度的矩陣:然后,在所述相似度矩陣中獲得前m個最大相似度,并將所述的m個最大相似度累加獲得其中之后,根據(jù)公式(3)計(jì)算所述級別的相似度:其中,type(l)∈{0,1,2}為計(jì)算所述級別相似度時的可選類型,即對應(yīng)的公式。length為計(jì)算該級別中地址分詞集合中元素的數(shù)量的算子,min為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最小值的算子,max為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最大值的算子,avg為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量平均值的算子(可以預(yù)先設(shè)置小數(shù)位數(shù))。值得說明的是,在所述相似度矩陣中獲得前m個最大相似度時,采用的方法是在相似度矩陣中選擇一個最大相似度,然后刪除該最大相似度所在的列和行中的所有相似度,之后再在刪除了該最大相似度所在的列和行中所有相似度的矩陣中選擇一個最大相似度,重復(fù)上述過程直至獲得m個最大相似度。在一個優(yōu)選的實(shí)施例中,在計(jì)算任意兩個地址分詞的相似度之前可以對所述級別的所有地址分詞進(jìn)行去重處理,即去除兩個相同地址分詞中的一個,保留其中一個,獲得去重后的地址分詞集合seg(u),例如:seg={北京,北京}去重后為sug(u)={北京}??梢钥闯觯ブ睾蟮乃黾墑e的地址分詞可以大大降低該級別相似度的計(jì)算量。更進(jìn)一步地,可以在進(jìn)行去重處理之前,先對所述級別中的所有地址分詞進(jìn)行預(yù)處理,其中預(yù)處理為提取所有地址分詞中的元素特征詞或元素描述詞。例如:seg={北京,北京市}采用提取描述詞的預(yù)處理方法可以得到seg(pp)={北京,北京}??梢钥闯?,預(yù)處理的功能就是能夠發(fā)現(xiàn)更多表述意義重復(fù)的地址分詞,提高后續(xù)去重處理的效果。值得說明的是,經(jīng)歷了預(yù)處理和去重處理后得到的地址分詞集合為那么在計(jì)算具有多個地址分詞的級別的相似度時采用的公式(3)可以變成公式(4):步驟s103,匯總兩地址信息中各級別的相似度,獲得兩地址信息的相似度。在實(shí)施例中,在匯總兩地址信息各級別的相似度時,可以將每個級別的相似度與該級別預(yù)先設(shè)置的權(quán)重相乘,然后將每個級別相似度與對應(yīng)權(quán)重的乘積相加獲得兩地址信息的相似度。上面所述的實(shí)施例是對每個級別分別預(yù)先設(shè)置了權(quán)重(如表3中),然后通過每個級別的相似度和權(quán)重匯總得到整個兩地址信息之間的相似度。因此可以得到更為精確的兩地址信息之間的相似度。進(jìn)一步地,在匯總兩地址信息之間的相似度時需要按照級別順序依次計(jì)算級別相似度與對應(yīng)權(quán)重的乘積并累加相乘的結(jié)果,而級別順序可以按照被拆分的地址信息從左到右的級別,也可以從右到左的級別。優(yōu)選的,采用按照被拆分的地址信息從左到右的級別,因?yàn)榘凑罩形牡刂沸畔⒌臅鴮懥?xí)慣一般先從范圍最大的地址分詞開始依次縮小范圍。更進(jìn)一步地,還可以對每個級別分別預(yù)先設(shè)置一個閾值,在按照級別順序依次計(jì)算級別的相似度與對應(yīng)的級別權(quán)重乘積之前,先判斷該級別的相似度是否大于或等于預(yù)設(shè)的該級別閾值。根據(jù)判斷結(jié)果,如果該級別的相似度大于或等于預(yù)設(shè)的該級別閾值,則計(jì)算該級別相似度與對應(yīng)的級別權(quán)重的乘積。如果該級別的相似度沒有大于或等于預(yù)設(shè)的該級別閾值,則將按順序在該級別之前的級別相似度與對應(yīng)的級別權(quán)重的乘積相累加獲得兩地址信息之間的相似度。其中,所述預(yù)設(shè)的每個級別的閾值可以參閱表3??梢钥闯觯O(shè)置閾值并將級別相似度與該級別的閾值進(jìn)行比較,是可以在很大程度上簡化匯總各級別相似度的過程。也就是說,當(dāng)判斷得到一個級別的相似度沒有大于或等于預(yù)設(shè)的該級別閾值時,則不再需要計(jì)算該級別以及按順序該級別之后的級別相似度與對應(yīng)權(quán)重的乘積,直接累加按順序在該級別之前的級別相似度與對應(yīng)權(quán)重的乘積即可得到整個兩地址信息的相似度。表3:不同級別相似度計(jì)算和匯總配置表等級權(quán)重閾值nation00province0.11city0.11town0.10village0.20district0.20building0.30more00localizer00圖2是根據(jù)本發(fā)明實(shí)施例可參考的一種計(jì)算地址相似度方法,如圖2所示,所述的計(jì)算地址相似度方法可以包括:步驟s201,獲取兩個地址信息。步驟s202,根據(jù)預(yù)設(shè)的級別可以將獲取的地址信息進(jìn)行級別拆分,拆分后的級別具有的信息為地址分詞。步驟s203,對所述級別中的所有地址分詞進(jìn)行預(yù)處理,其中預(yù)處理為提取所有地址分詞中的元素特征詞或元素描述詞。步驟s204,對預(yù)處理后的所有地址分詞進(jìn)行去重處理,獲得去重后的地址分詞集合seg(u)。步驟s205,計(jì)算任意兩個地址分詞的相似度,獲得任意兩個地址分詞相似度的矩陣。具體的實(shí)施包括:通過公式(1)計(jì)算任意兩個地址分詞的相似度獲得任意兩個地址分詞相似度的矩陣:步驟s206,在所述相似度矩陣中獲得前m個最大相似度,并將所述的m個最大相似度累加獲得其中和為通過預(yù)處理和去重后得到的地址分詞集合。步驟s207,根據(jù)下列公式計(jì)算所述級別的相似度:步驟s208,判斷是否完成所有兩地址信息同級別的相似度計(jì)算,若是則執(zhí)行步驟s209,否則返回步驟s203。步驟s209,按照級別順序,判斷級別的相似度是否大于或等于預(yù)設(shè)的該級別閾值,若是則進(jìn)行步驟s210,否則執(zhí)行步驟s211。步驟s210,按照級別順序依次計(jì)算級別相似度與對應(yīng)權(quán)重的乘積并累加獲得兩地址信息之間的相似度。步驟s211,將按照級別順序在該級別之前的級別相似度與對應(yīng)的級別權(quán)重的乘積相累加獲得兩地址信息之間的相似度。另外,在本發(fā)明可參考實(shí)施例中所述的計(jì)算地址相似度方法的具體實(shí)施內(nèi)容,在上面所述的計(jì)算地址相似度方法中已經(jīng)詳細(xì)說明了,故在此重復(fù)內(nèi)容不再說明。在本發(fā)明實(shí)施例的另一方面,還給出了一種計(jì)算地址相似度裝置,參閱圖3所示,所述的計(jì)算地址相似度裝置300包括拆分模塊301、同級別相似度計(jì)算模塊302以及相似度匯總模塊303。其中,拆分模塊301獲取兩個地址信息,根據(jù)預(yù)設(shè)級別分別對兩個地址信息進(jìn)行級別拆分。然后同級別相似度計(jì)算模塊302計(jì)算拆分后兩地址信息中同一級別之間的相似度,相似度匯總模塊303匯總兩地址信息中各級別的相似度,獲得兩地址信息的相似度。進(jìn)一步地,拆分模塊301根據(jù)預(yù)設(shè)的級別可以將獲取的地址信息進(jìn)行級別拆分(優(yōu)選的采用表1中的地址級別進(jìn)行拆分),拆分后的級別具有的信息為地址分詞。其中,所述的地址分詞表示為地址信息經(jīng)過級別拆分后,每個級別中對應(yīng)的信息內(nèi)容。在一個較佳的實(shí)施例中,同級別相似度計(jì)算模塊302對于所述的兩地址信息,同一級別l(level的縮寫)中的地址分詞其中c表示一個地址分詞中的字符,假設(shè)m≤n。根據(jù)如下公式(1)計(jì)算兩個地址分詞的相似度:其中,w1表示地址信息中一個級別的地址分詞,w2表示另一地址信息中同級別的地址分詞,type(w)∈{0,1,2}表示計(jì)算兩地址分詞相似度時的可選類型(其中,在這里所述的可選類型就是指對應(yīng)的公式,例如type(w)=0則對應(yīng)的類型(公式)為),matchcount為兩地址分詞匹配字?jǐn)?shù)的算子,length為一個地址分詞文本長度的算子(即地址分詞的字?jǐn)?shù)),min為計(jì)算兩地址分詞中文本長度最小值的算子,max為計(jì)算兩地址分詞中文本長度最大值的算子,avg為計(jì)算兩地址分詞文本長度平均值的算子(可以預(yù)先設(shè)置小數(shù)位數(shù))。進(jìn)一步地,matchcount在計(jì)算兩地址分詞匹配的字?jǐn)?shù)時,采用的是將一地址分詞中每個字與另一地址分詞中的所有字進(jìn)行匹配,采用的該方法能夠從一定程度上緩解縮寫帶來的匹配程度較低的問題。在另一個較佳的實(shí)施例中,可能在地址信息中的一個級別具有多個地址分詞,為了實(shí)現(xiàn)對這種具有大量地址分詞的級別進(jìn)行快速、精準(zhǔn)的相似度計(jì)算。同級別相似度計(jì)算模塊302可以通過計(jì)算任意兩個地址分詞的相似度(其中i≤m,j≤n),然后獲得任意兩個地址分詞相似度的矩陣:然后,在所述相似度矩陣中獲得前m個最大相似度,并將所述的m個最大相似度累加獲得其中之后,根據(jù)公式(3)計(jì)算所述級別的相似度:其中,type(l)∈{0,1,2}為計(jì)算所述級別相似度時的可選類型,即對應(yīng)的公式。length為計(jì)算該級別中地址分詞集合中元素的數(shù)量的算子,min為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最小值的算子,max為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量最大值的算子,avg為計(jì)算兩地址信息中該級別中地址分詞集合中元素的數(shù)量平均值的算子(可以預(yù)先設(shè)置小數(shù)位數(shù))。值得說明的是,在所述相似度矩陣中獲得前m個最大相似度時,采用的方法是在相似度矩陣中選擇一個最大相似度,然后刪除該最大相似度所在的列和行中的所有相似度,之后再在刪除了該最大相似度所在的列和行中所有相似度的矩陣中選擇一個最大相似度,重復(fù)上述過程直至獲得m個最大相似度。在一個優(yōu)選的實(shí)施例中,同級別相似度計(jì)算模塊302在計(jì)算任意兩個地址分詞的相似度之前可以對所述級別的所有地址分詞進(jìn)行去重處理,即去除兩個相同地址分詞中的一個,保留其中一個,獲得去重后的地址分詞集合seg(u)。可以看出,去重后的所述級別的地址分詞可以大大降低該級別相似度的計(jì)算量。進(jìn)一步地,同級別相似度計(jì)算模塊302可以在進(jìn)行去重處理之前,先對所述級別中的所有地址分詞進(jìn)行預(yù)處理,其中預(yù)處理為提取所有地址分詞中的元素特征詞或元素描述詞??梢钥闯?,預(yù)處理的功能就是能夠發(fā)現(xiàn)更多表述意義重復(fù)的地址分詞,提高后續(xù)去重處理的效果。另外,相似度匯總模塊303在匯總兩地址信息各級別的相似度時,可以將每個級別的相似度與該級別預(yù)先設(shè)置的權(quán)重相乘,然后將每個級別相似度與對應(yīng)權(quán)重的乘積相加獲得兩地址信息的相似度。上面所述的實(shí)施例是對每個級別分別預(yù)先設(shè)置了權(quán)重(如表3中),然后通過每個級別的相似度和權(quán)重匯總得到整個兩地址信息之間的相似度。因此可以得到更為精確的兩地址信息之間的相似度。進(jìn)一步地,在匯總兩地址信息之間的相似度時需要按照級別順序依次計(jì)算級別相似度與對應(yīng)權(quán)重的乘積并累加相乘的結(jié)果,而級別順序可以按照被拆分的地址信息從左到右的級別,也可以從右到左的級別。更進(jìn)一步地,還可以對每個級別分別預(yù)先設(shè)置一個閾值,在按照級別順序依次計(jì)算級別的相似度與對應(yīng)的級別權(quán)重乘積之前,先判斷該級別的相似度是否大于等于預(yù)設(shè)的該級別閾值。根據(jù)判斷結(jié)果,如果該級別的相似度大于或等于預(yù)設(shè)的該級別閾值,則計(jì)算該級別相似度與對應(yīng)的級別權(quán)重的乘積。如果該級別的相似度沒有大于或等于預(yù)設(shè)的該級別閾值,則將按順序在該級別之前的級別相似度與對應(yīng)的級別權(quán)重的乘積相累加獲得兩地址信息之間的相似度。其中,所述預(yù)設(shè)的每個級別的閾值可以參閱表3。需要說明的是,在本發(fā)明所述的計(jì)算地址相似度裝置的具體實(shí)施內(nèi)容,在上面所述的計(jì)算地址相似度方法中已經(jīng)詳細(xì)說明了,故在此重復(fù)內(nèi)容不再說明。下面參考圖4,其示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施例的終端設(shè)備的計(jì)算機(jī)系統(tǒng)400的結(jié)構(gòu)示意圖。圖4示出的終端設(shè)備僅僅是一個示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。如圖4所示,計(jì)算機(jī)系統(tǒng)400包括中央處理單元(cpu)401,其可以根據(jù)存儲在只讀存儲器(rom)402中的程序或者從存儲部分408加載到隨機(jī)訪問存儲器(ram)403中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚?。在ram403中,還存儲有系統(tǒng)400操作所需的各種程序和數(shù)據(jù)。cpu401、rom402以及ram403通過總線404彼此相連。輸入/輸出(i/o)接口405也連接至總線404。以下部件連接至i/o接口405:包括鍵盤、鼠標(biāo)等的輸入部分406;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分407;包括硬盤等的存儲部分408;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分409。通信部分409經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器410也根據(jù)需要連接至i/o接口405??刹鹦督橘|(zhì)411,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器410上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲部分408。特別地,根據(jù)本發(fā)明公開的實(shí)施例,上文參考流程圖描述的過程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本發(fā)明公開的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過通信部分409從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)411被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)401執(zhí)行時,執(zhí)行本申請的系統(tǒng)中限定的上述功能。需要說明的是,本發(fā)明所示的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本發(fā)明中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本發(fā)明中,計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。描述于本發(fā)明實(shí)施例中所涉及到的模塊可以通過軟件的方式實(shí)現(xiàn),也可以通過硬件的方式來實(shí)現(xiàn)。所描述的模塊也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括拆分模塊、同級別相似度計(jì)算模塊和相似度匯總模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定,例如,拆分模塊還可以被描述為“向所連接的服務(wù)端發(fā)送地址信息獲取請求的模塊”。作為另一方面,本發(fā)明還提供了一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以是上述實(shí)施例中描述的設(shè)備中所包含的;也可以是單獨(dú)存在,而未裝配入該設(shè)備中。上述計(jì)算機(jī)可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被一個該設(shè)備執(zhí)行時,使得該設(shè)備至少包括:獲取兩個地址信息,根據(jù)預(yù)設(shè)級別分別對兩個地址信息進(jìn)行級別拆分。然后計(jì)算拆分后兩地址信息中同級別地址分詞的相似度,匯總兩地址信息中各級別地址分詞的相似度,獲得兩地址信息的相似度。根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,能夠完全不依賴gis數(shù)據(jù)庫,創(chuàng)造性的提出了對地址信息進(jìn)行級別拆分,并可以對同級別中的地址分詞通過計(jì)算得到相似度,以根據(jù)該相似度獲得整個兩地址信息之間的相似度。上述具體實(shí)施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。當(dāng)前第1頁12