一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及字符串模糊匹配技術(shù)領(lǐng)域,特別涉及一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊 匹配方法。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時代的到來,智慧城市服務(wù)項(xiàng)目受到了許多國內(nèi)外學(xué)者的關(guān)注。數(shù)以 百萬的用戶提供了大量的興趣點(diǎn)數(shù)據(jù)及簽到數(shù)據(jù),這些數(shù)據(jù)為智慧城市服務(wù)項(xiàng)目提供了數(shù) 據(jù)源。但是不同源提供的興趣點(diǎn)數(shù)據(jù)存在重復(fù)的可能,導(dǎo)致數(shù)據(jù)庫存儲時產(chǎn)生冗余,并且可 能影響計(jì)算結(jié)果的準(zhǔn)確性。不同數(shù)據(jù)源的興趣點(diǎn)數(shù)據(jù)的經(jīng)煒度采用的是不同的標(biāo)準(zhǔn),所以 很難通過興趣點(diǎn)的經(jīng)煒度直接對相同的興趣點(diǎn)進(jìn)行匹配,進(jìn)而需要一種方法來匹配不同數(shù) 據(jù)源的興趣點(diǎn)數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法,該方法有利于 精確匹配不同數(shù)據(jù)源的興趣點(diǎn)數(shù)據(jù),過濾重復(fù)的數(shù)據(jù)。
[0004] 為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方 法,包括以下步驟: 步驟Sl :分別從兩個不同的網(wǎng)站中采集興趣點(diǎn)數(shù)據(jù),其中包括興趣點(diǎn)的名稱、地址、經(jīng) 度、煒度信息,構(gòu)成數(shù)據(jù)集A和數(shù)據(jù)集B ; 步驟S2 :從所述數(shù)據(jù)集A、B中找出名稱完全匹配的興趣點(diǎn)配對形成數(shù)據(jù)樣本,計(jì)算數(shù) 據(jù)樣本中所有配對的興趣點(diǎn)之間的位置偏差,所述位置偏差包括兩興趣點(diǎn)之間的偏差距離 和偏差角度;去噪處理后,計(jì)算平均位置偏差,包括平均偏差距離和平均偏差角度,并確定 匹配范圍; 步驟S3 :取數(shù)據(jù)集A中的一個興趣點(diǎn)作為待匹配點(diǎn),根據(jù)步驟S2獲得的平均偏差距離 d、平均偏差角度〇,找出數(shù)據(jù)集B中所有在待匹配點(diǎn)匹配范圍內(nèi)的興趣點(diǎn)組成待匹配集; 步驟S4 :對地址分詞字段建立逐級的父子關(guān)系,并根據(jù)地址分詞字段之間的關(guān)系對所 述待匹配點(diǎn)的地址進(jìn)行逐級地址分詞,并采用地址分詞得到的地址字段形成臨時的地址詞 典,然后通過所述臨時的地址詞典過濾待匹配點(diǎn)和待匹配集中所有興趣點(diǎn)的名稱中的地址 信息; 步驟S5 :基于已過濾掉地址信息的名稱,采用KMP算法對待匹配點(diǎn)和待匹配集中每個 興趣點(diǎn)進(jìn)行匹配,當(dāng)某個興趣點(diǎn)使匹配率最大且所述匹配率大于設(shè)定值時,則判定該興趣 點(diǎn)與待匹配點(diǎn)屬于同一個興趣點(diǎn); 步驟S6 :對數(shù)據(jù)集A中的其他興趣點(diǎn),按步驟S3~S5的方法,在數(shù)據(jù)集B中找出與其匹 配的興趣點(diǎn)。
[0005] 進(jìn)一步的,所述待匹配點(diǎn)匹配范圍為:以與待匹配點(diǎn)偏差的距離為平均偏差距離 d、偏差的角度為平均偏差角度〇的點(diǎn)為中心,以匹配半徑r為半徑的圓。
[0006] 進(jìn)一步的,步驟S2中,形成數(shù)據(jù)樣本并確定平均位置偏差和匹配范圍的方法為: 步驟S201 :找出所述數(shù)據(jù)集A、B中名稱完全匹配的興趣點(diǎn),配對形成數(shù)據(jù)樣本集合 {TS (ai,Id1),TS (a2, b2),…,TS (&1,Id1),…,TS (an,bn)},TS (&1,bj 表示第 i 個完全匹配對,即 數(shù)據(jù)集A的興趣點(diǎn)&1與數(shù)據(jù)集B的興趣點(diǎn)b i的名稱完全匹配,i e {1,2,…,η},η為集合 長度; 步驟S202 :對每個完全匹配對TS (?, bj求&1與b i之間的偏差距離和偏差角度,得到與 數(shù)據(jù)樣本集合對應(yīng)的偏差距離集合W1, d2,…,山,…,dn}和偏差角度集合Io1, 〇2,…,Oi,… ,〇J,Cl1表示a 1與b i之間的偏差距離,〇 i表示a 1與b i之間的偏差角度;計(jì)算方法如下:
上式中,IaUa1)、IatCb1)分別為興趣點(diǎn)煒度,Ion (a J、IonCb1)分別為興趣點(diǎn) %、Id1的經(jīng)度,R為地球半徑;
上式中,Rj為極半徑; 步驟S203 :分別去除所述偏差距離集合和偏差角度集合的噪聲點(diǎn),得到去噪后的偏差 距離集合{dpIp e D}和去噪后的偏差角度集合{〇q I q e 〇},其中D為所述偏差距離集合中 非噪聲點(diǎn)的下標(biāo)的集合,〇為所述偏差角度集合中非噪聲點(diǎn)的下標(biāo)的集合,保留下標(biāo)同時存 在于集合D和集合0中的偏差距離和偏差角度,形成處理后的偏差距離集合{(!,Ij e N}和 處理后的偏差角度集合IoiIj e N},其中N=D η 0,即為同時存在于集合D和集合0中的下 標(biāo)集合; 步驟S204 :求取處理后的偏差距離集合的平均偏差距離d和處理后的偏差角度集合的 平均偏差角度〇,所述平均偏差距離d和平均偏差角度〇確定了匹配范圍的中心,求取處理 后的偏差距離集合中兩兩距離差,最大的距離差r即為匹配范圍的匹配半徑,計(jì)算方法為:
上式中,(IjG {d」I j e N},OjG {〇』I j e N},Ien(N)表示下標(biāo)集合N的長度,X、y e N 且χ辛y〇
[0007] 進(jìn)一步的,在步驟S203中,采用3倍均方差法去除所述偏差距離集合和偏差角度 集合的噪聲點(diǎn),計(jì)算方法為:
上式中,當(dāng)BP1大于0時,則〇 所述偏差角度集合的噪聲點(diǎn),去除。
[0008] 進(jìn)一步的,步驟S4中,進(jìn)行逐級地址分詞的方法如下: 步驟S401 :地址分詞字段包括省級字段Fl、市級字段F2、縣區(qū)級字段F3、鄉(xiāng)鎮(zhèn)級字段 F3、社區(qū)級字段F4和路級字段F5 ; 令F2從屬父級別Fl ;F3從屬父級別Fl、F2 ;F4從屬父級別Fl、F2、F3 ;F5從屬父級別 F1、F2、F3、F4 ;F6從屬父級別?1、?2、?3、?4沖5,從而建立地址分詞字段之間的父子關(guān)系; 步驟S402 :對興趣點(diǎn)的地址執(zhí)行Fl級別的分詞操作,分出省級的地址字段,然后依次 執(zhí)行?243、?44546級別的分詞操作,依次分出市級、縣區(qū)級、鄉(xiāng)鎮(zhèn)級、社區(qū)級和路級的地 址字段,若某級別不存在,則繼續(xù)進(jìn)行下一級別的分詞操作。
[0009] 本發(fā)明的有益效果是將興趣點(diǎn)的名稱和地址相結(jié)合,提出了一種對不同數(shù)據(jù)源的 興趣點(diǎn)數(shù)據(jù)進(jìn)行模糊匹配的方法,該方法修正了位置偏差并去除了興趣點(diǎn)名稱中的地址干 擾,能夠精確匹配不同數(shù)據(jù)源的興趣點(diǎn)數(shù)據(jù),過濾重復(fù)的興趣點(diǎn),具有很強(qiáng)的實(shí)用性和廣闊 的應(yīng)用前景。
【附圖說明】
[0010] 圖1是本發(fā)明實(shí)施例的實(shí)現(xiàn)流程圖。
[0011] 圖2是本發(fā)明實(shí)施例中確定平均位置偏差和匹配范圍的流程圖。
【具體實(shí)施方式】
[0012] 下面結(jié)合附圖及具體實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0013] 本發(fā)明將興趣點(diǎn)地址和名稱相結(jié)合,通過不同數(shù)據(jù)源的興趣點(diǎn)名稱和地址進(jìn)行模 糊匹配。由于不同數(shù)據(jù)源的興趣點(diǎn)位置偏差較大,進(jìn)行大范圍搜索耗時太多,所以需要縮小 匹配范圍,進(jìn)一步的,由于一些興趣點(diǎn)名稱包含地址信息,而一些興趣點(diǎn)名稱不包含地址信 息,使得匹配率較低,所以需要去除興趣點(diǎn)名稱中的地址干擾。本發(fā)明通過處理位置偏差和 地址干擾對不同數(shù)據(jù)源的興趣點(diǎn)進(jìn)行匹配。
[0014] 本發(fā)明為一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法,如圖1所示,包括以下步驟: 步驟Sl :分別從兩個不同的網(wǎng)站中采集興趣點(diǎn)數(shù)據(jù),其中包括興趣點(diǎn)的名稱、地址、經(jīng) 度、煒度等信息,構(gòu)成數(shù)據(jù)集A和數(shù)據(jù)集B。
[0015] 步驟S2 :從所述數(shù)據(jù)集A、B中找出名稱完全匹配的興趣點(diǎn)配對形成數(shù)據(jù)樣本,計(jì) 算數(shù)據(jù)樣本中所有配對的興趣點(diǎn)之間的位置偏差,所述位置偏差包括兩興趣點(diǎn)之間的偏差 距離和偏差角度;去噪處理后,計(jì)算平均位置偏差,包括平均偏差距離和平均偏差角度,并 確定匹配范圍。所述待匹配點(diǎn)匹配范圍為:以與待匹配點(diǎn)偏差的距離為平均偏差距離d、偏 差的角度為平均偏差角度〇的點(diǎn)為中心,以匹配半徑r為半徑的圓。如圖2所示,形成數(shù)據(jù) 樣本并確定平均位置偏差和匹配范圍的具體方法為: 步驟S201 :找出所述數(shù)據(jù)集A、B中名稱完全匹配的興趣點(diǎn),配對形成數(shù)據(jù)樣本集合 {TS (ai,Id1),TS (a2, b2),…,TS (&1,Id1),…,TS (an,bn)},TS (&1,bj 表示第 i 個完全匹配對,即 數(shù)據(jù)集A的興趣點(diǎn)&1與數(shù)據(jù)集B的興趣點(diǎn)b i的名稱完全匹配,i e {1,2,…,η},η為集合 長度。
[0016] 步驟S202 :對每個完全匹配對TS(ai,bj求&1與b之間的偏差距離和偏差角度, 得到與數(shù)據(jù)樣本集合對應(yīng)的偏差距離集合{山,d 2,…,Cl1,…,dn}和偏差角度集合{〇1, 〇2,… ,〇1,…,〇n},Cl1表示a占 b i之間的偏差距離,〇 i表示a占 b i之間的偏差角度;計(jì)算方法如 下:
上式中,IaUa1)、IatCb1)分別為興趣點(diǎn)煒度,Ion (a J、IonCb1)分別為興趣點(diǎn) B1、Id1的經(jīng)度,R為地球半徑6378. 137 ;
上式中,IaUa1)、IatCb1)分別為興趣點(diǎn)煒度,Ion (a J、IonCb1)分別為興趣點(diǎn) 匕的經(jīng)度,R為地球半徑6378. 137, R ^為極半徑6356. 725。
[0017] 步驟S203 :分別采用3倍均方差法去除所述偏差距離集合和偏差角度集合的噪聲 點(diǎn),得到去噪后的偏差距尚集合{dpIp e D}和去噪后的偏差角度集合{〇q I q e 〇},其中D為 所述偏差距離集合中非噪聲點(diǎn)的下標(biāo)的集合,〇為所述偏差角度集合中非噪聲點(diǎn)的下標(biāo)的 集合,保留下標(biāo)同時存在于集合D和集合0中的偏差距離和偏差角度,形成處理后的偏差距 離集合W j I j e N}和處理后的偏差角度集合{〇j I j e N},其中N=D η 0,即為同時存在于集 合D和集合0中的下標(biāo)集合。
[0018] 例如,去噪得到的偏差距離集合為{山,d2, d4,…,dp,…},去噪得到的偏差角度集 合{〇1, 〇4, 〇5,…,〇q,…},然后掃描兩個集合,保留下標(biāo)同時存在的偏差距離和偏差角度,形 成處理后的偏差距離集合W 1, d4,…,dj,…}和處理后的偏差角度集合Io1, 〇4,…,Oj,…