一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法

文檔序號：9326966閱讀：464來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及字符串模糊匹配技術(shù)領(lǐng)域，特別涉及一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時代的到來，智慧城市服務(wù)項(xiàng)目受到了許多國內(nèi)外學(xué)者的關(guān)注。數(shù)以百萬的用戶提供了大量的興趣點(diǎn)數(shù)據(jù)及簽到數(shù)據(jù)，這些數(shù)據(jù)為智慧城市服務(wù)項(xiàng)目提供了數(shù) 據(jù)源。但是不同源提供的興趣點(diǎn)數(shù)據(jù)存在重復(fù)的可能，導(dǎo)致數(shù)據(jù)庫存儲時產(chǎn)生冗余，并且可能影響計(jì)算結(jié)果的準(zhǔn)確性。不同數(shù)據(jù)源的興趣點(diǎn)數(shù)據(jù)的經(jīng)煒度采用的是不同的標(biāo)準(zhǔn)，所以很難通過興趣點(diǎn)的經(jīng)煒度直接對相同的興趣點(diǎn)進(jìn)行匹配，進(jìn)而需要一種方法來匹配不同數(shù) 據(jù)源的興趣點(diǎn)數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的在于提供一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法，該方法有利于精確匹配不同數(shù)據(jù)源的興趣點(diǎn)數(shù)據(jù)，過濾重復(fù)的數(shù)據(jù)。
[0004] 為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案是：一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法，包括以下步驟：步驟Sl :分別從兩個不同的網(wǎng)站中采集興趣點(diǎn)數(shù)據(jù)，其中包括興趣點(diǎn)的名稱、地址、經(jīng) 度、煒度信息，構(gòu)成數(shù)據(jù)集A和數(shù)據(jù)集B ; 步驟S2 :從所述數(shù)據(jù)集A、B中找出名稱完全匹配的興趣點(diǎn)配對形成數(shù)據(jù)樣本，計(jì)算數(shù) 據(jù)樣本中所有配對的興趣點(diǎn)之間的位置偏差，所述位置偏差包括兩興趣點(diǎn)之間的偏差距離和偏差角度；去噪處理后，計(jì)算平均位置偏差，包括平均偏差距離和平均偏差角度，并確定匹配范圍；步驟S3 :取數(shù)據(jù)集A中的一個興趣點(diǎn)作為待匹配點(diǎn)，根據(jù)步驟S2獲得的平均偏差距離 d、平均偏差角度〇,找出數(shù)據(jù)集B中所有在待匹配點(diǎn)匹配范圍內(nèi)的興趣點(diǎn)組成待匹配集；步驟S4 :對地址分詞字段建立逐級的父子關(guān)系，并根據(jù)地址分詞字段之間的關(guān)系對所述待匹配點(diǎn)的地址進(jìn)行逐級地址分詞，并采用地址分詞得到的地址字段形成臨時的地址詞典，然后通過所述臨時的地址詞典過濾待匹配點(diǎn)和待匹配集中所有興趣點(diǎn)的名稱中的地址信息；步驟S5 :基于已過濾掉地址信息的名稱，采用KMP算法對待匹配點(diǎn)和待匹配集中每個興趣點(diǎn)進(jìn)行匹配，當(dāng)某個興趣點(diǎn)使匹配率最大且所述匹配率大于設(shè)定值時，則判定該興趣點(diǎn)與待匹配點(diǎn)屬于同一個興趣點(diǎn)；步驟S6 :對數(shù)據(jù)集A中的其他興趣點(diǎn)，按步驟S3~S5的方法，在數(shù)據(jù)集B中找出與其匹配的興趣點(diǎn)。
[0005] 進(jìn)一步的，所述待匹配點(diǎn)匹配范圍為：以與待匹配點(diǎn)偏差的距離為平均偏差距離 d、偏差的角度為平均偏差角度〇的點(diǎn)為中心，以匹配半徑r為半徑的圓。
[0006] 進(jìn)一步的，步驟S2中，形成數(shù)據(jù)樣本并確定平均位置偏差和匹配范圍的方法為：步驟S201 :找出所述數(shù)據(jù)集A、B中名稱完全匹配的興趣點(diǎn)，配對形成數(shù)據(jù)樣本集合 {TS (ai，Id1)，TS (a2, b2)，…，TS (&1，Id1)，…，TS (an，bn)}，TS (&1，bj 表示第 i 個完全匹配對，即數(shù)據(jù)集A的興趣點(diǎn)&1與數(shù)據(jù)集B的興趣點(diǎn)b i的名稱完全匹配，i e {1，2,…，η}，η為集合長度；步驟S202 :對每個完全匹配對TS (?, bj求&1與b i之間的偏差距離和偏差角度，得到與數(shù)據(jù)樣本集合對應(yīng)的偏差距離集合W1, d2，…，山，…，dn}和偏差角度集合Io1, 〇2,…，Oi，… ，〇J，Cl1表示a 1與b i之間的偏差距離，〇 i表示a 1與b i之間的偏差角度；計(jì)算方法如下：
上式中，IaUa1)、IatCb1)分別為興趣點(diǎn)煒度，Ion (a J、IonCb1)分別為興趣點(diǎn) %、Id1的經(jīng)度，R為地球半徑；
上式中，Rj為極半徑；步驟S203 :分別去除所述偏差距離集合和偏差角度集合的噪聲點(diǎn)，得到去噪后的偏差距離集合{dpIp e D}和去噪后的偏差角度集合{〇q I q e 〇}，其中D為所述偏差距離集合中非噪聲點(diǎn)的下標(biāo)的集合，〇為所述偏差角度集合中非噪聲點(diǎn)的下標(biāo)的集合，保留下標(biāo)同時存在于集合D和集合0中的偏差距離和偏差角度，形成處理后的偏差距離集合{(!,Ij e N}和處理后的偏差角度集合IoiIj e N}，其中N=D η 0,即為同時存在于集合D和集合0中的下標(biāo)集合；步驟S204 :求取處理后的偏差距離集合的平均偏差距離d和處理后的偏差角度集合的平均偏差角度〇,所述平均偏差距離d和平均偏差角度〇確定了匹配范圍的中心，求取處理后的偏差距離集合中兩兩距離差，最大的距離差r即為匹配范圍的匹配半徑，計(jì)算方法為：
上式中，(IjG {d」I j e N}，OjG {〇』I j e N}，Ien(N)表示下標(biāo)集合N的長度，X、y e N 且χ辛y〇
[0007] 進(jìn)一步的，在步驟S203中，采用3倍均方差法去除所述偏差距離集合和偏差角度集合的噪聲點(diǎn)，計(jì)算方法為：
上式中，當(dāng)BP1大于0時，則〇所述偏差角度集合的噪聲點(diǎn)，去除。
[0008] 進(jìn)一步的，步驟S4中，進(jìn)行逐級地址分詞的方法如下：步驟S401 :地址分詞字段包括省級字段Fl、市級字段F2、縣區(qū)級字段F3、鄉(xiāng)鎮(zhèn)級字段 F3、社區(qū)級字段F4和路級字段F5 ; 令F2從屬父級別Fl ;F3從屬父級別Fl、F2 ;F4從屬父級別Fl、F2、F3 ;F5從屬父級別 F1、F2、F3、F4 ;F6從屬父級別？1、？2、？3、？4沖5，從而建立地址分詞字段之間的父子關(guān)系；步驟S402 :對興趣點(diǎn)的地址執(zhí)行Fl級別的分詞操作，分出省級的地址字段，然后依次執(zhí)行？243、？44546級別的分詞操作，依次分出市級、縣區(qū)級、鄉(xiāng)鎮(zhèn)級、社區(qū)級和路級的地址字段，若某級別不存在，則繼續(xù)進(jìn)行下一級別的分詞操作。
[0009] 本發(fā)明的有益效果是將興趣點(diǎn)的名稱和地址相結(jié)合，提出了一種對不同數(shù)據(jù)源的興趣點(diǎn)數(shù)據(jù)進(jìn)行模糊匹配的方法，該方法修正了位置偏差并去除了興趣點(diǎn)名稱中的地址干擾，能夠精確匹配不同數(shù)據(jù)源的興趣點(diǎn)數(shù)據(jù)，過濾重復(fù)的興趣點(diǎn)，具有很強(qiáng)的實(shí)用性和廣闊的應(yīng)用前景。
【附圖說明】
[0010] 圖1是本發(fā)明實(shí)施例的實(shí)現(xiàn)流程圖。
[0011] 圖2是本發(fā)明實(shí)施例中確定平均位置偏差和匹配范圍的流程圖。
【具體實(shí)施方式】
[0012] 下面結(jié)合附圖及具體實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0013] 本發(fā)明將興趣點(diǎn)地址和名稱相結(jié)合，通過不同數(shù)據(jù)源的興趣點(diǎn)名稱和地址進(jìn)行模糊匹配。由于不同數(shù)據(jù)源的興趣點(diǎn)位置偏差較大，進(jìn)行大范圍搜索耗時太多，所以需要縮小匹配范圍，進(jìn)一步的，由于一些興趣點(diǎn)名稱包含地址信息，而一些興趣點(diǎn)名稱不包含地址信息，使得匹配率較低，所以需要去除興趣點(diǎn)名稱中的地址干擾。本發(fā)明通過處理位置偏差和地址干擾對不同數(shù)據(jù)源的興趣點(diǎn)進(jìn)行匹配。
[0014] 本發(fā)明為一種不同數(shù)據(jù)源的興趣點(diǎn)的模糊匹配方法，如圖1所示，包括以下步驟：步驟Sl :分別從兩個不同的網(wǎng)站中采集興趣點(diǎn)數(shù)據(jù)，其中包括興趣點(diǎn)的名稱、地址、經(jīng) 度、煒度等信息，構(gòu)成數(shù)據(jù)集A和數(shù)據(jù)集B。
[0015] 步驟S2 :從所述數(shù)據(jù)集A、B中找出名稱完全匹配的興趣點(diǎn)配對形成數(shù)據(jù)樣本，計(jì) 算數(shù)據(jù)樣本中所有配對的興趣點(diǎn)之間的位置偏差，所述位置偏差包括兩興趣點(diǎn)之間的偏差距離和偏差角度；去噪處理后，計(jì)算平均位置偏差，包括平均偏差距離和平均偏差角度，并確定匹配范圍。所述待匹配點(diǎn)匹配范圍為：以與待匹配點(diǎn)偏差的距離為平均偏差距離d、偏差的角度為平均偏差角度〇的點(diǎn)為中心，以匹配半徑r為半徑的圓。如圖2所示，形成數(shù)據(jù) 樣本并確定平均位置偏差和匹配范圍的具體方法為：步驟S201 :找出所述數(shù)據(jù)集A、B中名稱完全匹配的興趣點(diǎn)，配對形成數(shù)據(jù)樣本集合 {TS (ai，Id1)，TS (a2, b2)，…，TS (&1，Id1)，…，TS (an，bn)}，TS (&1，bj 表示第 i 個完全匹配對，即數(shù)據(jù)集A的興趣點(diǎn)&1與數(shù)據(jù)集B的興趣點(diǎn)b i的名稱完全匹配，i e {1，2,…，η}，η為集合長度。
[0016] 步驟S202 :對每個完全匹配對TS(ai，bj求&1與b之間的偏差距離和偏差角度，得到與數(shù)據(jù)樣本集合對應(yīng)的偏差距離集合{山，d 2，…，Cl1，…，dn}和偏差角度集合{〇1，〇2，… ，〇1，…，〇n}，Cl1表示a占 b i之間的偏差距離，〇 i表示a占 b i之間的偏差角度；計(jì)算方法如下：
上式中，IaUa1)、IatCb1)分別為興趣點(diǎn)煒度，Ion (a J、IonCb1)分別為興趣點(diǎn) B1、Id1的經(jīng)度，R為地球半徑6378. 137 ;
上式中，IaUa1)、IatCb1)分別為興趣點(diǎn)煒度，Ion (a J、IonCb1)分別為興趣點(diǎn) 匕的經(jīng)度，R為地球半徑6378. 137, R ^為極半徑6356. 725。
[0017] 步驟S203 :分別采用3倍均方差法去除所述偏差距離集合和偏差角度集合的噪聲點(diǎn)，得到去噪后的偏差距尚集合{dpIp e D}和去噪后的偏差角度集合{〇q I q e 〇}，其中D為所述偏差距離集合中非噪聲點(diǎn)的下標(biāo)的集合，〇為所述偏差角度集合中非噪聲點(diǎn)的下標(biāo)的集合，保留下標(biāo)同時存在于集合D和集合0中的偏差距離和偏差角度，形成處理后的偏差距離集合W j I j e N}和處理后的偏差角度集合{〇j I j e N}，其中N=D η 0,即為同時存在于集合D和集合0中的下標(biāo)集合。
[0018] 例如，去噪得到的偏差距離集合為{山，d2, d4,…，dp，…}，去噪得到的偏差角度集合{〇1，〇4, 〇5，…，〇q，…}，然后掃描兩個集合，保留下標(biāo)同時存在的偏差距離和偏差角度，形成處理后的偏差距離集合W 1, d4,…，dj,…}和處理后的偏差角度集合Io1, 〇4,…，Oj,…

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭文忠;陳羽中;於志勇;趙水源;
技術(shù)所有人：福州大學(xué);
我是此專利的發(fā)明人

上一篇：一種歷史數(shù)據(jù)新增方法
上一篇：一種數(shù)據(jù)并行處理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

excel模糊匹配相關(guān)技術(shù)

模糊匹配相關(guān)技術(shù)

js模糊匹配字符串相關(guān)技術(shù)